go语言爬虫架构colly常用实例(wordpress6)

该博客介绍了使用Go语言的colly库爬取xxx.com网站的文章列表,抓取每个条目的标题和内容,并将这些信息导入到WordPress6的CMS系统wp_posts表中,填充post_title和post_content字段。
摘要由CSDN通过智能技术生成

功能:爬xxx.com网站列表页面;然后得到连接访问文章标题和详细内容;然后插入WordPress6版本的cms管理系统wp_posts表中 (post_title,post_content)

package spider

import (
	"strings"
	"github.com/gocolly/colly/v2"
)

type Spider struct{}

// 插入WordPress的sql语句
const sqlbase = "insert into wp_posts(post_author,post_date,post_date_gmt,post_content,post_title,post_status,comment_status,ping_status,post_modified,post_modified_gmt,post_parent,menu_order,post_type,post_excerpt,to_ping,pinged,post_content_filtered) VALUE(1,now(),DATE_ADD(now(),INTERVAL '-8' HOUR),?,?,'publish','open','open',now(),DATE_ADD(now(),INTERVAL '-8' HOUR),0,0,'post','','','','')"

// 爬第三方网站的内容
func (Spider) ExecSpider() {
	c := colly.NewCollector(
        // 限制网站范围,防止去抓类似友情链接的外网等等
		colly.AllowedDomains("yy.xxx.com", "aa.xxx.com"),
	)

    // 搜索文章列
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值