1.设置参数
彩虹之家–采集是两次爬取,第一次取所有要爬取页面URL,第二次取爬这些页面取值。
例:采集斗鱼列表前五页的主播:头像,标题,主播名字,人气量,鱼丸数,(只要是页面有的值,都可以取)
第一次前5页列表主播:
第二次:
斗鱼列表
例: https://www.douyu.com/directory/all?page=1&isAjax=1
https://www.douyu.com/directory/all?page=2&isAjax=1
https://www.douyu.com/directory/all?page=3&isAjax=1
https://www.douyu.com/directory/all?page=4&isAjax=1
https://www.douyu.com/directory/all?page=5&isAjax=1
网站协议:https
爬取网站:www.douyu.com
直接后缀:/directory/all?page=1&isAjax=1
/directory/all?page=2&isAjax=1
注意:直接后缀一般用于没有规则URL,每一行只能写条,需要换行
使用动态后缀
第一后缀:/directory/all?page=
启示变量:1 (注:启始页)
第二后缀:&isAjax=1
结束变量:5 (注:从1-5爬取)
列表页面取值a链接: li a (如下图)
详情页取值 [{key, Document 对象,attribute},…]
key:储存键名name
Document: jquery选择器(如:#id,.class,title)
attribute:要获取dodument对象属性(
text: dodument对象文本
html: dodument对象内html()
src: dodument对象内src(一般图片取src)
poste:dodument对象poste值
文件名字:name 必需英文或数字
并发数量:默认10 (推荐:1-10,本人服务配置太低)
爬取线程数(服务器的网速和配置高,值设置为大数,相反,服务器的网速和配置低,值设为小数)
2配置文件说明:
txt文件,里面放josn对象
{
http: "https" //网站协议,http或https
url: "www.douyu.com" //爬网站主域名,
st1: "/directory/all?page=", //后缀1
var1: "1", //页码起始变量
st2: "&isAjax=1", //后缀2 (注:url+后缀1+起始变量+后缀2 )
var2: "5", //页码结束变量
name: "douyu", //生成文件名字(只能为英文或数字)
href: "li a", //列表页面主播a链接document
limit: "10", //并发数
value:[ //页面数取值 0为key ,1为jquery获选择器,2为获取属性
{0:"title",1:"h1",2:"text"},
{0:"pic",1:". anchor-pic img",2:"src"},
{0:" name ",1:".zb-name ",2:"text"},
{0:" popularity ",1:".num-v ",2:"text"},
{0:" currency ",1:". weight-v ",2:"text"},
],
textarea:[ //自定义链接
'/directory/all?page=6&isAjax=1',
'/directory/all?page=7&isAjax=1']
}
生成douyu.txt内容为:
{
"pic":" https://apic.douyucdn.cn/upload/avatar/000/16/89/99_avatar_middle.jpg?rltime", "title":"【贝爷】统治食物链顶端的男人!荒野求生!",
"name":"狂拽酷炫",
" popularity":"", (这值页面是异步处理,所以获取不到,为空)
" currency":"" (这值页面是异步处理,所以获取不到,为空)
}
{...} 注:后有多{},
彩虹之家交流群:293851491