一个做了反爬的36氪,返回数据恶心,感觉是一堆垃圾。这里只是记录一下爬取过程。
(一)爬取环境
- win10
- python3
- scrapy
(二)爬取过程
(1)入口:搜索
(2)动态js数据加载,查看下一页操作:
(3)返回数据:
(4)请求链接
http://36kr.com/api//search/entity-search?page=4&per_page=40&keyword=机器人&entity_type=post&ts=1532794031142&_=1532848230039
分析:这里的ts及后面的都为时间戳格式,可不要,entity_type=post这个是必须要的,可变参数为page
(4)列表页的json数据,id为详情页链接所需标志