最近在学习爬虫,就顺便记录一下吧(つд⊂)
以百度贴吧的主题帖为例子,首先,在百度贴吧主页那个大大的搜索框旁边,点那个小小的“高级搜索”,输入关键词,以“王思聪”为例,enter后在排序结果那里点主题帖(这种类型的帖子相关性比较高)
获取该页面的所有的入口链接。(最好要设置headers吧)
import requests
url = "http://tieba.baidu.com/f/search/res?isnew=1&kw=&qw=%CD%F5%CB%BC%B4%CF&rn=10&un=&only_thread=0&sm=1&sd=&ed=&pn=1"
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}