爬取豆瓣评论
这次爬的是 豆瓣的《算法图解》的书评
代码解释
获取源码
首先是传统艺能把网页爬取下来,一开始尝试的时候发现直接用
htnl.encoding = html.apparent_encoding
得到一串乱码,看到的结果如下图
查看输出html.apparent_encoding的结果发现是“windows-1254”,因为用windows-1254编码编译是乱码的。可以知道Windows-1254 只是 requests 猜测的编码,不准确。表明网页里面没有提供 body 的编码属性。
大概能猜到它是用utf-8编码,所以就直接试
html.encoding = 'utf-8'
用BeautifulSoup提取信息
其中评论的获取是很简单的直接用
comment = soup.find_all("p",attrs = {
'class':'comment-content'})
就能获取到所有的评论。
评论者的网名爬取有一点小麻烦,由于我懒得继续筛选就直接获取h3的文本信息通过用‘\n’作为切片符切成多段,再提取出评论者网名
h3.get_text().split(