python抓取知乎首页文本信息的简单实现

最新推荐文章于 2024-07-21 21:39:32 发布

zzzzata

最新推荐文章于 2024-07-21 21:39:32 发布

阅读量1k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/zzzzata/article/details/52039709

版权

python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

利用 requests提供的方法得到网页中的html文件，然后用 beautifulsoup提供的方法解析网页信息。

find_all('a',{"class":"question_link"}):找出网页a标签中class为question_link的标签。

get_text():得到里面的文本信息。

本程序中先将所有的问题打印到控制台，然后将所有的答案打印在控制台。

源码如下所示：

#encoding:utf-8
#爬的知乎首页
import urllib.request
from bs4 import BeautifulSoup
url="http://www.zhihu.com/topic/19570752/top-answers"
data=urllib.request.urlopen(url).read().decode('utf-8')
bs=BeautifulSoup(data)
questions=bs.find_all('a',{"class":"question_link"})
for question in questions:
    print(question.get_text())
answers=bs.find_all('div',{"class":"zh-summary summary clearfix"})
for answer in answers:
    print(answer.get_text())