python爬虫之古诗词分类爬取加存储

最新推荐文章于 2022-05-22 11:27:08 发布

陌小

最新推荐文章于 2022-05-22 11:27:08 发布

阅读量1.7w

点赞数 3

分类专栏： python 文章标签： python 大数据

本文链接：https://blog.csdn.net/weixin_44356081/article/details/105927869

版权

本文介绍了如何使用Python爬虫对古诗词网站进行分析，目标是获取古诗的不同分类，并将数据写入文件。文章提供源代码，并承诺对疑问进行及时反馈。

摘要由CSDN通过智能技术生成

python网站进价爬取

分析网站
- 分析数据
- - 写入文件
原代码
- - - - 人生苦短我用python

分析网站

目标网站的url=“https://www.gushiwen.org/shiju/xiejing.aspx”

在这里插入图片描述
对网站的目录进行简单的分析，这个是各古诗的分类标题。

def get_div_text(html_text):
    soup=BeautifulSoup(html_text,'html.parser')
    divs=soup.find_all('div',{
   "class":"cont"}) 	#对网站的目录div标签抓取
    urls=[]
    for div in divs:
        div=div.find_all(href=re.compile('shiju'))
         #re.compile('shiju')对多字段进行shiju关键字获取
    for url in div:
        urls.append(durl+url['href'])	#爬虫专用进行网址的存储
    return urls

分析数据

	for url in urls:
        time.sleep(10) #进行延迟爬取
        url=requests.get(url).text
        
        soup

最低0.47元/天解锁文章

陌小

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之古诗词分类爬取加存储

python网站进价爬取分析网站分析数据写入文件原代码人生苦短我用python分析网站目标网站的url=“https://www.gushiwen.org/shiju/xiejing.aspx”对网站的目录进行简单的分析，这个是各古诗的分类标题。def get_div_text(html_text): soup=BeautifulSoup(html_text,'html.par...
复制链接

扫一扫