每日10行代码16:爬取人民日报的某篇文章正文

准备进行一个小项目,爬取人民日报一些文章,用来好好学习及分析下人民日报的用词,领会下中央精神~~。

import requests
import re
from bs4 import BeautifulSoup

url = r"http://paper.people.com.cn/rmrb/html/2020-09/11/nw.D110000renmrb_20200911_1-01.htm"
res = requests.get(url)
res.encoding = "utf-8"     # 以utf-8的编码格式来解析网页

pat = r'<!--enpcontent-->(.*)<!--/enpcontent-->'
wz = re.search(pat, res.text)
print(wz.group(1))

输出结果:

<P>  中国人均水资源量是世界人均的1/4,而西海固,又是全………句号。</p>

几点说明:

  1. 为什么引用了BeautifulSoup却没有用? 本来是准备用的,结果发现用不上,查看源代码发现文章的内容直接放在<!--enpcontent--> <!--/enpcontent-->这对标签里面,所以可以用正则表达式查找。
  2. 为什么输出的文章里带有p标签? 因为p标签可以保存文章的段落信息,方便以后展示。
  3. 为什么要用wz.group(1)? 因为我要获得括号里的分组,group(0)是匹配上的完整字符串。

写这篇文章是因为看到https://blog.csdn.net/wenxuhonghe/article/details/90047081 这个文章,我也想自己试下,所以决定暂时不看作者的编码,自己尝试下,最后再与他的实现做个对比。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值