Python简单爬虫

       话不多说直接上代码:

from wsgiref import headers
import requests
from bs4 import BeautifulSoup
import re

#证卷日报爬取标题,日期,内容
header={
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43"
}

request_url="http://search.zqrb.cn/search.php?src=all&q=%E8%B4%B5%E5%B7%9E%E8%8C%85%E5%8F%B0&f=_all&s=newsdate_DESC"
page_content=requests.get(url=request_url,headers=header).text
#正则表达式匹配
page_href=' <a href="(.*?)" target="_blank"><h4>.*? </h4></a>'
page_title='<a href=".*?" target="_blank"><h4>(.*?)</h4></a>'
page_time='<span><strong>时间:</strong>(.*?)</span>'

page_href=re.findall(page_href,page_content)
page_title=re.findall(page_title,page_content)
page_time=re.findall(page_time,page_content)

for i in range(len(page_title)):
   #数据清洗
   page_title[i]=re.sub('<.*?>','',page_title[i])
   print("链接为:"+page_href[i]+" 标题为:"+page_title[i]+" 时间为"+page_time[i]+"\n")


header={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43"
 }
request_url="http://search.zqrb.cn/search.php?src=all&q=%E8%B4%B5%E5%B7%9E%E8%8C%85%E5%8F%B0&f=_all&s=newsdate_DESC"
page_content=requests.get(url=request_url,headers=header).text

soup=BeautifulSoup(page_content,"html.parser")
a=soup.select(".result-list dt a")
for i in range(len(a)):
   print("网址为:"+a[i]['href']+" 内容为:"+a[i].text)


#中证网爬取标题,日期,内容
header={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43"
 }
request_url="http://search.cs.com.cn/search?searchword=%E8%B4%B5%E5%B7%9E%E8%8C%85%E5%8F%B0&channelid=215308"
page_content=requests.get(url=request_url,headers=header).text

patern_href='<a style="font-size: 16px;color: #0066ff;line-height: 20px" href="(.*?)" target="_blank">.*?</a>'
patern_title='<a style="font-size: 16px;color: #0066ff;line-height: 20px" href=".*?" target="_blank">(.*?)</a>'
patern_time="&nbsp;&nbsp;.*?&nbsp;(.*?)</td>"

page_href=re.findall(patern_href,page_content)
page_title=re.findall(patern_title,page_content)
page_time=re.findall(patern_time,page_content,re.S)

for i in range(len(page_href)):
   print("链接为:"+page_href[i]+" "+"题目为:"+page_title[i]+" 时间:"+page_time[i])

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Znovko

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值