使用【BeautifulSoup】爬取高校网站学院新闻

最新推荐文章于 2020-12-21 19:58:27 发布

昨五明一

最新推荐文章于 2020-12-21 19:58:27 发布

阅读量1k

点赞数 1

分类专栏： python 文章标签： python BeautifulSoup 爬取网站高校网站爬取新闻爬取

本文链接：https://blog.csdn.net/weixin_43819557/article/details/85269741

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

import requests
from bs4 import BeautifulSoup

url = 'http://www.zjipc.com/434/list.htm'
data = requests.get(url)
data.encoding = 'utf-8'
bs=BeautifulSoup(data.text,'lxml')
title=bs.select(".list_news a")
ls=bs.select(".list_bt a")
print(len(title))
count=""
for i in title:
    print("标题："+i.getText())
for i in ls:
    print("链接："+"http://www.zjipc.com"+i.get('href'))
for i in ls:
    urls="http://www.zjipc.com"+i.get('href')
    data2=requests.get(urls)
    data2.encoding="utf-8"
    bs2=BeautifulSoup(data2.text,'lxml')
    title2=bs2.select(".bt")
    time=bs2.select("span[frag='窗口113']")
    zuozhe=bs2.select("span[frag='窗口112']")
    print("##################################"+i.getText()+"#######################################")
    print("标题：")
    print(title2[0].getText())
    print("作者：")
    print(zuozhe[0].getText())
    print("时间：")
    print(time[0].getText())
    zw=bs2.select(".Article_Content")
    print("正文：")
    #print(type(zw))
    print(zw[0].getText())
    tl=title2[0].getText()
    zz=zuozhe[0].getText()
    sj=time[0].getText()
    zw=zw[0].getText()
    ss=tl+"\n"+zz+"\n"+sj+"\n"+urls+"\n"+zw+"\n\n"
    count=count+ss
with open("data.txt","w",encoding="utf-8") as f:
    f.write(count)

昨五明一

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
使用【BeautifulSoup】爬取高校网站学院新闻

import requestsfrom bs4 import BeautifulSoupurl = 'http://www.zjipc.com/434/list.htm'data = requests.get(url)data.encoding = 'utf-8'bs=BeautifulSoup(data.text,'lxml')title=bs.select(".list_news...
复制链接

扫一扫