使用【BeautifulSoup】爬取高校网站学院新闻

import requests
from bs4 import BeautifulSoup

url = 'http://www.zjipc.com/434/list.htm'
data = requests.get(url)
data.encoding = 'utf-8'
bs=BeautifulSoup(data.text,'lxml')
title=bs.select(".list_news a")
ls=bs.select(".list_bt a")
print(len(title))
count=""
for i in title:
    print("标题:"+i.getText())
for i in ls:
    print("链接:"+"http://www.zjipc.com"+i.get('href'))
for i in ls:
    urls="http://www.zjipc.com"+i.get('href')
    data2=requests.get(urls)
    data2.encoding="utf-8"
    bs2=BeautifulSoup(data2.text,'lxml')
    title2=bs2.select(".bt")
    time=bs2.select("span[frag='窗口113']")
    zuozhe=bs2.select("span[frag='窗口112']")
    print("##################################"+i.getText()+"#######################################")
    print("标题:")
    print(title2[0].getText())
    print("作者:")
    print(zuozhe[0].getText())
    print("时间:")
    print(time[0].getText())
    zw=bs2.select(".Article_Content")
    print("正文:")
    #print(type(zw))
    print(zw[0].getText())
    tl=title2[0].getText()
    zz=zuozhe[0].getText()
    sj=time[0].getText()
    zw=zw[0].getText()
    ss=tl+"\n"+zz+"\n"+sj+"\n"+urls+"\n"+zw+"\n\n"
    count=count+ss
with open("data.txt","w",encoding="utf-8") as f:
    f.write(count)





  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值