Python数据分析与机器学习实战(3)Python爬虫抓取腾讯新闻

Python爬虫抓取腾讯新闻

编译环境:anaconda Jupyter Notebook
抓取所有腾讯新闻,以字典形式存于list。每一条新闻在Q-tpWrap的class中

import requests
from bs4 import BeautifulSoup
import pandas as pd
url = "https://news.qq.com/"
res = requests.get(url)
soup = BeautifulSoup(res.text,'html.parser')

newsArray = []
for news in soup.select('.Q-tpWrap .text'):
    newsArray.append({'title':news.select('a')[0].text,'url':news.select('a')[0]['href']})
df = pd.DataFrame(newsArray)
df.head()
title url
0 被加拿大拘押的中国公民孟晚舟获得保释 https://news.qq.com/a/20181212/001500.htm
1 法国枪击事件致4死11伤 被列为“恐袭案”处理 http://new.qq.com/omn/20181212/20181212A06BH5....
2 “虎�v”回家 120秒回顾西周青铜“海外漂泊史” https://new.qq.com/omn/20181212/20181212V00IE0...
3 2019年省级两会时间陆续公布 1月中下旬扎堆召开 http://new.qq.com/omn/20181212/20181212A00TZ3....
4 天津男子泰国"杀妻骗保"案:死者家属详述全过程 https://new.qq.com/omn/20181212/20181212V008JA...

参考:基于Python数据科学挖掘精华实战课程

©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值