python爬虫-腾讯新闻热点精选

最新推荐文章于 2024-05-07 15:53:56 发布

zhangxiaolinxin

最新推荐文章于 2024-05-07 15:53:56 发布

阅读量528

点赞数

分类专栏：代码文章标签：大数据

本文链接：https://blog.csdn.net/zhangxiaolinxin/article/details/105801077

版权

代码专栏收录该内容

38 篇文章 0 订阅

订阅专栏

1、用selenium爬取https://news.qq.com/ 的热点精选
2、热点精选至少爬50个出来，存储成csv
3、每一行如下：标号（从1开始）,标题,链接,

import time
from selenium import webdriver
driver=webdriver.Chrome(executable_path=".\chromedriver.exe")
driver.get("https://news.qq.com")
#了解ajax加载
for i in range(1,10):
    time.sleep(2)
    driver.execute_script("window.scrollTo(window.scrollX, %d);"%(i*200))

from bs4 import BeautifulSoup
html=driver.page_source
bsObj=BeautifulSoup(html,"lxml")
jxtits=bsObj.find_all("div",{"class":"jx-tit"})[0].find_next_sibling().find_all("li")

print("index",",","title",",","url")
for i,jxtit in enumerate(jxtits):
#     print(jxtit)   
    try:
        text=jxtit.find_all("img")[0]["alt"]
    except:
        text=jxtit.find_all("div",{"class":"lazyload-placeholder"})[0].text
    try:
        url=jxtit.find_all("a")[0]["href"]
    except:
        print(jxtit)  
    print(i+1,",",text,",",url)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhangxiaolinxin

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫-腾讯新闻热点精选

1、用selenium爬取https://news.qq.com/ 的热点精选2、热点精选至少爬50个出来，存储成csv3、每一行如下：标号（从1开始）,标题,链接,import timefrom selenium import webdriverdriver=webdriver.Chrome(executable_path=".\chromedriver.exe")driver.ge...
复制链接

扫一扫