Selenium抓取百度首页TOP6新闻标题链接

注意点:

1. 安装chromedriver

在淘宝镜像上下载一个和自己Google浏览器版本一样的Chromedriver, 推荐放在 chrome.exe 同一目录下

2.提取标签中的属性内容

    -- .get_attribute('标签属性')

3.提取标签中的text内容

    -- text

4.使用 unquote() 对URL进行解码

    -- link = unquote(link)

from selenium import webdriver
import time
from urllib.parse import  unquote

# 计算机中chromedriver.exe的绝对位置
# "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"
driver = webdriver.Chrome("C:\chromedriver.exe")
# 请求网站
driver.get("https://www.baidu.com")
# 最大化窗口
driver.maximize_window()
# 获取当前访问的url
url = driver.current_url
print('现在的网址是:', url)
# 显示网页源码
html = driver.page_source
# 将源码保存以便观察
with open('html.html','w', encoding='utf-8') as f:
    f.write(html)
# 获取cookie
# cookie = driver.get_cookies()
# cookie = {i['name']:i['value'] for i in cookie}
# print('获取到的cookie:\n', cookie)
time.sleep(5)
# 用selenium自带的定位功能定位信息
url = driver.find_elements_by_xpath('//a[@class="title-content c-link c-font-medium c-line-clamp1"]')
# 创建个空字典准备存放信息
item = {}
# 遍历获取到的信息进行清洗
for i in url:
    item_news = {}
    # element返回的是一个对象,不能直接在xpath中使用.text方法,要在结尾使用
    number = i.find_element_by_xpath('.//span').text
    news = i.find_element_by_xpath('.//span[@class="title-content-title"]').text
    # 同理,获取属性标签的时候不能直接//href,要用.get_attribute('href')方法
    link = i.get_attribute('href')
    # url解码
    item_news[news] = unquote(link)
    item[int(number)] = item_news
# 将字典排序
item_list = sorted(item.items())
# 输出结果
for i in item_list:
    print('热度排名:', i[0], end='\t')
    print(list(i[1].keys())[0])
    print(list(i[1].values())[0])
# print('首页新闻', text)
time.sleep(3)



  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值