python 爬取网页内容

最新推荐文章于 2024-05-12 16:44:53 发布

风花不懂雪夜

最新推荐文章于 2024-05-12 16:44:53 发布

阅读量759

点赞数 1

文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/zgw77477/article/details/121622783

版权

简单的一个爬虫方法一：from selenium import webdriver# 创建WebDriver对象driver = webdriver.Firefox()# 打开网页driver.get('https://www.sina.com.cn/')html=driver.page_source#print(html)from lxml import etreee_html=etree.HTML(html)a=e_html.xpath('//*[@id="syncad

摘要由CSDN通过智能技术生成

简单的一个爬虫

方法一：
from selenium import webdriver

# 创建WebDriver对象

driver = webdriver.Firefox()

# 打开网页

driver.get('https://www.sina.com.cn/')

html=driver.page_source
#print(html)
from lxml import etree

e_html=etree.HTML(html)
a=e_html.xpath('//*[@id="syncad_0"]/ul/li/a/text()')
b=e_html.xpath('//*[@id="syncad_0"]/ul/li/a/@href')
for i in a:
    print("新闻:",i)

for j in b

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

风花不懂雪夜

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 爬取网页内容

简单的一个爬虫方法一：from selenium import webdriver# 创建WebDriver对象driver = webdriver.Firefox()# 打开网页driver.get('https://www.sina.com.cn/')html=driver.page_source#print(html)from lxml import etreee_html=etree.HTML(html)a=e_html.xpath('//*[@id="syncad
复制链接

扫一扫