python爬虫爬取文本数据

最新推荐文章于 2024-03-25 13:54:42 发布

笨笨8848

最新推荐文章于 2024-03-25 13:54:42 发布

阅读量1.3k

点赞数

分类专栏： py 文章标签：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45948508/article/details/129602078

版权

import urllib.request
import urllib.parse
import re
from lxml import etree

def query(content):
    # 请求地址
    url = 'https://baike.baidu.com/item/' + urllib.parse.quote(content)
    # 请求头部
    headers = { 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' 
    }
    # 利用请求地址和请求头部构造请求对象
    req = urllib.request.Request(url=url, headers=headers, method='GET')
    # 发送请求，获得响应
    response = urllib.request.urlopen(req)
    # 读取响应，获得文本
    text = response.read().decode('utf-8')
#     l =  re.sub('[a-zA-Z0-9’!"#$%&\'()*+,-./:;<=>?@?★、…【】《》？“”‘’\！[\\]^_`{|}~\s]+', "", text) #去除不必要的符号
#     # 构造 _Element 对象
    html = etree.HTML(text)
#     # 使用 xpath 匹配数据，得到匹配字符串列表
    sen_list = html.xpath('//div

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python爬虫爬取文本数据

将读取到的数据写入本地。
复制链接

扫一扫

专栏目录

笨笨8848 CSDN认证博客专家 CSDN认证企业博客

码龄5年

12: 原创

27万+: 周排名

26万+: 总排名

1万+: 访问

: 等级

128: 积分

5: 粉丝

4: 获赞

5: 评论

17: 收藏

私信

关注

热门文章

分类专栏

py 1篇
参数校验 2篇
java 1篇

最新评论

@Valid 注解集合校验无效
在下小瑞: 为啥用validList能解？
C++基础入门
CSDN-Ada助手: 恭喜你写了第12篇博客！C++基础入门是一个非常重要的主题，你的文章肯定帮助到了很多初学者。接下来，我建议你可以考虑写一些关于C++进阶内容或者实际项目中的应用经验分享，这样能够帮助读者更深入地理解和应用所学的知识。希望你能一直坚持写作，加油！
C语言进阶1
CSDN-Ada助手: 恭喜您写了第11篇博客《C语言进阶1》！您的坚持和努力真是令人钦佩。通过您的博客，我不仅学到了更多关于C语言的进阶知识，也深感您对这门语言的热爱和专业素养。希望您能继续保持创作的热情，分享更多关于C语言的深入内容。在下一篇博客中，也许您可以探讨一些实际应用场景下的C语言技巧，这样读者们可以更好地将所学知识应用到实践中。期待您的下一篇博客！
C语言基础2
CSDN-Ada助手: 恭喜您写出了第10篇博客，标题为“C语言基础2”！您的创作热情和专业知识真是令人钦佩。接下来，希望您能够继续保持创作的动力，不断提升自己的写作水平，为读者们带来更多精彩的内容。期待您的下一篇博客，也希望您能够分享一些实用的编程技巧和经验，让我们一起进步！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。