Python爬虫_啧不应该啊的博客-CSDN博客

Python爬虫

关注

文章平均质量分 76

关注数：文章数：7 文章阅读量：6269 文章收藏量：71

作者: 啧不应该啊

能力越小责任越小

展开

Python使用scrapy创建项目爬虫步骤

在items.py文件中定义你要爬取的数据结构。title = scrapy.Field() # 职位名称salary = scrapy.Field() # 薪资company = scrapy.Field() # 公司名称# ... 其他字段。

原创 2024-09-28 17:40:14 · 856 阅读 · 0 评论
Python爬虫selenium框架基本使用

使用包管理器安装。

原创 2024-09-26 21:14:12 · 794 阅读 · 0 评论
Python爬虫bs4基本使用

通过和可以获得子集，前者获得的是字符串列表，后者获得的是一个列表迭代器对象，需要遍历获得内容对于上述代码说明请参考主页上一篇文章但是这种方法返回的是一个列表，我们需要对他进行迭代输出。

原创 2024-09-26 20:57:59 · 1272 阅读 · 0 评论
Python爬虫bs4的基本使用

BS4是Python中一个用于从HTML或XML文件中提取数据的库，它提供了一种方便的方法来解析、遍历、搜索、修改文档的树形结构。

原创 2024-09-25 20:46:31 · 413 阅读 · 0 评论
Python爬虫lxml模块安装导入和xpath基本语法

XPath（XML Path Language，即XML路径语言）是一种在XML文档中查找信息的语言。它基于XML的树状结构，使用路径表达式来选取XML文档中的节点或节点集。也可以寻找属性值：//div/@class。找到的是所有div的class属性值。可以结合节点选择器使用，如。

原创 2024-09-25 17:46:24 · 553 阅读 · 0 评论
Python（爬虫）正则表达式

正则表达式是文本匹配模式，也就是按照固定模式匹配文本。

原创 2024-09-24 17:23:13 · 1216 阅读 · 0 评论
Python中requests模块（爬虫）基本使用

header={print(response.headers)#获得请求头信息print(response.request.headers)#获得响应头信息在我们请求时，可以设置headers关键字设置请求头信息。上述代码我们就将头信息中的user-agent设置为：hoho/v1。如果要查看我们设置的头信息，需要使用第二个输出语句。

原创 2024-09-23 16:08:15 · 1227 阅读 · 0 评论

Python爬虫

作者: 啧不应该啊

Python使用scrapy创建项目爬虫步骤

Python爬虫selenium框架基本使用

Python爬虫bs4基本使用

Python爬虫bs4的基本使用

Python爬虫lxml模块安装导入和xpath基本语法

Python（爬虫）正则表达式

Python中requests模块（爬虫）基本使用