爬虫
文章平均质量分 78
我的眼里只有学习
这个作者很懒,什么都没留下…
展开
-
Scrapy爬虫方法
scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。原创 2022-09-12 03:39:42 · 2043 阅读 · 0 评论 -
Requests爬虫方法
requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多。原创 2022-09-11 20:43:34 · 861 阅读 · 0 评论 -
Selenium模拟浏览器访问
(1)selenium是一个用于Web应用程序测试的工具。(2)selenium测试直接运行在浏览器中,就像真正的用户在操作一样。(3)支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动真正的浏览器完成测试。(4)selenium支持无界面浏览器操作。原创 2022-09-11 18:04:04 · 3485 阅读 · 0 评论 -
数据解析——BeautifulSoup
1、BeautifulSoup简称:bs42、BeautifulSoup是什么:BeautifulSoup和 lxml 一样,是一个 html 的解析器,主要功能也是解析和提取数据3、BeautifulSoup优缺点:缺点:效率没有 lxml 的效率高优点:接口设计人性化,使用方便。原创 2022-09-08 01:34:01 · 1003 阅读 · 0 评论 -
数据解析——Jsonpath
红框内为有效json,其他字符串为非json字符串,在进行json识别时,需要去掉。:JsonPath只能解析本地文件,不能解析服务器响应的文件。原创 2022-09-07 23:27:12 · 2055 阅读 · 0 评论 -
数据解析——xpath
1)安装xpath插件2)在chrome中安装xpath插件3)将xpath拖入即可4)验证xpath1》点击 ctrl + shift + x 出现小黑框,即代表安装成功2》再次点击 ctrl + shift + x 即可关闭小黑框。原创 2022-09-06 00:32:16 · 2234 阅读 · 0 评论 -
urllib库的使用
urllib.request.urlopen() 模拟浏览器向服务器发送请求:1)定义需要访问的url地址2)模拟浏览器向服务器发送请求3)获取响应的页面源码。原创 2022-08-15 01:34:01 · 1849 阅读 · 0 评论 -
Python爬虫简介
目录1、爬虫核心2、爬虫用途3、爬虫分类4、反爬手段原创 2022-08-03 23:03:38 · 153 阅读 · 0 评论