Web Crawler
BlackStar_L
Keep Coding, Reading and Writing, for the Data Scientist
展开
-
Scrapy框架知识手册 - 从零到一
Scrapy框架一、初识Scrapy1、Scrapy简介2、网络爬虫原理3、网络爬虫的基本流程二、Scrapy安装与创建1、安装2、查看命令3、主要命令三、Scrapy简单实现1、项目创建2、创建爬虫3、更改robot协议4、分析页面5、编写spider6、解析页面7、运行爬虫四、Scrapy框架结构1、Scrapy结构2、Scrapy原理(数据流动)3、Scrapy各个组件的介绍五、spiders文件之spider.Spider1、Spider1.1、name1.1、allowed_domains1.2、原创 2020-06-20 23:33:37 · 1749 阅读 · 0 评论 -
Scrapy分布式爬虫 - 房天下案例
分布式爬虫 - 房天下案例一、项目准备与创建1、项目准备2、项目创建二、编写Scrapy项目1、分析网页结构2、fang.py3、items.py4、pipelines.py5、settings.py三、服务器操作1、更改配置一、项目准备与创建1、项目准备服务器 + MongoDB +Redis本机 + MongoDB + Redis2、项目创建>scrapy startproject fangtianxia>cd fangtianxia>scrapy genspide原创 2020-06-20 18:13:16 · 1416 阅读 · 2 评论 -
页面数据解析
页面数据解析一、数据的结构1. 结构化数据2. 半结构化数据3. 非结构化数据4. 应用场景二、HTML1. HTML的理解2. HTML的骨架结构3. HTML标签关系三、CSS选择器选择器1. 标签选择器2. 类选择器3. ID选择器4. 组合选择器5. 伪类选择器6. 属性提取器四、XPath数据提取1. XML介绍2. XPath匹配规则3. lxml库4. 使用lxml模块5. XPath爬取猫眼电影五、转义字符一、数据的结构1. 结构化数据关系模型数据,即可以使用关系型数据库表示和存储,表原创 2020-05-20 17:37:46 · 1630 阅读 · 0 评论 -
爬虫实战(一) 简单静态网页爬取及数据存储
Reqeusts + PyQuery + PyMongo实战一、准备工作二、爬取目标三、爬取代码及注释一、准备工作实现环境-Python3程序加速-多进程网页请求-requests库内容匹配-re库网页解析-pyquery库数据存储-MongoDB二、爬取目标爬取页面:https://static1.scrape.cuiqingcai.com/使用requests库爬取站...原创 2020-04-26 22:18:32 · 1320 阅读 · 1 评论 -
HTML解析技术之pyquery
HTML解析技术之pyquery一、安装二、简介三、开始使用1. 初始化(1). 字符串初始化(2). URL初始化(3). 文件(路径+名)初始化2. CSS选择器操作(1). 查找节点子孙节点和子节点祖先节点和父节点兄弟节点(2). 遍历节点(3). 获取信息获取属性信息获取文本信息(4). 节点的操作类属性的增加与删除标签的属性,纯文本和HTML内容的更改节点的删除3. 伪类选择器参考...原创 2020-04-25 17:42:26 · 754 阅读 · 0 评论 -
Requests库与response属性
Requests库的基本使用一、安装二、原理三、 方法一、安装requests是Python第三方库,不会自带,需要额外安装pip install requests二、原理模拟浏览器,向服务器发送请求,获得服务器响应三、 方法返回网页原代码import requestsresponse = requests.get(url)...原创 2020-04-25 00:10:48 · 2428 阅读 · 0 评论 -
网易云音乐下载软件(下)
网易云音乐小程序一. 面向对象设计与多线程二. 打包为exe文件前面实现了一个网易云音乐下载器,我们继续进行改进一. 面向对象设计与多线程这里增加了一个输入框,与前面方法类似,不做过多阐述,下面是前端展示图:如果不加多线程,额外增加的输入框以及其他组件,会使界面运行卡死、无响应。所以增加多线程,保证界面运行不卡顿。类的设计使程序看起来更简洁明了,调用起来也方便。多线程的知识 和 面向...原创 2019-12-11 19:20:46 · 461 阅读 · 0 评论 -
网易云音乐下载软件(上)
网易云音乐下载软件一. 创建软件界面二. 后端实现1. 分析搜索网址2. 分析搜索页面与歌曲链接3. 使用歌曲外链4. 获取歌曲链接、下载歌曲完整实现三. 前后端整合四. 实现chromeless无头浏览器五. 整体代码六. 运行演示一. 创建软件界面这里使用tkinter来实现前端界面:导入库:from tkinter import * 实现前端界面:# *************...原创 2019-12-11 19:19:57 · 874 阅读 · 1 评论 -
分布式爬虫的完整实现
用Scrapy框架实现分布式爬虫实现原理实现步骤一.scrapy框架的安装二.创建项目三.创建爬虫对象四.更改文件配置五.创建并配置虚拟机六.可视化数据库进行管理七. 运行项目参考文档:实现原理一台主机:作为服务器和客户端其他主机:作为客户端客户端与服务端的实现:每个客户端的scrapy项目的setting文件中,对REDIS_HOST进行指定,指定的ip即服务端,客户端程序停止并等待服务...原创 2019-09-11 13:56:12 · 1265 阅读 · 0 评论 -
bs4必备基础知识
bs4bs4一.安装bs4二.安装解析器parser三.bs4对象的转换四. 对象的种类1.Tag(标签)*tag的属性(1).每个tag都有自己的名字,通过```.name```来获取(2).一个tag可能有多个属性,操作与字典相同,通过```.attrs```来获取2.NavigableString(标签的值)3.BeautifulSoup(文档)4.Comment(注释及特殊字符串)五.bs...原创 2019-08-29 16:01:23 · 1395 阅读 · 0 评论 -
re正则表达式必备基础知识
Regular Expression Operations正则表达式一.原子1.普通字符作为原子2.非打印字符作为原子3.通用字符作为原子4.原子表二.原子符1.任意匹配原子符2.边界限制原子符3.限定符(重复匹配)4.模式选择符(分支条件)5.分组三.模式修正四.反义五.贪婪模式与懒惰模式六.正则表达式常见函数1.re.match()函数2.re.search函数3.全局匹配函数4.re.sub...原创 2019-08-26 15:43:00 · 1732 阅读 · 0 评论