![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 90
Ayanha
这个作者很懒,什么都没留下…
展开
-
Scrapy爬虫框架
一、框架解析 Engine (不需要用户修改) 控制所有模块间的数据流 根据条件触发事件 Scheduler(不需要用户修改) 对所有请求进行调度管理 Downloader(不需要用户修改) 根据请求下载网页 Downloader Milddleware中间键 目的:实施Engine、Scheduler、Downloader之间进行用户可配置的控制 功能:修改、丢弃、新增请求或响应...原创 2021-01-31 23:29:45 · 91 阅读 · 0 评论 -
信息标记
三种标记形式的对比 标记形式 区别 比较 XML 最早的通用信息标记语言,可扩展性好,繁琐 Internet上的信息交互与传递 JSON 信息有类型,适合程序处理,比XML简洁 移动应用云端个节点的信息通信,无注释 YAML 信息无类型,文本信息比例最高,可读性好 各类系统的配置文件,有注释易读 实例 XML JOSN YAML ...原创 2020-03-21 13:17:05 · 87 阅读 · 0 评论 -
Beautiful Soup库
库的引入及解析 >from bs4 import BeautifulSoup >soup = BeautifulSoup('< html >data< /html >','html.parser')#解析标签树即BeautifulSoup类 >soup1 = BeautifulSoup('open('D://demo.html')','html.pa...原创 2020-03-20 12:15:02 · 288 阅读 · 0 评论 -
requests库
方式一 import requests from lxml.html import fromstring response=requests.get('https://baijiahao.baidu.com/s?id=1627614008110090953&wfr=spider&for=pc') html=response.content.decode('UTF8')#字符编码 t...原创 2020-03-16 10:50:39 · 141 阅读 · 0 评论