数据提取方法
青柠17
这个作者很懒,什么都没留下…
展开
-
爬虫初阶(三)—— 数据处理
1.数据分类在抓取某个网站或者某个应用的内容时,内容一般分为两部分,非结构化的数据和结构化的数据。1.1 非结构化的数据处理文本、电话号码、邮箱地址– 正则表达式HTML 文件– 正则表达式– XPath– CSS选择器1.2 结构化的数据处理JSON 文件– JSON Path– 转化成Python类型进行操作(json类)XML 文件– 转化成Python...原创 2019-09-30 14:49:50 · 480 阅读 · 0 评论 -
爬虫初阶(四)—— 贴吧单线程爬虫案例
在学习了之前的内容后, 可以尝试做一个贴吧爬虫的案例, 要求为:爬取指定贴吧中所有列表页面及详情页面的图片及视频,以下为详细代码import requestsfrom lxml import etreeimport jsonimport refrom urllib import parseclass TiebaSpider: def __init__(self, ti...原创 2019-09-30 15:47:10 · 204 阅读 · 0 评论 -
爬虫初阶(四)—— 百思不得姐多线程爬虫案例
import refrom parse_url import parse_urlimport requestsimport timeimport threadingfrom queue import Queuestart = time.time()class Neihan_Spider(object): def __init__(self): self.u...原创 2019-11-05 10:13:15 · 227 阅读 · 0 评论