爬虫
文章平均质量分 93
zh__quan
这个作者很懒,什么都没留下…
展开
-
爬虫day01 基本介绍,请求
目录1.网络爬虫6.Chrome浏览器插件7.Filldler抓包工具8.Anaconda 和 spyder9.WEB10.爬虫请求模块11.作业1.网络爬虫 1.定义:网络蜘蛛 网络机器人 ,抓取网络数据的程序 2.总结:用python程序去模仿人去访问网站,模仿的越逼真越好 3.目的:通过有效的大量的数据分析市场走势,公司的决策2....原创 2018-09-11 13:14:02 · 511 阅读 · 0 评论 -
爬虫day02 解析 ,Fiddler抓包工具,请求方式,requests模块
目录1.解析 1.数据分类 2.正则表达式re2.Fiddler抓包工具3.请求方式及案例4.requests模块5.作业爬取有道翻译POST案例人人网cookie模拟登陆request模块示例5.作业答案1.解析 1.数据分类 1.结构化数据 特点:有固定的格式:HTML XML ...原创 2018-09-12 18:37:44 · 1171 阅读 · 1 评论 -
爬虫day03 request模块, Handler处理器
目录1.requests模块2.Handler处理器(urllib.request)链家二手房数据爬取链家二手房存mysql 1.requests模块 1.常用方法 1.get():发起请求获取响应对 2.response方法 1.response.text:字符串 字符编码:...原创 2018-09-12 20:06:08 · 251 阅读 · 0 评论 -
爬虫day04 xpath,私密代理
目录存入csv文件2.Xpath 工具(解析html)3.解析HTML源码4.ProxyBasicAuthHandler私密代理Handler处理器xpath示例百度贴吧图片获取 存入csv文件 1.csv模块的使用流程 1.Python语句打开csv文件: with open("测试.csv","a") as...原创 2018-09-14 20:37:42 · 515 阅读 · 0 评论 -
爬虫day05 动态网站爬取,json模块 selenium , phantomjs , BeautifulSoup
目录1.糗事百科-xpath2.动态网站数据抓取 - Ajax3.json模块4.selenium + phantomjs 强大的网络爬虫 1.selenium 2.phantomjs 3.常用方法5.BeautifulSoup糗事百科xpath匹配答案存mongo数据库豆瓣网登录斗鱼主播名字和观众人数 1.糗事百科-xp...原创 2018-09-14 20:44:55 · 477 阅读 · 0 评论