爬虫
Ryan_yan1
这个作者很懒,什么都没留下…
展开
-
python爬虫之滑动滚轮动态加载内容爬取--京东案例
京东爬虫案例目标1、目标网址 :https://www.jd.com/2、抓取目标 :商品名称、商品价格、评价数量、商品商家思路提醒1、打开京东,到商品搜索页2、匹配所有商品节点对象列表3、把节点对象的文本内容取出来,查看规律,是否有更好的处理办法?4、提取完1页后,判断如果不是最后1页,则点击下一页 # 如何判断是否为最后1页???对于滑动滚轮动态加载数据的内容...原创 2019-12-15 17:20:43 · 9644 阅读 · 0 评论 -
python爬虫之selenium+phantomjs/Chrome/Firefox
selenium定义1、Web自动化测试工具,可运行在浏览器,根据指令操作浏览器2、只是工具,必须与第三方浏览器结合使用安装Linux: sudo pip3 install seleniumWindows: python -m pip install seleniumphantomjs浏览器定义无界面浏览器(又称无头浏览器),在内存中进行页面加载,高效安装(...原创 2019-12-15 17:15:00 · 542 阅读 · 0 评论 -
python爬虫之多线程爬取--小米应用商店
多线程爬虫应用场景1、多进程 :CPU密集程序2、多线程 :爬虫(网络I/O)、本地磁盘I/O队列# 导入模块from queue import Queue# 使用q = Queue()q.put(url)q.get() # 当队列为空时,阻塞q.empty() # 判断队列是否为空,True/False线程模块# 导入模块from threading im...原创 2019-12-15 17:01:19 · 559 阅读 · 0 评论 -
python爬虫之JS链接跳转内容爬取
民政部网站数据抓取目标1、URL: http://www.mca.gov.cn/ - 民政数据 - 行政区划代码 即: http://www.mca.gov.cn/article/sj/xzqh/2019/2、目标: 抓取最新中华人民共和国县以上行政区划代码 实现步骤1、从民政数据网站中提取最新行政区划代码# 特点1、最新的在上面2、命名格式: 2019年X月中华人...原创 2019-12-15 16:53:54 · 6702 阅读 · 0 评论 -
python爬虫cookie模拟登录
cookie模拟登录适用网站及场景抓取需要登录才能访问的页面方法一1、先登录成功1次,获取到携带登陆信息的Cookie F12打开控制台,在页面输入用户名、密码,登录成功,找到/home(一般在抓到地址的上面)2、携带着cookie发请求 ** Cookie ** Referer(源,代表你从哪里转过来的) ** User-Agentimport r...原创 2019-12-15 16:43:39 · 934 阅读 · 0 评论 -
python爬虫之基于JS加密破解--有道翻译/百度翻译
有道翻译破解案例(post)目标破解有道翻译接口,抓取翻译结果# 结果展示请输入要翻译的词语: elephant翻译结果: 大象**************************请输入要翻译的词语: 喵喵叫翻译结果: mews实现步骤1、浏览器F12开启网络抓包,Network-All,页面翻译单词后找Form表单数据2、在页面中多翻译几个单词,观察Form表单数...原创 2019-12-15 16:41:46 · 621 阅读 · 0 评论 -
python爬虫之Ajax动态加载数据抓取--豆瓣电影/腾讯招聘
动态加载数据抓取-Ajax特点1、右键 -> 查看网页源码中没有具体数据2、滚动鼠标滑轮或其他动作时加载抓取1、F12打开控制台,页面动作抓取网络数据包2、抓取json文件URL地址# 控制台中 XHR :异步加载的数据包# XHR -> QueryStringParameters(查询参数)豆瓣电影数据抓取案例目标1、地址: 豆瓣电影 - 排行榜...原创 2019-12-15 16:19:38 · 744 阅读 · 1 评论 -
python爬虫之如何建立一个自己的代理IP池
建立一个自己的代理IP池,随时更新用来抓取网站数据fake_useragent使用示例# 随机生成1个User-Agentfrom fake_useragent import UserAgentua = UserAgent()print(ua.random)建立自己的IP代理池import requestsimport randomfrom lxml import etree...原创 2019-12-15 16:08:07 · 1577 阅读 · 0 评论 -
python爬虫之静态网页爬取--猫眼电影/链家二手房
猫眼电影(xpath)目标 1、地址: 猫眼电影 - 榜单 - top100榜 2、目标: 电影名称、主演、上映时间步骤1、确定是否为静态页面(右键-查看网页源代码,搜索关键字确认)2、写xpath表达式3、写程序框架xpath表达式1、基准xpath: 匹配所有电影信息的节点对象列表 //dl[@class="board-wrapper"]/dd # ...原创 2019-12-15 15:48:07 · 872 阅读 · 0 评论 -
python爬虫正则解析及xpath解析,lxml解析库
正则解析模块rere模块使用流程方法一r_list=re.findall('正则表达式',html,re.S)方法二# 1、创建正则编译对象pattern = re.compile('正则表达式',re.S) re.S 表示可以匹配换行r_list = pattern.findall(html)正则表达式元字符元字符含义.任意一个字符(不包括\...原创 2019-12-15 14:48:18 · 487 阅读 · 0 评论 -
python中requests模块常用方法
requests模块安装Linuxsudo pip3 install requestsWindows# 方法一 进入cmd命令行 :python -m pip install requests 这个就是用管理员权限运行# 方法二 右键管理员进入cmd命令行 :pip install requests常用方法requests.get()作用# 向网...原创 2019-12-15 14:39:42 · 541 阅读 · 0 评论