python爬虫
thereisnospoon.
记录成长
展开
-
python爬虫案例之动态加载数据(三),爬取药监局网站上的公司信息
目标网址:http://125.35.6.84:81/xk/ 在首页点击每家公司会弹出一个页面该页面会有该家公司的详细信息 首先先判断是不是动态加载的数据,进行局部搜索,说明是动态加载,因为在与网址相同的url的response中搜索不到页面的信息。 那么数据是从哪里来的? 局部搜索找不到数据,我们再进行全局搜索,看看数据来自哪个请求 找到请求的url和请求方式以及下方的参数 换了一家企业...原创 2019-11-14 11:15:30 · 6709 阅读 · 11 评论 -
python爬虫案例之动态加载数据(二),爬取肯德基餐厅位置信息
目标网址:http://www.kfc.com.cn/kfccda/storelist/index.aspx 当我们输入城市关键字点击查询之后,网址的url并没有改变,说明我们想要的数据并没有在该网址上,数据都是动态加载出来的 使用抓包工具当点击查询的时候得到如下一个请求 在response中得到一个json字符串,格式化之后得到这样一个列表 可知这才是我们想要数据的url 直接对该ur...原创 2019-11-14 10:59:26 · 2258 阅读 · 2 评论 -
python爬虫案例之动态加载数据(一),爬取豆瓣案例
目标网站:https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action= 当鼠标滚轮向下滑动的时候,发现网页内容是自己加载出来的 每加载一页就会有一个链接跳出来,那这个链接有没有包含我们想要抓取的内容呢,来到response发现json字符串...原创 2019-11-14 10:46:39 · 986 阅读 · 0 评论 -
python爬虫之selenium,谷歌无头浏览器加规避风险
from time import sleep from selenium import webdriver # 规避风险且创建一个参数对象,用来控制chrome以无界面模式打开 from selenium.webdriver import ChromeOptions option = ChromeOptions() option.add_experimental_option('excludeS...原创 2019-11-11 20:32:37 · 600 阅读 · 1 评论