爬虫
文章平均质量分 53
隔壁郑同学
人生苦短,我要赚钱
展开
-
爬虫基础
文章目录1.爬虫应用领域2.爬虫合法性探讨大多数网站都会定义robots.txt文件,淘宝的robots.txt文件为例,看看该网站对爬虫有哪些限制。3.爬虫基本流程4.Request 和 Response5.网页结构Request基本的请求库:Response6.抓取的数据7.解析方式8.XPathXPath常用规则XPath运算符9.保存数据XPath运算符9.保存数据1.爬虫应用领域在理想的状态下,所有ICP(Internet Content Provider)都应该为自己的网站提供API接口来共原创 2021-04-08 13:56:20 · 539 阅读 · 0 评论 -
pyspider安装中出现的一系列问题
开始安装pip install pyspider问题1:Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-vXo1W3/pycurl解决1.先安装curl库,在pycurl中Ctrl+F找到你的电脑所对应的curl版本,进行下载,2.将上面下载的的文件进行安装,在cmd中执行,命令为:pip install pycurl-7.43.1-cp37-cp37m-win_amd64.whl转载 2021-03-17 09:37:53 · 318 阅读 · 0 评论 -
pyspider 启动错误,ValueError: Invalid configuration: - Deprecated option ‘domaincontroller‘
pyspider all命令报错:ValueError: Invalid configuration:- Deprecated option ‘domaincontroller’: use ‘http_authenticator.domain_controller’ instead.在安装包中找到pyspider的资源包,然后找到webui文件里面的webdav.py文件打开,修改第209行即可。/Library/Frameworks/Python.framework/Versions/3.7/lib/原创 2021-03-17 09:30:14 · 194 阅读 · 0 评论 -
pip安装tesserocr失败,解决方法如下
解决方法:进入下面此网站,确认自己的电脑是64位还是32位,以及python版本,再下载相应的whl文件https://github.com/simonflueckiger/tesserocr-windows_build/releases然后进入命令行输入pip install (whl文件路径)。如我的安装命令:此处的install后面的路径是下载并保存whl此文件的路径Then,完成...原创 2021-03-16 15:40:09 · 320 阅读 · 0 评论 -
python爬取wx公众号粉丝数
encoding=utf-8import requestsimport jsonimport urllib.requestimport datetimeimport time定义时间参数time_now = datetime.datetime.now()now_d = time.strftime("%Y-%m-%d")ytd_d = (time_now + datetime.timedelta(days=-1)).strftime("%Y-%m-%d")print(ytd_d)def原创 2020-08-22 20:55:29 · 734 阅读 · 0 评论 -
Python爬取搜狗指定词条对应的搜索结果页面
首先,我们先了解一下两种网络请求模块:urllib模块(不推荐)和requests模块requests模块:python中原生的一款基于网络请求的模块,功能非常强大、简单便捷、效率极高。作用:模拟浏览器发请求指定url发起请求获取响应数据持久化存储环境安装 pip install requests实战编码:需求爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)编写爬虫前,我们还需要了解:User-Agent:请求载体的身份标识UA检测:门户网站的服务器会检测对应请求的载原创 2020-08-22 20:07:27 · 860 阅读 · 0 评论 -
教你自己搭建一个ip池(绝对超好用!!!!)
随着我们爬虫的速度越来越快,很多时候,有人发现,数据爬不了啦,打印出来一看。不返回数据,而且还甩一句话是不是很熟悉啊?要想想看,人是怎么访问网站的? 发请求,对,那么就会带有request.headers,那么当你疯狂请求别人的网站时候,人家网站的管理人员就会 觉得有点不对劲了,他看看请求的 header 信息,一看吓一跳,结果看到的 headers 信息是这样的:Host: 12...原创 2019-12-04 19:58:06 · 55678 阅读 · 17 评论 -
全国前100所大学数据的爬取,分析及绘表
import csvimport bs4from urllib import requestfrom bs4 import BeautifulSoup'''(1)获取网站页面'''def getHTMLText(url): try: resp = request.urlopen(url) html_data = resp.read().dec...原创 2019-10-28 09:04:28 · 350 阅读 · 0 评论 -
王者荣耀投票爬虫实时票数
import requestsimport datetimefrom openpyxl import load_workbookimport timeheaders = { 'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l...转载 2019-10-15 19:17:23 · 385 阅读 · 0 评论 -
Python爬取英雄联盟英雄皮肤
import requestsimport jsonimport re def getLOLImages(): # 获取源代码 url_js = "http://lol.qq.com/biz/hero/champion.js" html_js = requests.get(url_js).text # 200 请求成功 # print(html_...原创 2019-09-24 19:39:56 · 243 阅读 · 0 评论 -
用Python爬取斗鱼各区的主播信息,并制作热度排行榜
本次编程主要是为了练习爬虫编程和数据分析,对斗鱼直播进行爬虫,按区域划分获取主播信息并用pandas进行数据处理,用matplotlib进行绘图。用到的功能有:requests主要爬虫模块、threading多线程模块、pandas数据处理模块、queue队列模块、lxml HTML解析器、matplotlib 绘图模块、time模块。# coding=utf-8import request...原创 2019-09-21 19:47:07 · 781 阅读 · 0 评论 -
Python爬虫一:抓取豆瓣电影Top250
目标:抓取豆瓣电影Top 250,保存电影封面到本地,保存电影的基本信息(片名、导演、主演、时间、评分、评价人数、引言)到txt文本。一、思路分析用chrome打开豆瓣电影Top250页面, https://movie.douban.com/top250。如下图第一部电影,肖申克的救赎,电影名称、导演、主演、年份、评分、评价人数这些信息是我们需要的。我们用浏览器或者python向浏览器发送请求...原创 2019-09-07 09:14:53 · 2147 阅读 · 0 评论