响-Hibiki的博客

Hibiki的Python进阶之旅

排序:
默认
按更新时间
按访问量

[Python模块]使用pip安装wheel文件

1.pip install wheel 2.https://www.lfd.uci.edu/~gohlke/pythonlibs/ 查找需要的库.whl文件 3.上面网站找不到(例如aiodns一个加速DNS的解析库),可以到 https://pypi.org/project/aiodns/#fi...

2018-11-17 20:40:05

阅读数:10

评论数:0

[Python调试]安装库时出现MicrosoftVisual C++ 14.0 is requied的解决方法

使用pip install xxx偶尔会遇到无法安装或者出错的情形,这时候其实可以考虑不去解决这些麻烦问题,而是使用已经打包好的wheel文件进行安装.将所需库的wheel文件下载到本地,然后pip install xxx.whl即可. 1.没有安装wheel的首先安装,命令:pip ins...

2018-11-17 20:26:37

阅读数:29

评论数:0

[Python调试]在配置好系统Path依然出现'xxxxx' executable needs to be in PATH的解决方法

在安装chromedriver时出现了明明已经将chromedriver所在的目录加入到系统PATH中,并且将chromedriver放在了Python的安装目录.打开CMD,输入chromedriver,也能进入,理论上来说Path已经生效,没问题. 但是在IDE(Pycharm中)运行时, ...

2018-11-17 19:17:27

阅读数:26

评论数:0

[Python爬虫]使用Cookies模拟登录的例子

一般我们使用Post提交表单,需要先进行表单的构造,再进行表单的提交,例如: url = 'http://bangumi.tv/FollowTheRabbit' params = { 'form_hash': '95b4e189', 'referer': 'http://bangu...

2018-11-17 10:46:48

阅读数:29

评论数:0

[Python爬虫]requests模块使用post方法提交表单

使用requests库中的post(url,params)方法,先通过观察表单的网页源代码,或者是通过逆向工程的方法获取表单提交的字段,构造参数params,就能实现模拟登录操作. 例如: url = 'http://xxx.com/login' captcha = input() params...

2018-11-17 10:27:55

阅读数:11

评论数:0

[Python爬虫] 爬虫实例:获取政府网站公示数据并保存到MongoDB数据库

前言 在上一篇文章 https://blog.csdn.net/xHibiki/article/details/84134554 中,我们介绍了Mongo数据库以及管理工具Studio3T和adminMongo的下载安装,这次,我们结合Python爬虫和第三方模块Pymongo,爬取政府网站...

2018-11-16 16:12:19

阅读数:37

评论数:0

[学习笔记]优雅地保存和管理数据---MongoDB数据库及管理工具的安装和使用

前言 以[Python爬虫]爬虫实例:离线爬取当当网畅销书Top500的图书信息爬取到的数据为例,数据格式如图: 保存时,直接将数据写入到csv文件中.虽然方便存储和利用Excel进行一定的数据分析,但是对于更加系统,复杂的查询和分析,或者是数据量越来越大时,我们还是建议将数据放到数据库比...

2018-11-16 12:40:24

阅读数:22

评论数:0

[Python爬虫]爬虫实例:爬取PEXELS图片---修改为多进程爬虫

第二次修改的地址---->爬虫实例:爬取PEXELS图片—解决异步加载问题 在前面的修改中,我们通过使用逆向工程成功解决了异步加载的问题.但同时还有一个问题:效率问题,因为校园网网速实在不行,所以在使用这个单进程爬虫时,先加载完一张图片,再爬取下一张,这样串行下载的...

2018-11-16 09:55:56

阅读数:16

评论数:0

[Python爬虫]爬虫实例:爬取PEXELS图片---解决异步加载问题

第一次尝试爬取—>[Python爬虫]爬虫实例:三种方式爬取PEXELS图片 在爬取PEXELS时,遇到了这样问题: 页面使用Ajax的异步加载技术来实现分页,所以通过request.text无法获取动态加载的内容.而如果想正确获取这些数据,则需要使用名为逆向工程...

2018-11-15 23:43:58

阅读数:17

评论数:0

[Python爬虫]爬虫实例:三种方式爬取PEXELS图片

PEXELS:Best free stock photos in one place. Pexels是一个提供免费高品质图片,并且可商用的图片网站.但是因为网站时外国的,所以连接和下载速度都略慢… 这里只是为了讲解图片爬取和下载保存的流程. 注意:网站的页面是动态加载的,需要模拟下滑操作...

2018-11-15 16:06:11

阅读数:19

评论数:0

[Python爬虫]爬虫实例:在线爬取当当网畅销书Top500的图书信息

本实例还有另外的离线爬虫实现,有兴趣可点击离线爬虫爬取当当网2018年10月畅销Top500的图书信息 爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫分类为两种,一种是离线爬虫,即先将所爬取的网页保存到本地,再从...

2018-11-14 17:51:31

阅读数:12

评论数:0

[Python爬虫]爬虫实例:离线爬取当当网畅销书Top500的图书信息

爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫分类为两种,一种是在线爬虫,即在网站中一边打开网页一边进行爬取;第二种是本实例使用的离线爬虫,即先将所爬取的网页保存到本地,再从本地网页中爬取信息 3.离线爬虫的优点是:可以方便...

2018-11-14 16:37:00

阅读数:66

评论数:0

[Python调试]Python写入到csv文件以文本存储长数字

解决方法:在需要保存的数字后+’\t’即可. 在保存到csv文件然后用Excel打开时,发现图书ISBN显示为科学计数法,如图: import csv >>> writer = csv.writer(output) &amp...

2018-11-14 15:09:54

阅读数:15

评论数:0

[Python调试]Python写入到csv文件存在空行的解决方法

在写爬虫的时候发现写入到csv文件时,文件显示一行数据,一行空行,如下图: 原始代码如下: output = open('d:/result.csv', 'w') writer = csv.writer(output) # csv writer writer.writerow(('排名',...

2018-11-14 15:03:05

阅读数:6

评论数:0

[Python爬虫]爬虫实例:爬取酷狗TOP500的数据

根据书籍《从零开始学Python网络爬虫》P41,综合案例2—爬取酷狗TOP500的数据修改而来. 使用模块requests和模块BeautifukSoup进行爬取. 不得不说,酷狗拿来跑爬虫真是好,不ban不限制IP~ 要爬取的页面信息 酷狗TOP500 需要爬取的信息很少:1.排名 2....

2018-11-13 15:58:05

阅读数:88

评论数:0

[Python模块]随机数 random模块的速查与使用

模块介绍 Random模块提供各种用于生成伪随机数的函数,以及根据不同的实数分布来随机生成值的函数.虽然这些函数生成的数字好像是完全随机的,但是它们背后的系统是可预测的.如果要求真正随机数用于加密安全等相关功能,应左转模块os中的函数urandom 本模块的函数来源于Python3.7.1...

2018-11-12 22:11:23

阅读数:53

评论数:0

[Python调试] 'gbk' codec can't encode character xxx in position的错误解决&编码与解码的思考探究

错误出现 使用request模块爬取网页,将页面源文件res.text保存到文件get.html时, import request res = requests.get('http://weibo.com') with open(r'd:\get.html', 'w') as f: ...

2018-11-11 16:32:37

阅读数:23

评论数:0

[学习笔记] 五分钟快速理解字符集与字符编码的区别

字符集 字符集,也称作字符编码方案,是为字符集合中每一个字符分配一个唯一ID的编码字符集.包括了Unicode,ASCII,ANSI等字符集。 Unicode字符集 — 所有字符组成的字符集 国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。如果全世界每一个符号都给予一个独一无二的编...

2018-11-10 23:17:48

阅读数:12

评论数:0

[Python模块]正则表达式 re模块的使用与实例

很喜欢Python教材中的这句格言: 有些人面临问题时会想:“我知道, 我将使用正则表达式来解决这个问题.” 这让他们面临的问题变成了两个. ---------Jamie Zawinski 正则表达式的确好用,但是复杂的模式难以阅读和维护,与其把花在研究用正则表达式处理复杂的问题上,还...

2018-11-09 12:33:43

阅读数:28

评论数:0

[学习笔记]正则表达式语法与使用速查

常用正则表达式 元字符 使用描述与例子 \ 转义字符,换行: \n 回车: \r 换页: \f 反斜杠: \\ 左括号 \( () 标记子表达式的开始和结束位置, (ab) 与 (a)(b) 等价 ^ 匹配行首, ^ab 匹配 abcde 中的ab $ 匹配行尾, de...

2018-11-08 23:14:06

阅读数:11

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭