响-Hibiki的博客

Hibiki的Python进阶之旅

排序:
默认
按更新时间
按访问量

[Python爬虫] 爬虫实例:获取政府网站公示数据并保存到MongoDB数据库

前言 在上一篇文章 https://blog.csdn.net/xHibiki/article/details/84134554 中,我们介绍了Mongo数据库以及管理工具Studio3T和adminMongo的下载安装,这次,我们结合Python爬虫和第三方模块Pymongo,爬取政府网站...

2018-11-16 16:12:19

阅读数:14

评论数:0

[学习笔记]优雅地保存和管理数据---MongoDB数据库及管理工具的安装和使用

前言 以[Python爬虫]爬虫实例:离线爬取当当网畅销书Top500的图书信息爬取到的数据为例,数据格式如图: 保存时,直接将数据写入到csv文件中.虽然方便存储和利用Excel进行一定的数据分析,但是对于更加系统,复杂的查询和分析,或者是数据量越来越大时,我们还是建议将数据放到数据库比...

2018-11-16 12:40:24

阅读数:7

评论数:0

[Python爬虫]爬虫实例:爬取PEXELS图片---修改为多进程爬虫

第二次修改的地址---->爬虫实例:爬取PEXELS图片—解决异步加载问题 在前面的修改中,我们通过使用逆向工程成功解决了异步加载的问题.但同时还有一个问题:效率问题,因为校园网网速实在不行,所以在使用这个单进程爬虫时,先加载完一张图片,再爬取下一张,这样串行下载的...

2018-11-16 09:55:56

阅读数:4

评论数:0

[Python爬虫]爬虫实例:爬取PEXELS图片---解决异步加载问题

第一次尝试爬取—>[Python爬虫]爬虫实例:三种方式爬取PEXELS图片 在爬取PEXELS时,遇到了这样问题: 页面使用Ajax的异步加载技术来实现分页,所以通过request.text无法获取动态加载的内容.而如果想正确获取这些数据,则需要使用名为逆向工程...

2018-11-15 23:43:58

阅读数:6

评论数:0

[Python爬虫]爬虫实例:三种方式爬取PEXELS图片

PEXELS:Best free stock photos in one place. Pexels是一个提供免费高品质图片,并且可商用的图片网站.但是因为网站时外国的,所以连接和下载速度都略慢… 这里只是为了讲解图片爬取和下载保存的流程. 注意:网站的页面是动态加载的,需要模拟下滑操作...

2018-11-15 16:06:11

阅读数:6

评论数:0

[Python爬虫]爬虫实例:在线爬取当当网畅销书Top500的图书信息

本实例还有另外的离线爬虫实现,有兴趣可点击离线爬虫爬取当当网2018年10月畅销Top500的图书信息 爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫分类为两种,一种是离线爬虫,即先将所爬取的网页保存到本地,再从...

2018-11-14 17:51:31

阅读数:9

评论数:0

[Python爬虫]爬虫实例:离线爬取当当网畅销书Top500的图书信息

爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫分类为两种,一种是在线爬虫,即在网站中一边打开网页一边进行爬取;第二种是本实例使用的离线爬虫,即先将所爬取的网页保存到本地,再从本地网页中爬取信息 3.离线爬虫的优点是:可以方便...

2018-11-14 16:37:00

阅读数:63

评论数:0

[Python调试]Python写入到csv文件以文本存储长数字

解决方法:在需要保存的数字后+’\t’即可. 在保存到csv文件然后用Excel打开时,发现图书ISBN显示为科学计数法,如图: import csv >>> writer = csv.writer(output) &amp...

2018-11-14 15:09:54

阅读数:10

评论数:0

[Python调试]Python写入到csv文件存在空行的解决方法

在写爬虫的时候发现写入到csv文件时,文件显示一行数据,一行空行,如下图: 原始代码如下: output = open('d:/result.csv', 'w') writer = csv.writer(output) # csv writer writer.writerow(('排名',...

2018-11-14 15:03:05

阅读数:4

评论数:0

[Python爬虫]爬虫实例:爬取酷狗TOP500的数据

根据书籍《从零开始学Python网络爬虫》P41,综合案例2—爬取酷狗TOP500的数据修改而来. 使用模块requests和模块BeautifukSoup进行爬取. 不得不说,酷狗拿来跑爬虫真是好,不ban不限制IP~ 要爬取的页面信息 酷狗TOP500 需要爬取的信息很少:1.排名 2....

2018-11-13 15:58:05

阅读数:83

评论数:0

[Python模块]随机数 random模块的速查与使用

模块介绍 Random模块提供各种用于生成伪随机数的函数,以及根据不同的实数分布来随机生成值的函数.虽然这些函数生成的数字好像是完全随机的,但是它们背后的系统是可预测的.如果要求真正随机数用于加密安全等相关功能,应左转模块os中的函数urandom 本模块的函数来源于Python3.7.1...

2018-11-12 22:11:23

阅读数:51

评论数:0

[Python调试] 'gbk' codec can't encode character xxx in position的错误解决&编码与解码的思考探究

错误出现 使用request模块爬取网页,将页面源文件res.text保存到文件get.html时, import request res = requests.get('http://weibo.com') with open(r'd:\get.html', 'w') as f: ...

2018-11-11 16:32:37

阅读数:24

评论数:0

[学习笔记] 五分钟快速理解字符集与字符编码的区别

字符集 字符集,也称作字符编码方案,是为字符集合中每一个字符分配一个唯一ID的编码字符集.包括了Unicode,ASCII,ANSI等字符集。 Unicode字符集 — 所有字符组成的字符集 国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。如果全世界每一个符号都给予一个独一无二的编...

2018-11-10 23:17:48

阅读数:12

评论数:0

[Python模块]正则表达式 re模块的使用与实例

很喜欢Python教材中的这句格言: 有些人面临问题时会想:“我知道, 我将使用正则表达式来解决这个问题.” 这让他们面临的问题变成了两个. ---------Jamie Zawinski 正则表达式的确好用,但是复杂的模式难以阅读和维护,与其把花在研究用正则表达式处理复杂的问题上,还...

2018-11-09 12:33:43

阅读数:25

评论数:0

[学习笔记]正则表达式语法与使用速查

常用正则表达式 元字符 使用描述与例子 \ 转义字符,换行: \n 回车: \r 换页: \f 反斜杠: \\ 左括号 \( () 标记子表达式的开始和结束位置, (ab) 与 (a)(b) 等价 ^ 匹配行首, ^ab 匹配 abcde 中的ab $ 匹配行尾, de...

2018-11-08 23:14:06

阅读数:11

评论数:0

[Python编程]综合性实验: Java源代码高亮 实现将Java代码转换为html

前言 这个是大三下学期的Java课程设计,目前重构完成了代码转换并输出的部分.暂时还没有打算 完成可视化界面. 代码不长,加起来也就100行左右(再次感受到Python的精简),实现了对注释,关键字,字符串,一些运算符的高亮. 代码实现 import re class Ja...

2018-11-08 15:17:27

阅读数:25

评论数:0

[Python编程]综合性实验: Java源代码分析程序 (统计文件,行数,关键字)

又重新对做过的课设用新的语言实现了一次,学到了很多知识… [Java]综合性实验 Java源代码分析程序 分为三个部分 1.统计指定目录中文件的个数和总的大小 2.统计目录下Java源文件的关键字出现次数 3.统计Java源文件代码行数,注释行数,空白行数 实验的要求如下: ...

2018-11-06 19:02:29

阅读数:32

评论数:0

[Python编程]统计Java源文件代码行数,注释行数,空白行数

每次学习新的语言,就想重新实现一遍做过的课设=,= 这里实现的是"综合性实验 Java源代码分析程序"的第三部分 第二部分见:[Python编程]统计目录下Java源文件的关键字出现次数 原来的Java实现在这: [J...

2018-11-06 16:42:41

阅读数:35

评论数:0

[Python编程]统计目录下Java源文件的关键字出现次数

每次学习新的语言,就想重新实现一遍做过的课设=,= 这里实现的是"综合性实验 Java源代码分析程序"的第二部分 第一部分见:[Python基础]统计指定目录中文件的个数和总的大小 原来的Java实现在这...

2018-11-06 15:47:41

阅读数:17

评论数:0

[Python编程]统计指定目录中文件的个数和总的大小

每次学习新的语言,就想重新实现一遍做过的课设=,= 这里实现的是"综合性实验 Java源代码分析程序"的第一部分 原来的Java实现在这: [Java]统计指定目录中文件的个数和总的大小 题目 给定一个指定的目录,例如&...

2018-11-06 00:30:51

阅读数:27

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭