自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 【python】读取和输出到txt

读取txt的数据和把数据保存到txt中是经常要用到的,下面我就总结一下。读txt文件python常用的读取文件函数有三种read()、readline()、readlines() 以读取上述txt为例,我们一起来看一下三者的区别read() 一次性读全部内容 read() #一次性读取文本中全部的内容,以字符串的形式返回结果with open("test.txt...

2018-07-30 17:19:49 181145 11

原创 【Python 爬虫之旅3】用pq获取列表中的数据

当我们成功获取到某网站的html页面后,就要找到我们想要的数据的位置并把所需数据保存下来。第一步:用正则表达式定位首先查看网页源代码,找到我们所需数据的列表,然后把有唯一性的包含住这个列表的字符串找到作为我们匹配的模式。strpattern = r'(?<=<table width="100%" border="0" cellpadding="0" cellspac...

2018-07-30 10:19:24 4674 4

原创 【Python 爬虫之旅 2】抓包工具fiddler的使用

为什么要使用fiddler最近爬了好多网站,每个网站的访问方式、翻页方式都各有特色,每次我都要在第一步卡很长时间,这个时候正确使用抓包工具就是很有必要的了。 因为我们爬虫其实就是模拟浏览器去访问网站,而抓包工具是监测我们访问网站的,我们可以用浏览器访问一次即将要爬取的网站,然后在fiddler中查看http请求行的数据,如headers内容、data内容等,然后模仿浏览器访问的这些数据。 只...

2018-07-19 17:44:30 1683

原创 【Python 爬虫之旅 1】爬虫流程

到新公司实习的第一个项目就是爬指定关键词搜索出的微信公众号文章统计词频进行热度分析,这篇博客先简单回顾一下一个简单的爬虫需要哪些步骤: 发送请求获取响应内容->解析内容->保存数据1. 发送请求获取响应内容要爬取一个网页首先要有网址,我们通过http库向此目标站点发起请求request,然后获取响应的内容response。这个过程我们可以用Python的requests模块来...

2018-07-19 16:35:57 270

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除