- 博客(4)
- 收藏
- 关注
原创 【python】读取和输出到txt
读取txt的数据和把数据保存到txt中是经常要用到的,下面我就总结一下。读txt文件python常用的读取文件函数有三种read()、readline()、readlines() 以读取上述txt为例,我们一起来看一下三者的区别read() 一次性读全部内容 read() #一次性读取文本中全部的内容,以字符串的形式返回结果with open("test.txt...
2018-07-30 17:19:49 181145 11
原创 【Python 爬虫之旅3】用pq获取列表中的数据
当我们成功获取到某网站的html页面后,就要找到我们想要的数据的位置并把所需数据保存下来。第一步:用正则表达式定位首先查看网页源代码,找到我们所需数据的列表,然后把有唯一性的包含住这个列表的字符串找到作为我们匹配的模式。strpattern = r'(?<=<table width="100%" border="0" cellpadding="0" cellspac...
2018-07-30 10:19:24 4674 4
原创 【Python 爬虫之旅 2】抓包工具fiddler的使用
为什么要使用fiddler最近爬了好多网站,每个网站的访问方式、翻页方式都各有特色,每次我都要在第一步卡很长时间,这个时候正确使用抓包工具就是很有必要的了。 因为我们爬虫其实就是模拟浏览器去访问网站,而抓包工具是监测我们访问网站的,我们可以用浏览器访问一次即将要爬取的网站,然后在fiddler中查看http请求行的数据,如headers内容、data内容等,然后模仿浏览器访问的这些数据。 只...
2018-07-19 17:44:30 1683
原创 【Python 爬虫之旅 1】爬虫流程
到新公司实习的第一个项目就是爬指定关键词搜索出的微信公众号文章统计词频进行热度分析,这篇博客先简单回顾一下一个简单的爬虫需要哪些步骤: 发送请求获取响应内容-&gt;解析内容-&gt;保存数据1. 发送请求获取响应内容要爬取一个网页首先要有网址,我们通过http库向此目标站点发起请求request,然后获取响应的内容response。这个过程我们可以用Python的requests模块来...
2018-07-19 16:35:57 270
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人