笔记
weixin_45620570
这个作者很懒,什么都没留下…
展开
-
pandas学习笔记
生成列查看。pandas的底层是numpy,所以效率很高通过索引一些方法从列对象转成其它对象。tolist中间没有_下面是重头戏原创 2020-02-25 19:20:26 · 129 阅读 · 0 评论 -
异步爬虫—Scrapy框架
scrapy异步框架核心原理同步:下一个方法依赖于上一个方法的结果。异步:下一个方法不依赖于上一个方法的结果。spiders就是我们写的csdn的博客爬虫文件。scheduler是调度器,将url_s里所有的url地址统一分配,然后发给downloader,让它去向服务器请求下载。还有一个就是去重的功能,去掉重复的url请求。item pipeline用于把io存储,把数据存储到本地。...原创 2020-02-05 12:15:07 · 997 阅读 · 0 评论 -
爬取html (同步爬虫)
urllib模块模拟浏览器访问url地址,得到服务器响应回来的html文件。request对象之get请求和url编码之前我们是通过urlopen的方法,访问地址下载页面。但是实际开发,我们一般选择request对象。接下来,是url编码和解码HTTPpost请求案例分析—百度翻译爬虫...原创 2020-02-21 14:21:41 · 687 阅读 · 0 评论 -
html上的数据提取:re正则&XPath语句。
正则表达式以英文字母开头,出现一次。后面的是数字,大小写,出现5到15位,一共6-16位。前面那个1可以省略。要匹配div标签中的内容。关闭贪婪模式,这里加了一个?。因为正则表达式是默认匹配尽量多的内容的,关闭贪婪模式,这里就不会加div也匹配进去。re模块使用re模块有很多方法,但是爬虫中常用的有提取,匹配和替换。案例:比如现在有个html文件,要提取它的Email和...原创 2020-01-31 14:36:27 · 330 阅读 · 0 评论 -
爬虫----咨询公司招标信息采集
项目分析我们以后做爬虫项目的时候,往往爬取的不止一个网站,要对每个网站定制爬虫。下面是我们以必联网为例,要爬取的所有内容。下面,是网站页面的一级界面和二级界面上,我们所需要的内容。打开网站,我们需要在登陆的情况下爬取。爬虫分析,一定要从第二页开始,举例该网,第一页是一个get请求,但是从第二页开始,就是一个post请求了。这里,老师下载了个Postman的软件,可以直接下载网页的ht...原创 2020-02-05 18:54:14 · 1309 阅读 · 1 评论