爬虫
游侠509
在知识的海洋面前,我只是一个在沙滩上玩耍的小孩子。
展开
-
windows10安装Scrapy
Python 3.5.2&Windows10&64第一步:安装Python本人安装的是Python 3.5.2版本,电脑已安装VS2015(VS是必须安装的,2008以上版本都可以,否则会运行报错)(一定注意安装过程中要勾选 path变量)我是默认安装在了C盘(3+版本的Python是默认安装pip和easy_install的,这两个东西是用来安装模块和扩展包的管理工具)第二原创 2017-01-07 10:46:46 · 527 阅读 · 1 评论 -
正则表达式
正则表达式在爬虫时收集回来的一般是字符流,我们要从中挑选出url就要求有简单的字符串处理能力,而用正则表达式可以轻松的完成这一任务;正则表达式的步骤:1,正则表达式的编译 2,正则表达式匹配字符串 3,结果的处理下图列出了正则表达式的语法:原创 2017-01-07 11:53:49 · 224 阅读 · 0 评论 -
python爬虫入门
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行。(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所以没有在Ubuntu上装,至于如何在Ubuntu上安装Scrapy,网上有挺多教程的)Scrapy的入门教程见下面链接:Scrapy入门教程上面的入门教程是很基础的,先跟着作者走一遍,要动起原创 2017-01-09 13:40:27 · 413 阅读 · 0 评论 -
爬虫框架Scrapy实战之批量抓取招聘信息
原文地址:http://www.pythontab.com/html/2015/pythonweb_0410/943.html所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有转载 2017-01-11 23:06:00 · 1778 阅读 · 0 评论 -
爬虫入门
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。Scratch,是抓取转载 2017-03-09 15:04:56 · 680 阅读 · 0 评论