![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 84
石头张
一个认真的人,五年五个行业,还是代码最舒服
展开
-
Python爬虫框架Scrapy实战之定向批量获取职位招聘信息
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然转载 2015-09-18 16:13:06 · 1828 阅读 · 1 评论 -
scrapy创建项目详解
生成项目scrapy提供一个工具来生成项目,生成的项目中预置了一些文件,用户需要在这些文件中添加自己的代码。打开命令行,执行:scrapy startproject tutorial,生成的项目类似下面的结构tutorial/ scrapy.cfg tutorial/ __init__.py items.py转载 2015-09-19 14:36:57 · 19845 阅读 · 2 评论 -
python下很帅气的爬虫包 - Beautiful Soup 示例
先发一下官方文档地址。http://www.crummy.com/software/BeautifulSoup/bs4/doc/建议有时间可以看一下python包的文档。Beautiful Soup 相比其他的html解析有个非常重要的优势。html会被拆解为对象处理。全篇转化为字典和数组。相比正则解析的爬虫,省略了学习正则的高成本。相比xpath爬虫的转载 2015-10-08 14:59:28 · 1958 阅读 · 0 评论