![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
采集
文章平均质量分 93
绯红游侠
以后在说
展开
-
Python采集实例2
上一篇说道我们要采集http://www.gg4493.cn/的数据,接下来:步骤2:对于每一个链接,获取它的网页内容。很简单,只需要打开urls.txt文件,一行一行地读出来就可以了。也许这里会显得多此一举,但是基于我对解耦的强烈愿望,我还是果断地写到文件里了。后面如果采用面向对象编程,重构起来是十分方便的。获取网页内容部分也是相对简单的,但是需要把网页的内容都保存到一个文件夹里转载 2017-11-02 08:41:57 · 352 阅读 · 0 评论 -
Python采集实例1
目标是把http://www.gg4493.cn/主页上所有数据爬取下来,获得每一篇新闻的名称、时间、来源以及正文。接下来分解目标,一步一步地做。步骤1:将主页上所有链接爬取出来,写到文件里。python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def getHtml(url): page = urllib.urlopen(转载 2017-11-02 08:36:14 · 622 阅读 · 0 评论 -
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。Scratch转载 2017-11-03 14:13:39 · 542 阅读 · 0 评论 -
python中文分词,使用结巴分词对python进行分词
在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法.中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viter转载 2017-11-04 14:53:08 · 1357 阅读 · 0 评论 -
老板给了你1000张美女model照片,让你选5位出来参加展会,请问你如何选
A:我会嗖嗖嗖过一遍,然后随机挑5张顺眼的。紫薯:还不如让老板随机选顺眼的。 B:开个小组会,集合大家的意见选5个最漂亮的。紫薯:你真不在乎老板想看到哪几位美女么?C:随机选5个身材满足标准、容貌可佳的就可以了。紫薯:你的决策也很随机哇。紫薯觉得:我们需要考虑老板最喜欢长成什么样的女生,需要知道来看台的客户对美女的偏好,要知道哪些美女的长相与产品、场景更相配。所以...转载 2017-11-05 14:44:37 · 853 阅读 · 0 评论 -
Python3做采集
出于某些目的,需要在网上爬一些数据。考虑到Python有各种各样的库,以前想试试Pycharm这个IDE,就决定用它了。首先翻完《深入Python3》这本书,了解了它的语法之类的。下面就以下载http://www.meinv68.com/为例子开始干活了:Http协议的实现。那本书里有介绍一个叫httplib2的库,看起来挺好。就用这个库把网页内容抓下来先。Html解析。之前有用过一些解析转载 2017-11-01 10:40:11 · 378 阅读 · 0 评论 -
写了个简单的爬虫
简单写了个爬取美女图片www.meimei678.cn的网页var configs = { domains: ["search.jd.com","item.jd.com","club.jd.com"], scanUrls: ["http://search.jd.com/Search?keyword=Python&enc=utf-8&qrst=1&rt=1&stop=转载 2017-11-17 08:53:22 · 231 阅读 · 0 评论