数据爬虫/处理
文章平均质量分 94
打怪的蚂蚁
这个作者很懒,什么都没留下…
展开
-
12306数据证书的获取
请求12306服务器上忽然遇到这样的异常:e: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to原创 2016-09-05 09:29:25 · 1231 阅读 · 0 评论 -
数据爬虫开源项目
这里主要是我们使用过的开源爬虫技术:1、webmagicjava技术、非定型爬虫框架网站:http://webmagic.io/github:https://github.com/code4craft/webmagic/2、pyspiderpython技术、定型爬虫框架网站:http://docs.pyspider.org/en/latest原创 2016-09-05 10:15:21 · 571 阅读 · 0 评论 -
Pentaho 数据集成工具——Kettle(一)
简介 Pentaho是一个以工作流为核心的、强调面向解决方案的开源商业智能(Business Intelligence, BI)套件,以构成全面的数据集成和业务分析平台。这些套件各自为独立产品,之间为松耦合可插拔式设计,用户可根据自身需求进行灵活选择。Kettle是Pentaho整个产品体系中的数据集成模块,使用突破性的元数据驱动方法提供强大的“提取,转换和加载(ETL)”功能。主要使用在转载 2017-08-17 09:02:19 · 12431 阅读 · 0 评论 -
Python 爬虫实践:《战狼2》豆瓣影评分析
简介刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。目标总览主要做了三件事:抓取网页数据清理数据用词云进行展示使用的python版本是3.转载 2017-08-17 09:01:32 · 5772 阅读 · 0 评论 -
探求ETL本质
ETL的考虑做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中,ETL上升到了一定的理论高度,和原来小打小闹的工具使用不同了。究竟什么不同,从名字上就可以看到转载 2017-08-17 15:15:02 · 374 阅读 · 0 评论 -
Java通过HttpProxy实现穿越
需求描述 在正常的项目开发需求中,连接远程服务器的场景一般有二: 1 自家实现的http服务器,api接口都已经约定好; 2 开发平台服务,通常如新浪、百度云等平台提供的restful接口; 以上的两种场景通过原生的URLConnection或是apache提供的httpclient工具包都可以方便的实现调用。转载 2017-11-03 16:53:43 · 7042 阅读 · 0 评论 -
教你分分钟学会用python爬虫框架Scrapy
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。Scratch转载 2017-12-20 11:16:35 · 825 阅读 · 0 评论