自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

转载 【爬虫-反爬虫】系列三:【工具1】WebMagic in Action

WebMagic in Action              http://webmagic.io/docs/zh/

2016-07-14 17:47:56 762

转载 【爬虫-反爬虫】系列二:【文章精选2】 钱曙光论爬虫

关于反爬虫,看这一篇就够了钱曙光发布于架构 2016-06-30 15:24http://geek.csdn.net/news/detail/85333你被爬虫侵扰过么?当你看到“爬虫”两个字的时候,是不是已经有点血脉贲张的感觉了?千万要忍耐,稍稍做点什么,就可以在名义上让他们胜利,实际上让他们受损失。一、为什么要反爬虫1. 爬虫占总PV比例

2016-07-10 10:32:27 823

转载 【爬虫-反爬虫】系列二:【文章精选1】-互联网网站的反爬虫策略浅析

互联网网站的反爬虫策略浅析            robbin 2009-08-17发表             http://robbinfan.com/blog/11/anti-crawler-strategy因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,

2016-07-10 10:13:05 632

转载 【爬虫-反爬虫】系列一:-尾篇(7)

尾篇(7)写到这里,本专题可以告一段落了,如果你理解了之前的文章且认真实践过,相信绝大多数网站的数据都能爬取下来。闲聊部分为了让更多新手小白们阅读起来不吃力,本专题文笔刻意通俗,很多概念也有意的多次重复提及,且章节间联系紧密,对于新手来说,建议完整看一遍。虽然近些年手机app的普及造成许多数据的封闭性,难以爬取,但

2016-07-10 09:55:13 564

转载 【爬虫-反爬虫】系列一:反爬虫之签名(6)

反爬虫之签名(6)本讲介绍的是一种比较麻烦的反爬虫策略:请求签名。请求签名请求签名指在请求url中增加一个sign字段,通常取值为自定义字段的md5校验码。前面介绍的反爬虫策略基本上都有规律可寻,但签名很让人头疼,因为必须硬手段破解,也就是硬着头皮去调试代码,找出sign生成算法,然后再模拟该算法生成合法请求进行数据爬

2016-07-09 18:02:47 5517 1

转载 【爬虫-反爬虫】系列一:反爬虫之验证码(5)

反爬虫之验证码(5)验证码可以说是最让人伤脑筋的事了,最常见的便是图片验证码,花样百出,再加上有意模糊数字,就连人都不一定能识别出来,所以本专题也不会专门讲识别算法等等,而是介绍一种人工打码的方式。人工打码可能很多人对人工打码不太了解,毕竟这本身并不是一件值得宣扬的事。简单来说,人工打码就是把你的验证码传送给第

2016-07-08 17:40:41 2565

转载 【爬虫-反爬虫】系列一:反爬虫之session(4)

反爬虫之session(4)人们经常把session与cookie放在一起谈论,因为session变量存储在服务器端,而cookie是浏览器端,两者在能力上互补。在讲session之前,先思考一下这样一个场景:用户A在chrome浏览器打开一个网站,此时A就进入了该网站的一次会话。而网站为了更安全的记录A的

2016-07-08 17:39:11 5247

转载 【爬虫-反爬虫】系列一:反爬虫之cookie(3)

反爬虫之cookie前面讲过,cookie存储在浏览器端,常用来保存“认证数据”,请求会携带这些数据发送给服务器,这样服务器才能判断当前请求的状态,比如是否自动登录?状态不同,服务器返回的数据也会不一样。比如未登录状态会先返回一个登录界面,而登录状态则直接返回已登录界面。除了自动登录外,cookie还会存放其它状态数据,这取决于网

2016-07-08 17:32:08 1823 1

转载 【爬虫-反爬虫】系列一:基础之模拟请求(2)

爬虫训练营-基础之模拟请求(2)在开发爬虫程序前,你应该知道你需要的数据来自哪儿,以及怎么获取。为了更快的做到这一点,需要对http请求进行模拟进行验证。以下是我常用的几种方式,基本上是足够用了。以南方航空官网为例,假如我想爬南航的机票航班信息,那么我会先用浏览器调试一番。浏览器调试

2016-07-08 17:12:51 544

转载 【爬虫-反爬虫】系列一:基础之概述(1)

基础之概述http://www.wtoutiao.com/p/158wjxK.html2016-03-09 04:45    在了解爬虫前,应该先知道一些最本质的原则,这也是经常被人忽视的。    大家都知道,通过爬虫可以很方便的在开放网络中获取数据,如果你具备不错的数据挖掘功底,那么就可以提供一些有价值的服务。    像百度,谷歌,搜狐这些大公司,

2016-07-08 16:20:26 488

转载 解读ThoughtWorks技术雷达

解读ThoughtWorks技术雷达发布于 2016年7月6日http://www.infoq.com/cn/articles/interpretation-of-thoughtworks-technology-radarThoughtWorks在每年都会出品两期技术雷达,这是一份关于技术趋势的报告,它比起一些我们能在市面上见到的其他各种技术行情

2016-07-06 18:24:20 622

原创 公司开源导航页

公司开源导航页http://www.oschina.net/company

2016-07-06 17:53:14 796

转载 开源列表(一) Twitter开源软件列表

Twitter开源软件列表发布于 2016年7月1日http://www.infoq.com/cn/articles/twitter-open-source-list      从Twitter的GitHub账户中可以看到,Twitter已经开源的开源项目有近200个,领域涉及分布式架构、大数据、异步网络传输(客户端、服务端)、Web、工具等。T

2016-07-06 17:42:22 691

转载 「企业上云」系列之开源数据库的现状

企业上云」系列之开源数据库的现状作者 黄东旭 发布于 2016年7月6日http://www.infoq.com/cn/articles/situation-of-the-open-source-database数据库作为业务的核心,在整个基础软件栈中是非常重要的一环。近几年社区也是新的方案和思想层出不穷,接下来我将总结一下近几年一些主流的开源数据库方案

2016-07-06 15:42:57 447

转载 迁移到Docker:让飞轮转起来

迁移到Docker:让飞轮转起来发布于 2016年7月6日http://www.infoq.com/cn/articles/migrate-to-docker-part02?utm_campaign=rightbar_v2&utm_source=infoq&utm_medium=articles_link&utm_content=link_text作为一家提供对

2016-07-06 14:33:04 423

转载 理解RESTful架构

理解RESTful架构日期: 2011年9月12日          越来越多的人开始意识到,网站即软件,而且是一种新型的软件。      这种"互联网软件"采用客户端/服务器模式,建立在分布式体系上,通过互联网通信,具有高延时(high latency)、高并发等特点。网站开发,完全可以采用软件开发的模式。但是传统上,软件和网络是两个不同的领域,很少有

2016-07-06 11:20:20 242

转载 Facebook 直播如何撑起瞬间 80 万人的流量?

Facebook 直播如何撑起瞬间 80 万人的流量?2016/07/05 · IT技术 · 1 评论 · Facebook, 分布式, 架构, 直播原文出处: Todd Hoff   译文出处:Inside - Mia   【伯乐在线小编注】:此文来自合作网站 Inside 硬塞,他们是台湾网站,所以本文中有些技术术语和大陆不一样。知道

2016-07-06 10:03:35 818

转载 我从编程总结的 22 个经验

我从编程总结的 22 个经验发布于:2016/06/18http://blog.jobbole.com/102562/以下所列是我在这些年来软件开发工作过程中受到的启发,还有总结而来的好经验。开发从小事做起,然后再扩展无论是创建一个新的系统,还是在现有的系统中添加新的功能,我总是从一个简单到几乎没有

2016-07-06 09:56:06 285

转载 一篇文章,掌握所有开源数据库的现状

一篇文章,掌握所有开源数据库的现状发布于: 2016年06月30日数据库作为业务的核心,是整个基础软件栈非常重要的一环。近几年的开源社区,新的思想和方案层出不穷,我将总结一下近几年一些主流的开源数据库方案,及其背后的设计思想以及适用场景。本人才疏学浅如有遗漏或者错误请见谅。本次分享聚焦于数据库即结构化数据存储 OLTP 及 NoSQL 领域,不会涉及 OLAP、对象存储

2016-07-06 09:47:08 1569

转载 Apache Ignite(一):简介以及和Coherence、Gemfire、Redis等的比较

Apache Ignite(一):简介以及和Coherence、Gemfire、Redis等的比较一、Ignite简介Apache Ignite 内存数组组织框架是一个高性能、集成和分布式的内存计算和事务平台,用于大规模的数据集处理,比传统的基于磁盘或闪存的技术具有更高的性能,同时他还为应用和不同的数据源之间提供高性能、分布式内存中数据组织管理的功能。二、Ignit

2016-07-05 15:46:36 5353

转载 Java程序员使用的20几个大数据工具

Java程序员使用的20几个大数据工具http://www.36dsj.com/archives/44144这是一个系列,主题为:语言web框架应用服务器SQL数据访问工具SQL数据库大数据构建工具云提供商    今天我们就要说说大数据。根据维基百科,大数据是数据集的一个广义的术语,并且该数据集是如此庞大和复杂,以致于传统的数据处理应用程序无法胜任。

2016-07-05 11:42:02 317

转载 开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等http://www.36dsj.com/archives/25042第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。日志收集系统一、Facebook Scribe贡献者:

2016-07-05 11:40:07 3367

转载 开源大数据处理工具汇总(上)

开源大数据处理工具汇总(上)http://www.36dsj.com/archives/24852查询引擎一、Phoenix贡献者::Salesforce简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动

2016-07-05 11:37:33 737

转载 flume-kafka-storm日志处理经验

flume-kafka-storm日志处理经验      最近搞日志处理,注意是日志处理,如果用流计算处理一些金融数据比如交易所的行情数据,是不能这么“粗鲁”的,后者必须还考虑数据的完整性和准确性。以下是在实践过程中的一点点小总结,提供给日志分析的盆友参考,也欢迎大家来分享您遇到的一些情况:(一)flume到kafka的实时数据优于单条过快,造成storm spout消费kaf

2016-07-05 11:25:21 404

转载 【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建

【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建http://blog.csdn.net/weijonathan/article/details/18301321

2016-07-05 11:17:04 384

转载 Ubuntu14.04快速搭建SVN服务器及日常使用

【转】 http://lizhenliang.blog.51cto.com/7876557/16518311、介绍Subversion是一个自由,开源的版本控制系统,这个版本库就像一个普通的文件服务器,不同的是,它可以记录每一次文件和目录的修改情况。这样就可以很方面恢复到以前的版本,并可以查看数据更改细节。目前,Subversion已成为主流的开源代码版本管理软件之

2016-07-05 09:51:47 290

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除