搜索引擎
技术没有止境_2015
多年的C\C++\.NET(C#)\Matlab开发经历,热衷于算法的研究和实现,现从事大数据开发方面的工作,每天和Java、Hadoop、R打交道。热爱软件开发这个行业,希望结交行业内热爱技术的大牛。
展开
-
网络爬虫开发技术——快速线程池爬虫
0×00 简介 0×01 功能定义 0×02 总体流程 0×03 线程池任务迭代 0×04 具体实现 0×05 测试使用 0×06 结语 0×00 简介 本文算是填前面的一个坑,有朋友和我将我前面写了这么多,真正没看到什么特别突出的实战,给了应对各种情况的方案。多线程那里讲的也是坑。忽然想想,说的也对,为读者考虑我确实应该把多线程这里的坑补完。 然后决定再以一篇文转载 2016-04-06 13:44:18 · 1919 阅读 · 0 评论 -
网络爬虫开发技术——数据存储以及多线程
0×00 介绍 本文我们就两个方面来讨论如何改进我们的爬虫:数据存储和多线程,当然我承认这是为我们以后要讨论的一些东西做铺垫。 目的:通常我们需要对爬虫捕捉的数据进行分析,处理,再次利用或者格式化,显然我们不能只是把爬虫捕捉到的数据在内存中处理,然后打印在屏幕上。在本章,我将介绍几种主流的数据存储方法。爬虫处理数据的能力往往是决定爬虫价值的决定性因素,同时一个稳定的存储数据的方法也绝对转载 2016-04-06 13:41:39 · 3202 阅读 · 0 评论 -
网络爬虫开发技术——整站爬虫与Web挖掘
0×00 介绍 0×01 协议 0×02 原则 0×03 确立目标与分析过程 0×04 动手 0×05 sitemap爬虫 0×06 web元素处理 0×07 总结与预告 0×00 介绍 在互联网这个复杂的环境中,搜索引擎本身的爬虫,出于个人目的的爬虫,商业爬虫肆意横行,肆意掠夺网上的或者公共或者私人的资源。显然数据的收集并不是为所欲为,有一些协议或者原则还是需要转载 2016-04-06 13:36:54 · 3352 阅读 · 0 评论 -
网络爬虫开发技术——入门
0×00 介绍 0×01 要求 0×02 你能学到什么? 0×03 知识补充 0×04 最简单的开始 0×05 更优雅的解决方案 0×06 url合法性判断 0×07 总结与预告 0×00 介绍 爬虫技术是数据挖掘,测试技术的重要的组成部分,是搜索引擎技术的核心。 但是作为一项普通的技术,普通人同样可以用爬虫技术做很多很多的事情,比如:你想了解一下FreeBuf转载 2016-04-06 13:31:11 · 7062 阅读 · 0 评论