2016年03月_冰峰zoubf

转载 selenium运行火狐报错FirefoxDriver : Unable to connect to host 127.0.0.1 on port 7055

摘要: 这是个常见的启动firefoxdriver的问题，具体的错误日志如下，其实原因很简单，就是你的Selenium版本和firefox 不兼容了。 Firefox 版本太高了, 请及时查看你安装的firefox版本. 检查你的selenium jar包版本 ...这是个常见的启动firefoxdriver的问题，具体的错误日志如下，其实原因很简单

2016-03-31 21:49:39 5484

原创 maven中央仓库不能访问的解决办法

导入Maven项目，编译时候出错，好象是接不上apache.org/maven2，下载不了maven-resources-plugin-2.6.jar 这个jar包出错内容：Plain Text code?12345678910111213

2016-03-29 21:37:07 76784 7

转载 Maven 那点事儿

0. 前言Jason Van Zyl，在 Java 十大风云人物排行榜上或许会看到他。这兄弟是干嘛的？他就是 Maven 的创始人，人们都尊称他为“Maven 他爸”。毋庸置疑，Jason 也是一个秃顶。James Gosling、Rod Johnson、Gavin King，你们可以告诉我为什么吗？您曾经是否会遇到这些问题：我们要开发一个

2016-03-28 22:18:01 467

转载 Selenium WebDriver + Python 环境

1. 下载必要工具及安装包1.1.【Python开发环境】下载并安装Python 2.7.x版本（当前支持2.x版本，不要下载最新的3.X的版本因为python3并非完全兼容python2）下载地址：https://www.python.org/downloads/ 1.2.【python 的安装包管理工具】Pippip 是python 软件包的安装和管理工具，有了

2016-03-26 22:17:50 823

转载 Beautiful Soup 4.2.0 文档

参考文档：http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.这篇文档介绍了BeautifulSoup4中所

2016-03-26 20:54:49 108

转载 Selenium 实现爬虫

1下载selenium-server-standalone-2.41.0.jarchromedriver_win32.zip IEDriverServer_x64_2.42.0.zip 2设置环境1)解压chromedriver_win32.zip，把chromedriver.exe拷贝至C:/ selenium/chrome/2)解压IEDriver

2016-03-26 10:20:54 5617

转载爬虫(Spider)，反爬虫(Anti-Spider)

爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider)，这之间的斗争恢宏壮阔...Day 1小莫想要某站上所有的电影，写了标准的爬虫(基于HttpClient库)，不断地遍历某站的电影列表页面，根据 Html 分析电影名字存进自己的数据库。这个站点的运维小黎发现某个时间段请求量陡增，分析日志发现都是 IP(1.1.1.1)这个用户，并且

2016-03-24 22:33:41 3092

转载如何给网站加入优雅的实时反爬虫策略

你的网站内容很有价值，希望被google，百度等正规搜索引擎爬虫收录，却不想让那些无节操的山寨爬虫把你的数据扒走坐享其成。本文将探讨如何在网站中加入优雅的反爬虫策略。【思路】反爬虫策略要考虑以下几点：能被google、百度等正规搜索引擎爬虫抓取，不限流量和并发数；阻止山寨爬虫的抓取；反爬虫策略应该是实时检测的，而不是通过一段时间后的访问统计分

2016-03-24 22:28:17 5532

转载 XPath 教程

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此，对 XPath 的理解是很多高级 XML 应用的基础。在学习之前应该具备的知识：在您继续学习之前，应该对下面的知识有基本的了解：·

2016-03-24 10:22:15 3601

JsoupXpath (https://github.com/zhegexiaohuozi/JsoupXpath)是一款纯Java开发的使用xpath解析提取html内容的解析器，xpath语法分析与执行完全独立，html的DOM树生成借助Jsoup，故命名为JsoupXpath. 为了在java里也享受xpath的强大与方便但又苦于找不到一款足够强大的xpath解析器，故开发了JsoupXpat

2016-03-24 10:19:45 1528

转载 JAVA 正则表达式（超详细）

在Sun的Java JDK 1.40版本中，Java自带了支持正则表达式的包，本文就抛砖引玉地介绍了如何使用java.util.regex包。　　可粗略估计一下，除了偶尔用Linux的外，其他Linu x用户都会遇到正则表达式。正则表达式是个极端强大工具，而且在字符串模式-匹配和字符串模式-替换方面富有弹性。在Unix世界里，正则表达式几乎没有什么限制，可肯定的是，它应用非常之广泛。

2016-03-21 21:34:12 1148

转载 Java+MySQL实现网络爬虫程序

网络爬虫，也叫网络蜘蛛，有的项目也把它称作“walker”。维基百科所给的定义是“一种系统地扫描互联网，以获取索引为目的的网络程序”。网络上有很多关于网络爬虫的开源项目，其中比较有名的是Heritrix和Apache Nutch。有时需要在网上搜集信息，如果需要搜集的是获取方法单一而人工搜集费时费力的信息，比如统计一个网站每个月发了多少篇文章、用了哪些标签，为自然语言处

2016-03-20 22:24:55 1797 1

转载 PhantomJS快速入门教程

Phantom JS是一个服务器端的 JavaScript API 的 WebKit。其支持各种Web标准： DOM 处理, CSS 选择器, JSON, Canvas, 和 SVGPhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持，其快速，原生支持各种Web标准： DOM 处理, CSS 选择器, JS

2016-03-20 22:03:25 846

转载 Berkeley DB基础教程

一、Berkeley DB的介绍（1）Berkeley DB是一个嵌入式数据库，它适合于管理海量的、简单的数据。如Google使用其来保存账户信息，Heritrix用其来保存froniter.（2）key/value是Berkeley DB用来管理数据的基础，每个key/value对代表一条记录。（3）Berkeley DB在底层实现采用B树，可以看成能够存储大量数据的

2016-03-20 11:33:35 3066

转载运用 jsoup 对 HTML 文档进行解析和操作

使用 jsoup 对 HTML 文档进行解析和操作(比HTMLParser好）jsoup 简介Java 程序在解析 HTML 文档时，相信大家都接触过 htmlparser 这个开源项目，我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章，分别是：从 HTML 中攫取你所需的信息和?扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用

2016-03-20 10:43:05 471

转载 jsoup 和nekohtml，htmlparser解析html

仅以此文章表达介绍下将html解析成纯文本的多种方式 1.jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。可参考：http://www.iteye.com/topic/1010581 Java代码 public void parse(String urlStr) { // 返回结果初始化。

2016-03-20 10:40:49 1249

转载 HtmlParser基础教程

1、相关资料官方文档：http://htmlparser.sourceforge.net/samples.htmlAPI：http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器：jsoup等。由于HtmlParser自2006年以后就再没更新，目前很多人推荐使用jsoup代替它。2、使

2016-03-20 10:16:06 74

转载 HttpClient使用详解

Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会

2016-03-20 10:15:04 356

转载 Impala：新一代开源大数据分析引擎

摘要：大数据处理是云计算中非常重要的领域，自Google公司提出MapReduce分布式处理框架以来，以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。本文将讲述Hadoop系统中的一个新成员：Impala。Impala架构分析Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已

2016-03-10 15:10:49 518

转载 Apache Hadoop最全生态系统介绍

下面详细介绍生态系统的组成。 1. HDFSHDFS（Hadoop Distributed File System，Hadoop分布式文件系统）是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。2.

2016-03-05 21:53:42 3299

转载 Cloudera Manager （centos）安装详细介绍

首先介绍Cloudera的CDH和Apache的Hadoop的区别Cloudera的CDH和Apache的Hadoop的区别目前而言，不收费的Hadoop版本主要有三个（均是国外厂商），分别是：Apache（最原始的版本，所有发行版均基于这个版本进行改进）、Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，

2016-03-04 22:59:53 2620

转载常见的反爬虫和应对方法

0x01 常见的反爬虫　　这几天在爬一个网站，网站做了很多反爬虫工作，爬起来有些艰难，花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。　　从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。　　一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多

2016-03-04 22:46:51 7816

转载网页爬虫及其用到的算法和数据结构

网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。网络爬虫是搜索引擎系统中十分重要的组成部分，它负责从互联网中搜集网页，采集信息，这些网页信息用于建立索引从而为搜索引擎提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。　　网络爬虫程序的优劣，很大程度上反映了一个搜索引擎的好差。不信，你可以随便拿一个网站去查询

2016-03-04 22:30:47 6827 1

原创 windows下面安装Python和pip教程

Python语言对于windows并不算很友好，在windows环境下安装，会遇到各种蛋疼的情况。下面提供傻瓜式的教程，能够令读者成功安装Python和pip。第一步，我们先来安装Python，博主选择的版本是最新的3.4.2版本。windows下面的Python安装一般是通过软件安装包安装而不是命令行，所以我们首先要在Python的官方主页上面下载最新的Python安装包。下载地址是：h

2016-03-04 21:24:48 4386

转载 Hue安装配置实践

Hue是一个开源的Apache Hadoop UI系统，最早是由Cloudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job等等。很早以前就听说过Hue的便利与强大，一直没能亲自尝试使用

2016-03-04 13:09:54 1486

转载 83款网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 NutchNutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目

2016-03-03 21:50:15 1964

转载基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上，是一个典型的分布式离线批量处理架构，有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取，所以，需要一个分布式搜索引擎，用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。搜索引擎架构在ElasticSearch之上，是一个典型的分布式在线实时交互查询架构，无单点故障，高伸缩、高可用。对大量信息的索

2016-03-03 21:42:44 2058

转载 Python开源爬虫框架：Scrapy架构分析

摘要 Python开源的爬虫框架Scrapy是一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

2016-03-03 21:37:09 1852

转载网络蜘蛛的安全隐患及预防方法

网络爬虫概述网络爬虫(Web Crawler)，又称网络蜘蛛(Web Spider)或网络机器人(Web Robot)，是一种按照一定的规则自动抓取万维网资源的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。随着网络的迅速发展，万维网成为大

2016-03-03 21:34:44 914

转载 Python抓取框架Scrapy快速入门教程

Scrapy是一个非常好的抓取框架，它不仅提供了一些开箱可用的基础组建，还能够根据自己的需求，进行强大的自定义。本文对基本用法和常见问题做一个记录。1、安装Scrapy虽然是python的模块，但是依赖包比较多，所以我推荐使用apt安装：Python1sudo apt-g

2016-03-03 21:29:06 2516

转载垂直型爬虫架构设计

（一）1.爬虫的分类 : 对于我来说,爬虫分为两类: 需要载入配置文件的爬虫与不需要载入配置文件的爬虫. 其实也就是人们常说的垂直型爬虫跟宽度(深度)遍历爬虫. 2.爬虫的架构: 1.宽度遍历爬虫. 做过SEO的朋友大概都知道,

2016-03-03 21:20:10 7328 1

转载 webmagic的设计机制及原理-如何开发一个Java爬虫

webmagic crawler scrapy SpiderMan crawler4j目录[-]webmagic的目标webmagic的模块划分Spider类-核心调度Downloader-页面下载PageProcessor-页面分析及链接抽取JsoupHtmlParserApache tikaHtmlCleaner与XPath几

2016-03-03 21:03:28 1163

zoubf的专栏