Crawler
Marho11
这个作者很懒,什么都没留下…
展开
-
在搜索引擎中搜索关键字得到的结果页数的获取技巧
有时候我们用爬虫来爬取搜索引擎时,想获取在搜索引擎中搜索关键字得到的结果页数,总不能一页一页的翻下去吧。。。所以可以采用下面的技巧来获得:如,我们在百度搜索引擎中搜索“无极道”这个关键字,想知道结果到底有几页,我们可以在浏览器的网址输入框中输入:https://www.baidu.com/s?wd=无极道&pn=750,注意一定要用750,好像其他的数字是不行的,原因我也不知道,哈哈,反正原创 2015-12-31 18:17:36 · 4120 阅读 · 0 评论 -
一种提取HTML网页正文的方法
package getContent;import java.io.IOException;import java.util.HashMap;import java.util.Stack;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup转载 2016-11-17 21:10:44 · 1556 阅读 · 0 评论 -
URLError: <urlopen error [Errno 10051] >
在写一个简单小爬虫时,命令行执行时遇到下面这个错误:Traceback (most recent call last): File "E:\Anaconda2\lib\site-packages\boto\utils.py", line 210, in retry_url r = opener.open(req, timeout=timeout) File "E:\An原创 2016-09-06 14:58:32 · 3402 阅读 · 0 评论 -
centos6.7+python3.5.2安装scrapy(待修改完善)
在安装scrapy的前提需要安装python,pip,setuptools,OpenSSL,lxml安装python3.5,pip参考这篇文章安装lxml:安装之前记得安装libxslt和libxmlyum install libxml* -yyum install libxslt* -y wget http://lxml.de/files/lxml-3.原创 2016-09-01 14:02:30 · 1733 阅读 · 0 评论 -
Ubuntu14.04安装Python3.5
Scrapy已经支持Python3了https://blog.scrapinghub.com/2016/02/04/python-3-support-with-scrapy-1-1rc1/在安装Scrapy前确保下面的几个已经安装好:1、Python3.52、pip Python2.7.9和之后的版本都已包括pip。3、lxml 大部分Linux版本已经安装了lxml,否则参原创 2016-08-31 10:40:08 · 6922 阅读 · 0 评论 -
糗事百科简单爬虫
仅仅为了记录,只抓一页的1、用正则写的#coding=utf-8import urllibimport urllib2import refrom lxml import etreepage = 1url = 'http://www.qiushibaike.com/hot/page/' + str(page)user_agent = 'Mozilla/5.0 (Windows原创 2016-07-15 17:59:34 · 397 阅读 · 0 评论 -
Python+lxml解析html
代码中有注释:import lxml.etreeimport syshtml = ''' 友情链接查询 - 站长工具 Top News World News only on this page Ah, and here's some more text, by the way. ...原创 2016-07-14 14:37:31 · 12030 阅读 · 0 评论 -
WebCollector爬取百度搜索引擎例子
使用WebCollector来爬取百度搜索引擎按照关键字搜索的结果页面,解析规则可能会随百度搜索的改版而失效。代码如下:package com.wjd.baidukey.crawler;import java.io.ByteArrayInputStream;import java.io.FileOutputStream;import java.io.IOException;imp原创 2016-01-05 13:12:11 · 5021 阅读 · 0 评论 -
WebCollector爬取百度搜索引擎
package test;import java.io.UnsupportedEncodingException;import java.net.URLEncoder;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import cn.edu.hfut.dmic.webcollector.model.C原创 2016-01-07 11:27:14 · 2032 阅读 · 0 评论 -
[Anaconda2]Selenium+PhantomJS环境搭建
最近在学习python的js解析,发现使用Selenium+PhantomJS的方案还是比较适合我的,以下是环境配置教程。Selenium及PhantomJS介绍:Selenium是一个用于Web应用程序测试的工具,Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Chrome等。 Phantom JS是一个服务器端的 Java原创 2016-11-15 11:17:11 · 3659 阅读 · 1 评论