爬虫系列
一许流星
不要在该拼搏的时候选择安逸!
展开
-
find_elements()和find_element()的区别
1.find_element()的用法 对于find_element()的使用,他需要传入2个参数,查找方式by和值,如find_element_by_id("name")等价于find_element(By.id,'name') 习惯上写第一种但是find_element()只会查找页面中符合条件的第一个节点,并返回2.find_elements()的用法...原创 2018-09-11 22:04:27 · 28083 阅读 · 1 评论 -
案例_使用Selenium与PhantomJS爬取斗鱼房间信息
1.爬取之前的准备 在爬取之前,现有安装好2个东西:Selenium和PhantomJS,安装方法见我之前的博客:https://blog.csdn.net/ywk_hax/article/details/82556679; 当然phantomJS也可以用别的浏览器替代,根据自己的浏览器安装相应的driver即可,如firefox对应的driver:geckodriv...原创 2018-09-10 22:18:04 · 331 阅读 · 0 评论 -
selenium库和PhantomJS浏览器的安装与简单使用
selenium库和PhantomJS浏览器的安装与简单使用1.安装selenium包pip install selenium Selenium 可以根据我们的指令,让浏览器自动加载页面, 获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。 Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。 但是我们有...原创 2018-09-09 11:08:49 · 713 阅读 · 0 评论 -
案例_(多线程)爬取糗事百科
讲解都写在代码注释中了,直接上代码# 使用了线程库import threading# 队列from queue import Queue# 解析库from lxml import etree# 请求处理import requests# json处理import timeclass ThreadCrawl(threading.Thread): def __ini...原创 2018-09-09 11:25:51 · 245 阅读 · 0 评论 -
爬虫爬取51job python职位相关信息
分析如下:1.(深圳)搜索页: https://search.51job.com/list/040000,000000,0000,00,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&am...原创 2018-09-09 11:03:29 · 607 阅读 · 0 评论 -
urllib.error.URLError urllib.error的处理办法
在使用python发起urlopen的时候会经常出现:urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:777)>类型的错误 可能原因分析:Python 2.7.9 之后引入了一个新特性当你u...原创 2018-09-09 10:17:35 · 15435 阅读 · 3 评论 -
案例_(单线程)使用xpath爬取糗事百科
案例_(单线程)使用xpath爬取糗事百科步骤如下:首先通过xpath插件找出我们要爬取的信息的匹配规则url = "https://www.qiushibaike.com/8hr/page/1/"xpath插件的模糊查询:contains(),第一个参数是要匹配的标签,第二个参数是这个标签的部分内容1.//div[contains(@id,"qiushi_tag_")] 匹...原创 2018-09-03 21:05:00 · 495 阅读 · 0 评论 -
案例_(单线程)使用正则的内涵段子爬虫
(单线程)使用正则的内涵段子爬虫代码如下 1 from urllib.request import * 2 import re 3 import time 4 5 6 class Spider(object): 7 def __init__(self): 8 self.__start_page = int(input("请输入要爬取的开始页面:"...原创 2018-09-03 21:25:00 · 220 阅读 · 0 评论 -
案例_(多线线程)爬取糗事百科
1 # 使用了线程库 2 import threading 3 # 队列 4 from queue import Queue 5 # 解析库 6 from lxml import etree 7 # 请求处理 8 import requests 9 # json处理 10 import time 11 12 13 class ThreadCrawl...原创 2018-09-04 22:43:00 · 249 阅读 · 0 评论 -
拉勾网Python岗位爬取
具体流程都在我写的注释中,完整代码如下:import timefrom selenium import webdriverclass LagouSpider(object): def __init__(self): # 准备 start_url self.start_url = "https://www.lagou.com/jobs/list_...原创 2018-09-11 22:24:06 · 265 阅读 · 0 评论 -
xpath的语法小结
不使用scrapy框架进行爬虫的xpath常用方法1.简单介绍XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。2. XML文档源码举例<xml version="1.0" encoding="ISO-8859-1"?><bookstore><book&g...原创 2018-09-13 22:06:15 · 342 阅读 · 0 评论