爬虫_Arthur54271的博客-CSDN博客

爬虫

关注

文章平均质量分 66

关注数：文章数：40 文章阅读量：69199 文章收藏量：75

作者: Arthur54271

人生苦短，我用Python

展开

Python3-urllib库--网页抓取

#urllib库的基本使用'''1、网页抓取就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。python2:urllib2python3:urllib.request'''#1、引入模块from urllib import request#2、操作#(1)定义目标urlbase_url="http://www.baidu.com"#(2)发起请求（GE...

原创 2018-04-09 22:51:39 · 213 阅读 · 0 评论
Python3-爬虫~PhantomJS配置安装 mac版

基于webkit的javaScript API。提供了css选择器，提供了处理文件的I/O操作，支持Web标准、DOM操作、JSON、HTML5、Canvas、SVG。mac安装配置：1. http://phantomjs.org/download.html下载phantomjs-2.1.1-macosx；2. 命令行输入：cd /usr/bin/；3. 再执行：open ~/.bash_pro...

转载 2018-05-16 16:27:59 · 885 阅读 · 0 评论
Python3-爬虫~cookie\session

关于cookie和session估计很多程序员面试的时候都会被问到，这两个概念在写web以及爬虫中都会涉及，并且两者可能很多人直接回答也不好说的特别清楚，所以整理这样一篇文章，也帮助自己加深理解什么是Cookie其实简单的说就是当用户通过http协议访问一个服务器的时候，这个服务器会将一些Name/Value键值对返回给客户端浏览器，并将这些数据加上一些限制条件。在条件符合时，这个用户下次再访问服...

转载 2018-05-15 15:46:10 · 645 阅读 · 0 评论
Python-爬虫请求~requsts~post

import requests,sslssl._create_default_https_context=ssl._create_unverified_contextdata={"i":"j","from":"AUTO","to":"AUTO","smartresult":"dict","client":&quo

原创 2018-05-15 14:56:57 · 403 阅读 · 0 评论
Python-爬虫请求~requsts~get

#二、数据解析：#1.正则#2.bs4#3.xpath#网络请求模块：#1.urllibfrom urllib import request#2.requests# 安装：pip install requestsimport requests#2.1GET请求#urllib方法base_url = "http://langlang2017.com"# respons...

原创 2018-05-15 14:33:40 · 10560 阅读 · 0 评论
Python-爬虫代理--proxy（反爬）

from urllib import requestimport random,sslssl._create_default_https_context=ssl._create_unverified_context#代理列表proxy_list=[ {'https':'175.5.44.34:808'}, {"https":"122.72.18.35:80"}, ...

原创 2018-05-15 11:09:43 · 2405 阅读 · 0 评论
Python3~xpath应用糗事百科爬虫

from urllib import requestfrom lxml import etreeimport reimport sslimport jsonssl._create_default_https_context=ssl._create_unverified_contextdef spider(page): base_url='https://www.qiushi...

原创 2018-05-14 14:07:12 · 275 阅读 · 0 评论
Python3-selenium之 chromedriver与chrome版本映射表（更新至v2.37）

看到网上基本没有最新的chromedriver与chrome的对应关系表，便兴起整理了一份如下，希望对大家有用：chromedriver版本支持的Chrome版本v2.37v64-66v2.36v63-65v2.35v62-64v2.34v61-63v2.33v60-62v2.32v59-61v2.31v58-60v2.30v58-60v2.29v56-58v2.28v55-57v2.27v54-...

转载 2018-05-19 18:47:44 · 1085 阅读 · 0 评论
Python3-selenium\phantomjs\bs4爬取斗鱼页面

from selenium import webdriverimport timefrom bs4 import BeautifulSoupclass douyuSelenium(): #初始化，启动斗鱼浏览器 def setup(self): self.driver=webdriver.PhantomJS() #获取斗鱼房间信息 def ...

原创 2018-05-19 12:59:23 · 277 阅读 · 0 评论
Python3~selenium\phantomjs实现改变js改变页面控件的属性（边框粗细，颜色，线的类型）\下拉

#执行js语句from selenium import webdriverimport time,osdriver=webdriver.PhantomJS()driver.get('https://www.baidu.com/')time.sleep(3)root_dir='baidu'if not os.path.exists(root_dir): os.mkdir(ro...

原创 2018-05-23 14:29:31 · 1452 阅读 · 0 评论
Python3~创建myspider项目

#导入scrapy模块：如果变红，去选择一个编译环境，如果没有scrapy，点“+”添加import scrapy#新建一个爬虫类#格式：class 爬虫名称Spider(scrapy.Spider)class BaiduSpider(scrapy.Spider):# 1.指定一个爬虫名称 name='baidu'#2.初始启动链接 # start_urls名字固定...

原创 2018-05-29 14:02:14 · 899 阅读 · 0 评论
Scrapy配合Selenium和PhantomJS爬取动态网页

Python世界中Scrapy一直是爬虫的一个较为成熟的解决方案，目前javascript在网页中应用越来越广泛，越来越多的网站选择使用javascript动态的生成网页的内容，使得很多纯html的爬虫解决方案失效。针对这种动态网站的爬取，目前也有很多解决方案。其中Selenium+PhantomJS是较为简单和稳定的一种。Selenium是一个网页的自动化测试工具，其本身是用python编写的。...

转载 2018-06-01 09:22:53 · 963 阅读 · 0 评论
Ubuntu16.04安装Scrapy命令

背景命令行下有三种安装Scrapy的方式：apt-get:千万不要用，因为你会下载到一个上古时期的Scrapy版本，产生一系列与你参考教程的代码不兼容的问题easy_install:我没有安装成功pip:Scrapy官网上推荐的下载方式，我们使用这种方法安装首先python、lxml、OpenSSL这些工具Ubuntu是自带的，不用管它们。其次安装pip，在命令行中执行以下命令：sudo apt-...

转载 2018-05-31 17:27:10 · 204 阅读 · 0 评论
Python3~Scrapy+PhantomJS+Selenium动态爬虫

转自http://jiayi.space/post/scrapy-phantomjs-seleniumdong-tai-pa-chong#fb_new_comment很多网页具有动态加载的功能，简单的静态页面爬虫对它就无能为力了。这时候就需要PhantomJS+Selenium两大神器，再加上Scrapy爬虫框架，就可以拼凑成一个动态爬虫。PhantomJS简单点说PhantomJS就是一个没有界...

转载 2018-05-31 16:26:57 · 1107 阅读 · 0 评论
Python3~scrapy项目之下载网页图片

# -*- coding: utf-8 -*-import scrapy,re,osfrom PY_2018_03_17.items import TuKuItemfrom urllib import requestclass TukuSpider(scrapy.Spider): name = 'tuku' allowed_domains = ['lanrentuku.c...

原创 2018-05-31 14:36:47 · 614 阅读 · 0 评论
Python3~scrapy项目之爬取当前页和下一页

# -*- coding: utf-8 -*-import scrapyfrom urllib import requestfrom Py06_2018_3_16.items import TencentItemclass tencentNextPageSpider(scrapy.Spider): name = 'tencent_next_page' allowed_do...

原创 2018-05-30 18:59:59 · 10415 阅读 · 0 评论
Python3~scrapy项目之爬取当前页和详细页

# -*- coding: utf-8 -*-import scrapyfrom urllib import requestfrom Py06_2018_3_16.items import TencentItemclass TencentSpider(scrapy.Spider): name = 'tencent' allowed_domains = ['hr.tence...

原创 2018-05-30 16:00:17 · 2736 阅读 · 0 评论
Python3~scrapy项目下settings.py日志问题

#日志文件LOG_FILE='qiushi.log'#LOG有等级#日志等级LOG_LEVEL='INFO'#5个级别的日志#最高等级5 --严重错误 --CRITICAL#等级4 --一般错误 --ERROR#等级3 --警告信息 --WARNING#等级2 --一般信息 --INFO#等级1 --调试信息 --DEBUG#是否启用日志LOG_ENABLE=True...

原创 2018-05-30 11:16:42 · 771 阅读 · 0 评论
Python3~Scrapy框架爬取网页数据到MySql~pipelines.py

# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.htmlimport ...

原创 2018-06-12 11:18:49 · 333 阅读 · 0 评论
Python3~xpath

from lxml import etreefrom urllib import requestimport sslssl._create_default_https_context=ssl._create_unverified_contexthtml='''<bookstore> <title>新华书店</title> <bo...

原创 2018-05-13 11:46:54 · 735 阅读 · 0 评论
Python3-爬虫~selenium\phantomjs\爬取XX网页电影过程中向下滚动网页问题

from selenium import webdriverimport os,timedriver=webdriver.PhantomJS()driver.get('https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=')...

原创 2018-05-18 15:28:34 · 471 阅读 · 1 评论
Python3-爬虫登录开心网的账号，并且爬取个人主页内容

#爬虫登录开心网的账号，并且爬取个人主页内容from urllib import request,parsefrom http import cookiejarimport ssl#取消SSL验证ssl._create_default_https_context=ssl._create_unverified_context#定义请求管理器#url.request.urlopen...

原创 2018-04-13 15:45:17 · 1718 阅读 · 0 评论
Python3-网页爬取-SSL验证

'''SSL--校验网站证书----针对https，不针对http一、什么是SSL证书'''from urllib import requestimport ssl#ssl免验证#创建一个不需要验证的上下文ssl._create_default_https_context=ssl._create_unverified_context#而不是ssl._create_unverif...

原创 2018-04-13 11:43:44 · 2470 阅读 · 0 评论
Python3-网页爬取-post方式实现百度翻译

#请求方式 postfrom urllib import request,parseimport jsondef fanyi(content): data={ 'kw':content } data=parse.urlencode(data) # print(len(data)) base_url = 'http://fanyi....

原创 2018-04-12 17:01:38 · 1232 阅读 · 0 评论
Python3-网页爬取-批量爬取贴吧页面数据

# 批量爬取贴吧页面数据# 网页抓取汉字转码、多个参数拼接# 第1页： https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=0# 第2页：https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&a...

原创 2018-04-12 14:22:02 · 1769 阅读 · 0 评论
Python3-网页爬取-网页抓取汉字转码、多个参数拼接

#网页抓取汉字转码、多个参数拼接from urllib import request#将汉字转成unicode码from urllib import parse# base_url='http://www.baidu.com/s?wd='base_url='http://www.baidu.com/s?wd='content=input('请输入你要搜索的内容：')# base...

原创 2018-04-12 12:02:02 · 1298 阅读 · 0 评论
Python3-抓取某翻译网页获取js数据

#抓取有道翻译网页获取js数据#找接口，至少尝试三次以上from urllib import parse,requestimport time,randomimport hashlibimport json#md5加密def getMd5(str): md5 = hashlib.md5() md5.update(bytes(str, encoding='utf...

原创 2018-04-17 21:54:17 · 1067 阅读 · 0 评论
Python3-网页爬取-判断user-agent,判断是否是正常浏览器访问

'''判断user-agent,判断是否是正常浏览器访问'''from urllib import requestbase_url = "http://www.langlang2017.com"headers = { "connnction":"keep-alive", "USer_Agent":"mozilla/5.0 (Windows nt 6.1; WOW64...

原创 2018-04-12 11:08:45 · 2874 阅读 · 0 评论
Python3-网页爬取-假装浏览访问，假装不同的浏览器访问。

'''假装浏览访问，假装不同的浏览器访问。从user_agent_list.txt文件中，读取user_agent数据，用来封装成一个带headers的request对象，进行网站页面的爬取。'''from urllib import requestimport randombase_url = "http://www.baidu.com"#1.读取文件内容text = ""w...

原创 2018-04-12 11:07:30 · 686 阅读 · 0 评论
Python3-正则表达式~pattern.findall

import repattern=re.compile(r'\d+')# pattern=re.compile(r'\d')#['1', '2', '3', '4', '5', '6', '7', '8', '9']s=pattern.findall('hello 12345 6789')# print(s)#['12345', '6789']# 举例1：I love China 输...

原创 2018-05-09 14:35:53 · 4261 阅读 · 0 评论
Python3-正则表达式~爬取猫眼电影应用

import re,jsonfrom urllib import request#maoyan.com#1.获取网页内容base_url='http://maoyan.com/board'response=request.urlopen(base_url)html=response.read()html=html.decode('utf-8')#写入文件with open('m...

原创 2018-05-09 18:04:30 · 557 阅读 · 0 评论
Python3-爬虫~selenium\phantomjs\豆瓣登录过程中处理验证码

#豆瓣登录from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsimport os,timedriver=webdriver.PhantomJS()driver.get('https://www.douban.com/')#网络请求时间time.sle...

原创 2018-05-18 12:57:14 · 571 阅读 · 0 评论
Python3-爬虫~selenium\phantomjs\豆瓣音乐例子

from selenium import webdriverimport os,timefrom lxml import etree#豆瓣音乐root_dir='douban'if not os.path.exists(root_dir): os.mkdir(root_dir)#访问driver=webdriver.PhantomJS()base_url='https:...

原创 2018-05-18 10:39:27 · 252 阅读 · 0 评论
Python3~爬取某翻译网页的单词与解释

from urllib import requestfrom bs4 import BeautifulSoupimport sslssl._create_default_https_context=ssl._create_unverified_context#一、网络请求页面base_url = "https://www.shanbay.com/wordlist/110521/232...

原创 2018-05-11 16:53:50 · 1288 阅读 · 0 评论
Python3~爬取某公司招聘信息

from urllib import requestfrom bs4 import BeautifulSoupimport sslimport jsonssl._create_default_https_context=ssl._create_unverified_contextdef bs4_parse(list_obj): item_list=[] for tr...

原创 2018-05-11 15:46:50 · 507 阅读 · 0 评论
Python3-爬虫~selenium\phantomjs\豆瓣应用例子

import requests,sslimport os,timefrom selenium import webdriver,commonfrom lxml import etreeroot_dir='douban/img'if not os.path.exists(root_dir): os.mkdir(root_dir)driver=webdriver.PhantomJ...

原创 2018-05-17 12:43:14 · 613 阅读 · 0 评论
Python3-爬虫~selenium\phantomjs\ActionChains百度例子

#安装：pip install selenium=2.48.0#显示：pip show selenium#卸载：pip uninstall selenium#模拟用户行为import os,timefrom selenium import webdriver,commonimport seleniumfrom selenium.webdriver.common.action_cha...

原创 2018-05-17 11:03:39 · 411 阅读 · 0 评论
Python3-爬虫~selenium\phantomjs报错处理selenium.common.exceptions.ElementNotVisibleException

意思是element是不可见的。所以无法获取到。这时候就遇到一个难题，怎么把element变成可见的呢？这时候，我们就用ActionChains来模拟效果ActionChains(driver).click(driver.find_element(By.ID, ‘g-hd-searchs‘)).perform() #使用perform()才能执行action 这个时候，你会惊奇地发现：下拉菜单成功...

转载 2018-05-17 10:37:37 · 2193 阅读 · 1 评论
Python3-豆瓣电影影片差评和影片封面照片的爬取

#实现豆瓣电影影片差评和影片封面照片的爬取from urllib import requestimport jsonimport sslssl._create_default_https_context=ssl._create_unverified_context#接口列表url_list=[]for i in range(3): base_url = "https://...

原创 2018-05-03 16:17:37 · 803 阅读 · 0 评论
Spyder 下使用 Scrapy 开发爬虫之腾讯视频抓取

我目前主要的学习资源是 Scrapy 官方文档以及百度，个人比较喜欢去官网，虽然全英文，学习起来比起看别人的中文博客要慢很多，但是毕竟官网上给出的解决方案都是保持更新的，现在的很多博客都是一两年前的文章，随着版本跟新很多方案可能不再适用，所以我一边学习，一边更新博客，尽量语言简洁，不扯duzi，但又尽量 step by step，提高内容的实用性。为了使用 Scrapy 框架开发，同时尽量减少...

转载 2018-06-01 16:50:53 · 7205 阅读 · 4 评论

爬虫

作者: Arthur54271

Python3-urllib库--网页抓取

Python3-爬虫~PhantomJS配置安装 mac版

Python3-爬虫~cookie\session

Python-爬虫请求~requsts~post

Python-爬虫请求~requsts~get

Python-爬虫代理--proxy（反爬）

Python3~xpath应用糗事百科爬虫

Python3-selenium之 chromedriver与chrome版本映射表（更新至v2.37）

Python3-selenium\phantomjs\bs4爬取斗鱼页面

Python3~selenium\phantomjs实现改变js改变页面控件的属性（边框粗细，颜色，线的类型）\下拉

Python3~创建myspider项目

Scrapy配合Selenium和PhantomJS爬取动态网页

Ubuntu16.04安装Scrapy命令

Python3~Scrapy+PhantomJS+Selenium动态爬虫

Python3~scrapy项目之下载网页图片

Python3~scrapy项目之爬取当前页和下一页

Python3~scrapy项目之爬取当前页和详细页

Python3~scrapy项目下settings.py日志问题

Python3~Scrapy框架爬取网页数据到MySql~pipelines.py

Python3~xpath

Python3-爬虫~selenium\phantomjs\爬取XX网页电影过程中向下滚动网页问题

Python3-爬虫登录开心网的账号，并且爬取个人主页内容

Python3-网页爬取-SSL验证

Python3-网页爬取-post方式实现百度翻译

Python3-网页爬取-批量爬取贴吧页面数据

Python3-网页爬取-网页抓取汉字转码、多个参数拼接

Python3-抓取某翻译网页 获取js数据

Python3-网页爬取-判断user-agent,判断是否是正常浏览器访问

Python3-网页爬取-假装浏览访问，假装不同的浏览器访问。

Python3-正则表达式~pattern.findall

Python3-正则表达式~爬取猫眼电影应用

Python3-爬虫~selenium\phantomjs\豆瓣登录过程中处理验证码

Python3-爬虫~selenium\phantomjs\豆瓣音乐例子

Python3~爬取某翻译网页的单词与解释

Python3~爬取某公司招聘信息

Python3-爬虫~selenium\phantomjs\豆瓣应用例子

Python3-爬虫~selenium\phantomjs\ActionChains百度例子

Python3-爬虫~selenium\phantomjs报错处理selenium.common.exceptions.ElementNotVisibleException

Python3-豆瓣电影影片差评和影片封面照片的爬取

Spyder 下使用 Scrapy 开发爬虫之腾讯视频抓取

Python3-抓取某翻译网页获取js数据