爬虫
文章平均质量分 66
Arthur54271
人生苦短,我用Python
展开
-
Python3-urllib库--网页抓取
#urllib库的基本使用'''1、网页抓取就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。python2:urllib2python3:urllib.request'''#1、引入模块from urllib import request#2、操作#(1)定义目标urlbase_url="http://www.baidu.com"#(2)发起请求(GE...原创 2018-04-09 22:51:39 · 213 阅读 · 0 评论 -
Python3-爬虫~PhantomJS配置安装 mac版
基于webkit的javaScript API。提供了css选择器,提供了处理文件的I/O操作,支持Web标准、DOM操作、JSON、HTML5、Canvas、SVG。mac安装配置:1. http://phantomjs.org/download.html下载phantomjs-2.1.1-macosx;2. 命令行输入:cd /usr/bin/;3. 再执行:open ~/.bash_pro...转载 2018-05-16 16:27:59 · 885 阅读 · 0 评论 -
Python3-爬虫~cookie\session
关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两者可能很多人直接回答也不好说的特别清楚,所以整理这样一篇文章,也帮助自己加深理解什么是Cookie其实简单的说就是当用户通过http协议访问一个服务器的时候,这个服务器会将一些Name/Value键值对返回给客户端浏览器,并将这些数据加上一些限制条件。在条件符合时,这个用户下次再访问服...转载 2018-05-15 15:46:10 · 645 阅读 · 0 评论 -
Python-爬虫请求~requsts~post
import requests,sslssl._create_default_https_context=ssl._create_unverified_contextdata={"i":"j","from":"AUTO","to":"AUTO","smartresult":"dict","client":&quo原创 2018-05-15 14:56:57 · 403 阅读 · 0 评论 -
Python-爬虫请求~requsts~get
#二、数据解析:#1.正则#2.bs4#3.xpath#网络请求模块:#1.urllibfrom urllib import request#2.requests# 安装:pip install requestsimport requests#2.1GET请求#urllib方法base_url = "http://langlang2017.com"# respons...原创 2018-05-15 14:33:40 · 10560 阅读 · 0 评论 -
Python-爬虫代理--proxy(反爬)
from urllib import requestimport random,sslssl._create_default_https_context=ssl._create_unverified_context#代理列表proxy_list=[ {'https':'175.5.44.34:808'}, {"https":"122.72.18.35:80"}, ...原创 2018-05-15 11:09:43 · 2405 阅读 · 0 评论 -
Python3~xpath应用糗事百科爬虫
from urllib import requestfrom lxml import etreeimport reimport sslimport jsonssl._create_default_https_context=ssl._create_unverified_contextdef spider(page): base_url='https://www.qiushi...原创 2018-05-14 14:07:12 · 275 阅读 · 0 评论 -
Python3-selenium之 chromedriver与chrome版本映射表(更新至v2.37)
看到网上基本没有最新的chromedriver与chrome的对应关系表,便兴起整理了一份如下,希望对大家有用:chromedriver版本支持的Chrome版本v2.37v64-66v2.36v63-65v2.35v62-64v2.34v61-63v2.33v60-62v2.32v59-61v2.31v58-60v2.30v58-60v2.29v56-58v2.28v55-57v2.27v54-...转载 2018-05-19 18:47:44 · 1085 阅读 · 0 评论 -
Python3-selenium\phantomjs\bs4爬取斗鱼页面
from selenium import webdriverimport timefrom bs4 import BeautifulSoupclass douyuSelenium(): #初始化,启动斗鱼浏览器 def setup(self): self.driver=webdriver.PhantomJS() #获取斗鱼房间信息 def ...原创 2018-05-19 12:59:23 · 277 阅读 · 0 评论 -
Python3~selenium\phantomjs实现改变js改变页面控件的属性(边框粗细,颜色,线的类型)\下拉
#执行js语句from selenium import webdriverimport time,osdriver=webdriver.PhantomJS()driver.get('https://www.baidu.com/')time.sleep(3)root_dir='baidu'if not os.path.exists(root_dir): os.mkdir(ro...原创 2018-05-23 14:29:31 · 1452 阅读 · 0 评论 -
Python3~创建myspider项目
#导入scrapy模块:如果变红,去选择一个编译环境,如果没有scrapy,点“+”添加import scrapy#新建一个爬虫类#格式:class 爬虫名称Spider(scrapy.Spider)class BaiduSpider(scrapy.Spider):# 1.指定一个爬虫名称 name='baidu'#2.初始启动链接 # start_urls名字固定...原创 2018-05-29 14:02:14 · 899 阅读 · 0 评论 -
Scrapy配合Selenium和PhantomJS爬取动态网页
Python世界中Scrapy一直是爬虫的一个较为成熟的解决方案,目前javascript在网页中应用越来越广泛,越来越多的网站选择使用javascript动态的生成网页的内容,使得很多纯html的爬虫解决方案失效。针对这种动态网站的爬取,目前也有很多解决方案。其中Selenium+PhantomJS是较为简单和稳定的一种。Selenium是一个网页的自动化测试工具,其本身是用python编写的。...转载 2018-06-01 09:22:53 · 963 阅读 · 0 评论 -
Ubuntu16.04安装Scrapy命令
背景命令行下有三种安装Scrapy的方式:apt-get:千万不要用,因为你会下载到一个上古时期的Scrapy版本,产生一系列与你参考教程的代码不兼容的问题easy_install:我没有安装成功pip:Scrapy官网上推荐的下载方式,我们使用这种方法安装首先python、lxml、OpenSSL这些工具Ubuntu是自带的,不用管它们。其次安装pip,在命令行中执行以下命令:sudo apt-...转载 2018-05-31 17:27:10 · 204 阅读 · 0 评论 -
Python3~Scrapy+PhantomJS+Selenium动态爬虫
转自http://jiayi.space/post/scrapy-phantomjs-seleniumdong-tai-pa-chong#fb_new_comment很多网页具有动态加载的功能,简单的静态页面爬虫对它就无能为力了。这时候就需要PhantomJS+Selenium两大神器,再加上Scrapy爬虫框架,就可以拼凑成一个动态爬虫。PhantomJS简单点说PhantomJS就是一个没有界...转载 2018-05-31 16:26:57 · 1107 阅读 · 0 评论 -
Python3~scrapy项目之下载网页图片
# -*- coding: utf-8 -*-import scrapy,re,osfrom PY_2018_03_17.items import TuKuItemfrom urllib import requestclass TukuSpider(scrapy.Spider): name = 'tuku' allowed_domains = ['lanrentuku.c...原创 2018-05-31 14:36:47 · 614 阅读 · 0 评论 -
Python3~scrapy项目之爬取当前页和下一页
# -*- coding: utf-8 -*-import scrapyfrom urllib import requestfrom Py06_2018_3_16.items import TencentItemclass tencentNextPageSpider(scrapy.Spider): name = 'tencent_next_page' allowed_do...原创 2018-05-30 18:59:59 · 10415 阅读 · 0 评论 -
Python3~scrapy项目之爬取当前页和详细页
# -*- coding: utf-8 -*-import scrapyfrom urllib import requestfrom Py06_2018_3_16.items import TencentItemclass TencentSpider(scrapy.Spider): name = 'tencent' allowed_domains = ['hr.tence...原创 2018-05-30 16:00:17 · 2736 阅读 · 0 评论 -
Python3~scrapy项目下settings.py日志问题
#日志文件LOG_FILE='qiushi.log'#LOG有等级#日志等级LOG_LEVEL='INFO'#5个级别的日志#最高等级5 --严重错误 --CRITICAL#等级4 --一般错误 --ERROR#等级3 --警告信息 --WARNING#等级2 --一般信息 --INFO#等级1 --调试信息 --DEBUG#是否启用日志LOG_ENABLE=True...原创 2018-05-30 11:16:42 · 771 阅读 · 0 评论 -
Python3~Scrapy框架爬取网页数据到MySql~pipelines.py
# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.htmlimport ...原创 2018-06-12 11:18:49 · 333 阅读 · 0 评论 -
Python3~xpath
from lxml import etreefrom urllib import requestimport sslssl._create_default_https_context=ssl._create_unverified_contexthtml='''<bookstore> <title>新华书店</title> <bo...原创 2018-05-13 11:46:54 · 735 阅读 · 0 评论 -
Python3-爬虫~selenium\phantomjs\爬取XX网页电影过程中向下滚动网页问题
from selenium import webdriverimport os,timedriver=webdriver.PhantomJS()driver.get('https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=')...原创 2018-05-18 15:28:34 · 471 阅读 · 1 评论 -
Python3-爬虫登录开心网的账号,并且爬取个人主页内容
#爬虫登录开心网的账号,并且爬取个人主页内容from urllib import request,parsefrom http import cookiejarimport ssl#取消SSL验证ssl._create_default_https_context=ssl._create_unverified_context#定义请求管理器#url.request.urlopen...原创 2018-04-13 15:45:17 · 1718 阅读 · 0 评论 -
Python3-网页爬取-SSL验证
'''SSL--校验网站证书----针对https,不针对http一、什么是SSL证书'''from urllib import requestimport ssl#ssl免验证#创建一个不需要验证的上下文ssl._create_default_https_context=ssl._create_unverified_context#而不是ssl._create_unverif...原创 2018-04-13 11:43:44 · 2470 阅读 · 0 评论 -
Python3-网页爬取-post方式实现百度翻译
#请求方式 postfrom urllib import request,parseimport jsondef fanyi(content): data={ 'kw':content } data=parse.urlencode(data) # print(len(data)) base_url = 'http://fanyi....原创 2018-04-12 17:01:38 · 1232 阅读 · 0 评论 -
Python3-网页爬取-批量爬取贴吧页面数据
# 批量爬取贴吧页面数据# 网页抓取汉字转码、多个参数拼接# 第1页: https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=0# 第2页:https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&a...原创 2018-04-12 14:22:02 · 1769 阅读 · 0 评论 -
Python3-网页爬取-网页抓取汉字转码、多个参数拼接
#网页抓取汉字转码、多个参数拼接from urllib import request#将汉字转成unicode码from urllib import parse# base_url='http://www.baidu.com/s?wd='base_url='http://www.baidu.com/s?wd='content=input('请输入你要搜索的内容:')# base...原创 2018-04-12 12:02:02 · 1298 阅读 · 0 评论 -
Python3-抓取某翻译网页 获取js数据
#抓取有道翻译网页 获取js数据#找接口,至少尝试三次以上from urllib import parse,requestimport time,randomimport hashlibimport json#md5加密def getMd5(str): md5 = hashlib.md5() md5.update(bytes(str, encoding='utf...原创 2018-04-17 21:54:17 · 1067 阅读 · 0 评论 -
Python3-网页爬取-判断user-agent,判断是否是正常浏览器访问
'''判断user-agent,判断是否是正常浏览器访问'''from urllib import requestbase_url = "http://www.langlang2017.com"headers = { "connnction":"keep-alive", "USer_Agent":"mozilla/5.0 (Windows nt 6.1; WOW64...原创 2018-04-12 11:08:45 · 2874 阅读 · 0 评论 -
Python3-网页爬取-假装浏览访问,假装不同的浏览器访问。
'''假装浏览访问,假装不同的浏览器访问。从user_agent_list.txt文件中,读取user_agent数据,用来封装成一个带headers的request对象,进行网站页面的爬取。'''from urllib import requestimport randombase_url = "http://www.baidu.com"#1.读取文件内容text = ""w...原创 2018-04-12 11:07:30 · 686 阅读 · 0 评论 -
Python3-正则表达式~pattern.findall
import repattern=re.compile(r'\d+')# pattern=re.compile(r'\d')#['1', '2', '3', '4', '5', '6', '7', '8', '9']s=pattern.findall('hello 12345 6789')# print(s)#['12345', '6789']# 举例1:I love China 输...原创 2018-05-09 14:35:53 · 4261 阅读 · 0 评论 -
Python3-正则表达式~爬取猫眼电影应用
import re,jsonfrom urllib import request#maoyan.com#1.获取网页内容base_url='http://maoyan.com/board'response=request.urlopen(base_url)html=response.read()html=html.decode('utf-8')#写入文件with open('m...原创 2018-05-09 18:04:30 · 557 阅读 · 0 评论 -
Python3-爬虫~selenium\phantomjs\豆瓣登录过程中处理验证码
#豆瓣登录from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsimport os,timedriver=webdriver.PhantomJS()driver.get('https://www.douban.com/')#网络请求时间time.sle...原创 2018-05-18 12:57:14 · 571 阅读 · 0 评论 -
Python3-爬虫~selenium\phantomjs\豆瓣音乐例子
from selenium import webdriverimport os,timefrom lxml import etree#豆瓣音乐root_dir='douban'if not os.path.exists(root_dir): os.mkdir(root_dir)#访问driver=webdriver.PhantomJS()base_url='https:...原创 2018-05-18 10:39:27 · 252 阅读 · 0 评论 -
Python3~爬取某翻译网页的单词与解释
from urllib import requestfrom bs4 import BeautifulSoupimport sslssl._create_default_https_context=ssl._create_unverified_context#一、网络请求页面base_url = "https://www.shanbay.com/wordlist/110521/232...原创 2018-05-11 16:53:50 · 1288 阅读 · 0 评论 -
Python3~爬取某公司招聘信息
from urllib import requestfrom bs4 import BeautifulSoupimport sslimport jsonssl._create_default_https_context=ssl._create_unverified_contextdef bs4_parse(list_obj): item_list=[] for tr...原创 2018-05-11 15:46:50 · 507 阅读 · 0 评论 -
Python3-爬虫~selenium\phantomjs\豆瓣应用例子
import requests,sslimport os,timefrom selenium import webdriver,commonfrom lxml import etreeroot_dir='douban/img'if not os.path.exists(root_dir): os.mkdir(root_dir)driver=webdriver.PhantomJ...原创 2018-05-17 12:43:14 · 613 阅读 · 0 评论 -
Python3-爬虫~selenium\phantomjs\ActionChains百度例子
#安装:pip install selenium=2.48.0#显示:pip show selenium#卸载:pip uninstall selenium#模拟用户行为import os,timefrom selenium import webdriver,commonimport seleniumfrom selenium.webdriver.common.action_cha...原创 2018-05-17 11:03:39 · 411 阅读 · 0 评论 -
Python3-爬虫~selenium\phantomjs报错处理selenium.common.exceptions.ElementNotVisibleException
意思是element是不可见的。所以无法获取到。这时候就遇到一个难题,怎么把element变成可见的呢?这时候,我们就用ActionChains来模拟效果ActionChains(driver).click(driver.find_element(By.ID, ‘g-hd-searchs‘)).perform() #使用perform()才能执行action 这个时候,你会惊奇地发现:下拉菜单成功...转载 2018-05-17 10:37:37 · 2193 阅读 · 1 评论 -
Python3-豆瓣电影影片差评和影片封面照片的爬取
#实现豆瓣电影影片差评和影片封面照片的爬取from urllib import requestimport jsonimport sslssl._create_default_https_context=ssl._create_unverified_context#接口列表url_list=[]for i in range(3): base_url = "https://...原创 2018-05-03 16:17:37 · 803 阅读 · 0 评论 -
Spyder 下使用 Scrapy 开发爬虫之腾讯视频抓取
我目前主要的学习资源是 Scrapy 官方文档 以及 百度,个人比较喜欢去官网,虽然全英文,学习起来比起看别人的中文博客要慢很多,但是毕竟官网上给出的解决方案都是保持更新的,现在的很多博客都是一两年前的文章,随着版本跟新很多方案可能不再适用,所以我一边学习,一边更新博客,尽量语言简洁,不扯duzi,但又尽量 step by step,提高内容的实用性。为了使用 Scrapy 框架开发,同时尽量减少...转载 2018-06-01 16:50:53 · 7205 阅读 · 4 评论