自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 使用Scrapy Splash爬取京东手机信息

使用Scrapy Splash爬取京东手机信息Splash是官推的js渲染引擎,和Scrapy结合比较好,使用的是webkit开发的轻量级无界面浏览器,渲染之后结果和静态爬取一样可以直接用xpath处理。只是splash是在docker中运行。scrapy-splash package网址:https://pypi.python.org/pypi/scrapy-splashsplash...

2019-04-09 10:40:04 485

原创 python爬虫如何绕过Selenium检测

python爬虫如何绕过Selenium检测1.使用chrome的远程调试模式结合selenium来遥控chrome进行抓取,这样不会携带指纹信息步骤:- 使用调试模式手工启动chrome,进入chrome的安装路径,例如chrome装在 C:\program\google\chrome.exe下- 进入chrome安装路径- 执行命令:#注意端口不要被占用,防火墙要关闭,user...

2019-04-08 08:35:44 2956

原创 Docker的在linux安装及windows的安装

Docker的在linux安装及windows的安装linux安装:更新ubuntu的apt源索引sudo apt-get update安装包允许apt通过HTTPS使用仓库sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ software-properties-c...

2019-04-03 08:52:48 833

原创 Docker的基本使用

Docker的基本使用查看imagessudo docker imagessudo docker ps安装python3.6sudo doccker pull python:3.6镜像加速curl -sSL http://acs-public-mirror.oss-cn-hangzhou.aliyuncs.com/docker-engine/internet | sh -...

2019-04-02 21:09:10 138

原创 正则表达式(入门简单易懂)

正则表达式应用场景特定规律字符串的查找,切割、替换等特定格式(邮箱、手机号、IP、URL等)的校验爬虫项目中,提取特定内容使用原则只要使用字符串函数能够解决的问题就不要使用正则正则的效率比较低,同时会降低代码的可读性世界上最难理解的三样东西:医生的处方、道士的神符、码农的正则提醒:正则是用来写的,不是用来读的;在不清楚功能的情况下,不要阅读别人的正则基本使用说明:正...

2019-03-12 21:28:12 342

原创 python爬虫入门超easy系列(五)

python爬虫入门超easy系列(五)如何爬取百度贴吧(lol)1.先验证必要的帖子元素能够解析,修改run中的内容import requestsimport lxml.htmlclass TiebaSpider(object): """ 实现下载某个贴吧指定页码前的内容,存储下载内容 """ def __init__(self,name,pages...

2019-03-02 17:30:28 172

原创 python爬虫入门超easy系列(四)

python爬虫入门超easy系列(四)常见的数据1.关系型数据库(MySQL,Oracle,postgresql,sqlite3)2.非关系型数据库(NoSQL)(redis,mongodb,cassandra,Hbase,图数据库neo4j)糗事百科数据解析范例例子XML,展示网页的一种复合xml结构test_data = '''<div><div clas...

2019-03-02 17:25:26 158

原创 python爬虫入门超easy系列(三)

python爬虫入门超easy系列(三)信息的抽取使用xpath1.什么是xpathxml中,通向某个节点的一个路径,例如://div/ul/li/a,例子中为通向a节点的一个路径2.基本用法:取出所有的li中a节点的内容#lxml.html.fromstring解析出的第一个节点是根节点parse_result = lxml.html.fromstring(test_data)...

2019-03-02 17:23:08 134

原创 python爬虫入门超easy系列(二)

python爬虫入门超easy系列(二)使用cookies技术登录学员信息后台 http_header = { "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:65.0) Gecko/20100101 Firefox/65.0", "Cookie":"PHPSESSID=ST-36136-BRPAZ...

2019-03-02 17:21:09 239

原创 python爬虫入门超easy系列(一)

python爬虫入门基本内容以下是我们爬虫入门学习的内容:1.基本Requests用法2.使用Requests实现基本的爬虫3.信息的抽取及存储()4.完善第二天爬虫具有基本的反爬虫能力(限速、去重、随机User-Agent、随机代理等)5.Python多线程基本的命名方法除了类名是驼峰命名方法(DownloadUtils),其他均为下划线命名方法(download_url)。...

2019-03-02 17:13:47 308 1

原创 Python常用模块大全

Python常用模块大全os模块:os.remove() 删除文件 os.unlink() 删除文件 os.rename() 重命名文件 os.listdir() 列出指定目录下所有文件 os.chdir() 改变当前工作目录os.getcwd() 获取当前文件路径os.mkdir() 新建目录os.rmdir() 删除空目录(删除非空目录, 使用shutil.rmtree())...

2019-02-13 19:47:21 615

原创 Django入门

在这里介绍一下能让刚开始学Django的同学简单入门操作 以及软件的安装Django简介: Django,发音为[`dʒæŋɡəʊ],是用python语言写的开源web开发框架, 并遵循MVC设计。劳伦斯出版集团为了开发以新闻内容为主的网站, 而开发出来了这个框架,于2005年7月在BSD许可证下发布。 这个名称来源于比利时的爵士音乐家DjangoReinhardt,...

2019-01-10 19:58:24 213

原创 redis的安装以及基本命令

虚拟环境什么是虚拟环境: 一个隔离了外界干扰的,独立的环境Redisredis的安装: 第一种方法: 1.首先在官网上下载redis最新的版本,命令如下: wget http://download.redis.io/releases/redis-4.0.8.tar.gz 2.解压下载的redis压缩包 tar -vxzf redis-4.0.8.tar.gz 3...

2019-01-03 17:40:15 223

原创 python虚拟环境的安装

第一种:虚拟环境的搭建: 1.pip install virtualenv 2.pip install virtualenvwrapper 3.whereis virtualenvwrapper.sh 4.source 上面的路径信息 5.source ~/.bashrc mkvirtualenv name 创建虚拟环境名称 rmvirtualenv name 删...

2019-01-03 17:23:05 267

原创 MySQL入门

简单介绍一下数据库以及相关的基础命令和Mysql的安装数据库简介用途:用于存储生活的一切数据,如:身份、住房、车票、网站、...概念:数据库服务器、数据库、数据表、一行数据(一条)、一列数据(字段)分类: - 关系型数据库:MySQL、oracle、SQL Server、... - 非关系数据库:Redis、MongoDB、...SQL:Structured Query Lang...

2018-12-29 20:22:29 580

原创 shell的基本命令操作

shell的基本操作shell简介: 什么是shell: Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。 什么是shell脚本: Shell 脚本(shell script),是一种为 shell 编写的脚本程序。shell的种类:Linux 的 Shell 种类众多,常见的有: Bour...

2018-12-28 21:56:55 423

原创 linux中的基本操作

linux中的基本操作linux中压缩解压**zip/unzip,文件后缀为zip**压缩:zip 123.zip *.txt解压:unzip 123.zip**gzip/gunzip,文件后缀为gz**压缩:gzip 1.txt **会生成1.txt.gz压缩文件**解压:gunzip 1.txt.gz解压:gzip -d 1.txt.gz**bzip2/bunz...

2018-12-27 18:58:23 316

原创 nginx 安装

liunx中nginx 安装nginx 安装步骤1.首先进去到存放nginx的同一目录2.开始安装,不同版本的nginx要修改一下,这只是其中一个版本解压软件压缩包:`tar -zxvf nginx-1.13.7.tar.gz `进入解压的目录:`cd nginx-1.13.7 `3.后面步骤通常会出错,所以我们要先安装相关的依赖库或者编译器 -配置出错多数是因为缺少先...

2018-12-27 17:27:19 220

转载 URI和URL的区别

URI和URL的区别一、概括URI、URL和URNURI :Uniform Resource Identifier,统一资源标识符;URL:Uniform Resource Locator,统一资源定位符;URN:Uniform Resource Name,统一资源名称。其中,URL,URN是URI 的子集。Web上地址的基本形式是URI,它代表统一资源标识符。有两种形式:URL:...

2018-12-26 20:19:39 130

原创 匿名函数

匿名函数函数可以像普通变量一样进行赋值def test(): print('for test')print(test.__name__) # 函数可以像普通变量一样进行赋值a = testprint(a.__name__)a()函数可以作为一个函数的参数def show(func): func() # 函数作为参数传递s...

2018-12-26 20:00:52 89

原创 python函数基础练习

实现一个终端计算器,如:python test.py 3 + 5,结果:8import sysprint(sys.argv)if sys.argv[2] == '+': print(int(sys.argv[1])+int(sys.argv[3]))elif sys.argv[2] == '-': print(int(sys.argv[1])-int(sys.argv[3...

2018-12-26 19:53:36 160

原创 python基础练习

计算1~100之间所有整数的和num=1for i in range(1,100): num+=i+1print(num)打印字符A~Zs=list(chr(i)for i in range(ord('A'),ord('Z')+1))print(s)for i in range(65,90): print(chr(i))将12345转换为54321a=123...

2018-12-26 19:42:13 937

原创 运算符与分支结构

运算符赋值运算符用’='表示,左边只能是变量。算术运算符+、-、*:加、减、乘/:除法,结果是浮点数//:除法,结果是整数%:求余**:求幂,也可以使用函数pow复合运算符+=、-=、*=、…示例:a += b等价于a = a + b关系运算符、>=、<、<=、==、!=表达式:由运算符和操作数构成的式子关系表达式:由关...

2018-12-26 19:33:35 138

转载 字符串和列表类型相关操作

字符串和列表类型相关操作字符串:s1 = ‘hello’s2 = ‘world’可以使用’+'将字符串拼接在一起s3 = s1 + s2print(s3)'*'可以重复前面的字符串若干次s4 = ‘abc’ * 3print(s4)len函数统计字符串长度print(len(s1))s = ‘abcdefg’从开头进行提取,下标从0开始print(s[0])从末尾进行...

2018-12-26 13:02:16 212

转载 进制转换

进制转换进制转换十进制基数0~9,逢10进1示例:123 = 1 * 10^2 + 2 * 10^1 + 3 * 10^0 = 100 + 20 + 3 = 123二进制基数0和1,逢2进1示例:0b110100 = 2^5 + 2^4 + 2^2 = 32 + 16 + 4 = 52十进制转二进制:除2取余,倒序书写22 = 0b10110八进制基数0...

2018-12-26 12:52:54 185 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除