2018年05月_xiaoming0018

原创爬虫数据分析------Pandas和Matplotlib

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。 Pandas数据类型Series [ˈsɪəri:z] ：一维数组，与Nump...

2018-05-26 05:45:55 1288

转载 Python爬虫系列之----Scrapy(六)settings.py配置文件详解

# -*- coding: utf-8 -*- # Scrapy settings for demo1 project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting th...

2018-05-26 05:45:30 251

转载关于反爬虫，我用实际案例告诉你（三大方法）

1.使用User-Agent--代表身份直接用urllib2（python3使用代替urllib.request）给一个网站发送请求的话，确实略有些唐突了，就好比，人家每家都有门，你以一个路人的身份直接闯进去显然不是很礼貌。而且有一些站点不喜欢被程序（非人为访问）访问，有可能会拒绝你的访问请求。但是如果我们用一个合法的身份去请求别人网站，显然人家就是欢迎的，所以我们就应该给我们的这个代码加上一个身...

2018-05-23 09:00:10 926

原创 Scrapy 框架实战--Request/Response、Mongodb、Middlewares

Request简介及部分源码class scrapy.http.Request()：Request对象表示一个HTTP请求，由Spider生成，由Downloader执行。常用的参数1.2.1 urlurl: 就是需要请求，并进行下一步处理的url1.2.2 callbackcallback: 指定该请求返回的Response，由那个函数来处理。1.2.3 methodmethod: 请求一般不需...

2018-05-23 08:59:26 325

原创 scrapy-redis分布式-------处理Redis里的数据

1. 处理Redis里的数据新浪新闻的数据爬回来了，但是放在Redis里没有处理。之前我们配置文件里面没有定制自己的ITEM_PIPELINES，而是使用了RedisPipeline，所以现在这些数据都被保存在redis的sina:items键中，所以我们需要另外做处理。在example-project目录下可以看到一个process_items.py文件，这个文件就是scrapy-redis的e...

2018-05-23 08:59:20 1085

原创 Scrapy—redis分布式组件

分布式：一个业务分拆多个子业务，部署在不同的服务器上。集群是个物理形态，分布式是个工作方式。scrapy-redis架构Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个主机的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个...

2018-05-23 08:58:27 1570

原创爬虫------图片下载器与 ItemLoader类的封装

1. 分析网站信息http://www.meizitu.com/1.1 得到每页每个帖子连接：Xpath规则是：//h2/a/@href1.2得到帖子标签：//div[@class='metaRight']/p/text()1.3得到帖子中的信息得到帖子名称：//h2/a/text()1.4得到图片列表：//div[@id="picture"]/p/img/@src2. 创建项目创建项目命令：...

2018-05-23 08:58:07 374

原创爬虫------scrapy 框架--Spider、CrawlSpider(规则爬虫)

scrapy 框架分为spider爬虫和CrawlSpider（规则爬虫）官方文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/shell.htmlScrapy()是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。不用自己去实现的异步框架Scrapy常用命令执行顺序SPIDER...

2018-05-23 08:57:30 6176 1

原创爬虫------Selenium与PhantomJS无页面浏览器

Selenium（http://www.seleniumhq.org/）是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作文档地址：http://selenium-python.readthedocs.io/index.htmlSelenium的安装:Python3中用命令安装：sudo pip3 install seleniumP...

2018-05-23 08:56:51 749

原创爬虫------Beautiful Soup与json的转化

BeautifulSoup4和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单，A...

2018-05-23 08:56:06 11292

原创爬虫------XPath与lxml

XML 指可扩展标记语言（EXtensible Markup Language）。XML 是一种标记语言，很类似 HTML。XML 的设计宗旨是传输数据，而非显示数据。被设计为传输和存储数据，其焦点是数据的内容。XML 是 W3C 的推荐标准 W3School官方文档：http://www.w3school.com.cn/xml/index.aspXPath (XML Path Languag...

2018-05-23 08:50:00 264

原创爬虫------requests高级

Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。Python3中安装利用 pip3 完成安装：pip3 install requestsparams 接收一个字典或者字符串的查询参数,字典类型自动转换为url编码,不用urlencode()Requests(params...

2018-05-23 08:49:34 644

原创爬虫------基础

企业产生的用户数据：百度指数：http://index.baidu.com/阿里指数：https://alizs.taobao.com/TBI腾讯浏览指数：http://tbi.tencent.com/新浪微博指数：http://data.weibo.com/index数据平台购买数据：数据堂：http://www.datatang.com/about/about-us.html国云数据市场：ht...

2018-05-22 20:16:21 249

转载 ubuntu安装mongdb 常用命令

查看软件包# apt-cache show mongodb安装# apt-get install -y mongodb安装完以后，会自动启动可以通过下面目录插件进程：# pgrep mongod -l或# ps -ef | grep mongod修改配置文件，设置远程访问，修改监听IPvim /etc/mongodb.conf bind_ip = 0.0.0.0默认监听端：0.0.0.0:2701...

2018-05-22 14:21:04 217

原创 Linux系统python配置与软件安装

1.PyChram安装Ubuntu16.04及以上版本：安装专业版：在终端中输入 #sudo snap install pycharm-professional --classic安装轻量级：sudo snap install pycharm-community --classic2.安装gitsudo apt-get install git git init (通...

2018-05-22 14:19:39 243

原创 Ajax

window.location.reload()#局部刷新网页Ajax 即“Asynchronous Javascript And XML”（异步 JavaScript 和 XML），是指一种创建交互式网页应用的网页开发技术。Ajax = 异步 JavaScript 和 XML（标准通用标记语言的子集）。Ajax 是一种用于创建快速动态网页的技术。Ajax 是一种在无需重新加载整个网...

2018-05-22 14:18:09 228

原创 HTML模板语言

模板概述1）作为Web框架，Django提供了模板，可以很便利的动态生HTML2）模版系统致力于表达外观，而不是程序逻辑。3）模板的设计实现了业务逻辑(view)与显示内容（template）的分离，一个视图可以使用任意一个模板，一个模板可以供多个视图使用。4）模板包含：o HTML的静态部分o 动态插入内容部分5）Django模板语言，简写DTL，定义在django.templat...

2018-05-22 14:18:01 12653

原创 Django用户登陆及session\cookie

FILES：一个类似于字典的对象，包含所有的上传文件COOKIES：前端后台都可以设置。一个标准的Python字典，包含所有的cookie，键和值都为字符串Cookie，有时也用其复数形式 Cookies，指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据（通常经过加密）。定义于 RFC2109 和 2965 中的都已废弃，最新取代的规范是 RFC6265 [1]（...

2018-05-22 14:17:28 1103

原创 Django与数据库连接

ORM简介：ORM是对象--关系--映射的简称，用来django与数据库的链接，django用ORM的语句来操作数据库。在应用的models.py文件中操作from django.db import modelsfrom datetime import datetimeclass StudentsInFo(models.Model): name=models.CharField(...

2018-05-22 14:17:15 936

原创 Django视图、传参和forms验证

简介视图主要内容：URLconf、HttpRequest对象、HttpResponse1）视图接受Web请求并且返回Web响应2）视图就是一个python函数，被定义在views.py中3）响应可以是一张网页的HTML内容，一个重定向，一个404错误等等4）在http请求中产生两个核心对象，所在位置是，django.http：http请求：HttpRequest对象http响...

2018-05-22 14:16:59 3522 4

原创 Django框架

软件框架（Software framework），软件框架其实就是将代码放到一个我们看不到的容器中，规定架构。当我们使用的时候直接调用。url:统一资源定位符。是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。基本URL包含模式（或称协议）、服务器名称（或IP地址）、路...

2018-05-22 14:16:41 361

原创数据库-Redis

cache存在redis中在内存中提高访问速度选择数据库:select 数据库号 redis端口，默认为6379redis概述1、Redis:REmote DIctionary Server(远程字典服务器)2、redis是完全开源免费的，用C语言编写的，遵守BSD协议，是一个高性能的(key/value)分布式内存数据库，基于内存运行,并支持持久化的NoSQL数据库，是当前最热门...

2018-05-21 09:42:33 234

原创非关系型的数据库------ MongoDB

NoSQL简介• NoSQL，全名为Not Only SQL，指的是非关系型的数据库• 随着访问量的上升，网站的数据库性能出现了问题，于是nosql被设计出来优点1、高可扩展性2、分布式计算3、低成本4、架构的灵活性，半结构化数据5、没有复杂的关系缺点1、没有标准化2、有限的查询功能（到目前为止）3、最终一致是不直观的程序MongoDB将数据存储为一个文档，数据结构由键值(key=value)对 ...

2018-05-21 09:40:20 1864 1

原创让MySQL与Pycharm连接

Python3中安装在Linux输入命令即可sudo pip3 install PyMySQLPython2中安装命令sudo pip install PyMySQL在文件中引入模块import pymysqlConnection对象• 用于建立与数据库的连接• 创建对象：调用connect()方法conn=pymysql.connect(参数列表)• 参数host：连接的mysql主机，如果本机...

2018-05-21 08:42:41 1290

原创 MySQL-高级

在创建表时可以直接创建约束(外键约束)create table scores(id int primary key auto_increment,score decimal(5,2),stuid int,subid int,foreign key(stuid) references students(id),foreign key(subid) references subjects(id))ch...

2018-05-21 08:42:25 151

原创 MySQL-查询

mysql一次查询，返回多个统计结果1.sum(if)selectsum(if(status=1,1,0)) as s1_count,sum(if(status=2,1,0)) as s2_countfrom order;2.count()selectcount(status=1 or null) as s1_count,count(status=2 or nul...

2018-05-21 08:35:56 328

原创 MySQL基础

数据库分类关系型数据库(数据放入表里表放进库里)、非关系型数据库关系型数据库数据以表格的形式存储。非关系型数据库数据(关系复杂的数据)以键值对或文本存储DB数据库 CDMS数据库管理系统 SQL结构化查询语言数据持久化：可以永久保存，还可以随时取出来安装mysql的命令sudo apt-get install mysql-server安装mysql-client客户端sudo apt-...

2018-05-20 13:04:05 217

原创 Linux目录简介

/：根目录，一般根目录下只存放目录，在Linux下有且只有一个根目录。所有的东西都是从这里开始。当你在终端里输入“/home”，你其实是在告诉电脑，先从/（根目录）开始，再进入到home目录。/bin、/usr/bin: 可执行二进制文件的目录，程序就安装在这个目录，如常用的命令ls、tar、mv、cat等。/boot：（引导的意思）放置linux系统启动时用到的一些文件，如果删除了，电脑有又可能...

2018-05-20 13:03:46 120

原创 Linux编码工具和服务器

gedit编辑器 gedit是一个Linux环境下的文本编辑器系统默认存在sublime编辑器1.保存后从圆点编程叉，这样才是保存成功，保存命令：Ctrl + s2.写一段python代码：if3.可以设置颜色方案：preferences->color Scheme->选择一种颜色4.复制粘贴测试5.缩进按tab键，回退回来shift + tab6.替换内容：选中要替换的内容ctrl...

2018-05-20 13:02:56 445

转载 Linux常用命令

命令打开终端：ctrl+alt+t 关闭：ctrl+d/exit 共用窗口打开：ctrl+shift+t 基本操作查看当前目录：pwd 列出当前下的目录或文件：ls(也是一个程序在/bin) 跳转到根目录：cd / 查看命令在哪个位置:which ** 切换到home目录:cd或者cd ~ Ctrl+c停止运行清屏:Ctrl+l或clear(假清...

2018-05-20 13:02:43 232

原创 Python正则表达式

正则表达式的定义正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Ex...

2018-05-20 13:01:12 239

原创并发服务器

1.select优点：跨平台缺点：对于单个进程的文件描述符的数量存在最大限制linux一般为1024，32位机器位1024，64位机器位20482．对socket进行扫描时是一次扫描的，即采用轮询的方法，效率较低3.遍历列表浪费cpu时间Poll优点：解决了套接字的上限问题缺点：效率跟select一样使用轮询的方式比较低Epoll优点：解决了支持上限问题，采用的是事件通知机制，而且效率提升不是轮询...

2018-05-20 13:00:32 343

原创网络通讯过程与TCP编程

Packet Tracer 是由Cisco(著名网络公司，思科)公司发布的一个辅助学习工具，为学习思科网络课程的初学者去设计、配置、排除网络故障提供了网络模拟环境。从广义上来看，网络交换机分为两种：广域网交换机和局域网交换机。广域网交换机主要应用于电信领域，提供通信用的基础平台。而局域网交换机则应用于局域网络，用于连接终端设备，如PC机及网络打印机等。电脑之间通过网线传送的信号是交流高频信号，电压...

2018-05-20 13:00:20 357

原创网络概述、UDP编程与创建socket套接字

1. 网络的定义在电的系统中，由若干元件组成的用来使电信号按一定要求传输的电路或这种电路的部分，叫网络。现在一般指“三网”：电信网络、有线电视网络、计算机网络。狭义的含义即因特网。抽象意义上的网络。比如城市网络、交通网络、交际网络等。端口是两个进程(应用程序)在同一台电脑或者不同电脑之间通信的标识。每一款应用的绑定的端口不一样，数据不会发错。在同一台电脑中，两个进程的端口不能相同，如果已经存在，...

2018-05-20 13:00:05 529

原创 Python线程、数据安全于互斥锁

1.进程是系统进行资源分配和调度的一个独立单位，进程是资源分配的单位，线程是cpu调度的单位。。2.线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源.3.进程和线程的关系 1.一个程序至少有一个进程,...

2018-05-20 12:59:35 647

原创 Python的进程与队列

多任务：如果有多件事情是同时进行，我们把这种情况叫做多任务。Linux 是真正的多任务、多用户操作系统，windows是多任务操作系统，但不是真正意义上的多用户操作系统串行做完一件事在做另一件事并发和并行并发(Concurrent)：在多核系统里的,同时执行多个进程，一般会情况下会有些进程没有机会执行，这种情况是并发。并行(Parallel)：在多核系统里，同时执行多个进程，这些进程都有机会执行，...

2018-05-20 12:59:00 740

原创 Python中的垃圾回收机制

import sys sys.getrefcount()查看引用计数字符串中间有空格！？等会重新创建新的字符串总结1. 小整数[-5,257)共用对象，常驻内存，不会被释放。2. 单个字符共用对象，常驻内存。3. 单个单词，不可修改，默认开启intern机制，共用对象，引用计数为0，则销毁。4. 大整数不共用内存，引用计数为0，销毁 .5. 数值类型和字符串类型在 Python 中都是不可变...

2018-05-18 20:54:51 1524

原创 Python中生成器、迭代器、闭包、装饰器、元类

生成器(generator)在Python中，这种一边循环一边计算的机制，称为生成器：generator。创建生成器方法1--根据列表推导式创建：第一种方法很简单，只要把一个列表推导式的 [ ] 改成 ( )生成器保存的是算法，每次调用 next(生成器对象) 返回当前指针指向的元素，指针到头会报StopIteration错误异常。还可以使用for in循环，指针到最后不会报异常。生成器的指针到最...

2018-05-18 20:54:41 792

原创 Python深浅拷贝与私有化

Python中的对象包含三要素：id、type、value。id用来唯一标识一个对象，type标识对象的类型，value是对象的值。is判断的是a对象是否就是b对象，是通过id来判断的。是比较两个引用是否指向了同一个对象（引用比较）。==判断的是a对象的值是否和b对象的值相等，是通过value来判断。是比较两个对象的值是否相等（值的比较）。Python为了优化速度，使用了小整数对象池，避免为整数...

2018-05-18 20:54:20 183

原创 Python模块与列表推倒式

- .path 查看路径- __name__ 判断时在本类执行还是被引入执行- tree 树形结构- touch __init__.py 创建文件__import__("")动态导包1. 模块的介绍：为了编写可维护的代码，我们把很多函数分组，分别放到不同的文件里，这样，每个文件包含的代码就相对较少，很多编程语言都采用这种组织代码的方式。在Python中，一个.py文件就称之为一个模块使用模块的好处...

2018-05-18 20:53:43 276

Python链接oceanbase各个版本oceanbase-client驱动jar包

Fiddler.zip

selenium模拟浏览器(chrome)

空空如也