2017年03月_静妍

原创大数据和高并发的解决方案

现在，软件架构变得越来越复杂了，好多技术层出不穷，令人眼花缭乱，解决这个问题呢，就是要把复杂问题简单化，核心就是要把握本质。软件刚开始的时候是为了实现功能，随着信息量和用户的增多，大数据和高并发成了软件设计必须考虑的问题，那么大数据和高并发本质是什么呢？本质很简单，一个是慢，一个是等。两者是相互关联的，因为慢，所以要等，因为等，所以慢，解决了慢，也就解决了等，解决了等，也就解决了慢

2017-03-31 21:39:02 840

原创数据结构

数据结构一些概念数据结构就是研究数据的逻辑结构和物理结构以及它们之间相互关系，并对这种结构定义相应的运算，而且确保经过这些运算后所得到的新结构仍然是原来的结构类型。数据：所有能被输入到计算机中，且能被计算机处理的符号的集合。是计算机操作的对象的总称。数据元素：数据（集合）中的一个“个体”，数据及结构中讨论的基本单位数据项：数据的不可分割的最小单位。一

2017-03-27 22:26:49 11130 5

原创 Python hasattr vs getattr

我最近读过一些tweet和关于hasattr 的python文档，它说：hasattr（对象，名称）参数是一个对象和一个字符串。如果字符串是对象属性之一的名称，则结果为True，如果不是则为False。（这是通过调用getattr（object，name）并查看它是否引发AttributeError来实现的。）在这种情况下，用一个非常简单的python代码进

2017-03-27 19:53:31 743

原创通过selenium控制浏览器滚动条

控制滚动条这个事情难为了我好久，查了无数篇文章，基本千篇一律，全是一个方法，但是在我这里就是没能成功，后来~~~先说一下我的解决方法吧目的：通过selenium控制浏览器滚动条原理：通过 driver.execute_script（）执行js代码，达到目的 driver.execute_script（"window.scrollBy(0,1000)"

2017-03-26 20:32:24 2327 1

转载 selenium对浏览器操作、鼠标操作等总结

1 控制浏览器Selenium 主要提供的是操作页面上各种元素的方法，但它也提供了操作浏览器本身的方法，比如浏览器的大小以及浏览器后退、前进按钮等。1.1 控制浏览器窗口大小在不同的浏览器大小下访问测试站点，对测试页面截图并保存，然后观察或使用图像比对工具对被测页面的前端样式进行评测。比如可以将浏览器设置成移动端大小(480x800)，然后访问移动站点，对其样式进行评估

2017-03-26 20:25:00 16082 1

转载 python数据挖掘课程十三.WordCloud词云配置过程及词频分析

这篇文章是学习了老曹的微信直播，感觉WordCloud对我的《Python数据挖掘课程》非常有帮助，作者学习后准备下次上课分享给我的学生，让他们结合词频分析来体会下词云。希望这篇基础文章对你有所帮助，同时自己也是词云的初学者，强烈推荐老曹的博客供大家学习。如果文章中存在不足或错误的地方，还请海涵~ 老曹地址：10行python代码的词云 - 半吊子全栈工匠

2017-03-25 20:00:33 3711 1

转载 python数据挖掘课程十二.Pandas、Matplotlib结合SQL语句对比图分析

这篇文章主要讲述Python常用数据分析包Numpy、Pandas、Matplotlib结合MySQL分析数据，前一篇文章 "【python数据挖掘课程】十一.Pandas、Matplotlib结合SQL语句可视化分析" 讲述了MySQL绘图分析的好处，这篇文字进一步加深难度，对数据集进行了对比分析。数据分析结合SQL语句的效果真的很好，很多大神看到可能会笑话晚辈，但是如果

2017-03-25 19:58:33 845

转载 python数据挖掘课程十一.Pandas、Matplotlib结合SQL语句可视化分析

这是非常好的一篇文章，可以认为是我做数据分析的转折点，为什么呢？因为这是我做数据分析第一次引入SQL语句，然后爱不释手；结合SQL语句返回结果进行数据分析的效果真的很好，很多大神看到可能会笑话晚辈，但是如果你是数据分析的新人，那我强烈推荐，尤其是结合网络爬虫进行数据分析的。希望这篇文章对你有所帮助，如果文章中存在错误或不足之处，还请高抬贵手~1.MySQL数据库知识首先在"[p

2017-03-25 19:56:24 836

转载 python数据挖掘课程十.Pandas、Matplotlib、PCA绘图实用代码补充

这篇文章主要是最近整理《数据挖掘与分析》课程中的作品及课件过程中，收集了几段比较好的代码供大家学习。同时，做数据分析到后面，除非是研究算法创新的，否则越来越觉得数据非常重要，才是有价值的东西。后面的课程会慢慢讲解Python应用在Hadoop和Spark中，以及networkx数据科学等知识。如果文章中存在错误或不足之处，还请海涵~希望文章对你有所帮助。一. Pandas获取数据集

2017-03-25 19:53:29 1462 1

转载 Python数据挖掘课程九.回归模型LinearRegression简单分析氧化物数据

这篇文章主要介绍三个知识点，也是我《数据挖掘与分析》课程讲课的内容。同时主要参考学生的课程提交作业内容进行讲述，包括： 1.回归模型及基础知识； 2.UCI数据集； 3.回归模型简单数据分析。前文推荐：【Python数据挖掘课程】一.安装Python及爬虫入门介绍【Python

2017-03-25 19:50:43 2683

转载 Python数据挖掘课程八.关联规则挖掘及Apriori实现购物推荐

这篇文章主要介绍三个知识点，也是我《数据挖掘与分析》课程讲课的内容。 1.关联规则挖掘概念及实现过程； 2.Apriori算法挖掘频繁项集； 3.Python实现关联规则挖掘及置信度、支持度计算。前文推荐：【Python数据挖掘课程】一.安装Python及爬虫入门介绍【Python数据

2017-03-25 19:48:26 4130

转载 Python数据挖掘课程七.PCA降维操作及subplot子图绘制

这篇文章主要介绍四个知识点，也是我那节课讲课的内容。 1.PCA降维操作； 2.Python中Sklearn的PCA扩展包； 3.Matplotlib的subplot函数绘制子图； 4.通过Kmeans对糖尿病数据集进行聚类，并绘制子图。前文推荐：【Python数据挖掘课程】一.安装P

2017-03-25 19:44:55 2419 1

转载 Python数据挖掘课程六.Numpy、Pandas和Matplotlib包基础知识

前面几篇文章采用的案例的方法进行介绍的，这篇文章主要介绍Python常用的扩展包，同时结合数据挖掘相关知识介绍该包具体的用法，主要介绍Numpy、Pandas和Matplotlib三个包。目录：一.Python常用扩展包二.Numpy科学计算包三.Pandas数据分析包四.Matplotlib绘图包

2017-03-25 19:43:02 2170

转载 Python数据挖掘课程五.线性回归知识及预测糖尿病实例

今天主要讲述的内容是关于一元线性回归的知识，Python实现，包括以下内容： 1.机器学习常用数据集介绍 2.什么是线性回顾 3.LinearRegression使用方法 4.线性回归判断糖尿病前文推荐：【Python数据挖掘课程】一.安装Python及爬虫入门介绍【Py

2017-03-25 19:40:07 6362

转载 Python数据挖掘课程四.决策树DTC数据分析及鸢尾数据集分析

今天主要讲述的内容是关于决策树的知识，主要包括以下内容： 1.分类及决策树算法介绍 2.鸢尾花卉数据集介绍 3.决策树实现鸢尾数据集分析前文推荐：【Python数据挖掘课程】一.安装Python及爬虫入门介绍【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍

2017-03-25 19:36:49 1188

转载 Python数据挖掘课程三.Kmeans聚类代码实现、作业及优化

这篇文章直接给出上次关于Kmeans聚类的篮球远动员数据分析案例，同时介绍这次作业同学们完成的图例，最后介绍Matplotlib包绘图的优化知识。前文推荐：【Python数据挖掘课程】一.安装Python及爬虫入门介绍【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍希望这篇文章对你有所帮助，尤

2017-03-25 19:33:42 2246

转载 Python数据挖掘课程二.Kmeans聚类数据分析及Anaconda介绍

这次课程主要讲述一个关于Kmeans聚类的数据分析案例，通过这个案例让同学们简单了解大数据分析的基本流程，以及使用Python实现相关的聚类分析。主要内容包括： 1.Anaconda软件的安装过程及简单配置 2.聚类及Kmeans算法介绍 3.案例分析：Kmeans实现运动员位置聚集前文推荐：【Pytho

2017-03-25 19:29:17 1169

转载 Python数据挖掘课程一.安装Python及爬虫入门介绍

最近因为需要给大数据金融学院的学生讲解《Python数据挖掘及大数据分析》的课程，所以在这里，我将结合自己的上课内容，详细讲解每个步骤。作为助教，我更希望这门课程以实战为主，同时按小组划分学生，每个小组最后都提交一个基于Python的数据挖掘及大数据分析相关的成果。但是前面这节课没有在机房上，所以我在CSDN也将开设一个专栏，用于对该课程的补充。希望该文章对你有所帮助，尤其是对

2017-03-25 19:23:51 1063

转载 Python多进程并发操作进程池Pool

在利用Python进行系统管理的时候，特别是同时操作多个文件目录，或者远程控制多台主机，并行操作可以节约大量的时间。当被操作对象数目不大时，可以直接利用multiprocessing中的Process动态成生多个进程，10几个还好，但如果是上百个，上千个目标，手动的去限制进程数量却又太过繁琐，这时候进程池Pool发挥作用的时候就到了。 Pool可以提供指定数量的进程，供用户调用，当有

2017-03-25 14:39:39 3392

原创 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-4: ordinal not in range(128)

最近，用Python爬虫，去中文小说网站抓取下。发现，在写入文件的时候，出现UnicodeEncodeError，但是打印显示问题。如这样：traceback (most recent call last): File "xioashuo.py", line 56, in f.write(chapter_name.encode('utf-8'))UnicodeEncodeE

2017-03-24 19:56:12 991

原创 Centos7安装mongodb出现的问题：服务无法启动

问题： Centos7安装MongoDB刚开始安装成功时执行sudo service mongod start 能启动，执行sudo service mongod status显示Active: active (running)，但如果我重新启动系统，service又不能启动了。如果我卸载和再次安装，刚安装成功能启动服务，但在重新启动后，还是出现原来的状况。解决

2017-03-21 19:09:06 3448 2

原创 UnicodeEncodeError: 'latin-1' codec can't encode characters

Python2.7 pymysql连接MySQL发现，中文不支持。于是，百度各种查、各种找资料，结果都没有解决。总结原因如下：1.数据库编码设置utf82.Python2.7默认使用的ascii，需要换成utf83.pymysql连接MySQL时，设置utf-8字符编码4.如果运行时提示pymysql编码设置错

2017-03-19 13:27:51 764

原创关于Python的第三方库requests关闭SSL验证后，依然警告致使程序无法执行问题

注意：Python2.7环境，Python3自行搜索。程序中，已经关闭验证：requests.get(url, verify=False)但是，执行后，发出警告，中断程序：InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is stron

2017-03-14 20:10:47 12838

转载几句话描述简单算法——排序与搜索

一、排序1）桶排序准备大量的木桶，用木桶的标号（数组下标）作为数据，按照木桶标号的顺序进行排序。2）选择排序从“待排序部分”找到最小值（或最大值），让“待排序部分”的起始位置向后移动。3）冒泡排序比较相邻的两个数据，把这两个数据按照大小关系正确的交换排列。4）插入排序不断地把数据插入已排序的部分数据列，里面恰当的位置。

2017-03-13 22:26:58 407

转载面试算法实践与国外大厂习题指南

面试算法实践与国外大厂习题指南在线练习LeetCodeVirtual JudgeCareerCupHackerRankCodeFights在线面试编程Gainlo数据结构Linked List链表即是由节点（Node）组成的线性集合，每个节点可以利用指针指向其他节

2017-03-13 22:21:30 305

转载 python开源IP代理池--IPProxys

转载：http://www.cnblogs.com/qiyeboy/p/5693128.html今天博客开始继续更新，谢谢大家对我的关注和支持。这几天一直是在写一个ip代理池的开源项目。通过前几篇的博客，我们可以了解到突破反爬虫机制的一个重要举措就是代理ip。拥有庞大稳定的ip代理，在爬虫工作中将起到重要的作用,但是从成本的角度来说，一般稳定的ip池都很贵，因此我这个开源项目的意义就诞生了

2017-03-13 13:55:51 1783

转载 Python 批量获取代理服务器IP并测试

转载：http://blog.csdn.net/abcamus/article/details/52993711#-*-coding:utf-8 -*-import urllib2import BeautifulSoupimport codecsUser_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100

2017-03-13 13:13:16 5384

转载 Windows上利用Python自动切换代理IP的终极方案！

转载：http://www.jianshu.com/p/49c444d9a435文／solomonxie（简书作者）原文链接：http://www.jianshu.com/p/49c444d9a435著作权归作者所有，转载请联系作者获得授权，并标注“简书作者”。声明下：不同于网络上千百篇方法，下文是经过各种严格测试都通过的，同时也是一个实

2017-03-13 13:08:13 816

转载 Python3 从HTTP代理网站批量获取代理并筛选

转载：http://blog.csdn.net/u014595019/article/details/50166385最近在写爬虫，苦于不采用代理的情况下，默认的IP不出几分钟就被封了，故而只能寻找代理。原以为找到HTTP代理就万事大吉了，没想到从那个网站获取的代理大部分都是不能用的，只有少部分能用。。。故而无奈之下，只能从那些代理网站大量获取代理IP，然后再拿过来进行进一步的筛选，将有效

2017-03-13 12:14:41 1342

原创 Python爬虫使用代理proxy抓取网页

代理类型（proxy）:透明代理匿名代理混淆代理和高匿代理. 这里写一些python爬虫使用代理的知识, 还有一个代理池的类. 方便大家应对工作中各种复杂的抓取问题。urllib 模块使用代理urllib/urllib2使用代理比较麻烦, 需要先构建一个ProxyHandler的类, 随后将该类用于构建网页打开的opener的类,再在request中安装该opener.

2017-03-12 13:45:41 3363

原创 Python3 urllib.error

urllib.error异常由urllib.request引发的主要分为三级异常：顶级异常urllib.error.URLError次级异常urllib.error.HTTPError虽然作为一个异常（URLError的子类），HTTPError也可以作为一个非特殊的类文件返回值（与urlopen（）返回相同的东西）。这在处理异常HTTP错误（例如认证请求）时非

2017-03-12 13:34:08 850

原创 Python3 urllib.parse

urllib.parse分为URL parsing and URL quoting，即网址解析和网址引用。URL解析函数专注于将URL字符串拆分为其组件，或将URL组件组合到URL字符串中。urllib.parse.urlparse(urlstring,scheme='', allow_fragments=True)>>> from urllib.parse import

2017-03-12 13:05:42 1953

原创 Python3 urllib 笔记

urllib分为四大模块，前三项常用，具体使用方法需具体参考。Python2的urllib和urllib2，在Python3中合并为urlliburllib.urlopen() ==> urllib.request.urlopen()urllib2.urlencode() ==> urllib.parse.urlencode()

2017-03-12 12:44:56 498

原创 Python使用HTTP代理 Proxy

urllib2/urllib 代理设置urllib2是Python标准库，功能很强大，只是使用起来稍微麻烦一点。在Python 3中，urllib2不再保留，迁移到了urllib模块中。urllib2中通过ProxyHandler来设置使用代理服务器。proxy_handler = urllib2.ProxyHandler({'http': '121.193.143.249:80'})

2017-03-12 09:50:11 11572 1

转载 Python多线程编程

Threading 模块从 Python 1.5.2 版开始出现，用于增强底层的多线程模块 thread 。Threading 模块让操作多线程变得更简单，并且支持程序同时运行多个操作。注意，Python 中的多线程最好用于处理有关 I/O 的操作，如从网上下载资源或者从本地读取文件或者目录。如果你要做的是 CPU 密集型操作，那么你需要使用 Python 的 multiprocessin

2017-03-11 13:12:56 371

转载高性能Python之：Queue,deque,queue对比

Python作为一门脚本语言，有着很多便捷易用的优秀特点，但他也有一个很大的缺陷，就是性能太差，这也是作为脚本语言不可避免的问题，这里我们来学习一些方法，提高Python的性能:为了大家测试方便，这里同时给了代码的图片版和文字版。queue是多线程中的使用的栈，但是Python 解释器有一个全局解释器锁(PIL)，导致每个 Python 进程中最多同时运行一个线程，

2017-03-11 13:03:38 15901 3

转载 Python 多线程与常见算法

多线程介绍我们之前所讲到的爬虫，都只有一个进程一个线程，我们称之为单线程爬虫。单线程爬虫每次只访问一个页面，不能充分利用电脑的网络带宽。一个页面最多也就几百KB，所以爬虫在爬取一个页面的时候，多出来的网速就浪费掉了。而如果我们可以让爬虫同时访问10个页面，就相当于我们的爬取速度提高了10倍。这个时候就需要使用多线程技术了。这里有一点要强调一下，Python这门语言在

2017-03-11 13:00:26 921

转载 Linux文件系统详解

最近在做磁盘性能优化，需要结合文件系统原理去思考优化方向，因此借此机会进一步加深了对文件系统的认识。在看这篇文章之前，建议先看下前面一篇关于磁盘工作原理的解读。下面简单总结一些要点分享出来：一、文件系统层次分析由上而下主要分为用户层、VFS层、文件系统层、缓存层、块设备层、磁盘驱动层、磁盘物理层用户层：最上面用户层就是我们日常使用的各种程序，需要的接口主要是文件的创建、删除

2017-03-11 12:41:47 362

原创 Python 处理GBK编码转UTF-8读写乱码问题

今日写了个爬虫，爬取前程无忧的招聘信息老套路，首先获取网页源代码#-*- coding:utf-8 -*-import requestsurl = 'http://search.51job.com/jobsearch/search_result.php?'page_req = requests.get(url)page = page_req.text.encode('utf-8

2017-03-09 21:14:18 33170 9

原创 Python 编码转换与中文处理

python 中的 unicode是让人很困惑、比较难以理解的问题. 这篇文章写的比较好，utf-8是 unicode的一种实现方式，unicode、gbk、gb2312是编码字符集.py文件中的编码Python 默认脚本文件都是 ANSCII 编码的，当文件中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正一个 module 的定义中，如果.py文

2017-03-09 20:40:38 582

Linux系统命令及其使用详解.doc

空空如也