2017年11月_Lee_jiaqi

原创 Python数据库编程

数据库为数据提供了安全、可靠、完整的存储方式。Python提供了多种连接数据库的手段，包括ODBC、DAO、ADO，以及Python的专用模块等方式。Python的shelve模块可以模拟小型数据库，支持以字典的方式访问数据库。SQLite是一种嵌入式的数据库，通常作为Python的GUI程序的后台数据库。Python提供了连接Oracle、MySQL等数据库的专用模块，ADO和Python的专用模

2017-11-30 11:20:54 983

原创数据挖掘实例（航空公司客户价值分析）

一、实现目标（1）借助航空公司客户数据，对客户进行分类（2）对不同的客户进行特征分析，比较不同类客户的客户价值（3）对不同价值的客户类别提供个性化服务，指定相应的营销策略二、分析方法与过程航空客运信息挖掘主要步骤：（1）从航空公司的数据源进行选择性的抽取与新增数据抽取分别形成历史数据和增量数据（2）对步骤（1）中形成的两个数据集进行数据探索和预处理，包括数据缺失值与异常值的探索分析，数据的属性规

2017-11-29 18:12:40 10340 4

原创 Python（异常处理与程序调试）

Python标准库的每个模块都使用了异常，异常在Python中除了可以捕获错误，还可以调试程序。一、Python中的异常异常是指程序中的例外、违例情况。异常机制是指当程序出现错误后，程序的处理方法。异常机制提供了程序正常退出的安全通道。当错误出现后，程序的流程发生改变，程序的控制权转移到异常处理器，当异常被引发时，如果没有代码处理该异常，异常将被Python接收处理。当异常发生时，Python解释器

2017-11-29 11:27:01 716

原创 Python(面向对象)

一、UML面向对象主要用于软件开发的分析和设计阶段，通常使用UML（统一建模语言）进行建模统一建模语言并不是软件开发的方法，而是一种描述软件开发过程的图形化标记，UML使用若干种模型来描述软件中开发中的每个重要步骤。（1）类图（ClassDiagram）。展现了一组对象、接口、协作和它们之间的关系。类图描述的是一种静态关系，在系统的整个生命周期都是有效的，是面向对象系统的建模中最常见的图。（2）对象

2017-11-27 20:14:01 352

原创使用Python处理文件

数据的存储可以使用数据库，也可以使用文件。数据库保持了数据的完整性和关联性，而且使数据更安全、可靠。使用文件存储数据则非常简单、易用，不必安装数据库管理系统等运行环境。文件通常用于存储应用软件的参数或临时性数据。Python的文件操作和Java的文件操作非常相似。Python提供了os、os.path等模块处理文件。文件的创建、读写和修改文件的复制、删除和重命名文件内容的搜索和替换文件的比较

2017-11-21 16:30:41 460

原创机器学习（神经网络）

1.背景：1.1以人脑中的神经网络为启发，历史上出现过很多不同的版本1.2最著名的算法是1980年的backpropagation2.多层向前神经网络2.1backpropagation被使用在多层向前神经网络上2.2多层向前神经网络由以下部分组成：输入层、隐藏层、输出层2.3每层由单元组成2.4输入层是由训练集的实例特征向量传入2.5经过连接节点的权重传入下一层，一层的输出是下一层的输入2.6

2017-11-19 16:38:23 1855 1

原创机器学习（层次聚类）

假设有N个待聚类的样本，对于层次聚类来说，步骤：1.（初始化）把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本值之间的相似度；2.寻找各个类之间最近的两个类，把他们归为一类（这样类的总数就少了一个）；3.重新计算新生成的这个类与各个旧类之间的相似度；4.重复2和3直到所有样本点都归为一类，结束。整个聚类过程其实是建立了一棵树，在建立过程中，可以通过在第二步设置一个阈值，当最近的两个类的距

2017-11-19 11:31:33 613

原创机器学习（聚类分析）

1.归类：聚类属于非监督学习：无类别标记2.K-means算法：2.1Clustering中的经典算法，数据挖据十大经典算法之一2.2算法接受参数k，然后将事先输入的n个对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度极高，而不同聚类中的对象相似度极小2.3算法思想：异空间中k个点为中心进行聚类，对最靠近他们的对象进行归类，通过迭代的方法，逐次更新个聚类中心的值，直至得到最

2017-11-19 10:45:37 602

原创 python基础（正则表达式）

正则表达式用于搜索、替换和解析字符串。正则表达式遵循一定的语法规则，使用非常灵活，功能强大。使用正则表达式编写一些逻辑验证非常方便，例如电子邮件地址格式的验证。python提供了re模块实现正则表达式的验证。1.简介正则表达式是用于文本匹配的工具，它在源字符串中查找与给定的正则表达式相匹配的部分，一个正则表达式是由字母、数字和特殊字符（括号、星号、问号）组成，正则表达式中有许多特殊的字符，这些特

2017-11-19 01:13:02 826

原创机器学习（回归问题中的相关度和决定系数）

1.皮尔狲相关系数： 1.1衡量两个值线性相关强度的量 1.2取值范围：[-1,1]: 正向相关：>0,负向相关：<0，无相关性：=0ρ = Cor(X,Y)=Cov(X,Y)/sqrt(Var(X)*Var(Y))2.R平方值 2.1定义：决定系数，反应因变量的全部变异能通过回归关系被自变量解释的比例2.2描述：如R平方为0.8，则表示回归关系可以解释因变量80%的变异，换句话说，如果我们

2017-11-17 01:43:05 4448

原创 python基础（字符串相关操作）

字符串是开发应用中常用的数据类型，字符串的处理是实际应用中经常面对的问题。正则表达式专门用于匹配应用中的数据，能够简化字符串的处理程序，python提供了模块匹配正则表达式。字符串的格式化字符串的截取、合并、过滤等操作字符串的查找正则表达式的语法python的正则表达式模块一、字符串的格式化 python将若干值插入带有“%”标记的字符串中，从而可以动态地输出字符串。字符串的格式化语法

2017-11-17 01:01:43 454

原创机器学习（非线性回归）

1.概率： 1.1定义：概率：对一件事情发生的可能性的衡量1.2范围：0<=P<=11.3计算方法： 1.3.1根据各人之置信 1.3.2根据历史数据 1.3.3根据模拟数据1.4条件概率 P(A|B) = P(A&&B)/P(B)2.逻辑回归2.1基本模型测试数据为X（x0,x1,x2,……xn）要学习的参数为Θ（θ1,θ2,θ3

2017-11-16 01:04:45 963

原创机器学习（多元线性回归）

1.与简单线性回归的区别多个自变量（x）2.多元回归模型 y= β0+ β1*x1+ β2*x2+……..+ βp*xp+e 其中 β1， β2，… βp, β0是参数 e是误差值3.多元回归方程 E（y）= β0+ β1*x1+ β2*x2+……..+ βp*xp4.估计多元回归方程 y=b0+b1*x1+b2*x2+……+bp*xp代码实现：自变量只为数值型：数据文件： #

2017-11-14 00:51:55 5385 1

原创机器学习（简单线性回归）

1.回归：Y变量为连续数值型；分类：Y变量为类别型2.简单线性回归 2.1很多做决定过程通常是根据两个或者多个变量之间的关系 2.2回归分析用来建立方程模拟两个或者多个变量之间的关系 2.3被预测的变量叫做：因变量，y,输出 2.4被用来进行预测的变量叫做：自变量，x，输入3.简单线性回归介绍 3.1简单线性回归包含一个自变量（x）和一个因变量（y） 3.2以上两个变量之间的关系用一条直

2017-11-14 00:35:41 449

原创 python基础（基础语法）

一、python的特色IDE(Integrated Development Environment)是用于提供程序开发环境的应用程序，一般包括代码编辑器，编译器，调试器和图形用户界面。1.面向对象的特性面向对象的程序设计抽象出对象的行为和属性，把行为和属性分离开，但又合理地组织在一起。python语言具有很强地面向对象特性，而且简化了面向对象地实现。它消除了保护类型、抽象类、接口等面向对象地元素

2017-11-04 23:11:21 430

原创机器学习（支持向量机-SVM）

一、深度学习的一般框架：训练集->提取特征向量->结合一定算法（分类器：比如决策树，KNN）->得到结果二、向量机的概念：如图所示，就是一个二维几何空间中的分类。中间那条直线就是这个分类的超平面。我们不难发现，用来确定这条直线其实只需要两条虚线上的三个点就够了，其他距离很远的点，虽然是训练样本，但是因为特征太明显，不会引起歧义，也对我们分类的超平面的确定意义并不大。所以只要找到最靠近分类

2017-11-02 21:29:11 12614 2

原创 python网络爬虫（三）

一、使用pandas整理数据 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。提供高效能、简易使用的资料格式（Data Frame）让使用者可以快速操作及分析资料。使用pandas整理数据import pandas

2017-11-01 17:41:00 224

原创 python网络爬虫（二）

9.抓取新闻评论数import requestsimport reimport json#设置评论URLcommentURL = 'http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fynfvar5623201&group=&compress=0&ie=utf-8&oe=

2017-11-01 17:06:17 610

原创 python网络爬虫（一）

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。它没有固定的数据格式，不利用用户对数据进行使用与存储。非结构化数据必须通过ETL工具将数据转换为结构化数据才能取用，将原始资料进行数据抽取，将其转换为ETL脚本进而完成从非结构化数据到结构化数据的转换，最后将解析

2017-11-01 01:25:20 282

zoinsung_lee的博客