自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 模型评估

在sklearn.metrics中一、分类模型评估1.二分类:混淆矩阵TP(True Positive):实际是正类,识别为正类FN(False Negative):实际是正类,识别为负类(漏)FP(False Positive):实际是负类,识别为正类(错)TN(True Negative):实际是负类,识别为负类正确率Accuracy Rate:(TP+TN)/...

2019-04-14 21:43:11 263

原创 半监督—标签传播算法

半监督学习:样本集部分有标注,部分无标注(常远大于有标注样本)标签传播算法(LabelPropagation):物以类聚的思想,把没有标注的样本和有标注的样本进行比较,相似度高的标为同标注,会优先标注离有标注近的无标注样本,然后再进行传播。要求未标注样本的标注值是-1。以Iris数据集(山鸢花)为例import numpy as npfrom sklearn import data...

2019-04-14 11:54:14 1505

原创 聚类——K-means、DBSCAN、层次聚类

k-means:首先确定聚类的个数,再根据均值不断调整直至收敛DBSCAN:基于密度的DBSCAN切割算法,密度相连对象的最大集合层次聚类:图分裂:从顶至下import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import make_circles,make_blobs,make_moon...

2019-04-13 19:43:53 632

原创 回归

回归:线性回归、岭回归、Lasso回归、Logistic回归(常用作分类器)回归树与提升树Gradient Boosting Decision Tree(GBDT)import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler,StandardScalerfrom sklea...

2019-04-12 17:57:33 173

原创 分类——KNN、朴素贝叶斯、决策树、SVM、集成

import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler,StandardScalerfrom sklearn.preprocessing import LabelEncoder,OneHotEncoderfrom sklearn.preprocessing import Nor...

2019-04-12 11:14:08 1856

原创 分类——KNN(K-Nearest Neighbors)

import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler,StandardScalerfrom sklearn.preprocessing import LabelEncoder,OneHotEncoderfrom sklearn.preprocessing import Nor...

2019-03-29 18:19:27 196

原创 机器学习与建模、划分数据集

学习:通过接收到的数据,归纳提取相同和不同。机器学习:让计算机以数据为基础,进行归纳与总结。模型:数据解释现象的系统。训练集:用来训练与拟合模型验证集:当通过训练集训练出多个模型后,使用验证集数据纠偏或比较预测测试集:模型泛化能力的考量泛化:对未知数据的预测能力一般情况下:训练集:测试集:验证集=6:2:2,或者,训练集:测试集=8:2K-fold交叉验证:将数据集...

2019-03-28 18:49:26 871

原创 数据特征预处理

一、特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征工程包括:特征使用(数据选择,可用性)、特征获取(特征来源,特征存储)、特征处理(数据清洗,特征预处理)、特征监控(现有特征、新特征)二、数据清洗样本采集(抽样):样本要具有代表性,样本比例要平衡以及不平衡时应如何处理,考虑全量数据异常值(空值)处理:1.识别异常值...

2019-03-28 17:23:48 440

原创 多因子探索分析

1.数据的正态检验,卡方检验,独立样本的t检验,方差检验import numpy as npimport scipy.stats as ss#生成一个标准正态分布,20个数norm_dist=ss.norm.rvs(size=20)norm_dist#检验是否是正态分布,p值大于0.05不拒绝原假设,服从正态分布ss.normaltest(norm_dist)#卡方检验,15 ...

2019-03-25 19:10:33 496

原创 利用HR数据进行数据描述统计和可视化

《数据分析与挖掘建模实战》利用HR.csv数据进行实际操作一、描述统计import pandas as pd #引入pandas模块df=pd.read_csv("HR.csv") #导入HR.csv数据df.mean() #求均值df["satisfaction_level"].mean() #求其中一个变量的均值df.median() #求中位数df.qu...

2019-03-18 18:53:58 1823 3

原创 实战:原生爬虫

1.确定爬虫目的:去熊猫tv网站上爬一个游戏分类下面各个主播的人气排行2.找到数据对应的网页,充分了解所爬网站的结构,确定爬取页面和内容,找到数据所在的标签位置(在谷歌浏览器按F12可出现htmls)3.怎么爬模拟HTTP请求,向服务器发送这个请求,获取到服务器返回给我们的HTML 用正则表达式提取我们要的数据(名字,人气)1.找定位标签:尽量具有唯一性,尽量最接近要提取的数据...

2019-02-12 20:44:32 237

原创 函数式编程与装饰器

 匿名函数、高阶函数、装饰器1.匿名函数: 要借助关键字lambda1.1lambda表达式def add(x,y): return x+y#若用lambda表达式表示 lambda parameter_list:expressionf=lambda x,y:x+yprint(add(1,2))print(f(1,2))1.2三元表达式#三元表达式:条件...

2019-01-31 20:00:13 165

原创 闭包

1.闭包=函数+环境变量def curve_pre(): a=25 #环境变量 def curve(x): #函数 return a*x*x return curvea=10f=curve_pre()print(f.__closure__)print(f.__closure__[0].cell_...

2019-01-22 16:05:53 122

原创 枚举

1.1枚举也是一个类from enum import Enum #引入枚举class VIP(Enum): #枚举也是一个类 YELLOW=1 #重在标签不在数值 GREEN=2 BLACK=3 RED=4枚举和普通类相比具有的优势:(1)枚举下的类型不能被随意更改(2)具有可以防止相同标签的功能1.2枚举类型、枚举名称与枚举值...

2019-01-22 13:17:40 98

原创 JSON

JSON(JavaScript Object Notation) 对象标记本质:是一种轻量级的数据交换格式字符串是JSON的表现形式,符合JSON格式的字符串叫做JSON字符串应用场景:跨语言数据交换#反序列化:把JSON类型转换成对应的python类型import json#JSON object JSON对象json_str='{"name":"qiyue","age"...

2019-01-18 16:10:59 164

原创 正则表达式

一.正则表达式:是一个特殊的字符序列,可以帮我们检测一个字符串是否与我们所设定的这样的字符序列,相匹配。如果匹配,我们可以实现快速检索文本,或实现一些替换文本的操作。如:检查一串数字是否是电话号码,把一个文本里指定的单词替换为另外一个单词 。1.检测一个字符串1是否包含在另一个字符串2里(可以用python内置的 in或字符串2.index(字符串1))在这里使用最基础的正则表达式。im...

2019-01-18 14:47:44 161

原创 面向对象

类、对象1.类:类是现实世界或思维世界中实体在计算机中的反映。它将数据以及这些数据上的操作封装在一起。是一个抽象概念并不具体。一类事物的总称命名时第一个字母最好大写、最好不要用下划线连接       class 类的名字():   在类的内部:可以定义若干个变量、可以定义函数如何使用类:实例化总结:类最基本作用:封装(封装里面的变量和代码)           类下边的函数...

2018-12-16 22:58:55 161

原创 python函数

保留小数点后的若干位:round(变量,要保留的位数) 如:a=1.5678   b=round(a,3)  print(b)得出1.568  是四舍五入的查看python内置函数的作用:在IDLE里打出help(要查询的函数)  如help(round)函数的特性:1.功能性 2.隐藏细节 3.避免编写重复的代码定义一个函数:def funcname(parameter_lis...

2018-11-26 21:02:26 116

原创 Python项目的组织结构

Python项目的组织结构:包(物理表现上是文件夹,一个文件夹成为包:文件夹下必须包含_init_.py文件)                                       模块(一个一个的文件,存在于包下边,_init_.py也是一个模块但名字为包的名字)                                       类(函数、变量是类本身的特性)      ...

2018-11-23 18:03:49 1558

原创 循环:while、for

 1.while(在设定的目标达成之前,一直循环,至到达成。在递归场景也可以用)counter = 1while counter <= 10: counter += 1 print(counter)else: print('end')2.for(主要是用来遍历/循环 序列或者集合、字典)a = ['apple','orange','banan...

2018-11-19 21:56:36 109

原创 流程控制语句:if else

注释:单行注释在前边加#号,多行注释'''     ''''1.条件控制 if else:(1)解决选择性问题mood = Trueif mood: print('go to left')else: print('go to right')根据 mood的值输出结果。关键在于 if 后边的变量。''' 一段小程序'''account = '...

2018-11-18 16:59:21 172

原创 python基本概念:变量、运算符与表达式

1.变量:名字(区分大小写)定义一个变量   如:A=[1,2,3]   等号=表示赋值规定:(1)变量名只能由字母、数字和下划线组成,但变量名的首字符不能是数字           (2)python系统中的关键字(保留关键字)不能用在变量名中  如:and if imput            对于引用类型(如list set dict)来说值可以改变(可以直接改变原...

2018-11-14 17:54:50 631

原创 Python的基本数据类型

**python的基本类型*## Python的基本数据类型 1.   **Number:数字**     (1)整数 **int**    和浮点数**float         type()             type(1)显示数1的类型                type(2/2)得到浮点型,class 'float'            要想整数型除法仍是整...

2018-11-14 10:31:16 111

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除