数据挖掘
Zrx_
这个作者很懒,什么都没留下…
展开
-
数据挖掘导论
数据挖掘是在大型数据库中,自动地发现有用信息的过程。用来探查大型数据库,发现先前未知的有用模式,预测未来观测接结果。并非所有的信息发现任务都是数据挖掘,上网查找个别记录只能称为信息检索(information retrieval)数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分。整个KDD过程为: 输入数据→数据预处(特...原创 2019-12-01 14:48:10 · 1721 阅读 · 0 评论 -
数据挖掘导论(2)
探索数据数据探索有助于选择合适的数据预处理和数据分析技术。数据探索与探测性数据分析(Exploratory Data Analysis, EDA)汇总统计(summary statistics):是量化的,如值集合均值和标准差可视化技术:如直方图和散布图联机分析处理(OLAP):从多维数据数组中创建汇总表各种方法,包括在不同的维上或不同的属性值上聚集数据。3.2 汇总统计对于具有...原创 2019-12-01 14:49:34 · 412 阅读 · 0 评论 -
数据挖掘导论(3)
第四章 分类:基础概念、决策树与模型评估分类任务的输入是一个元组(x,y),x是属性集,y是特殊属性。分类(classification) 就是通过学习得到一个目标函数(target function) f,把每个属性映射到一个预先定义的类标号y。目标函数也称分类模型(classification model),可用于:描述性建模:列出所有元组,并说明那些属性决定特殊属性。预测性建模:...原创 2019-12-01 14:49:09 · 1642 阅读 · 0 评论 -
利用Python进行数据分析
Numpy(Numerical Python)是PY科学计算的基础包。快速高效的多维数组对象ndarray用于对数组执行元素级计算以及直接对数组执行数学运算的函数用于读写硬盘上基于数组的数据集的工具线性代数运算、傅里叶变换,以及随机数生成用于将C\C++ 代码集成到PY更为重要的是Numpy作为在算法之间传递数据的容器。Np的数组比PY的内置数组处理起来更高效,而且C语言写的程序可...原创 2019-12-01 14:48:43 · 906 阅读 · 0 评论 -
pandas
In[1]:from pandas import Series, DataFrameIn[2]:import pandas as pdpandas主要熟悉它的两个主要数据结构: Series和DataFrameSeriesseries是一种类似一维数组的对象,由一组数据(各种np数据类型)以及一组与之相关的数据标签(索引)组成。可以通过Series的value和index属性获取数组...原创 2019-12-01 14:48:34 · 238 阅读 · 0 评论 -
数据规整化:清理、转换、合并、重塑
合并数据集pandas.merge :用于列之间的扩充pandas.concat :可以沿着轴将多个对象进行叠加,用于行之间的扩充combine_first可以将重复数据编接在一起,用一个对象的值填充另一个重复对象的缺失值。pd.mergepd.merge(df1,df2,on ='key') //若df1和df2有相同的列索引,可用该列作为中间轴进行连接。pd.merge(df1...原创 2019-10-07 15:57:38 · 324 阅读 · 0 评论