二、数据分析与挖掘简介

最新推荐文章于 2022-10-24 23:21:10 发布

yinger_0131

最新推荐文章于 2022-10-24 23:21:10 发布

阅读量199

点赞数

分类专栏：数据分析与挖掘数据分析文章标签：数据分析数据挖掘

本文链接：https://blog.csdn.net/yinger_0131/article/details/79490559

版权

数据分析同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

数据分析与挖掘

9 篇文章 0 订阅

订阅专栏

1.基本命令：
幂：a**2
2.数据结构：
容器：list(列表)、tuple(元祖)、dict(字典)、set(集合)
列表和元祖：
共同点：都是序列结构
区别：列表可修改，元祖不可以
b=a是引用（别名），同时修改；如果只是复制：b=a[:]
相关函数：
共同：cmp(a,b)/len(a)/max/min/sum/sorted()
列表专有：
a.append()添加；
a.count()统计次数；
a.extend([1,2])将列表【1，2】的内容追加到列表a的末尾中；
a.index(1)找出元素所在的索引位置
a.insert(2,1)在索引为2的位置添加1
a.pop(1):移除列表a中索引为1的元素

集合set，{}
特点：元素不重复，无序；不支持索引
并集：t|s; 交集：t&s 对称差集t^s

函数式编程（lambda/map/reduce/filter）：广播式编程
lambda：本质上还是for命令
map(函数，应用对象) 用于逐一遍历，效率快 map(lambda x:x+2,a)
reduce():递归运算 reduce(lambda x,y:x*y,range(1,n+1))
等同于
s=1
for x in range(1,n+1):
s=s*x
filter(返回值为布尔型的函数):过滤

help(‘modules’):获得已经安装的所有模块名

数据挖掘相关扩展库
numpy:提供多维数组支持
scipy:提供矩阵支持：最优化、线性代数、拟合、插值、傅里叶变换、图像处理等
matplotlib:二维绘图解决中文问题：plt.rcParams[‘font.sans-serif’] = [‘SimHei’]
pandas:最强大的数据分析工具，着眼于数据的读取、处理和探索
statsmodels:数据的统计建模分析
scikit-learn:机器学习工具包，数据预处理、分类、回归、聚类、预测、模型分析
示例：
from sklearn.linear_model import LinearRegression #导入
model=LinearRegression() #建立
print(model)

model.fit():训练模型
监督模型提供的接口：
model.predict(new):预测新样本
model.predict_proba(new):预测新概率
model.score（）:得分越高，fit越好

非监督模型提供的接口：
model.transform():从数据中学到的新的基空间
model.fit_transform():从数据中学到新的基，并将数据按照这个基进行转换

keras:深度学习库，搭建神经网络