二、数据分析与挖掘简介

1.基本命令:
幂:a**2
2.数据结构:
容器:list(列表)、tuple(元祖)、dict(字典)、set(集合)
列表和元祖:
共同点:都是序列结构
区别:列表可修改,元祖不可以
b=a是引用(别名),同时修改;如果只是复制:b=a[:]
相关函数:
共同:cmp(a,b)/len(a)/max/min/sum/sorted()
列表专有:
a.append()添加;
a.count()统计次数;
a.extend([1,2])将列表【1,2】的内容追加到列表a的末尾中;
a.index(1)找出元素所在的索引位置
a.insert(2,1)在索引为2的位置添加1
a.pop(1):移除列表a中索引为1的元素

集合set,{}
特点:元素不重复,无序;不支持索引
并集:t|s; 交集:t&s 对称差集t^s

函数式编程(lambda/map/reduce/filter):广播式编程
lambda:本质上还是for命令
map(函数,应用对象) 用于逐一遍历,效率快 map(lambda x:x+2,a)
reduce():递归运算 reduce(lambda x,y:x*y,range(1,n+1))
等同于
s=1
for x in range(1,n+1):
s=s*x
filter(返回值为布尔型的函数):过滤

help(‘modules’):获得已经安装的所有模块名

数据挖掘相关扩展库
numpy:提供多维数组支持
scipy:提供矩阵支持:最优化、线性代数、拟合、插值、傅里叶变换、图像处理等
matplotlib:二维绘图 解决中文问题:plt.rcParams[‘font.sans-serif’] = [‘SimHei’]
pandas:最强大的数据分析工具,着眼于数据的读取、处理和探索
statsmodels:数据的统计建模分析
scikit-learn:机器学习工具包,数据预处理、分类、回归、聚类、预测、模型分析
示例:
from sklearn.linear_model import LinearRegression #导入
model=LinearRegression() #建立
print(model)

model.fit():训练模型
监督模型提供的接口:
model.predict(new):预测新样本
model.predict_proba(new):预测新概率
model.score():得分越高,fit越好

非监督模型提供的接口:
model.transform():从数据中学到的新的基空间
model.fit_transform():从数据中学到新的基,并将数据按照这个基进行转换

keras:深度学习库,搭建神经网络

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值