import ?已经定义好作用啦 ~充当一个关键字的作用
可以以后导入其他的python文件 到当前的 程序中(就是好比 pycharm/juypter 不同的app中)
导入之后就能够使用这个文件 公开所有对象/ 函数/属性/类/变量等统称为 【模块】
模块含有(函数)
😁这样做有什么好处捏:
1⃣️提高程序开发效率(你想从一台电脑转到另一个电脑或程序上,不用重新打一遍代码啦 ,直接打开文件就好
2⃣️代码复用更灵活
--
python中的模块 statistics以及其中的函数都是什么意思?
用于计算 数字/数据 的数理统计量的函数
包含了很多函数
mean():求平均数
median():求数据的中位数(中间值)
median-low/high :数据的低/高 中位数
mode():求 给定数据的众数
import statistics
data=[1, 2, 3, 3, 3, 4, 4, 4, 5]
mode=statistics.mode(data)
print(mode)
⚠️ 如果数据中存在多个众数且频率相同, 则mode()会返回最小的众数
multimode():这个就是上一个基础上 把有相同频率的众数都输出
m =statistics.multimode([1,1,2,3,3,4,4,5,6])
print(m[0],m[1],m[2]
#输出结果是 1 3 4
--
pandas 是干什么的?
数据分析 中鼎鼎大名的pandas
目标:成为python 数据分析与实战的必备高级工具
长远目标:成为强大 最灵活 可以支持任何语言的开源数据分析工具
pandas 属于第三方库 需要单独安装才可以
import pandas as pd 简写成pd 已经成了不成文的规定
--
如何在juypter中读取 cvs后缀的文件?
可以使用pandas 库中的 read-cvs 函数来读取文件
import pandas as pd
Result = pd.read_csv(csvfile)
#括号里面写 带有.cvs后缀的文件名
print(Result)
#这个我不太清楚对不对
还有另外一种表示
display(result)
--
info()?
查看各列数据类型
在pandas库中,DataFrame对象提供了info()函数
可以用来查看每一列数据的数量
以及每一列的数据类型和占用空间大小
--
数据预处理
Sklearn 中的的模块 preprocessing:几乎包含数据预处理的所有功能了
1.reprocessing.MinMaxScaler
当数据x 按照最小值中心化后, 再按照极差(最大-最小)缩放 ,数据移动了最小值个单元
并且会被收敛到[0,1]之间
这个过程叫做数据归一化(normaliazaiton , 又称 Min-Max Scaling
++ sklearn 中的模块有很多!
sklearn.preprocessing :数据预处理模块
sklearn.impute :缺失值填充模块
数据预处理模块中又包含了许多方法
特征编码:sklearn.preprocessing.ordinalEncoder
--
df.fillna()函数:用指定的值去填充 dataframe中缺失的值