![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CH3-数据准备和特征工程
文章平均质量分 65
代码依托于百度飞桨的AI Studio
绿洲213
springboot3只支持jdk17
展开
-
5-2 有监督特征抽取
文章目录5.2 有监督特征抽取**基础知识****项目案例****动手练习**5.2 有监督特征抽取请参考《数据准备和特征工程》中的相关章节,调试如下代码。基础知识from sklearn.datasets import make_classification# make_classification:用于生成随机的n类分类问题。# 利用make_classification()函数创建一个可用于分类的数据集# n_features=4: 总的特征数量为4# n_redundant=0原创 2022-05-24 10:52:29 · 382 阅读 · 0 评论 -
5-1 无监督特征抽取
第5章 特征抽取5.1 无监督特征抽取请参考《数据准备和特征工程》中的相关章节,调试如下代码。本节视频课程:无监督特征抽取5.1.1 主成分分析基础知识from sklearn import datasetsiris = datasets.load_iris()X = iris.dataX[: 4]array([[5.1, 3.5, 1.4, 0.2], [4.9, 3. , 1.4, 0.2], [4.7, 3.2, 1.3, 0.2],原创 2022-05-24 10:52:47 · 480 阅读 · 0 评论 -
4-3 嵌入法
文章目录4.3 嵌入法**基础知识****项目案例****动手练习**4.3 嵌入法请参考《数据准备和特征工程》中的相关章节,调试如下代码。基础知识import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.feature_selection import SelectFromModel原创 2022-05-23 16:26:58 · 106 阅读 · 0 评论 -
4-2 过滤器法
4.2 过滤器法请参考《数据准备和特征工程》中的相关章节,调试如下代码。注意:本节内容因为要耗费比较大的内存,在线平台有可能无法支持,可以下载到本地执行基础知识from sklearn.datasets import load_irisfrom sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 iris = load_iris()X, y = iris原创 2022-05-23 16:25:14 · 102 阅读 · 0 评论 -
4-1封装器法
封装器法请参考《数据准备和特征工程》中的相关章节,调试如下代码。注意:本部分代码因为耗费的内存较大,在线执行如果不成功,请下载到本地执行。4.1.1 循序特征选择基础知识# !mkdir /home/aistudio/external-libraries# !pip install -i https://pypi.tuna.tsinghua.edu.cn/simple mlxtend -t /home/aistudio/external-librariesimport syssys.p原创 2022-05-23 16:23:51 · 501 阅读 · 0 评论 -
4-0 特征选择简述
第4章 特征选择4.0 特征选择简述请参考《数据准备和特征工程》中的相关章节,调试如下代码。import pandas as pddf_wine = pd.read_csv("/home/aistudio/data/data20527/wine_data.csv")df_wine.head() Class_label Alcohol Malic_acid Ash Alcalinity_of_ash原创 2022-05-23 16:22:02 · 79 阅读 · 0 评论 -
3-6 数据规范化
文章目录3.6 数据规范化**基础知识****项目案例****动手练习**3.6 数据规范化请参考《数据准备和特征工程》中的相关章节,调试如下代码。本节的视频课程:数据规范化基础知识from sklearn import datasetsfrom sklearn.preprocessing import StandardScaler # StandardScaler():标准差标准化,将特征值规范化到接近正态分布iris = datasets.load_iris()iris_std原创 2022-05-23 16:20:15 · 234 阅读 · 0 评论 -
3-5 特征离散化
文章目录3.5 特征离散化3.5.1 无监督离散化**基础知识****项目案例****动手练习**3.5.2 有监督离散化**基础知识****项目案例**3.5 特征离散化请参考《数据准备和特征工程》中的相关章节,调试如下代码。本节的视频课程:特征离散化3.5.1 无监督离散化基础知识import pandas as pdages = pd.DataFrame({'years':[10, 14, 30, 53, 67, 32, 45], 'nam原创 2022-05-23 16:18:04 · 499 阅读 · 0 评论 -
3-4 数据变换
3.4 数据变换请参考《数据准备和特征工程》中的相关章节,调试如下代码。基础知识import pandas as pddata = pd.read_csv("/home/aistudio/data/data20514/freefall.csv", index_col=0)data.describe() time location count 100.000000 1.原创 2022-05-23 16:16:12 · 176 阅读 · 0 评论 -
3-3 OneHot编码
3.3 OneHot编码请参考《数据准备和特征工程》中的相关章节,调试如下代码。基础知识import pandas as pdg = pd.DataFrame({"gender": ["man", 'woman', 'woman', 'man', 'woman']})g gender 0 man 1 woman 2原创 2022-05-23 16:11:47 · 162 阅读 · 0 评论 -
3-2 特征二值化
特征二值化请参考《数据准备和特征工程》中的相关章节,调试如下代码。基础知识import pandas as pdpm25 = pd.read_csv("/home/aistudio/data/data20505/pm2.csv")pm25.head() RANK CITY_ID CITY_NAME Exposed days 0 1 594原创 2022-05-23 16:09:49 · 315 阅读 · 0 评论 -
3-1 特征数值化
文章目录第3章 特征变换3.0 特征的类型3.1 特征数值化**基础知识****项目案例****动手练习**第3章 特征变换3.0 特征的类型看视频课程:特征的类型3.1 特征数值化请参考《数据准备和特征工程》中的相关章节,调试如下代码。基础知识import pandas as pddf = pd.DataFrame({"gene_segA": [1, 0, 0, 1, 1, 1, 0, 0, 1, 0], "gene_segB": [1, 0, 1原创 2022-05-23 15:59:56 · 216 阅读 · 0 评论 -
2-4处理离群数据
处理离群数据与本课程相关的视频课程:处理离群值基础知识%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as pltdf = pd.read_csv("/home/aistudio/data/data20510/experiment.csv", index_col=0)fig, ax = plt.subplots()ax.scatter(df['alpha'], df['belta'])!mkdir /hom原创 2022-05-17 22:38:03 · 199 阅读 · 0 评论 -
2-3 处理缺失数据
2.3 处理缺失数据与本节相关的视频课程:处理缺失数据检查缺失数据基础知识def foo(): passf = foo()print(f)Nonetype(f)NoneTypeNone + 2TypeError: unsupported operand type(s) for +: 'NoneType' and 'int'import numpy as npnp.nan + 2nantype(np.nan)floatimport pandas as pd原创 2022-05-17 22:37:19 · 276 阅读 · 0 评论 -
2-2 处理重复数据
2.2 处理重复数据import pandas as pdd = {'Name':['Newton', 'Galilei', 'Einstein', 'Feynman', 'Newton', 'Maxwell', 'Galilei'], 'Age':[26, 30, 28, 28, 26, 39, 40], 'Score':[90, 80, 90, 100, 90, 70, 90]}df = pd.DataFrame(d,columns=['Name原创 2022-05-17 22:36:07 · 123 阅读 · 0 评论 -
2-1转化数据类型
2.1 转化数据类型基础知识import pandas as pddf = pd.DataFrame([{'col1':'a', 'col2':'1'}, {'col1':'b', 'col2':'2'}])df.dtypescol1 objectcol2 objectdtype: objectdf col1 col2原创 2022-05-17 22:35:08 · 172 阅读 · 0 评论 -
2.0 基本概念
第2章 数据清理2.0 基本概念import pandas as pddf = pd.read_csv("/home/aistudio/data/data20505/pm2.csv")df.sample(10) RANK CITY_ID CITY_NAME Exposed days 204 227 441 常德 149原创 2022-05-17 22:34:27 · 86 阅读 · 0 评论