机器学习1/100天-数据预处理

最新推荐文章于 2024-07-21 09:58:46 发布

zombee0

最新推荐文章于 2024-07-21 09:58:46 发布

阅读量575

点赞数

分类专栏：编程

编程专栏收录该内容

72 篇文章 0 订阅

订阅专栏

Day1 Data PreProcessing

github: 100-Days-Of-ML-Code

1.导入两个常用的python库，numpy, pandas

import numpy as np 
import pandas as pd

2.读取数据文件

dataset = pd.read_csv("Data.csv")
X = dataset.iloc[:,:-1].values
Y = dataset.iloc[:,3].values

pd函数read_csv读取数据文件
而后dataframe.iloc按照位置选取数据，划分成X和Y

3.缺省值处理

使用sklearn.preprocessing.Imputer处理缺省值，以均值代替NaN

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[:,1:3])
X[:,1:3] = imputer.transform(X[:,1:3])

4.将文本数据编码

使用sklearn.preprocessing.LabelEncoder和OneHotEncoder编码数据。

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[:,0] = labelencoder_X.fit_transform(X[:,0])

onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelEncoder_Y = LabelEncoder()
Y = labelEncoder_Y.fit_transform(Y)

LabelEncoder文本变数值，OneHotEncoder数值变OneHot编码

5.划分训练集和测试集

在新版本中train_test_split函数位于model_select module

from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,test_size=0.2,random_state=0)

6.数据标准化

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zombee0

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

机器学习100天-数据预处理 [代码实现细节分析]

STILLxjy

01-15

1124

原始数据：在Data.csv文件中我们有如下数据：统计了10个人的基本信息：国籍，年龄，工资以及他们对于某件商品是否购买的情况。代码实现细节分析：（1）导入基本python包 import numpy as np import pandas as pd （2）导入数据，读取.csv文件中的数据 dataset = pd.read_csv('Data.csv') #读取指定.csv文...

100天机器学习1---数据预处理

leemusk的博客

11-07

186

数据预处理 1. 导入需要的库 numpy包含数学计算函数 pandas用于导入和管理数据集 import numpy as np import pandas as pd 2. 导入数据集数据集通常是.csv格式。csv文件以文本形式保存表格数据。文件的每一行是一条数据记录。我们使用Pandas的**read_csv方法读取本地csv文件作为一个数据帧。然后，从数据帧中制作自变量和因变量的矩阵...

参与评论您还未登录，请先登录后发表或查看评论

火爆GitHub：100天搞定机器学习编程（超赞信息图+代码+数据集）

量子位

08-05

3142

问耕栗子发自麦蒿寺量子位出品 | 公众号 QbitAI你是想喝一辈子糖水，还是想用AI改变世界？但怎么想是一回事，怎么做往往是另一回事。学习和健身一样，不少人都停...

看图涨知识，一百天搞定机器学习

最新发布

分享Python、数据分析、人工智能前沿知识

07-21

225

他发起的这个项目意在号召大家行动起来，每天至少花费 1 小时的时间来学习提升或者应用编程，连续坚持 100 天，从而更好的理解和掌握机器学习这个强大的工具。推荐一个Github项目-100-Days-Of-ML-Code，也就是机器学习100天，该项目已有2.5w star，非常受欢迎。在网络资源高度整合的今天，github上其实有非常较好的线上教程可以学习，这些作品往往脉络清晰、详略有度，非常适合入门者。作者梳理了机器学习整个知识框架，通过图文和代码的形式整合到100天的学习计划里。

GitHub项目： 机器学习100天

weixin_40920183的博客

06-07

241

GitHub 热门：机器学习 100 天！

Oner.wv的专栏

03-30

290

机器学习100天（Day1）

qq_15394485的博客

04-15

313

机器学习100天（Day 1）机器学习100天（Day1）前言开始学习第一天1. 导入数据库2. 导入数据集3. 处理丢失数据4. 解析分类数据5. 拆分数据集为测试集合和训练集合6. 特征缩放前言开始学习第一天1. 导入数据库2. 导入数据集3. 处理丢失数据4. 解析分类数据5. 拆分数据集为测试集合和训练集合6. 特征缩放 机器学习100天（Day1）前言 17年硕士毕业，读研期间一直...

机器学习100天练习（1）-数据预处理

多米尼克的小风车

07-15

457

机器学习100天练习（1）-数据预处理 第1步：导入库 import numpy as np import pandas as pd

机器学习2/100天-简单线性回归

zombee0的博客

08-21

238

Simple Linear Regression github: 100-Days-Of-ML-Code 假设X和Y之间是线性关系，基于自变量(independent variables)X，预测因变量(dependent variable)Y。目标是寻找最佳的线形关系，寻找线形关系使得预测值与实际值距离最小。 1.数据预处理导入Libraries 导入数据集处理确实数据分...

机器学习100天: Day1 数据预处理

tutan123的专栏

04-26

232

今天看到了一个叫做"机器学习100天"的教程，可以作为复习之用。项目地址:https://github.com/Avik-Jain/100-Days-of-ML-Code-Chinese-Version 记录每天学习进度. Day1:数据预处理 第一步:导入库 import numpy as np import pandas as pd 第二步:导入数据集 ...

学习《机器学习100天》第一天 数据预处理

东篱下

01-07

227

github上的项目，跟着一起学习 数据预处理 | 第1天用来练习的数据是这样的： Country Age Salary Purchased France 44 72000 No Spain 27 48000 Yes Germany 30 54000 No Spain 38 61000 ...

Python-100DaysOfMLCode中文版机器学习100天

08-11

100-Days-Of-ML-Code中文版（机器学习100天）

《机器学习 100 天》-Siraj Raval-中文版！

03-12

100-Days-Of-ML-Code 是 Avik-Jain 的机器学习项目，超赞的配图，清晰的知识点梳理，是入门机器学习非常好的项目。内容包括：数据预处理、线性回归、逻辑回归、K最邻近算法、支持向量机、深度学习专项课程等.特色非常鲜明，每天的计划都基本配备了一张高清图解，浓缩的知识总结非常便于消化吸收，而且项目还配备了数据集和代码。下面是一些超赞的配图示例：有人经过原作者的授权，对该项目进行了汉化和编译,此为汉化文件，便于国人学习。

100天搞定机器学习

11-19

1165

100天搞定机器学习 大家好，100天搞定机器学习前54天是对Avik-Jain开源项目100-Days-Of-ML-Code的翻译自己的理解https://github.com/Avik-Jain/100-Days-Of-ML-Code但是这个项目到54天就鸽掉了，十分可惜。从第55天开始，我将续写这个栏目。由于之前的文章太多参考Avik-Jain，我也将不定期对之前的章节进行重置。欢迎sta...

一起学！机器学习100天学习计划 (第1天 数据预处理)

Python实用宝典网

12-27

1156

《机器学习100天》学习计划由Avik-Jain/100-Days-Of-ML-Code推出，现在一共有54天的教程，已经积攒了近30k的Star.中文版的《机器学习100天》由 M...

100 days of ML ---挑战100天搞定机器学习（4---6）

北冥鱼

08-13

869

说一件大事，我涨粉了，一个。我的博客终于有了第一个粉丝，为了这一个粉丝，我一定好好更新下去。今天更新的是挑战100天搞定机器学习的第4到第6天，为啥呢？因为第四天原作者给出了理论，第5天原作者对相应理论做深入了解，没有给出具体内容，第6天给出了代码和数据集解析。这里就一并翻译出来。话不多说，开始。转载请注明出处。第4到第6天：逻辑回归模型第四天下面是原作者给出的知识图谱 ...

100天搞定机器学习（100-Days-Of-ML）（四）逻辑回归

徐先森的博客

12-09

1162

第四天：逻辑回归逻辑回归被用来处理不同的分类问题，看名字是回归模型实际上是分类模型，这里的目的是预测当前被观察的对象属于什么类别。逻辑回归模型会提供一个离散的输出结果。一个简单的例子是判断一封邮件是否是垃圾邮件。第一步：处理数据集数据集：该数据集包含了社交网络中的用户的信息，如用户id，性别，年龄，薪水。现在有一个汽车公司发布一款新的比较奢侈的SUV车，我们的任务就是根据这些信息预...

机器学习100天

金石软件

04-12

220

人工智能很火所以网上各式各样的资料特别多动辄几十GB，上百GB的云盘链接但是能把一个教程完整看完的少之又少坚持下去确实很难最近在github看到一个很不错的机器学习教程 100 Days of ML Coding https://github.com/Avik-Jain/100-Days-Of-ML-Code 大家可以去关注一下内容从易到难，非常适合刚入门的初学者...

机器学习100天学习计划 — 第2天线性回归

Python实用宝典网

12-28

424

一起学！机器学习100天学习计划 (第1天 数据预处理)今天是机器学习100天学习计划的第2天，我们将实现一个简单的线性回归模型。线性回归模型就是基于单一特征（X）来预测结果（Y），回归...

100天数据科学学习计划：从入门到精通

此外，还会涉及数据预处理、模型评估和选择等实践技巧。这个100天的学习计划提供了一个结构化的框架，让学习者能够系统地、逐步地掌握数据科学的核心知识。记住，持续实践和解决实际问题是巩固所学知识的关键。...