动手深度学习-2.2 数据预处理

Ryan-Lily

已于 2023-06-15 21:32:38 修改

阅读量75

点赞数 1

文章标签：深度学习学习笔记

于 2023-06-06 21:17:44 首次发布

本文链接：https://blog.csdn.net/ye13213/article/details/131075745

版权

使用pandas软件包预处理原始数据。

2.2 数据预处理

2.1.1 读取数据集

将数据集按行写入CSV文件中

import os
os.makedirs(os.path.join('..', 'data'), exist_ok = True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
	f.write('NumRooms, Alley, Pricie\n')
	f.writer('NA, Pave, 127500\n')
	f.write('2, NA, 106000\n')
	f.write('4, NA, 178100\n')
	f.write('NA, NA, 140000\n')

从CSV文件中加载数据集

import pandas as pd
data = pd.read_csv(data_file)
print(data)

2.2.2 处理缺失值

处理缺失值(NaN)的方法包括：插值法(用一个替代值弥补缺失值)和删除法(直接忽略缺失值)

//使用同一列的均值替换缺失值(NaN)
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)

使用pd.get_dummies()函数将存在缺失值的列转换为两列

inputs = pd.get_dummies(inputs, dummy_na = True)
print(inputs)

2.2.3 转换为张量格式

使用torch.tensor()将数值类型转换为张量格式

import torch
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ryan-Lily

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

《动手深度学习》2.2数据预处理

qq_43797820的博客

09-14

183

文件路径拼接；文件读取和写入；缺失值处理；数值类型数据转换为tensor

动手学深度学习2.2数据预处理

uranus1992的博客

05-24

189

【代码】动手学深度学习2.2数据预处理。

1 条评论您还未登录，请先登录后发表或查看评论

动手学习深度学习——2.2 数据预处理

DAOCHI

11-29

1679

2.2. 数据预处理 到目前为止，我们已经介绍了一些数据操作的技术，它们都被存为张量格式。为了应用深度学习解决现实世界的问题，我们需要处理原始数据，而不是被很好的存于张量之中的数据。在 Python 中流行的数据分析工具中，pandas 包是最常用的。像 Python 庞大的生态系统中的许多其他扩展包一样，pandas 可以处理张量数据。因此，我们将简要地介绍使用 pandas 预处理原始数据并将其转换为张量格式的步骤。我们将在后面的章节中介绍更多的数据预处理技术。 2.2.1. 读取数据集作为一个.

【动手学深度学习v2】第二章预备知识-2.2 数据预处理

WS_Change的博客

08-02

147

动手学深度学习第二章-2.2数据预处理部分的内容

动手学深度学习Pytorch 2.2.数据预处理-笔记

fbhc_4444X_的博客

03-07

1142

使用软件包预处理原始数据，它可以与张量兼容。

2.2数据预处理（动手深度学习v2）

weixin_44212848的博客

09-02

882

课程主页：https://courses.d2l.ai/zh-v2/ 教材：https://zh-v2.d2l.ai/ 练习 1. 删除缺失值最多的列。 2. 将预处理后的数据集转换为张量格式。 数据预处理 ????sec_pandas 到目前为止，我们已经介绍了处理存储在张量中数据的各种技术。为了能用深度学习来解决现实世界的问题，我们经常从预处理原始数据开始，而不是从那些准备好的张量格式数据开始。在Python中常用的数据分析工具中，通常使用pandas软件包。像庞大的Python生态系统中的许多其他扩展

动手学深度学习（2.2）数据预处理

Yophan的博客

07-22

651

为两列“Alley_Pave”和“Alley_nan”。巷子类型为“Pave”的行会将“Alley_Pave”的值设置为1，“Alley_nan”的值设置为0。缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。其中每行描述了房间数量（“NumRooms”）、巷子类型（“Alley”）和房屋价格（“Price”）。由于“巷子类型”（“Alley”）列只接受两种类型的类别值“Pave”和“NaN”，中的所有条目都是数值类型，它们可以转换为张量格式。中的类别值或离散值，我们。

动手学深度学习（pytorch版）第二章-2.2数据预处理Note-pandas

Wall-E

09-23

168

由于“巷子类型”（“Alley”）列只接受两种类型的类别值"Pave"和“NaN",pandas可以自动将此列转换为两列”Alley_Pave"和“Alley_nan"。巷子类型为"Pave"的行会将”Alley_Pave"的值设置为1，“Alley_nan”的值设置为0。缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。os.path.join('..', 'data'): 把括号里的路径组合起来, '..'指的是本代码文件的上一级目录, data即为要创建的文件夹。

动手学深度学习2.2数据预处理-笔记&练习（PyTorch）

scdifsn的博客

03-27

758

李沐老师动手学深度学习PyTorch版2.2数据预处理-笔记&练习详解

动手学深度学习PyTorch版2.2数据预处理-笔记&练习详解-jupyter源代码

03-25

李沐老师动手学深度学习PyTorch版2.2数据预处理-笔记&练习详解-jupyter源代码

动手学深度学习--文本预处理、语言模型、循环神经网络基础

winds_lyh的博客

02-14

325

1. 文本预处理

动手深度学习笔记（二）2.2 数据预处理

juluwangriyue的博客

02-02

1925

动手深度学习笔记（二）2.2 数据预处理2. 预备知识2.2. 数据预处理2.2.1. 读取数据集2.2.2. 处理缺失值2.2.3. 转换为张量格式2.2.4. 小结2.5. 练习 2. 预备知识 2.2. 数据预处理 为了能用深度学习来解决现实世界的问题，我们经常从预处理原始数据开始，而不是从那些准备好的张量格式数据开始。在Python中常用的数据分析工具中，我们通常使用pandas软件包。像庞大的Python生态系统中的许多其他扩展包一样，pandas可以与张量兼容。本节我们将简要介绍使用pa

【学习笔记】动手学深度学习2-2.2

qq_43737179的博客

08-12

484

动手学深度学习笔记2 2.1 数据操作张量（tensor）无论使用哪个深度学习框架，它的张量类（在MXNet中为ndarry，在PyTorch和TensorFlow中为Tenor）都与Numpy中的ndarray类似，但又比Numpy中的ndarray多一些重要功能。 GPU很好的支持加速计算，而Numpy仅支持CPU计算张量类支持自动微分＞如无特殊说明，本书中所说张量均指张量类的实例 ...

深度学习-1：逻辑回归和梯度下降

m0_58285219的博客

10-20

194

我们想要得到该输入是猫图的概率，也就是希望y_hat是一个0-1之间的值，但w.T*x+b所得值往往不为0-1之间的概率，所以使用sigmoid函数对w.T*x+b进行变换，输出一个概率值，w.T*x+b越大，输出概率越接近于1。学习算法旨在学习到合适的w和b使J获得最小值，对w和b进行初始化后，利用梯度下降法对w和b进行更新，以获得最小的J值。J，dw1,dw2,db作为累加器，记录一次迭代中多个样本损失，梯度总和，然后求这些值的平均值，对参数进行更新。以下图为例，将使J值最小的W值成为Wmin。

深度学习-2：数据向量化

最新发布

m0_58285219的博客

10-20

在逻辑回归中，x,w,b都是列向量，若要计算w.T*x+b，不向量化的话就需要for循环计算起来很麻烦。向量化后，使用numpy.dot(w,x)函数即可快速计算。

深度学习：卷积神经网络（CNN）详解

m0_73640344的博客

10-14

2446

卷积神经网络（CNN）通过引入卷积层、池化层和全连接层，利用权值共享、局部感受野和平移不变性，成为处理图像和视觉任务的强大工具。其多层次特征提取的能力使其能够从低级到高级捕捉数据中的重要模式。尽管CNN在视觉任务中表现出色，但其在捕捉全局信息和处理长距离依赖上存在一定局限，促使了包括ResNet、Inception等在内的各种改进模型的发展。

卷积神经网络

m0_60315436的博客

10-20

407

在当今人工智能的浪潮中，卷积神经网络（Convolutional Neural Network，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。

基于深度学习的对抗攻击的防御

weixin_42605076的博客

10-17

489

基于深度学习的对抗攻击防御方法种类多样，包括对抗训练、梯度遮蔽、输入数据变换、基于认证的防御、特征空间防御、架构改进以及对抗样本检测等策略。每种方法各有优缺点，通常实际应用中会结合多种防御策略以增强模型的鲁棒性。

深度学习面试笔试之循环神经网络(RNN)、门控循环单元（GRU）、长短期记忆(LSTM)

算法工程师

10-19

668

深度学习面试笔试之循环神经网络(RNN)、门控循环单元（GRU）、长短期记忆(LSTM)

python中抑郁症DAIC-WOZ数据预处理

12-20

根据提供的引用内容，我无法找到关于Python中抑郁症DAIC-WOZ数据预处理的具体信息。引用是关于面部行为分析的开源项目OpenFace的论文和GitHub链接。引用是关于疾病分析访谈语料库（DAIC）的一部分的描述。这些引用...