数据类型与数据集的结构

最新推荐文章于 2024-08-10 18:21:29 发布

2024坚持到底

最新推荐文章于 2024-08-10 18:21:29 发布

阅读量1.7k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51444827/article/details/109262743

版权

机器学习专栏收录该内容

30 篇文章 0 订阅

订阅专栏

1.数据来源

企业日益积累的大量数据（互联网公司更为显著）

政府掌握的各种数据

科研机构的实验数据

… …

2.数据类型

离散型数据：由记录不同类别个体的数目所得到的数据，又称计数数据，所有这些数据全部都是整数，而且不能再细分，也不能进一步提高他们的精确度。如：班级人数、进球个数、是否是某个类别等等

连续型数据：变量可以在某个范围内取任一数，即变量的取值可以是连续的，如：长度、时间、质量值、票房等，这类整数通常是非整数，含有小数部分。

注：离散型是区间内不可分，连续型是区间内可分

3.数据集的结构

3.1可用的数据集

Kaggle—特点：

1）大数据竞赛平台 2）真实数据 3）数据量巨大

UCI—特点：

1）覆盖科学、生活、经济等专业领域 2）数据量几十万

scikit-learn—特点：

1）数据量较小 2）方便学习

3.2数据集结构

数据集结构 = 特征值 + 目标值

特征值：相当于二维表中列索引的值

目标值：根据一系列特征要做的事情。如要根据一系列特征来判断目标是男还是女，则男/女为目标值。

4.数据中对于特征的处理

pandas:一个数据读取非常方便以及基本的处理格式的工具

sklearn:对于特征的处理提供了强大的接口

2024坚持到底

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。