新手小白必须了解的数据相关基础知识(二)

大家在处理数据的时候有没有遇到过这样的问题?

        1.客户反馈数据类型不对,用客户程序读的数据无法处理?

        2.明明是一样的数据在不同的工具中打开显示的缺不一样?

等等,因为数据类型的问题是看似相同的值但是因为定义的数据类型不一样,可能表明看不出,但是用其他程序读取可能就会体现出来,如果出现类似的问题,实际当中排查还稍微费劲,所以今天跟大家聊聊数据基础部分的第二部分----数据类型以及常见的特殊类型。这部分基础会尽量结合数据标注相关知识进行说明。

 

一.数据类型

首先我们还是先了解一下什么是数据类型(来源:百度)?

 

数据类型在数据结构中的定义是一个值的集合以及定义在这个值集上的一组操作。变量是用来存储值的所在处,它们有名字和数据类型。变量的数据类型决定了如何将代表这些值的位存储到计算机的内存中。在声明变量时也可指定它的数据类型。所有变量都具有数据类型,以决定能够存储哪种数据。数据类型包括原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型。

 

更直白点的理解就相当于在计算机的存储的数据时候,你需要指定告诉计算机你存储的是类型的数据,比如是数字还是文字还是其他的等等,方便计算机对数据的管理。

 

每一种语言都有属于自己的数据类型,可能不有所不同,但是基本原理还是一样的,就以下面的JAVA的基本数据类型为例:可以看一下取值范围一栏种,每种数据类型其实可以表示的数据范围是有限的,那么这样就很容易理解一个最基本的问题,任意一种类型在存储的时候都要在其范围之内进行存储,否则就会出错。

 

感兴趣的小伙伴也可以搜索一下python等语言的数据类型,数据标注处理完的结果客户拿到之后也会利用相关的语言来处理,所以了解相关的数据类型还是非常有必要的。

 

二.零、空值、null的区别

我们在处理数据的时候很容易遇到这三个值,对于标注员来讲很容易就误认为是一样的,反正都是空的意思,至于是怎么个空法又有什么区别呢?但对于数据来讲区别就非常大了,所以一定要区分好。首先来举一个例子来辅助大家理解:

  1. 一天工作结束项目经理问你实体标注项目的文件里好有多少数据没有出来呢?但是呢这个项目不是你负责的所以你的电脑压根就没有这个项目的文件夹,所以呢,既不能是多少条,也不能是0,也不是空,那这个是时候就应该是NULL;

  2. 这个时候项目经理问你,那人体关键点还有多少张呢,这个刚好是你负责的,还是100张图片,那么就应该是100;

  3. 项目经理又问你,拉框项目文件夹里还是多少没做完的呢?刚好这个项目你都做完了,那么答案就是0;

  4. 最后项目经理问你,音频项目的文件夹里呢?因为那个项目已经做完归档了,文件里已经清空了,所以答案就是空了;

 

    0在这三个里面是最好处理的,因为零是一个正常的一个整数。

    空值这里面是最要值得注意的,例如我们在一组数据里面有一个属性要记录喜欢的颜色时:“color”:“red”,“color”:“”;第二个记录的没有即为空值。在这里一定要注意区分的就是空白,这个问题在转写项目上最容易出现。依然是哪颜色举例子,“color”:“red”,“color”:“  ”;第二个记录值中就是空白值,空格的时候在文章中会经常出现,也有的是正常情况,所以如果再标注过程中无意数据后就非常难把无效的空白值清洗掉。

  • null

    null就如同例子,表示从未存在过。

 

对于基础的数据标注员来讲,以上内容在工作内容中基本不需要他们来考虑,但是如果小伙伴想在数据相关行业发展,这部分就是最基础,所以一定要有所了解。建议有精力的小伙伴可以学一门编程语言可以更深入的学习。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI数据标注猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值