新手小白必须了解的数据相关基础知识(一)

不管是做数据标注还是数据清洗、分析等等,大家是不是遇到过如下问题?

  1. 提示文件没有软件能打开。

  2. 用常用软件打开后乱码。

 等等问题,特别是刚接触数据行业的小伙伴,有很多没有计算机背景知识,完全摸不到头脑到底需要如何处理,那本文就给大家详细梳理一下关于数据新手小白必须要了解的关于数据文件格式的基础知识。

 

文件格式

首先我们先来了解一下文件格式的定义是什么?

指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名可以帮助应用程序识别的文件格式。

 

根据定义大家就非常好理解了,说的直白一些就是电脑存储数据本来是一种编码的,但是大家为了便于存储和识别,根据不同的需求用了特殊的编码方式来进行存储,而我们常看到的扩展名,就相当于我们给这种特殊编码方式起了一个非常便于识别的小名。

 

我们日常常用的扩展名有哪些呢?

 1..xlsx结尾的Excel文件,.docx结尾的Word文件,.pptx结尾的PPT文件。

 2..png、.jpg、.gif结尾的图形文件。

 3..mp3、.mp4、.wav、.wmv等等结尾的音乐和视频文件。

 4..txt结尾的文本文件。

 5..exe结尾的windows环境下的可执行文件。

 

以上都是我们日常使用电脑比较常用的扩展名的问题,而且基本上电脑都会自带软件可以进行读取操作了,所以大家日常上就会对这些扩展名比较无感,那么做数据标注会遇到哪些文件格式呢?我们一起来看看。

  • 通用文本文件格式

    文本文件基本上各个操作系统自带的文本编辑器都可以进行读取操作,如果体验比较好一点的话,在windows上可以用Notepad++或者UltraEdit。

    • 分隔格式(结构化数据)

      数据属性(列)和数据实例(行)由统一符号分割,用于分割的符合就被称为分割符,其特点就是用起来非常方便也很容易理解。目前常见的就有两种

      制表符分割值(TSV)

       

      逗号分割值(CSV)

    • JSON格式(半结构化数据)

      JSON是目前主流的数据格式之一,可跨平台的属性让广泛的应用于各个传输数据的场景,这也是因为jSON格式的扩展性好、易用、并且支持多值属性、可缺失属性、嵌套属性的原因,格式特点是属性——值的形式进行存储数据,每个值都有其对应的属性标识。

       

      可以解读:此JSON文件记录的是图片信息及图片标注的属性,并且红色框标出部分名称均可自定义名称。

    • XML格式(半结构化数据)

      XML是一种可扩展标记语言,主要用来描述数据,其中的标记都是可以根据使用的命名需求进行自定义。

    • HTML格式(非结构化数据)

      HTML格式最常见的就是我们目前使用的网页页面都是此类格式。可以打开浏览器访问任一网页点击键盘上的F12键都可以进入开发者模式查看其页面内容。

       

      可以看到红框标注部分就是HTML的内容,我们可以在这个页面中找到相关需要的信息,但是HTML中需要包含的内容比较多也比较复杂,同时可自定义的内容也非常多,所以就比其他格式要麻烦很多。

  • 文本标注

    进行文本标注时,如果是线下标注的话,比较常用存储数据的文件是txt、xlsx格式,这个两种格式相对比较常见就不多介绍,可以自己新建看看有什么特点。

  • 图像标注

    图像格式种类就相对更丰富了,比较常见的有:bmp,jpg,png,tif,gif,pcx,tga,exif,fpx,svg,psd,cdr,pcd,dxf,ufo,eps,ai,raw,WMF,webp等。其中用的最多的就是bmp、jpg、png了。

    • bmp(BitMap)是一种与硬件设备无关的图像文件格式,使用非常广泛。但它不支持文件压缩,也而不适用于Web页,所占用的空间很大。

    • JPEG是一种常见的图像格式,JPEG文件的扩展名为压缩技术十分先进,它用去除冗余的图像和色彩数据,获取极高的压缩率的同时能展现十分丰富生动的图像,话句话说,就是可以用最少的磁盘空间得到较好的图像质量。

    • png是一种无损压缩的位图片形格式,其设计目的是试图替代GIF和IFF格式,同时增加一些GIF文件格式所不具备的特性。其特点是压缩比高,生成文件体积小。

  • 音频标注

    无损格式:例如WAV、FLAC、APE、ALAC、CDA

    有损格式:例如MP3、AAC、Opus

    所以我们在标注的时候使用的原始数据WAV格式也会多一些。其标注的结果文件除了上面通用的标注文件格式外,目前使用比较多的线下音频处理工具Praat也有自己生成的结果格式textgrid文件。

     

  • 视频标注

    视频标注目前主流的方案是把视频抽取关键帧然后对抽取关键帧的图片进行标注,最后再合成视频。

  • 医疗标注

    影像数据(CT/DR)

        .dcm文件遵循DICOM(Digital Imaging and Communications Medicine,医疗数位影像传输协定)标注的一种文件。而DICOM标准支持的设备包括心电图、核磁共振成像、心血管、超声心动图等多种医疗社保,因而DCM文件被广泛应用于医疗行业。

一张CT片子对应多个.dcm文件:

        病理切片数据

        病理切片医院正常存储的都是玻璃片式进行存放归档,大部分医院都不进行电子化,主要原因对于医院来说电子化不是刚需,及时电子化了也没什么作用,其次电子化需要病理切片电子扫描仪,不仅贵扫描效率也非常低下,有些设备的扫描成功率也不是很高。所以基本上如果客户需要研究病理切片都需要进行自行扫描才行。但病理切片扫描出来的片子一般都非常大,40倍扫描出来就需要几G的存储空间,所以在我们拿到数据的时候一般都会非常大或者非常多图片。介绍两种目前主要的形式。

      1..jpg格式的图片,如果是一张病理切片如果被切分成.jpg格式的图片通常会被切成少则几十张多则几百张的图片。

    

        2.tif格式也是一种图像文件格式,只是这是一种灵活的位图格式。

        其数据格式是一种3级体系结构,内部结构可以分为三部分:文件头信息区、标识信息区和图像数据区。

 

  以上就是目前数据标注主要能涉及的文件格式以及主要的输出结果格式,也是数据标注或者后期数据处理必须要了解的基础知识。针对这部分内容还有很多,也会多写几篇和大家分享。

   

最近好多小伙伴后台留言问一些问题,还是发现目前从事数据标注和想转到数据相关行业的小伙伴还是很多的,但是大家对数据相关的基础知识相对还是比较薄弱的,所以接下来会针对数据基础知识、数据处理、python基础等几个方面写一些专题系列文章,如果有兴趣的小伙伴也可以一起参与学习。也欢迎大家留言交流。

 

 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI数据标注猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值