数据采集、传输、同步、集成、整合、抓取、提取、迁移、收集、抽取等概念各是什么?

数据采集:又称数据获取,是利用工具或者技术,从系统外部获取数据并输入到系统内部的一个过程。
数据传输:数据传输是按照一定的规程,通过一条或多条数据链路,将数据从数据源传输到数据终端,它的主要作用是实现点与点之间的信息传输和交换。
数据同步:数据同步是通过直连、同步文件或日志解析的方式,将不同物理位置的目标数据系统中的数据内容进行更新,使之与源数据系统中的数据相同的过程。
数据集成:数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
数据整合:数据整合是把不同数据源的数据收集、整理、清洗,转换后加载到一个新的数据源,为数据消费者提供统一数据视图的数据集成方式。
数据抓取:也称为网络数据提取或网页爬取,是指从网上获取非结构化数据,并将获取到的数据转换为结构化的数据,最终可以将数据存储到本地计算机或数据库的一种技术。
抓包:是指将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取。
数据提取:是指从原始数据中抽取出感兴趣数据的过程。
数据迁移:数据迁移是将某一存储系统中的很少使用或不用的文件或数据转移到新的存储系统的存档过程。
数据收集:是指根据系统自身的需求和用户的需要收集相关的数据。
数据抽取:是指从数据源中抽取数据的过程。

以上的名词区别在于其使用的场景,但是大部分情况下,这些名词都有一定的共用性。比如从Mysql中将数据转移至hive中,如果是将hive中的数据覆盖掉,这个过程叫做数据同步。如果仅仅不考虑是覆盖还是追加等操作,仅考虑这件事情,则为数据抽取。如果mysql作为外部系统(业务上的定位),那么也可以称为数据采集。数据在转移的过程中,处于ing状态的话叫做数据传输。如果采集的系统较多,比如有多个Mysql的库,也可以称为数据集成。如果对数据还进行了一些etl处理,使之有多表的聚合,那么也可以称为数据整合。在整合过程中,对部分字段或维度有一定的取舍,叫做数据提取。如果是在还未采集过来就先设定好采集的条件,使采集到Hive中的数据和Mysql的长得不一样,叫数据收集。如果是因为业务原因,mysql不用了,因此将所有数据给转到hive里,叫数据迁移。如果数据是从网上获取到的,叫做数据抓取,也叫网络爬虫。抓包是一个另外的概念,是指数据网络传输过程中,进行拦截,将拦截下来的信息拿出来看,叫数据抓包

done。
大数据扯淡交流群:808565587,没有培训机构,没有杂七杂八,纯粹的交流群,只有爱与同行交流的你。欢迎大家。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值