零基础学人工智能之统计学篇(2. 1) -----数据来源

2.1 数据的来源

  所有统计数据追踪其初始来源,都是来自 调查实验。但是,从使用者的角度看,统计数据主要来自两个渠道:

  • 一个是数据的间接来源,即数据是由别人通过调查或实验的方式搜集的,使用者只是找到它们并加以使用,对此我们称为 数据的间接来源
  • 另一个是通过自己的调查或实验活动直接获得一手数据,对此我们称为 数据的直接来源

2.1.1 数据的间接来源

  如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据,则把它们称为间接来源的数据
  从搜集的范围看,这些数据可以取自系统外部,也可以取自系统内部。

  • 数据取自系统外部的主要渠道有:
    • 统计部门和各级政府部门公布的有关资料,如定期发布的统计公报,定期出版的各类统计年鉴;
    • 各类经济信息中心、信息咨询机构、专业调查机构、行业协会和联合会提供的市场信息和行业发展的数据情报;
    • 各类专业期刊、报纸、图书所提供的文献资料;
    • 各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料;
    • 从互联网或图书馆查阅到的相关资料等。
  • 取自系统内部的资料,就经济活动而言,则主要包括:
    • 业务资料,如与业务经营活动有关的各种单据、记录;
    • 经营活动过程中的各种统计报表;
    • 各种财务、会计核算和分析资料等。

  相对而言,这种二手资料的搜集比较容易,采集数据的成本低,并且能很快得到。二手资料的作用也非常广泛,除了分析所要研究的问题,这些资料还可以提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些假设和疑问,寻找研究问题的思路和途径。
  因此,搜集二手资料是研究者首先考虑并采用的
  但是,二手资料有很大的局限性,研究者在使用二手资料时要保持谨慎的态度。因为二手资料并不是为特定的问题而产生的,所以在回答所研究问题方面可能是欠缺的,如资料的相关性不够,口径可能不一致,数据也许不准确,也许过时了,等等
  因此,在使用二手资料前,对二手资料进行评估是必要的。对二手资料的评估可以考虑如下问题:

    1. 资料是谁搜集的
      • 这主要是考察数据搜集者的实力和社会信誉度。例如,对于全国性的宏观数据,与某个专业性的调查机构相比,政府有关部门公布的数据可信度更高。
    1. 为什么目的而搜集
      • 为了某个集团的利益而搜集的数据是值得怀疑的。
    1. 数据是怎样搜集的
      • 搜集数据可以有多种方法,采用不同方法所采集到的数据,其解释力和说服力都是不同的。如果不了解搜集数据所用的方法,则很难对数据的质量做出客观的评价。
      • 数据的质量来源于数据的生产过程
    1. 什么时候搜集的
      • 过时的数据,其说服力自然受到质疑。


  使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。


2.1.2 数据的直接来源

  虽然二手数据具有搜集方便、数据采集快、采集成本低等优点,但对一个特定的研究问题而言,二手资料的主要缺陷是针对性不够,所以仅仅靠二手资料还不能回答研究所提出的问题,这时就要通过调查实验的方法直接获得一手资料。
  我们把 通过调查方法获得的数据称为调查数据,把 通过实验方法获得的数据称为实验数据

  • 调查通常是针对社会现象的
    • 例如,经济学家通过搜集经济现象的数据来分析经济形势、某种经济现象的发展趋势、经济现象之间的相互联系和影响;社会学家通过搜集有关人的数据以了解人类行为;管理学家通过搜集生产、经营活动的有关数据以分析生产过程的协调性和效率。
    • 调查数据通常取自有限总体,即总体所包含的个体单位是有限的。如果调查针对总体中的所有个体单位进行,就把这种调查称为普查普查数据具有信息全面、完整的特点,对普查数据的全面分析和深入挖掘是统计分析的重要内容。
    • 但是,当总体较大时,进行普查将是一项很大的工程,耗时、费力,调查成本也非常高,因此不可能经常进行。
    • 事实上,统计学家所面临的经常是样本的数据,如何从总体中抽取出一个有效的样本,就成为统计学家需要考虑的一个问题。
  • 实验通常是针对自然现象的
    • 例如,化学家通过实验了解不同元素结合后所产生的变化;农学家通过实验了解水分、温度对农作物产量的影响;医学家通过实验验证新药的疗效。
    • 实验作为搜集数据的一种科学的方法也被广泛运用到社会科学中。

总结

整个第二章主要讲调查方法实验方法数据误差
所以整章分为此三部分。
觉得笔者写得好的希望大家点点关注点点赞,一起努力hhh~~。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值