数据来源和搜集

文章介绍了数据搜集的两种主要来源——间接数据和直接数据,强调了间接数据的优缺点及直接数据的重要性。在调查数据部分,讨论了概率抽样和非概率抽样的概念、类型及其适用场景。此外,还提到了实验数据的收集,包括实验组与对照组的设置以及实验中可能遇到的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据搜集

1 数据来源

所有统计数据都来源于社会调查或试验,但从使用角度看,统计数据来自两条渠道:

  • 间接来源,由别人通过调查或试验方式搜集
  • 直接来源,由自己通过调查或试验方式搜集

1.1 数据的间接来源

间接数据来源既包括取自系统外部,也包括取自系统内部。外部获取途径包括政府部门定期发行的年鉴、经济信息中心,咨询机构、调查机构、协会或行业的发展的情报;各类报纸、期刊、图书馆文献资料;各种会议、学术研讨会等。内部获取途径,就经济活动来说,包括公司或企业内部业务以及与生产相关的统计报表、财务、会计核算等。


1.2 间接数据的评价

间接数据搜集成本相对较低,搜集难度相对容易。但是,间接数据也存在较大弊端,一是间接数据不是为特点研究而产生的,在做研究时可能并不支持个人的预期结论。另外,间接数据的来源口径也存在差异,数据的准确性需要具体分析。因此,使用间接数据需要对数据的准确性进行评估。评估需要考虑如下问题

  • 资料谁搜集的?
  • 搜集的目的?
  • 如何搜集的?
  • 什么时候搜集的?

1.3 数据的直接来源

数据直接来源即通过调查或实验的方法得到的一手资料。调查相对于社会现象而言,调查数据通常取自有限总体。如果对总体进行调查,则为普查。如果总体较大,普查将是一项巨大的工程,时间、精力于与成本的投入可能阻碍了研究工作。因此,如何进行抽样调查成为统计学家需要考虑的一个问题。实验是相对于自然现象而言的,但社会学家也利用实验或准实验的方法来获取数据。


2 调查数据

使用抽样调查数据的方式较多,根据不同方式可分为概率抽样与非概率抽样

2.1概率抽样

概率抽样也称为随机抽样,需要遵循以下原则

  • 抽样要按照一定概率以随机方式抽样
  • 个体被抽中的概率是已知且可计算的
  • 用样本对总体目标进行估计,要考虑到每个样本被抽中的概率

抽样概率的方式包括以下几种:

  • 简单随机抽样:从包含N个个体的抽样框中随机地、一个一个地抽取n个样本,每个样本入样地概率相等

  • 分层抽样:将抽样单位按照某种特征或某种规则分为不同地层,然后从不同地层随机地抽取样本。

  • 整群抽样:将总体若干单位合并为组,这样地组称为群。抽样时直接抽取群,然后选中群中地所有单位全部实施调查。

  • 系统抽样:将总体中所有单位按一定顺序排列,在规定地范围内随机抽取一个单位作为初始单位,然后按照事先规定地规则确定其他抽样单位。


2.2 非概率抽样

非随机抽样与随机抽样不同,它是根据数据要求、采取某种方式从总体抽出部分单位进行调查。非概率抽样主要包括以下几种:

  • 方便抽样:怎么方便怎么来,带有主观随意性
  • 判断抽样:根据样就这自身经验、判断、知识等,有目的地选择一些单位作为样本机械能调查。根据目的不同,又可以分为重点抽样、典型抽样与代表抽样
  • 自愿样本:被调查者自愿参与,主动成为样本的一份子。
  • 滚雪球抽样:针对于稀少群体的调查。在滚雪球抽样中,首先选择一组单位调查,对其实施调查后,根据被访者提供属于样本总体的调查对象,调查人员根据所提供的线索,进行调查。
  • 配额抽样:先将总体按照某一特征进行排序分为若干类,然后再实施方便抽样或判断抽样选取样本。主要运用在市场调查中。

2.3 概率抽样 *vs.*非概率抽样

非概率抽样方便快捷,对统计学的技术要求不高,适合于探索性研究。但是,非概率抽样由于个体的概率分布不确切,无法使用样本结果对总体的相关参数进行推断统计。如果将非概率抽样样本进行参数假设、区间估计、回归分析等,可能与实际情况存在偏误。概率抽样要求研究者有较高的统计技术知识,其调查成本也比非概率抽样高


3 搜集数据的方法

搜集数据的方法主要包括

  • 自填式:在没有调查员协助时,被调查者自己填写
  • 面访式:在调查现场中与被调查者面对面对交流、询问。
  • 电话式:调查者通过打电话方式向被调查者调查

4 实验数据

实验数据是在实验室控制实验对象而搜集到的数据

4.1 实验组与对照组

实验不仅是搜集数据的方法,也是一种研究方法。实验的基本逻辑:

改变某个变量(A)的情况,然后观察另一个变量(B)的变化情况。如果B随着A的变化而变化,则说明A对B有影响。为此,需要将样本一分为二,一个为实验组,另一个为对照组。实验组指随机抽选实验对象的子集,并对这个子集特殊处理;对照组额每个单位不接受某种特殊处理。


4.2 实验中的若干问题

实验虽然逻辑严密、较好证明假设、分析事物之间的因果,但实验过程也存在相关问题:

  • 第一,受试者(人)的意愿。每个人都有子集的生活方式与处世原则,被试者未必按照要求行事
  • 第二,心里问题。人么对被研究非常敏感,这使得受试者更加注意自我
  • 第三,道德问题。道德问题使人与动物的实验过程复杂化。另外,一些的隐私数据可能存在泄露。

-END-

参考文献:

贾俊平等. 统计学(第六版) [M]. 中国人民大学出版社,2000

<think>好的,用户想了解数据集的收集来源或方法。首先,我需要回顾之前的引用内容,看看有没有相关的信息。引用1提到用户自己收集标注的数据集,包括网络来源自己收集。引用23主要讲评测数据集的统计大模型数据集,但用户的问题更偏向于如何收集数据集,而不仅仅是现有的数据集列表。 接下来,我应该分步骤回答,确保覆盖不同来源方法。常见的来源包括公开数据集平台、网络爬取、自有数据生成、合作共享、众包标注合成数据。需要结合引用中的例子,比如用户自己收集网络来源,以及引用3提到的平台如HuggingFace、OpenAI等。 还要注意用户可能的应用场景,比如学术研究或工业项目,所以需要给出不同场景下的建议。同时,生成的相关问题要围绕数据收集的难点、处理步骤、质量评估标注方法,这些能帮助用户进一步解决实际问题。 需要确保回答结构清晰,每个来源方法都有具体例子,并自然插入引用标记。比如在提到公开平台时,引用3中的数据集可以作为例子。用户自己收集的部分可以参考引用1中的语义分割数据集。最后提醒合法合规问题,符合数据使用规范。</think>### 数据集收集来源与方法 数据集收集是机器学习项目的重要基础,以下是常见的来源方法分类,结合实践经验文献资料总结: --- #### **一、主要来源** 1. **公开数据集平台** - 学术机构或企业发布的标准化数据集,如: - $ \text{Hugging Face Datasets} $[^3] - $ \text{Kaggle} $ - $ \text{UCI Machine Learning Repository} $ - 领域专用数据集(如引用[1]中提到的语义分割数据集) - 示例:大模型评测数据集常来自OpenAI、Anthropic等机构[^2][^3] 2. **网络爬取与整理** - 通过爬虫技术从网页、社交媒体等公开渠道获取数据 - 需注意法律合规性(如遵循Robots协议、隐私政策) - 典型应用:文本语料库、商品评论数据 3. **自有数据生成** - 通过业务系统积累(如用户行为日志、传感器数据) - 人工标注(如引用[1]中提到的书本边缘分割数据集) - 实验仿真(如自动驾驶模拟环境数据) 4. **合作与共享** - 跨机构合作获取行业数据(如医疗影像联合标注) - 开源社区贡献(如GitHub项目中的共享数据集) 5. **众包标注平台** - 使用Amazon Mechanical Turk、Label Studio等工具 - 适合需要大规模人工标注的任务(如图像分割、情感分析) 6. **合成数据工具** - 利用GAN、Diffusion模型生成仿真数据 - 解决数据稀缺或隐私问题(如人脸生成) --- #### **二、方法建议** 1. **明确需求** - 定义数据格式(如$ \text{COCO} $格式目标检测数据)、样本量、标注标准 - 根据任务类型选择来源(如学术研究优先公开数据集[^2],工业项目侧重自有数据) 2. **质量控制** - 去重、噪声过滤、标注一致性校验 - 使用$ \text{IoU} $(交并比)等指标评估标注质量[^1] 3. **工具链整合** - 数据采集:Scrapy、Apify - 标注管理:CVAT、LabelImg - 版本控制:DVC(Data Version Control) 4. **合规性检查** - 遵守GDPR、CC协议等数据使用规范 - 敏感数据需脱敏处理 --- #### **三、实践案例参考** - **语义分割数据**:如引用[1]中结合网络下载与自主拍摄标注 - **大模型对齐数据**:引用[3]中通过用户反馈(Summarize from Feedback)偏好对比(WebGPT Comparisons)构建 - **价值观评估数据**:采用人工编写与规则过滤结合(如CValues数据集)[^3] ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值