初始数据分析

本文介绍了数据分析的基本流程,从问题定义到解决方案部署,包括数据抽取、清洗、转换、探索、模型建立与评估。同时,强调了数据分析师的日常工作,如业务理解、数据处理、模型构建及结果汇报,并以具体场景如预测电影评分、商业银行贷款审批为例,说明数据分析在不同领域的应用。
摘要由CSDN通过智能技术生成

数据类型:连续型、离散型、符号型、文本型
数据分析就是从原始数据中提取有效信息
信息是对数据更高层次的抽象,是数据处理之后的结论。
数据分析的目的:对研究的问题或系统建立数学或者逻辑模型。
数据分析流程详解

  1. 问题定义
  2. 数据抽取
  3. 数据清洗
  4. 数据转换
  5. 数据探索
  6. 数据模型
  7. 模型评估
  8. 解决方案部署

问题定义
数据分析总是始于要解决的问题,这个问题要事先定义。
如何预测豆瓣用户对不同电影的评分
如何给用户安排周边最近的又能通路的拼车
北京地区什么菜系最受欢迎。
问题定义的准确性能够保证分析过程是朝着目标结果前进。
数据抽取
对原始数据的提取,要以创建预测模型为目的
采集的样本数据尽可能真是反映实际情况
网页爬虫(或者调用API)—用户信息提取-----随机抽样
数据清洗:不同的抽取方式会得到不同的数据,需要对不同来源的数据进行归纳统一和去重。
数据转换
数据探索:从图形或者统计数字中搜寻数据,以发现其中的模式与联系

  1. 总结数据
  2. 为数据分组
  3. 探索不同属性之间的关系
  4. 识别模式与趋势
  5. 建立回归或者分类模型
    预测模型:基于相似用户的评分预测
    相似用户评分的加权平均值来预测这个用户的评分
    模型评估:验证用先前采集的数据创建的模型是否有效
    两种主要的评估方式:
    在线平台的评估
    在历史数据集上的评估
    解决方案的部署:数据分析师撰写报告描述分析结果,提交报告至管理层,便于他们做出决策
    数据分析师的日常工作:
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值