泰迪杯第一次课

1,数据分析技能赛:
主要以工具为主,可视化的工具。

2、考试时间:早八点到晚六点。

3****.数据清洗:****

kettle:软件使用
csv:以逗号为分隔符的文本文件。

主要涉及CSV文件的导入导出,

(1)输入:
CSV文件输入:
列分隔符:数据中间是用,分开的,则列分隔符是,,也有分号;

excel输入:

1.注意细节:比如给出格式数据为03年的格式,要求结果数据为97格式的。

2.在工作表中,获取工作表名称,有的文件包含三个工作表,选择需要的数据表,有sheet1,sheet2,sheet3.

3.注意将字段里的时间都换成date类型,否则以后用不了。
在这里插入图片描述

4.如果没有表头,需要自己定义表的名称表头。在名称处进行手动添加。

5.如果只想保存number的小数点前的数,则可以在格式处进行选择#。

6.输出:
Excel输出
文本文件输出

7.字符串剪切,操作和替换。
①去除空格,去除数据left 或right或中间的空格。
②去重
③字段剪切。
④名字的字母大写或者小写。
⑤miding:填充,在地区的区号前面加上0.
⑥去除全部数字,或者只要数字。
⑦移除特殊字符;
⑧知道两个时间计算时间差。

8.去年的地区的位置信息,地图。
细胞的健康监测。数据挖掘。

9、字符串的替换:
正则表达式:
能够匹配一组我所想要的数据。
将所有的逗号替换成分号。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值