1) 大数据平台搭建: 安装 Hadoop 全分布式平台, 安装 Hadoop 平台相关的常用组件, 包括但不限于 ZooKeeper、 Flume、 Kafka、 Spark、Flink、 Redis、 HBase 等, 验证 Hadoop 平台和相关组件的可用性。
2) 数据库配置维护: 基于 MySQL 数据库进行建库建表, 运用基本的 SQL 语句完成数据的增删改查等操作。
3) 数据获取与清洗: 读取 CSV 数据源, 对指定字段进行有效性检查, 正确处理无效值和异常值, 对数据进行一致性检查, 对数据进行清洗和转换。
4) 数据统计: 编写 MapReduce 程序, 并将程序打包部署到 Hadoop平台上运行。 对数据进行统计汇总、 分区分组和排序等操作。 使用 HDFS上传和下载文件。
5) 数据标注: 使用 Python 程序对数据进行分类标注, 将标注后的数据保存到指定位置。
6) 数据可视化: 使用 Web 技术或 Python 可视化技术对数据进行呈现, 包括但不限于柱状图、 折线图、 玫瑰图、 气泡图、 饼状图、 条形图、 雷达图、 散点图等效果。
7) 业务分析: 能够理解业务场景, 对业务数据进行分析, 编写分析报告。