1、kettle是什么?可视化ETL工具Kettle
2、数据仓库:
本质:专门针对于数据存储模型
实现:MySQL、Oracle、Hive……
应用:专门用于实现将各种各样数据进行统一化规范化的数据存储,为所有数据应用提供数据
数据分析
数据挖掘
用户画像
推荐系统
风控系统
特点:
本身不产生数据
本身也不使用数据
用于实现复杂数据的存储
与数据库区别:
数据库:一般用于支撑业务数据的存储
网站后台:用户数据、商品数据、订单数据
数据仓库:专门为数据数据处理提供数据的
业务数据
用户行为
爬虫数据
第三方数据
日志数据
问题:
数据种类非常的多,每一种数据的内容或者格式都不一样
有结构化、有非结构化
有合法的,有非法的
有需要的,有不需要的
MySQL是一个专门用于存储结构化数据的数据存储工具
结构化
需要
合法
如何将各种各样的数据存储在MYSQL中?
解决:
数据产生以后,不能直接放入数据仓库【MySQL】中存储
对原始数据进行一步预处理,将需要的、合法的数据放入数据仓库中
这一步预处理:ETL【数据清洗】
ETL:
功能:实现数据的预处理,数据清洗过程,将原始数据经过ETL处理变成想要的数据,进行下一步的应用
实现:
抽取:读取需要处理的原始数据
转换:将原始数据转换为目标数据
过滤:将不需要的数据过滤掉
数据仓库和Kettle和FineBI简单概念
最新推荐文章于 2024-08-21 00:00:39 发布
本文介绍了数据仓库的基本概念,探讨了数据仓库在大数据环境中的作用。同时,详细解析了ETL工具Kettle的工作流程,以及如何利用它进行数据清洗和转换。最后,阐述了商业智能工具FineBI的功能,特别是其在数据可视化和仪表板创建方面的应用。
摘要由CSDN通过智能技术生成