![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kettle数据清洗案例
文章平均质量分 73
硹ck
这个作者很懒,什么都没留下…
展开
-
8.3 案例实现(加载数据库sakila中的数据至数据仓库sakila_dw)
通过Kettle工具将前面小节创建的转换整合成一个整体,用于定时操作DVD租赁商店的数据仓库。原创 2022-11-26 01:03:14 · 1210 阅读 · 1 评论 -
8.3 案例实现(加载租赁数据至租赁事实表)
通过Kettle工具加载租赁数据至租赁事实表fact_rental。原创 2022-11-26 00:15:21 · 802 阅读 · 0 评论 -
8.3 案例实现(加载电影数据至电影维度表)
通过Kettle工具加载电影数据至电影维度表dim_film。原创 2022-11-26 00:15:27 · 513 阅读 · 0 评论 -
8.3 案例实现(加载演员数据至演员维度表)
通过Kettle工具加载演员数据至演员维度表dim_actor。原创 2022-11-26 00:15:30 · 194 阅读 · 0 评论 -
8.3 案例实现(加载商店数据至商店维度表)
通过Kettle工具加载商店数据至商店维度表dim_store。原创 2022-11-26 01:06:08 · 276 阅读 · 0 评论 -
8.3 案例实现(加载用户数据至用户维度表)
通过Kettle工具加载用户数据至用户维度表dim_customer。原创 2022-11-25 22:10:46 · 186 阅读 · 0 评论 -
8.3 案例实现(加载员工数据至员工维度表)
通过Kettle工具加载员工数据至员工维度表dim_staff。原创 2022-11-25 21:30:38 · 331 阅读 · 0 评论 -
8.3 案例实现(加载时间数据至时间维度表)
通过Kettle工具加载时间数据至日期维度表dim_time。原创 2022-11-25 21:16:13 · 183 阅读 · 0 评论 -
7.2 数据的批量加载
通过Kettle工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中。原创 2022-11-25 20:37:24 · 93 阅读 · 0 评论 -
7.1 数据的加载机制(增量加载)
通过Kettle工具将数据表incremental_source中的数据增量加载到数据表incremental_target中。原创 2022-11-25 20:23:45 · 120 阅读 · 0 评论 -
7.1 数据的加载机制(全量加载)
通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中。原创 2022-11-25 19:52:07 · 96 阅读 · 0 评论 -
6.4 数据的商务规则计算
通过Kettle工具对数据表company_new中的数据进行商务规则的计算,即对数据表company_new中的数据进行相关处理和计算,从而得出手机在各省份的日销售额,并存储于数据表regional_sales中。原创 2022-11-25 19:29:05 · 172 阅读 · 0 评论 -
6.3 数据粒度的转换
通过Kettle工具将对数据表company进行数据粒度的转换操作,即将数据表company中字段为salesArea的数据都统一成省级份,并存储到新数据表company_new中。原创 2022-11-25 18:48:56 · 107 阅读 · 0 评论 -
6.2 不一致数据的转换
通过Kettle工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中。原创 2022-11-25 17:38:13 · 671 阅读 · 0 评论 -
6.1 多数据源合并
通过Kettle工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。原创 2022-11-24 21:40:05 · 304 阅读 · 0 评论 -
5.4 数据检验(数据规范化处理)
通过Kettle工具,对数据进行检验操作原创 2022-11-24 21:08:40 · 587 阅读 · 0 评论 -
5.4 数据检验(数据一致性处理)
通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。原创 2022-11-24 20:32:51 · 489 阅读 · 0 评论 -
5.3 异常值处理(修补异常值)
通过Kettle工具,替换和修改数据表interpolation_data中的异常值。原创 2022-11-24 21:52:30 · 155 阅读 · 0 评论 -
5.3 异常值处理(删除包含异常值的记录)
通过Kettle工具,去除文件temperature.txt中的异常值。原创 2022-11-24 19:45:51 · 400 阅读 · 0 评论 -
5.2 缺失值处理(填充缺失值)
通过Kettle工具,使用平均值填充法对文件people_survey.txt中的缺失值进行填充。原创 2022-11-24 21:44:48 · 177 阅读 · 0 评论 -
5.2 缺失值处理(去除缺失值)
通过Kettle工具,去除原始数据集revenue.txt中的缺失值。原创 2022-11-23 21:33:30 · 270 阅读 · 0 评论 -
5.1 数据去重(不完全去重)
通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理原创 2022-11-23 20:49:15 · 107 阅读 · 0 评论 -
5.1 数据去重(完全去重)
通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。原创 2022-11-23 20:25:30 · 207 阅读 · 0 评论 -
4.2 抽取Web数据(JSON文件的数据抽取)
通过Kettle工具抽取JSON文件json_extract.json中的数据并保存至数据库extract中的数据表json中。原创 2022-11-23 18:12:39 · 129 阅读 · 0 评论 -
4.2 抽取Web数据(XML文件的数据抽取)
通过Kettle工具抽取XML文件xml_extract.xml中的数据并保存至数据库extract的数据表xml中。原创 2022-11-23 17:45:01 · 132 阅读 · 0 评论 -
8.3 案例实现(加载日期数据至日期维度表)
通过Kettle工具加载日期数据至dim_date日期维度表。原创 2022-11-25 20:57:20 · 203 阅读 · 0 评论 -
实现聚合客户订单
实现聚合客户订单,从客户的角度出发,分析客户订单信息表中的数据,了解客户订单状况,按照客户订单数据进行聚合计算,对客户订单消费金额从高到低进行排序,了解哪些客户的消费金额较多,并为这些客户提供更好的服务。原创 2022-11-02 11:47:38 · 988 阅读 · 3 评论 -
4.1 抽取文本数据(CSV文件的抽取)
通过Kettle工具抽取CSV文件csv_extract.csv中的数据并保存至数据库extract的数据表csv中。原创 2022-11-01 19:28:32 · 94 阅读 · 0 评论 -
4.1 抽取文本数据(TSV文件的抽取)
通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。原创 2022-11-01 19:06:38 · 156 阅读 · 0 评论 -
3.4 kettle的基本功能
通过Kettle工具的作业来实现发送邮件。原创 2022-11-01 18:40:32 · 279 阅读 · 0 评论 -
3.4 kettle的基本功能
通过Kettle工具的转换来实现将一张数据表中的两个字段进行拼接,然后插入到另一张数据表中。原创 2022-11-01 18:19:37 · 220 阅读 · 1 评论