自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 《数据清洗》黑马程序员著综合案例【8.3.7--8.3.8】

文章目录前言一、加载演员数据至演员维度表操作介绍案例实现二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、加载演员数据至演员维度表操作介绍通过Kettle工具加载演员数据至演员维度表dim_actor。案例实现1、打开kettle工具,创建转换使用Kettle工具,创建一个转换load

2021-11-21 11:48:19 389

原创 《数据清洗》黑马程序员著综合案例【8.3.5--8.3.6】

文章目录前言一、加载用户数据至用户维度表操作介绍操作步骤二、加载操作介绍操作步骤总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、加载用户数据至用户维度表操作介绍通过Kettle工具加载用户数据至用户维度表dim_customer。操作步骤(1)、打开kettle工具,创建转换使用Kettle工具,创建一个转换load

2021-11-13 00:18:49 480

原创 《数据清洗》黑马程序员著综合案例【8.3.2--8.3.4】

文章目录前言一、加载日期数据至日期维度表操作介绍操作步骤二、加载时间数据至时间维度表操作介绍操作步骤三.加载员工数据至员工维度表操作介绍操作步骤四、数据库建立代码dim_datedim_timedim_staff前言以下是本篇文章正文内容,下面案例可供参考一、加载日期数据至日期维度表操作介绍通过Kettle工具加载日期数据至dim_date日期维度表。操作步骤1、打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、Ja

2021-11-04 23:43:14 4701

原创 ETL数据整合与处理(一)

文章目录前言一、Excel输入二、生成记录三、生成随机数四、获取系统信息五、排序记录六、去除重复记录七、替换NULL值前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、Excel输入Excel文件采用表格的形式,数据显示直观,操作方便。与文本文件不同,Excel文件中采用工作表存储数据,一个文件有多张不同名称的工作表,分别存放相

2021-11-03 23:34:43 1565

原创 《数据清洗》第七章操作题

文章目录前言一、全量加载二、使用步骤1.引入库2.读入数据总结前言数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。一、全量加载假设,现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。数据表fu

2021-10-31 00:52:44 508

原创 《数据清洗》第六章课后操作

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、数据粒度转换二、进行商务规划计算前言现有文本文件personnel_data.txt,包含id、name、id_number、household_register和salary,具体内容如下:实现对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件perso

2021-10-20 22:54:26 277

原创 《数据清洗》第五章课后操作

文章目录前言一、数据去重(完全去重)二、缺失值处理(填充缺失值)总结前言数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。数据清洗的目的在于提高数据质量,将脏数据(脏数据在这里指的是对数据分析没有实际意义、格式非法、不在指定范围内的数据)清洗干净,使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。常见的数据清洗操作包括重复值的处理、缺失值的处理、异常值的处理等操作,同时,为了保证数据的有效性,少不了数据校验操作。一、数据去重(完全去重)完全去重指的是消除完全重复的数

2021-10-13 20:00:41 1194

原创 数据清洗《黑马程序员》著本人学习笔记

数据清洗《黑马程序员》著本人学习笔记如有雷同,那就是我们是一个老师教的。数据抽取一、CSV文件的抽取CSV是Comma-Separated Values的缩写,即逗号分隔值。CSV文件是用逗号分隔数据字段的文件,因此也被称为逗号分隔值文件,有时会使用字符来替代逗号实现分隔,因此,也被称为字符分隔文件。CSV文件是以纯文本形式存储表格数据(数字和文本),纯文本意味着该文件是一个字符序列。CSV文件可通过Excel打开,也可以通过txt、Notepad++等文本编辑器打开,从而对文件进行查看、编辑等操作

2021-10-02 00:19:25 1266 1

原创 2021-09-15

kettle转换与作业1、转换实操打开Kettle(Spoon.bat),依次点击 “文件”–>“新建”–>“转换” 可以得到一个如下图:选择“文件”-->“保存”命令,可以对转换进行重命名以及选择转换保存路径重命名转换为example(自定义名称)。主对象树中的节点主要用于显示当前转换的运行配置参数、数据库连接、步骤以及节点连接(跳)等信息。单击Kettle树形列表的核心对象,切换到转换的核心对象界面。转换的核心对象如下图所示。从上图中可以看出,核心对象中包含Kettle

2021-09-16 22:47:14 107

原创 2021-09-10

标题 《数据清洗》学习笔记第一章 数据清晰概述前言简单认识数据清洗的背景、定义、原理、基本流程、清洗策略以及常见的数据清洗方法。以下是本篇文章正文内容。1.1 数据清洗的背景 当今时代,企业信息化的要求越来越迫切。对于企业的决策者来说,正所谓“垃圾进垃圾出(garbage in,garbage out)”如果作为决策支持的数据仓库存放的数据质量达不到要求将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗

2021-09-10 16:12:01 1367

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除