自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 对一个数进行加密和解密操作

加密:将一串数字先得到它的每一位数,然后将每一位加上5,再对10取余数,最后将所有数字反转,得到加密后的结果。解密:将加密后的数字还原为原来的数字,由于还原的过程中需要用到对10取余数时的商,所以对10取余时候的商也要知道。package Practices;import java.util.Scanner;public class PwdData { public static void main(String[] args) { //数字加密 //某系

2022-01-24 21:26:39 2545 2

原创 MapReduce实现词频统计

1.词频统计任务要求准备两个txt文件分别为wordfile1.txt和wordfile2.txt,内容如下:2.在Eclipse中创建项目我的eclipse在usr/local/eclipse目录下,使用如下命令启动cd /usr/local/eclipse./eclipse

2021-12-26 18:45:03 10289 2

原创 kettle案例-数据仓库

一.加载租赁数据至租赁事实表1.打开kettle工具,创建load_fact_rental转换2.配置“表输入”控件配置数据库连接并在SQL框中输入以下SQL语句SELECTCOALESCE(MAX(rental_last_update),"1970-01-01 00:00:00")AS max_fact_rental_last_updateFROM fact_rental3.配置“表输入2”控件配置数据库连接并在SQL框中输入以下SQL语句SELECT rental_id,

2021-12-03 22:24:02 1863

原创 kettle案例-数据仓库

一.加载演员数据至演员维度表首先准备好actor数据表和空表dim_actor:1.打开kettle工具,创建load_dim_actor转换2.配置“表输入”控件首先单击“新建”配置数据库连接,配置完成后在SQL输入框中输入以下语句:selectcoalesce(max(actor_last_update),"1970-01-01 00:00:00")as max_dim_actor_last_updatefrom dim_actor;单击“预览”按钮查看字段,如下图所示:3.

2021-11-15 18:30:27 1672 1

原创 kettle案例

一.加载用户数据至用户维度表1.打开kettle工具,创建load_dim_customer转换2.配置“表输入”控件首先配置数据库连接,连接完成后在SQL语句编写框中编写如下SQL语句:selectcoalesce(max(customer_last_update),"1970-01-01 00:00:00")as max_dim_customer_last_updatefrom dim_customer;编写完成后可以单击“预览”按钮查看:3.配置“表输入2”控件首先配置数据库连接

2021-11-15 16:53:07 3698 1

原创 mapreduce求ncdc气象数据中最低温度

1.使用如下命令解压gsod_2016和gsod_2017这两个压缩包tar -xvf gsod_2016.tartar -xvf gsod_2017.tar2.使用zcat命令把这些数据文件解压并合并到一个ncdc.txt文件中,并且可以查看zcat *.gz > ncdc.txtll |grep ncdc3.去除标题行,然后查看结果sed -i '/STN/d' ncdc.txthead -12 ncdc.txt4....

2021-11-13 13:45:57 1798

原创 kettle案例-数据仓库

一.加载日期数据至日期维度表1.打开kettle工具,创建load_dim_date转换2.配置“生成记录”控件双击“生成记录”控件,进入“生成记录”界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language、country_code、initial_date,对生成的日期进行初始化,然后单击“确定”按钮,完成配置,如下图所示:3.配置“增加序列”控件在该控件中“值的名称”处将valuename改为DaySequen

2021-11-05 19:35:49 2117

转载 Linux环境搭建hadoop(伪分布式)平台

伪分布式1.安装环境采用的LInux环境为14.04版本使用的hadoop是3.0.3版本,jdk使用的是8u91版本2.安装步骤安装好Linux之后,按ctrl+Alt+T打开终端,进入之后首先增加一个Hadoop用户,并为其设置登录密码和增加管理员权限:sudo useradd -m hadoop -s /bin/bashsudo passwd hadoopsudo adduser hadoop sudo更新apt,后面要使用 apt 安装软件,如果没更新可能有一些软件安装不了,

2021-11-03 19:55:34 639

原创 源数据获取

一.Excel输入1.打开kettle工具,创建转换2.配置“Excel输入”控件(1)双击“Excel输入”组件,弹出“Excel输入”对话框,浏览导入Excel文件。单击“浏览(B)…”按钮,在计算机上浏览并导入“物理成绩.xls”文件;添加并编辑Excel文件,单击“增加”按钮,将浏览导入至“文件或目录”输入框中:(2)单击“工作表”选项卡,设置选中的工作表参数。单击“确定”按钮,将“你的选择”列表选中的“Sheet1”工作表添加至“要读取的工作表列表”表中进行参数设置,“起始行”和“起始

2021-11-02 18:46:26 389

原创 数据转换实例

现有一个文本文件personnel_data.txt,包含字段id、name、id_number、household_register和salary。通过kettle工具,实现以下功能:(1)对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnle_data_new.txt中。(2)对文本文件personnel_data_new.txt中字段为

2021-10-30 20:42:21 181

原创 数据加载实例

一.通过使用kettle工具,实现将数据表full_source中的数据全量加载到数据表full_target中。1.打开kettle工具,创建转换2.配置“执行SQL脚本”控件(1)单击“新建”按钮,配置数据库连接(需要提前创建好数据库和full_source以及full_target两张数据表),配置完成后单击“确认”按钮。(2)在SQL框中编写删除数据表full_target中数据的SQL语句,然后单击“确定”按钮完成配置,如下图所示:3.配置“表输入”控件在SQL编写框中编写查询数据

2021-10-20 16:55:47 187

原创 数据的清洗与检验

一.不完全去重1.打开kettle工具,创建转换使用kettle工具创建part_repeat_transform,并添加“文本文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,如下图所示:2.配置“文本文件输入”控件(1)双击“文本文件输入”控件,进入“文本文件输入”界面,单击“浏览”按钮,选择要去重的文件people.txt,单击“增加”按钮,将要去重的文件people.txt添加到转换part_repeat_transform,如下图所示:(2)单击“内容”选项卡,切换到“内容

2021-10-14 19:30:09 241

原创 使用kettle工具实现一个csv文件的完全去重和一个txt文件的缺失值填充

一. 对文件merge.csv进行完全去重1.数据准备合并后的用户名单存放在CSV文件merge.csv中,如下图所示:2.打开kettle工具,新建转换使用kettle工具创建转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,如下图所示:3.配置“csv文件输入”控件(1)双击“CSV文件输入”控件,进入“CSV文件输入”界面,单击“浏览”按钮,选择要进行完全去重处理的CSV文件merge.csv,如下图所示:(2)单击“获取字

2021-10-14 19:22:55 488 1

原创 用kettle实现csv和json文件的抽取

一.抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中。***首先准备好一个CSV文件csv_extract.csv如下图所示:***1.打开kettle工具,创建转换使用kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,用于实现CSV文件数据的抽取功能,具体效果如下图所示:2.配置“CSV文件输入”控件(1)单击“CSV文件输入”控件,进入“CSV文件输入”界面,单击“浏览”按钮,选择

2021-10-10 13:11:34 466

原创 用kettle实现一个转换和一个作业

一.转换二.作业

2021-10-08 19:24:36 1260

原创 数据清洗概述

数据清洗的概述1.数据清洗的背景如果作为决策支持的数据仓库存放的数据质量达不到要求,将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。2.数据质量的评价指标数据质量的评价指标主要包括数据的准确性、完整性、简洁性及适用性,其中数据的准确性、完整性和简洁性是为了保证数据的适用性。适用性是评价数据质量的重要标准。3.数据质量的问题分类数据质量的问题可以

2021-09-12 16:19:45 476

原创 C语言实现猴子吃桃子问题

猴子吃桃问题有一群猴子摘了一堆桃子,他们每天都吃当前桃子的一半且再多吃一个,到了第10天就只余下一个桃子。用多种方法实现求出原来这群猴子共摘了多少个桃子。#include<stdio.h>#include<stdlib.h>#include<math.h>void zhijiefa() //直接使用简单算法计算{ int i,peach; peach=1; for(i=10;i>1;i--) peach=(peach+1)*

2021-01-15 19:09:07 429

原创 C语言实现约瑟夫问题

约瑟夫问题一种描述是:编号为1,2,…,n的n个人按顺时针方向围坐一圈,每人持有一个密码(正整数)。一开始任选一个正整数作为报数上限值m,从第一个人开始按顺时针方向自1开始顺序报数,报到m时停止报数。报m的人出列,将他的密码作为新的m值,从他在顺时针方向上的下一个人开始重新从1报数,如此下去,直至所有人全部出列为止。#include<stdio.h>#include<stdlib.h>#include<math.h>typedef struct list{

2021-01-13 13:42:21 167

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除