大数据
文章平均质量分 68
code_8888
这个作者很懒,什么都没留下…
展开
-
数据治理-数据质量
“数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。”——以上内容摘自百度百科。笔者观点:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的原创 2022-01-24 16:00:09 · 1276 阅读 · 0 评论 -
Data Lake 数据湖——Delta、Hudi、Iceberg 对比
定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。与数据库不同的是,这些 meta 文件是与数据文件一起存放在存储引擎中的,用户可以直接看到。这种做法直接继承了大数据分析中数据对用户可见的传统,但是无形中也增加了数据被不小心破坏的风险。一旦某个用户不小心删了 meta 目录,表就被破坏了,想要恢复难度非常大。Meta 文件包含有...原创 2022-01-20 14:22:26 · 885 阅读 · 0 评论 -
Clickhouse Centos7 单机安装部署
1.下载Clickhouse安装包Altinity/clickhouse - Packages · packagecloud或官网下载地址:Index of /clickhouse/官网中文手册:安装部署 | ClickHouse文档2.安装Clickhouse之前需要安装相关依赖包,否则会报错yum install -y libtoolyum install -y *unixODBC*yum install libicu.x86_643.上传安装包到Linux服.原创 2022-01-20 14:11:24 · 1668 阅读 · 0 评论 -
sparkstreaming CDH6.x 简单实例
1.导入jar 包Scala安装目录下的lib包2.编写简单统计代码import org.apache.spark.*;import org.apache.spark.api.java.function.*;import org.apache.spark.streaming.*;import org.apache.spark.streaming.api.java.*;import scala.Tuple2;import java.util.Arrays;public c原创 2021-06-24 13:42:28 · 216 阅读 · 0 评论 -
CDH6.x 运行SPARK 连接Oracle: java.lang.ClassNotFoundException: oracle.jdbc.OracleDriver
将Oracle驱动放到Spark Home目录下,修改文件用户组即可#切换到CDH Spark目录cd /opt/cloudera/parcels/CDH/lib/spark/jar修改用户组chown cloudera-scm:cloudera-scm ojdbc6.jar在Submit中添加 --driver-class-path 驱动包名.jar,然后执行即可...原创 2021-06-16 15:51:20 · 380 阅读 · 0 评论 -
Elasticsearch 简介
Elasticsearch 是一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎. 当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包括了全文搜索功能,还可以进行以下工作:分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。 实时分析的分布式搜索引擎。 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。...原创 2021-06-14 23:01:54 · 386 阅读 · 7 评论 -
Elasticsearch 7.X(Linux 、Windows10)安装
1.下载ElasticsearchES原创 2021-06-07 10:01:45 · 234 阅读 · 0 评论 -
Datagrip 2020添加 Elasticsearch 连接
Datagrip 默认没有Elasticsearch 相应的驱动及连接,需如下进行操作1.下载ES驱动 ,并复制到datagrip (jdbc_drivers)驱动目录下ES驱动2.添加驱动到datagrip3.添加连接数据源原创 2021-05-26 16:34:06 · 8540 阅读 · 0 评论 -
CDH 6.X Swap Memory Usage 报警
诊断:a.查看内存使用情况:free -hb.查看交换空间swapon -s方法一:vi /etc/sysctl.conf#设置swappiness值为0,表示尽可能不使用交换内存# 在/etc/sysctl.conf 文件里添加如下参数sudo vi /etc/sysctl.confvm.swappiness=0# 或者追加模式, 直接在控制台执行如下语句echo 'vm.swappiness=0' >> /etc/sysc...原创 2021-05-24 17:05:19 · 1379 阅读 · 0 评论 -
CDH 创建Hive UDF函数
导入依赖包:hive-exec.jarhadoop-common.jar注意:函数名必须为 evaluate ,否则hive无法识别!package com.example.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class udfpinyin extends UDF{ public static void main(String[] args) { udfpiny...原创 2021-03-18 15:00:47 · 1028 阅读 · 0 评论 -
java.lang.IllegalArgumentException: Required executor memory (1024), overhead (384 MB), and PySpark
yarn.app.mapreduce.am.resource.mb =4yarn.nodemanager.resource.memory-mb=8yarn.scheduler.maximum-allocation-mb=4gsudo -u hdfs spark-shell原创 2020-09-27 11:18:09 · 440 阅读 · 0 评论 -
hive :ERROR StatusLogger No log4j2 configuration file found. Using default configuration
hive执行操作出现log4j2找不到1.创建log4j2.xml文件2.配置日志内容<?xml version="1.0" encoding="UTF-8"?><Configuration status="OFF"> <Appenders> <Console name="Console" target="SYSTEM_OUT"> <PatternLayout pattern="%..原创 2020-09-02 16:13:17 · 533 阅读 · 0 评论 -
Hive 库表中-中文注释乱码
Hive中文乱码:注释及中文字段都是乱码剖析:1.Hive的元数据库编码通常hive的元数据存放在mysql中,mysql默认编码格式为latin1,但实际上环境中用的多为utf-8编码,注意:Hive的存储引擎必须为latin1,否则创建表会失败。如果编码非latin1,修改为utf-8alter database hive元数据库名 character set latin1;解决方法:修改编码,设置为utf8在mysql配置文件/etc/my.cnf...原创 2020-09-01 17:48:18 · 442 阅读 · 0 评论 -
Hive : This command is not allowed on an ACID table adb1.xx_table with a non-ACID transaction
执行HIVE时报错如下:This command is not allowed on an ACID table mydb1.table_name with a non-ACID transaction managerset hive.support.concurrency=true;set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;原创 2020-08-31 18:49:57 · 4482 阅读 · 0 评论 -
运用python自带的web server 实现局域网传输文件
1.下载安装python3;2. linux系统环境:命令行执行 python3 -m http.server 9009 (9009为自定义端口号)3.用内网其他电脑浏览器打开: http://IP:9009 即可下载文件;...原创 2020-02-26 11:25:05 · 429 阅读 · 0 评论 -
MapReduce1.0运行模型
原创 2019-11-28 17:13:31 · 425 阅读 · 0 评论