- 博客(35)
- 资源 (2)
- 收藏
- 关注
原创 Vmware WorkStations 17 ,centos 安装 vmware tools
Vmware Workstation 17 安装vmware tools (centos8)并添加共享文件夹
2024-08-17 15:29:17 682
原创 Idea Spring Initializr 无法创建 java8 https://start.aliyun.com/‘ 的初始化失败 请检查 URL、网络和代理设置。
1.打开IDEA 设置面板。
2024-08-14 14:04:28 514
原创 IDEA JDBC连接Clickhouse
1.下载依赖包:2.IDEA中创建项目3.在SRC目录下创建log4j.propertieslog4j.rootLogger=WARN, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d %.
2022-01-30 12:39:38 2380
原创 数据治理-数据质量
“数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。”——以上内容摘自百度百科。笔者观点:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的
2022-01-24 16:00:09 1301
原创 Data Lake 数据湖——Delta、Hudi、Iceberg 对比
定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。与数据库不同的是,这些 meta 文件是与数据文件一起存放在存储引擎中的,用户可以直接看到。这种做法直接继承了大数据分析中数据对用户可见的传统,但是无形中也增加了数据被不小心破坏的风险。一旦某个用户不小心删了 meta 目录,表就被破坏了,想要恢复难度非常大。Meta 文件包含有...
2022-01-20 14:22:26 896
原创 Clickhouse Centos7 单机安装部署
1.下载Clickhouse安装包Altinity/clickhouse - Packages · packagecloud或官网下载地址:Index of /clickhouse/官网中文手册:安装部署 | ClickHouse文档2.安装Clickhouse之前需要安装相关依赖包,否则会报错yum install -y libtoolyum install -y *unixODBC*yum install libicu.x86_643.上传安装包到Linux服.
2022-01-20 14:11:24 1686
原创 JMeter-API接口压力测试
1.下载JMeterApache JMeter - Download Apache JMeter2.解压压缩文件并执行执行jmeter.bat3.可以配置语言4.对已有端口http://localhost:8080/helloworld进行压力测试 创建线程组设置线程池新建Http请求添加端口请求5.添加监测报告6.执行压力测试...
2022-01-17 15:32:13 423
原创 Mysql 数据导入导出
1.Mysql数据导出#导出某个数据库mysqldump -u root -p dbName > sqlFilePath#导出多个数据库mysqldump -u root -p –add-drop-database –databases dbName1 dbName2… > sqlFilePath –add-drop-database : 该选项表示在创建数据库的时候先执行删除数据库操作 –database : 该选项后面跟着要导出的多个数据库,以空格分隔#导出某个数据库.
2021-11-23 10:37:20 391
原创 springboot 连接mysql(通过Jdbc Template)
1.在mysql中创建数据库、表并插入测试记录--数据库create database 'test' default character set utf8;use test;create table 'prov' ('id' int(11) not null auto_increment,'pro_name' varchar(128) default null,'city' varchar(64) default null,primary key('id'))engine=Inno
2021-11-21 18:11:39 418
原创 mysql 连接异常:Host ‘XXX‘ is not allowed to connect异常 & 提示 ‘mysql‘ 不是内部或外部命令
1.关闭虚机防火墙2.Host 'xxx' is not allowed to connect to this MySQL server"登陆虚机mysql : mysql -uroot -p#选择数据库use mysql;#查看用户select user,host from user;#更新用户update user set host='%' where user='root' and host='127.0.0.1';#更新权限flush privileges;...
2021-11-21 15:58:10 1074
原创 Win10 提示:操作系统当前的配置不能运行此应用程序
1.以管理员方式运行CMDdism /online /cleanup-image /restorehealthsfc /scannow2.以管理员方式运行powershellGet-AppXPackage -AllUsers |Where-Object {$_.InstallLocation -like "*SystemApps*"} | Foreach {Add-AppxPackage -DisableDevelopmentMode -Register "$($_.InstallLoca...
2021-11-06 19:10:05 7353
原创 sparkstreaming CDH6.x 简单实例
1.导入jar 包Scala安装目录下的lib包2.编写简单统计代码import org.apache.spark.*;import org.apache.spark.api.java.function.*;import org.apache.spark.streaming.*;import org.apache.spark.streaming.api.java.*;import scala.Tuple2;import java.util.Arrays;public c
2021-06-24 13:42:28 226
原创 CDH6.x 运行SPARK 连接Oracle: java.lang.ClassNotFoundException: oracle.jdbc.OracleDriver
将Oracle驱动放到Spark Home目录下,修改文件用户组即可#切换到CDH Spark目录cd /opt/cloudera/parcels/CDH/lib/spark/jar修改用户组chown cloudera-scm:cloudera-scm ojdbc6.jar在Submit中添加 --driver-class-path 驱动包名.jar,然后执行即可...
2021-06-16 15:51:20 392
原创 Elasticsearch 简介
Elasticsearch 是一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎. 当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包括了全文搜索功能,还可以进行以下工作:分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。 实时分析的分布式搜索引擎。 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。...
2021-06-14 23:01:54 400 7
原创 JAVA在Linux下获取当前路径
// 分隔符String fileSeperator = File.separator; // 用户主目录String userHome = System.getproperties().getProperty("user.home"); // Java实时运行环境的安装目录String javaPath = System.getproperties().getProperty("java.home"); // 操作系统名称String osName = Syste.
2021-06-11 11:37:31 2255
原创 Datagrip 2020添加 Elasticsearch 连接
Datagrip 默认没有Elasticsearch 相应的驱动及连接,需如下进行操作1.下载ES驱动 ,并复制到datagrip (jdbc_drivers)驱动目录下ES驱动2.添加驱动到datagrip3.添加连接数据源
2021-05-26 16:34:06 8766
原创 CDH 6.X Swap Memory Usage 报警
诊断:a.查看内存使用情况:free -hb.查看交换空间swapon -s方法一:vi /etc/sysctl.conf#设置swappiness值为0,表示尽可能不使用交换内存# 在/etc/sysctl.conf 文件里添加如下参数sudo vi /etc/sysctl.confvm.swappiness=0# 或者追加模式, 直接在控制台执行如下语句echo 'vm.swappiness=0' >> /etc/sysc...
2021-05-24 17:05:19 1398
原创 CDH 创建Hive UDF函数
导入依赖包:hive-exec.jarhadoop-common.jar注意:函数名必须为 evaluate ,否则hive无法识别!package com.example.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class udfpinyin extends UDF{ public static void main(String[] args) { udfpiny...
2021-03-18 15:00:47 1041
原创 java.lang.IllegalArgumentException: Required executor memory (1024), overhead (384 MB), and PySpark
yarn.app.mapreduce.am.resource.mb =4yarn.nodemanager.resource.memory-mb=8yarn.scheduler.maximum-allocation-mb=4gsudo -u hdfs spark-shell
2020-09-27 11:18:09 456
原创 sudo: error in /etc/sudo.conf, line 19 while loading plugin “sudoers_policy“
是由于root用户没有相关权限造成的:执行如下命令chmod 644 /usr/libexec/sudo/sudoers.sochown -R root /usr/libexec/sudo
2020-09-08 17:25:17 4138 1
原创 hive :ERROR StatusLogger No log4j2 configuration file found. Using default configuration
hive执行操作出现log4j2找不到1.创建log4j2.xml文件2.配置日志内容<?xml version="1.0" encoding="UTF-8"?><Configuration status="OFF"> <Appenders> <Console name="Console" target="SYSTEM_OUT"> <PatternLayout pattern="%..
2020-09-02 16:13:17 545
原创 Hive 库表中-中文注释乱码
Hive中文乱码:注释及中文字段都是乱码剖析:1.Hive的元数据库编码通常hive的元数据存放在mysql中,mysql默认编码格式为latin1,但实际上环境中用的多为utf-8编码,注意:Hive的存储引擎必须为latin1,否则创建表会失败。如果编码非latin1,修改为utf-8alter database hive元数据库名 character set latin1;解决方法:修改编码,设置为utf8在mysql配置文件/etc/my.cnf...
2020-09-01 17:48:18 463
原创 Hive : This command is not allowed on an ACID table adb1.xx_table with a non-ACID transaction
执行HIVE时报错如下:This command is not allowed on an ACID table mydb1.table_name with a non-ACID transaction managerset hive.support.concurrency=true;set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;
2020-08-31 18:49:57 4578
原创 hive表迁移到hbase
方法一:1.创建hive表(注意:主键必须为key,否则创建异常(hbase表结构默认有一个字段key) 未创建hbase表情况下:CREATE TABLE hive_hbase_table(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SER...
2020-03-31 14:52:58 286
原创 EXCEL中如何将文本格式的数字转换为日期格式
要求将A2:A7单元格区域的文本格式的数字转换为日期格式。 点击鼠标左键拖动鼠标选中A2:A7单元格区域,依次点击【数据】-【分列】选项。 如下图,弹出【文本分列向导—步骤1】对话框,勾选[固定宽度]选项,然后点击【下一步】按钮。 弹出【文本分列向导—步骤2】对话框,这里直接点击【下一步】按钮。 ...
2020-03-12 17:31:12 12173
原创 运用python自带的web server 实现局域网传输文件
1.下载安装python3;2. linux系统环境:命令行执行 python3 -m http.server 9009 (9009为自定义端口号)3.用内网其他电脑浏览器打开: http://IP:9009 即可下载文件;...
2020-02-26 11:25:05 443
原创 申请评分卡-开发
申请评分卡对于从事信贷风控行业的人来说肯定不陌生,甚至每天都会应用到。申请评分,即对申请客户打分,对于业务专家来说可以是基于经验对客户资质进行评估,最终决定是否给予通过申请,首先基于经验的评估很难量化,可能还受各种主观因素的影响导致评估标准频繁波动,而基于数据的评估是直接以分数的形式来展现,更容易进行比较,且在建立好模型之后,这套评分标准就已经确定,除非重新构建模型,稳定性更胜一筹。这篇文章主要介...
2019-10-31 10:47:58 612 1
原创 K-S指标校验评分卡
AUC(Area Under Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。其中,ROC曲线的横轴为(1-特异性),即1-预测对的bad实例/实际的bad实例数;纵轴为敏感性,即预测对的good实例/实际good的实例。从而AUC可以表示模型的准确性和排序能...
2019-10-31 10:46:32 1289
原创 信用评分卡(A卡/B卡/C卡)的模型简介及开发流程
通常在银行、消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以对客户有一个优质与否的评判。常用将贷前、贷中、贷后不同阶段设计信用评分卡为A,B,C卡三类A卡(Application score card)申请评分卡B卡(Behavior score card)行为评分卡C卡(Collection score card)催收评分卡评分机制的区别在于:1.使用的...
2019-10-31 10:44:47 1062
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人