Lan_xuaner-CSDN博客

原创 Java常用方法汇总（持续更新）

Java常用应用20230725更新1 常用方法List常用方法List<Map<String, String>> 根据某个key排序 List<BusinessProjectVO> records = Optional.ofNullable(businessProjectPage).orElse(new Page<>()).getRecords().stream().peek(e -> { R<Long

2023-07-25 13:58:14 4352

原创 ClickHouse 常用函数

clickhouse工作笔记

2023-02-14 16:54:31 3589 1

原创【SpringBoot项目启动报错】Failed to configure a DataSource

SpringBoot

2022-03-08 13:55:32 2587

原创 ClickHouse 常用函数（工作笔记待补充）

ClickHouse 常用函数（工作笔记待补充）1 时间函数dateDiff计算时间差：select dateDiff('day',parseDateTimeBestEffort(toString(20210601)),today() ) as day_diff;day_diff|--------| 30|parseDateTimeBestEffortselect parseDateTimeBestEffort(toString(20210601));parseDateT

2021-07-02 21:40:43 1634

原创 Java常用方法汇总（持续更新）

Java常用方法汇总判断List集合中是否存在相同元素//校验是否存在相同资产List<String> assetNoList = Lists.newArrayList();beforeMergeAssetList.forEach( asset->{ String assetNo = asset.getAssetInfo().getAssetNo(); if (StringUtils.isBlank(assetNo)){throw new JeecgBootExce

2021-06-07 14:15:09 996

原创 MybatisPlus问题解决——java.lang.AssertionError

MybatisPlus问题解决——java.lang.AssertionError1 报错信息2 报错原因MybatisPlus实现分页查询使用接口IPage来接收返回数据，但是请求对象没有继承Page类。 /* * 分页查询列表 * */ IPage<AssetSplitVO> getAssetSplitPage(AssetSplitReq req);@Datapublic class AssetSplitReq extends Page { /**拆分单号

2021-06-07 10:54:54 1433

原创 Web server failed to start. Port 9080 was already in use报错解决

Web server failed to start. Port 9080 was already in use.问题解决Ctrl+R，打开CMD运行界面。1 输入指令netstat -ano 查看启动的进程ID。2 输入指令taskkill /F /pid 进程号，杀掉进程。C:\Users\MyPC>netstat -ano活动连接协议本地地址外部地址状态 PID... TCP 192.168.1.139:9

2021-05-22 18:19:01 1849

原创 Impala+kudu（工作笔记）

Impala+kudu（工作笔记）Impala是什么？Impala是用于处理存储在Hadoop集群中的大量数据的MPP（大规模并行处理）SQL查询引擎。它是一个用C ++和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。换句话说，Impala是性能最高的SQL引擎（提供类似RDBMS的体验），它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。Impala是建立在Hadoop生态圈的交互式SQL解析引擎，Impala的SQL语法与Hive高度兼容，

2021-05-06 15:27:16 1685 6

原创 Linux指令大全-项目相关

项目相关-Linux指令大全（待补充）1 项目jar包部署（linux）linux服务器重启jar包1.1 先kill进程1.2 执行jar包定时任务xxljob启动admin:nohup java -Xms2048m -Xmx2048m -Duser.timezone=GMT+8 -Dfile.encoding=utf-8 -jar /data/project/ad-platform/3399-ad-xxl-job/xxl-job-admin-2.2.1-SNAPSHOT.jar >/

2021-04-13 19:51:35 339

原创 IDEA显示SpringCloud多项目启动的service界面

IDEA显示多项目启动的service界面idea设置1 调出service界面2 选择application并启动多个项目3 管理多个项目

2021-04-13 09:56:13 3516

原创 Presto SQL常用函数（工作笔记）

Presto SQL常用函数时间函数时间转时间戳： select cast(to_unixtime(timestamp '2016-09-01 01:00:00') as bigint);_col0 |----------|1472691600|--时间戳转格式化时间字符串：select format_datetime(from_unixtime(cast(view_time as bigint)),'yyyyMMddHHmmss')select format_datetime(

2021-04-01 18:04:22 4209

原创 trino（新版presto）的linux shell命令

trino（新版presto）的linux命令1 重启trino重点：在/bin/launcher目录下操作：start stop restartbin目录重启trino服务：/launcher restart重启presto服务:/opt/app/trino/bin/launcher start/opt/app/trino/bin/launcher stop2 将jar移动到上上层目录下备份[root@node1] mv trino-udf-1.0-SNAPSHOT.jar ../..

2021-03-25 13:43:01 2337 3

原创 SQL常见知识点（工作笔记）

SQL常见知识点（工作笔记）1 函数UNION ALLUNION ALL 字段要对应上，将结果上下拼接。列数不变，行数相加argMinargMin Syntax: argMin(arg, val)Calculates the arg value for a minimal val value. If there are several different values of arg for minimal values of val, the first of these values en

2020-08-20 11:54:59 344

原创数据产品常用数据指标定义

常用产品数据定义1 名词解释ROI投资回报率（ROI）是指通过投资而应返回的价值，即企业从一项投资活动中得到的经济回报。LTVLTV(life time value)生命周期总价值，意为客户终生价值，是公司从用户所有的互动中所得到的全部经济收益的总和。通常被应用于市场营销领域，用于衡量企业客户对企业所产生的价值，被定为企业是否能够取得高利润的重要参考指标。ARPUARPU（average revenue per user ）,ARPU=总收入/用户数;是指在一段时间内从每位用户获得收入。每用户

2020-08-19 20:04:23 1123

原创 SparkSQL简介及使用

SparkSQL简介及使用1 简介1.1 什么是 Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。1.2 Spark SQL 的特点1.内存列存储–可以大大优化内存的使用率，减少内存消耗，避免GC对大量数据性能的开销2.字节码生成技术–可以使用动态的字节码技术优化性能3.Scala代码的优化4.易整合5.统一的数据访问方式6.兼容hive7.提供了统一的数据连

2020-05-26 19:10:13 4264

原创 Spark基本操作WordCountDemo编写打包提交运行

Spark操作之Demo编写及提交任务1 运行spark自带测试程序包计算pi值yarn模式提交任务（CDH采用此方式）bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \/opt/cloudera/parcels/CDH/lib/spark/examples/jars/spark-examples_2.11-2.2.0-cdh6.0.1.jar \

2020-05-25 16:07:26 348

原创 Shell编程常见面试题（待续）

Shell编程常见面试题（待续）1、使用Linux命令查询file中空行所在的行号awk '/^$/{print NR}' file.txt2、有文件cj.txt内容如下，使用Linux命令计算第二列的和并输出张三 70李四 80王五 90cat cj.txt | awk -F " " '{sum+=$2}END{print "sum="sum}'[root@sandbox-hd...

2020-05-05 21:59:52 1143

原创数仓理论简述

数仓理论简述1 表的分类1.1 实体表实体表，一般是指一个现实存在的业务对象，比如用户，商品，商家，销售员等等。1.2 维度表维度表，一般是指对应一些业务状态，编号的解释表。也可以称之为码表。比如地区表，订单状态，支付方式，审批状态，商品分类等等。1.3 事务型事实表事务型事实表，一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。一般比如，交易流水，操作日志，出库入库记录等...

2020-05-05 13:48:42 1230 2

原创 Hive（一）简介及基本操作

Hive（一）简介及基本操作一、简介 Hive是一个构建在hadoop之上的数据仓库，可将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。数据类型基本数据类型：TINYINT SMALINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING TIMESTAMP BINARY...

2020-05-04 15:03:39 287

原创大数据中遇到的问题简述（待续）

大数据中遇到的问题简述（待续）1、数据量大怎么分析？分析后怎么做传输？怎么做到实时？数据量大可在hadoop平台分析。分析的结果数据可用sqoop迁移数据工具导出。常用实时处理框架有sparkStreaming、storm、flink等。2、数据来源？python爬虫爬取网页。单机多线程、分布式多线程。定期导入到离线系统。3、如何分析数据？数据量小，一个复杂的sql即可搞定，web服务...

2020-05-02 11:46:20 523

原创 HBase（二）常用操作之namespace操作

HBase（二）常用操作之namespace1 介绍在HBase中，namespace命名空间指对一组表的逻辑分组，类似RDBMS中的database，方便对表在业务上进行划分。HBase全局管理员可以创建、修改和回收namespace的授权。 namespace特性是对表资源进行隔离的一种技术，隔离技术决定了HBase能否实现资源统一化管理的关键，提高了整体的安全性。2 命名空间n...

2020-05-02 11:27:32 1987

原创 Hbase（一）简介及基本操作

Hbase（一）简介及基本操作1 简介1.1 什么是Hbase HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目标是存储并处理大型...

2020-04-26 17:30:01 363

原创大数据常见英文词汇（三）之常见框架和组件（待续）

大数据常见英文词汇（三）之常见框架和工具（待续）Hadoop（分布式系统基础架构）HDFS（Hadoop分布式文件系统）Mapreduce（分布式计算框架）HBASE（分布式列存数据库）Zookeeper（分布式协作服务）HIVE（数据仓库）Pig(ad-hoc脚本数据分析工具）Sqoop(数据ETL/同步工具）Flume（日志收集工具）...

2020-04-25 20:08:43 708

原创大数据常见英文词汇（二）（待续）

大数据常见英文词汇（二）（续）以下单词是本人在学习大数据过程中遇到的生疏单词词汇。单词均在百度翻译中得到的释义，可能有失偏颇，望读者指正！原文译文ACK确认、命令正确应答Advanced Message Queuing Protocol高级消息队列协议Agility敏捷性AutoCommit自动提交Avro数据序列化系统Azkaban...

2020-04-25 19:37:52 591

原创 Spark基本概念的高频面试题

Spark基本概念的高频面试题1 spark的两大基本算子是什么，有什么区别？1、transformation 变换/转换算子:这种变换并不触发提交作业，完成作业中间过程处理。transformation操作是延迟计算的，也就是说从一个RDD转换生成另一个RDD的转换操作并不是马上执行，需要等到有action操作的时候才会真正触发运算。2、action行动算子:这类算子会触发sparkco...

2020-04-25 11:27:02 714

原创 Redis（三）Redis与Spark的集成

Redis与Spark的集成（读写）RDD——read redis from sparkspark-shell --jars spark-redis-0.3.2.jar,jedis-2.7.2.jar,commons-pool2-2.0.jar//stop existing SparkContextsc.stopimport org.apache.spark.SparkConfimpo...

2020-04-23 21:21:44 1078 1

原创 Redis（二）简介及基本操作

Redis（二）简介及基本操作一、简介Redis 是开源免费的，是一个高性能的key-value数据库。Redis 与其他 key-value 缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。Red...

2020-04-23 21:18:35 212

原创 Redis（一）安装详细步骤（linux中wget下载安装4.0.9版本）

Redis（一）安装Redis 4.09 安装# 新建文件夹，放安装文件mkdir -p ~/redis # 下载并解压安装包wget http://download.redis.io/releases/redis-4.0.9.tar.gz tar xzf redis-4.0.9.tar.gz # Build Redis cd ~/redis/redis-4.0.9 make...

2020-04-21 20:21:50 753

原创 Tableau简介及Tableau安装

Tableau简介及Tableau安装一、什么是Tableau？ Tableau是一款数据可视化工具，致力于帮助人们查看并理解自己的数据。不同于传统BI软件，Tableau是一款“轻”BI工具；可以使用Tableau的拖放界面可视化任何数据，探索不同的视图，甚至可以轻松的将多个数据库组合在一起。它不需要任何复杂的脚本。二、有哪些产品？Tableau Desktop：桌面分析软件，连...

2020-04-20 22:09:30 1557

原创数据库之OLAP和OLTP简介

数据库之OLAP和OLTP简介1 数据处理分类数据库数据处理可以分成两大类：联机事务处理 OLTP（On-Line Transaction Processing）联机分析处理 OLAP（On-Line Analytical Processing）2 数据处理目标业务类系统主要供基层人员使用，进行一线业务操作，通常被称为OLTP。数据分析的目标是探索并挖掘数据价值，作为企业高层进...

2020-04-19 20:43:15 1971

原创大数据常见英文词汇（待更新）

大数据常见英文词汇（待更新）words(单词)resilient 有弹性的parallelize 并行化procedure 过程process 进程、处理program 程序schedule 日程安排scheduler 调度程序schema 架构segment 段operation 算子convergence 汇聚visualize 可视化plugin ...

2020-04-18 17:25:03 6356

原创 MongoDB安装及添加用户并授权

MongoDB安装及添加用户并授权一、MongoDB安装1、配置yum源vi /etc/yum.repos.d/mongodb.repo[MongoDB]name=MongoDB Repositorybaseurl=http://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/4.0/x86_64/gpgcheck=0enab...

2020-04-17 17:33:20 1519

原创 Linux虚拟机中yum安装python2.7（配合Cassandra使用）

Linux虚拟机中yum安装python2.7（配合Cassandra使用）1 下载 ius-release.rpm包wget https://centos6.iuscommunity.org/ius-release.rpm2 安装ius-release.rpm包rpm -Uvh ius-release.rpm3 安装python27版本yum install python27 pyt...

2020-04-17 11:41:49 474

原创 Cassandra简介及基本操作

Cassandra简介及基本操作一、简介 Apache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。Facebook于2008将 Cassandra 开源，后面由于Cassandra良好的可扩放性，被Digg、Twitter等...

2020-04-15 14:07:27 715

原创 Linux（二）常用命令chmod nohup sed等

Linux（二）常用命令chmod/nohup/sed等1 chmod命令 Linux常用命令chmod：修改文件权限 777和754 Linux系统中，每个用户的角色和权限划分得很细致、严格，每个文件、目录都设有访问许可权限，利用这种机制来决定某个用户通过某种方式对文件、目录进行读、写、执行等操作。操作文件或目录的用户，有3种不同类型：文件所有者、群组用户、其他用户。最高位表示文...

2020-04-12 13:46:39 753

原创 Hadoop之HDFS常用Shell指令

Hadoop之HDFS常用Shell指令1、查看帮助hdfs dfs2、启动/停止hdfs服务start-dfs.shstop-dfs.sh3、新建目录创建目录hdfs dfs -mkdir user递归创建目录hdfs dfs -mkdir -p /user/root4、查看目录user下的东西hdfs dfs -ls /user5、查看文件内容hdfs dfs -c...

2020-04-11 15:39:39 754

原创 Hive之metastore服务启动错误解决方案org.apache.thrift.transport.TTransportException: Could not create ServerSock

Hive之metastore服务启动错误解决方案——org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083.1、错误org.apache.thrift.transport.TTransportException: Could no...

2020-04-11 14:17:46 10211

原创 Hadoop高可用平台启动(HDFS+Zookeeper+Yarn)相关操作及Hbase\MySQL\Hive启动

Hadoop高可用平台启动相关操作Hadoop高可用平台启动HDFS+Zookeeper+Yarn及MySQL+Hbase+Hive启动相关操作一、Hadoop高可用平台启动顺序1 启动Zookeeper集群在hadoop2、hadoop3、hadoop4上执行zkServer.sh start[root@hadoop2 ~]# zkServer.sh startJMX enable...

2020-04-11 14:08:17 629

原创 Cassandra（一）之linux中的下载和安装

Cassandra（一）之linux中的下载和安装1、新建cassandra.repo文件touch /etc/yum.repos.d/cassandra.repo2、配置cassandra.repovi /etc/yum.repos.d/cassandra.repo[cassandra]name=Apache Cassandrabaseurl=https://www.apache....

2020-04-10 17:40:24 797

原创 NiFi简介和基本操作（含通过NiFi上传文件到HDFS案例）

NiFi简介和基本操作（含通过NiFi上传文件到HDFS案例）一、简介 NiFi是一个易用、强大、可靠的数据处理与分发系统。基于Web图形界面，通过拖曳、连接、配置完成基于流程的编程，实现数据采集等功能。传统的数据解决方案通常会遇到以下挑战：网络错误、硬盘错误、软件崩溃、人为错误、数据生产能力超过消费能力、对现有数据流进行增加和修改需要的操作太复杂等等二、NiFi的特性及优缺点特性...

2020-04-08 20:23:46 3288 1

空空如也

空空如也