![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 91
zhangkaixuan456
这个作者很懒,什么都没留下…
展开
-
hive metastore数据库表结构
4. SDS:提供table/partition对应的文件系统路径location,以及对这个数据读取的InputFormat、是否压缩、是否是子文件夹存储、SerDe类(对应于SERDES表)Tabid、创建时间、数据库id、last_access、owner(这个后面会和权限控制有关)、表的存储位置id、表明、TBL_TYPE(外部表、内部表)、主要是总文件个数、总文件大小、comment、last_ddl_time(上次执行ddl的时间)、以及用户自定义的一些参数(orcfile中的参数)原创 2024-06-04 20:13:22 · 765 阅读 · 0 评论 -
elasticsearch 性能优化
合并线程数默认是:Math.max(1, Math.min(4, Runtime.getRuntime().availableProcessors() / 2)),如果是机械磁盘,可以考虑设置为1:index.merge.scheduler.max_thread_count: 1,7、关于段合并,合并在后台定期执行,比较大的segment需要很长时间才能完成,为了减少对其他操作的影响(如检索),elasticsearch进行阈值限制,默认是20MB/s,Lucene 随机三次磁盘读取比较耗时。原创 2022-09-15 18:17:37 · 477 阅读 · 0 评论 -
elasticsearch地理位置查询
目录1.1 数据准备1.2 geo_distance query1.3 geo_bounding_box query1.4 geo_polygon query1.5 geo_shape query2.ElasticSearch 特殊查询2.1 more_like_this query2.2 script query2.3 percolate query1.1 数据准备创建一个索引:PUTgeo{"mappings":{"properti...原创 2021-12-29 11:27:12 · 1910 阅读 · 0 评论 -
es-elasticSearch笔记01
目录1.ElasticSearch简介2. Lucene全文检索框架2.倒排索引3. Elasticsearch中的核心概念4. 安装Elasticsearch5 客户端Kibana安装6 安装IK分词器7、指定IK分词器作为默认分词器8.ES数据管理1.ElasticSearch简介1.1 ElasticSearch(简称ES)Elasticsearch是用Java开发并且是当前最流行的开源的企业级搜索引擎。能够达到实时搜索,稳定,可靠,快...原创 2021-12-12 21:11:59 · 492 阅读 · 0 评论 -
spark深度解析——Standalone模式下,核心流程解析!
在Standalone模式下,Spark中各个组件之间交互还是比较复杂的,但是对于一个通用的分布式计算系统来说,这些都是非常重要而且比较基础的交互。首先,为了理解组件之间的主要交互流程,我们给出一些基本要点:一个Application会启动一个Driver一个Driver负责跟踪管理该Application运行过程中所有的资源状态和任务状态一个Driver会管理一组Executor...原创 2019-12-26 19:23:16 · 426 阅读 · 0 评论 -
spark提交任务参数总结
Options: --master MASTER_URL spark://host:port, mesos://host:port, yarn, or local. --deploy-mode DEPLOY_MODE 通过 ("client") or ("cluster")模式启动你的集群 (Def...原创 2019-12-25 15:32:51 · 336 阅读 · 0 评论 -
Spark任务提交方式和执行流程
(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task,并且负责将数据存...转载 2019-11-20 20:39:27 · 286 阅读 · 0 评论 -
Hive启动报错Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Logging initialized using configuration in jar:file:/opt/app/hive-2.1.1/lib/hive-common-2.1.1.jar!/hive-log4j2.properties Async: trueException in thread "main" java.lang.RuntimeException: org.apache...原创 2019-11-07 18:29:47 · 4011 阅读 · 0 评论 -
linux中if,case,for,while循环Shell脚本如何写——建议收藏方便查阅!
if 判断1.基本语法if [ 条件判断式 ];then 程序 fi 或者 if [ 条件判断式 ] then 程序 fi 注意事项:(1)[ 条件判断式 ],中括号和条件判断式之间必须有空格(2)if后要有空格2.案例实操(1)输入一个数字,如果是1,则输出banzhang zhen shuai,如果是2,则输出cls zhen mei,如果是其它,...原创 2019-11-05 15:30:52 · 509 阅读 · 0 评论 -
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
这个问题比较简单,也是一个比较常见的问题!很明显应该是HADOOP_HOME的问题。如果HADOOP_HOME为空,必然fullExeName为null\bin\winutils.exe。解决方法很简单,配置环境变量,)。1.自己配置window的环境变量2.不想重启电脑可以在程序里加上:System.setProperty("hadoop.home.dir", "C:\\User...原创 2019-09-10 14:59:49 · 404 阅读 · 0 评论 -
Spark读写Hbase数据
本文将介绍1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset将RDD写入hbase2、spark从hbase中读取数据并转化为RDD操作方式为在eclipse本地运行spark连接到远程的hbase。java版本:1.7.0scala版本:2.10.4zookeeper版本:3.4.5(禁用了hbase自带zookeeper...转载 2019-08-22 10:03:05 · 405 阅读 · 0 评论 -
海量GPS轨迹数据集
该GPS轨迹数据集记录了四川省成都市从2014年8月1日到2014年9月1日的一个月的15000量出租车GPS轨迹数据。约14亿条数据。4001,2014-08-03 06:01:18,104.034407,30.583802,04001,2014-08-03 06:02:19,104.034413,30.583793,04001,2014-08-03 06:03:18,104.03442...原创 2019-06-30 19:45:28 · 2576 阅读 · 12 评论 -
hive 自定义udf函数注册(永久注册)
1.临时注册1.导入jar包 2.部署到hive的lib下。 3.添加jar到hive的classpath $hive>add jar app-logs-hive-1.0-SNAPSHOT.jar ; 4.注册临时函数 $hive>create temporary function helloworld AS 'com.it.applogs.udf.Day...原创 2019-01-09 20:07:28 · 4239 阅读 · 2 评论 -
Linux中vi查看,显示后带^M符号,怎么删除?
背景知识】^M 是ascii中的'\r', 回车符,是16进制的0x0D,8进制的015,十进制的13。对于换行这个动作,unix下一般只有一个0x0A表示换行,windows下一般都是0x0D和0x0A两个字符。另外:^L 是ascii 0x0C '\f', 换页控制符。而对于Linux 的vi,有些版本,比如我当前开发板里面的vi,是用busybox编译出来的,不能识别wind...原创 2018-12-19 14:06:17 · 1286 阅读 · 0 评论 -
hbase运行报错:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseCo
Hbase,运行时报错。。。!Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at com.z.hbase.demo.mr1.Fruit2FruitMRJob.main(Fruit2FruitMRJob.java:18)...原创 2018-11-14 23:05:25 · 3689 阅读 · 3 评论 -
进入hive后不能退格,删除解决办法
很多人说修改这个地方,但是并没有什么用。真正的解决办法!将终端改为linux即可!原创 2018-11-11 12:06:01 · 3436 阅读 · 2 评论