大数据
文章平均质量分 90
yang_zzu
这个作者很懒,什么都没留下…
展开
-
es_倒排索引
目录es, 倒排索引优点新增修改数据Segment合并fsync和fdatafsynces, 倒排索引优点倒排索引是不可更改的,一旦它被建立了,里面的数据就不会再进行更改。这样做就带来了以下几个好处:1. 不用给索引加锁,因为不允许被更改,只有读操作,所以就不用考虑多线程导致互斥等问题。2. 索引一旦被加载到了缓存中,大部分访问操作都是对内存的读操作,省去了访问磁盘带来的io开销。3. 倒排索引具有不可变性,所有基于该索引而产生的缓存也不需要更改,因为没有数据变更。4原创 2021-01-22 16:01:27 · 2345 阅读 · 0 评论 -
hadoop-单节点部署
目录1.修改主机名 /etc/hostname2.配置 /etc/hosts 文件,ip 映射3. 秘钥认证ssh-keygen -t rsa4.安装jdk1.8(如果安装的是 hadoop3.2.1的话)5.修改配置文件 5.1 core-site.xml 5.2hdfs-site.xml 5.3hadoop-env.sh 5.4 workers (主机名称)6. namenode 初始化7. 启动hadoop问...原创 2020-11-27 11:12:52 · 2109 阅读 · 0 评论 -
elasticsearch使用与高级api的使用(RestHighLevelClient)
-- 添加索引(数据库)curl -XPUT http://192.168.232.30:9200/yang_zzu/-- 在表 employee 中添加一个 id 为 1 的数据curl -H "Content-Type: application/json" -XPUT http://192.168.232.30:9200/yang_zzu/employee/1 -d '{ "first_name" : "daming", "last_name" : "erming",...原创 2020-11-16 21:20:10 · 2637 阅读 · 1 评论 -
es _ elasticsearch集群安装
正排索引:正排索引是指文档ID为key,表中记录每个关键词出现的次数,查找时扫描表中的每个文档中字的信息,直到找到所有包含查询关键字的文档。易维护;缺点是搜索的耗时太长;倒排索引:由于正排的耗时太长缺点,倒排就正好相反,是以word作为关键索引。表中关键字所对应的记录表项记录了出现这个字或词的所有文档,一个表项就是一个字表段,它记录该文档的ID和字符在该文档中出现的位置情况。倒排在构建索引的时候较为耗时且维护成本较高,但是搜索耗时短。a.html 小明是一个三好学...原创 2020-11-13 20:55:14 · 538 阅读 · 0 评论 -
impala使用
Kudu是Hadoop生态系统中一个真正的列存储。在进行继续的时候,由于在安装 impala 的时候,会导致集群中所有的服务进行重启,所以这里的下一步会执行失败,但是没有关系,因为 安装 impala 的配置文件已经在 节点上配置成功,执行失败也可以回到主页,然后手动的对各个服务进行重启,没有问题的。在回到主页的时候,hdfs 服务会显示配置过期,这个时候不用进行重启的时候,不要勾选重新部署客户端,然后进行重启,这个时候可能会重启失败,多尝试几次就可以了,由于是使用的虚拟机,...原创 2020-11-02 10:36:00 · 2340 阅读 · 0 评论 -
hue使用-hdfs文件-hive数据仓库-workflow(oozie、hue)
Hue是一个开源的Apache Hadoop UI系统。 是基于Python Web框架Django实现的。 支持任何版本Hadoop通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。 例如操作HDFS上的数据、运行Hive脚本、管理Oozie任务等等。...原创 2020-10-21 09:15:29 · 2189 阅读 · 0 评论 -
hue数据库连接验证失败
目录Unexpected error. Unable to verify database connection.1.查看日志2.安装 缺失的软件MySQL-python、mysqlclient、PyMySQL3.安装mysql-community-libs-compat(mysql版本<5.7.9 )4.安装mariadb-libs(mysql版本>=5.7.9 )hue进行数据库验证提示Unexpected error. Unable to verif...原创 2020-10-17 20:37:54 · 940 阅读 · 0 评论 -
cloudera manager 使用 cdh 服务安装
添加集群在进行角色的分配的时候,尽可能的将不同的角色分开,这样不会导致某个服务器的负载过高,分配完之后,可以查看各个节点的角色信息,进行角色分配的时候,可以参考之前搭建 hadoop HA 的角色分配 NN-1 NN-2 DN ZK ZKFC JNN RS NM HIVE-server hive-client hbase-master hbase-backup regin..原创 2020-10-15 19:38:02 · 707 阅读 · 0 评论 -
cdh namenode 节点启动失败(无法打开文件)
Can't open /var/run/cloudera-scm-agent/process/28-hdfs-NAMENODE-format/supercdh 6.1.0 安装服务的时候出现 NameNode 节点启动异常的问题查找cloudera-config.sh 文件find / -name cloudera-config.sh编辑文件 cloudera-config.sh vim /opt/cloudera/cm-agent/service/common/cloude..原创 2020-10-15 14:15:34 · 2232 阅读 · 4 评论 -
jobHistory server 角色进程退出
目录jobHistory server 启动后异常退出创建文件夹修改文件夹的权限修改文件夹的所属用户jobHistory server 启动后异常退出主要是查看日志信息的提示内容创建文件夹sudo -uhdfs hdfs dfs -mkdir -p /user/history/done修改文件夹的权限sudo -uhdfs hdfs dfs -chmod 777 /user修改文件夹的所属用户sudo -uhdfs h...原创 2020-10-15 10:35:36 · 1085 阅读 · 0 评论 -
Canary无法创建父目录
cloudmanager 安装 hdfs 出现 HDFS 金丝雀,异常Canary 测试无法为 /tmp/.cloudera_health_monitoring_canary_files 创建父目录。方法一:在这里面直接点击确认,会禁用 canary 的检测,如果想继续进行检测方法二:1.hdfs是否处于safemode,正常是offhdfs dfsadmin -safemode get如果不是 off 则使用命令,必须使用 hdfs 用户执行命令,因为在使用 ..原创 2020-10-15 09:48:56 · 969 阅读 · 0 评论 -
cloudera manager安装
cdh 官网下载地址https://cn.cloudera.com/downloads.html下载这三个文件下载cloudera managerhttps://cn.cloudera.com/downloads.html由于cdh 选择的是6.1.0,所以这里也选择6.1.0版本整体架构环境配置在进行配置的时候,要根据自己电脑的配置,对虚拟机的配置进行调整。我电脑是4核8线程,16G的内存, 在给虚拟机分配资源的时候,需要预留一...原创 2020-10-14 09:15:21 · 2465 阅读 · 8 评论 -
zookeeper工作原理与节点使用
目录zookeeper集群的搭建:配置解释:特点:常规搭建方式,进行操作:A.关闭防火墙(测试环境)B.启动 服务,每个规划的 zookeeper 节点都要进行启动C.启动客户端D.命令使用1. help2. ls 查看当前存在的根目录3. znode 节点4. create 创建节点a. 创建临时节点,获得临时节点的数据b.创建持久化节点,获得临时节点的数据c.创建子节点d.创建孙子节点e.znode节点数据结构E.数据同步恢复模原创 2020-10-03 16:05:47 · 656 阅读 · 0 评论 -
hbase rowkey设计3个实例
实例1: 问题 用户,角色(拥有优先级) 通过用户,能看到该用户的所有角色 通过角色,能查到所有该角色的用户 用户增加 角色增加 psn(用户表) rowkey(用户id) cf1(用户的基本信息) cf2(角色id = 优先级) 001 cf1:name=xiaoming;cf1:age=...原创 2020-10-02 21:16:49 · 517 阅读 · 0 评论 -
hbase使用 + api + protobuf + 优化
一张完整的表被保存在多个Regionserver 上HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的 HRegion server上。1. hosts iptables 防火墙2. date时间同步3. jdk4. hadoop 集群启动 start-dfs.sh 这里不用启动 yarn 服务,只要 hdfs 文件系统5.上传解压优...原创 2020-10-02 21:11:29 · 802 阅读 · 0 评论 -
Hbase 高可用集群安装
一张完整的表被保存在多个Regionserver 上HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的 HRegion server上。1. hosts iptables 防火墙2. date时间同步3. jdk4. hadoop 集群启动 start-dfs.sh 这里不用启动 yarn 服务,只要 hdfs 文件系统5.上传解压优化;A.表设计1. 对...原创 2020-09-24 20:48:45 · 390 阅读 · 0 评论 -
hive使用与优化
hive的使用浏览器访问namenode 主节点的, 9870 端口A、内部表,外部表1.外部表、外部表,在创建表的时候都可以指定目录,如果指定目录表的元文件会上传到指定目录,否则使用 hive-sit.xml 文件中设置的文件目录+表名 作为元文件的目录2. 删除时内部表会将表结构和元数据全部删除,外部表只删除表结构,不删除元数据内部表:外部表:CREATE EXTERNAL TABLE psnexternal(id int,name string..原创 2020-09-14 11:39:20 · 1100 阅读 · 0 评论 -
keepalived做lvs主备
lvskeepalived 代替 ipvsadmin 配置内核信息,设置主、备 lvskeepalived 是用户空间的程序yum install keepalivedvim keepalived.conf查看5类帮助文档输入 /virtual_ipaddress 可以在帮助文档中查找该关键字在安装httpd 后,要在 /var/www/html 文件夹中创建一个 index.html 主页面vrrp_instance VI_1virtual_s...原创 2020-09-08 17:30:13 · 408 阅读 · 0 评论 -
hive数据仓库安装
目录安装msyql 数据库安装hive数据仓库下载hive 安装包解压压缩包:修改 /etc/profile 文件修改 hive-env.sh 文件修改 hive-log4j2.properties 文件分发文件修改客户端 hive-site.xml 文件在服务端、客户端,添加mysql 连接包服务端:启动服务客户端:启动客户端问题:问题1:问题2:问题3:问题4:问题5:hive 数据仓库的使用:创建表:加载数据:...原创 2020-09-06 20:04:20 · 848 阅读 · 0 评论 -
MapReduce矩阵行列转换(itemcf)
附带 reduce 部分的代码,代码显示的是,相乘的操作,合并的操作,在下一个job 作业,感兴趣的话,可以在git 上获得完整的源码:https://github.com/YANG-sty/BIGHimport org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;import java.util.HashMap;import java.util....原创 2020-09-02 11:12:22 · 349 阅读 · 0 评论 -
hadoop项目运行+运行时无法加载主类+集群启动步骤
错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMasterhadoop classpath原创 2020-08-26 14:43:18 · 1867 阅读 · 0 评论 -
Big Data tools插件连接 + yarn 集群
目录big data tools 使用yarn资源管理1.修改mapred-site.xml 配置文件2.修改yarn-site.xml3.修改yarn-env.sh4.分发到其他节点5.启动yarn6.访问big data tools 使用Path hdfs://192.168.232.100:8020/ is not accessible or does not exist之所以在连接的时候出现这中情况,是由于在hadoop 集群环境搭建完成之后,..原创 2020-08-25 15:38:44 · 1477 阅读 · 2 评论 -
hadoopHA集群搭建
目录A.修改配置文件1. 修改hadoop-env.sh2. 修改 core-site.xml3.修改hdfs-site.xml4.将修改的文件分发到其他节点B.zookeeper 集群搭建1. 下载安装包2.上传文件夹,解压缩,3.修改/etc/profile 文件4.修改配置文件5.将安装包分发到其他节点6. 创建myid启动1. 所有节点关闭journalnode2. 所有jnn 节点开启 journalnode 服务3.格式化主节点..原创 2020-08-24 20:19:57 · 703 阅读 · 0 评论 -
hadoop全分布安装
hadoop 分布式安装:官方压缩包下载地址:https://hadoop.apache.org/release/3.2.1.html准备工作:A.安装jdka.1. 下载jdk 的镜像文件docker pull primetoninc/jdk.1.8docker 下载的实在是太慢了,一直无法完全下载下来。这里使用从官网下载的安装包进行安装,不使用docker镜像https://www.oracle.com/java/technologies/javase/...原创 2020-08-24 14:49:20 · 829 阅读 · 0 评论