大数据初始阶段
文章平均质量分 55
zookeeper,hadoop,hive.hbase.kafka.sqoop.azkaban
x我有辣条跟我走。
当你的才华还撑不起你的野心时,就应该静下心来学习。
展开
-
sqoop将hive数据导入mysql报错
sqoop export \--connect 'jdbc:mysql://192.168.1.135:3306/safe_manager?useUnicode=true&characterEncoding=utf-8' \--username root \--password Free-Wi11 \--table bigscreen_line1 \--input-null-string '\\N' --input-null-non-string '\\N' \--export...原创 2021-01-29 13:22:19 · 1950 阅读 · 0 评论 -
Hive中的sql
sql中的where、group by 、having的使用解析group by一般用到的就是“每”这个字。例如说明现在有一个这样的表:每个部门有多少人 就要用到分组的技术。having是分组(group by)后的筛选条件,分组后的数据组内再筛选where则是在分组前筛选where子句中不能使用聚集函数,而having子句中可以,所以在集合函数中加上了HAVING来起到测试查询结果是否符合条件的作用。即having子句的适用场景是可以使用聚合函数having 子句限制的是组,而不是行.原创 2021-07-21 21:51:33 · 403 阅读 · 0 评论 -
hive的内部表外部表
内部表已删全删hdfs和hive都没有,外部表在hdfs上还有在hive中没有。hive>describe psn_4;OKid int name string age smallint ..原创 2020-07-28 16:42:19 · 375 阅读 · 0 评论 -
大数据启动命令
hive启动命令:1.启动:在node-4上启动服务器端bin/hive --service metastorenohup bin/hive --service metastore &2.启动:在node-2上启动客户端:bin/hive3.Web页面访问nohup bin/hiveserver2 &访问(等待时间比较长):http://node7-4:10001/...原创 2020-08-26 19:39:17 · 333 阅读 · 0 评论 -
flink与idea的代码
代码:package day01import org.apache.flink.streaming.api.scala._object Demo02Stream { def main(args: Array[String]): Unit = { //创建流计算 val env = StreamExecutionEnvironment.getExecutionEnvironment val value: DataStream[String] = env.socketT.原创 2020-09-19 17:43:48 · 171 阅读 · 0 评论 -
图示-实现hive的文件与hdfs的导入导出
已知一堆sql导入数据库。导出成文本:原创 2020-07-13 21:28:00 · 487 阅读 · 0 评论 -
mysql在linux系统安装
1.下载:https://dev.mysql.com/downloads/repo/yum2.安装https://jingyan.baidu.com/article/6525d4b1704f52ac7d2e94c1.html拖到linux系统:安装顺序 common>libs>client>server>devel按着这个上面步骤走:https://www.cnblogs.com/lemon-feng/p/11233227.html3.安装时如果没以下..原创 2020-09-08 16:37:25 · 176 阅读 · 0 评论 -
Sparksql:Dataset注册表createOrReplaceGlobalTempView和createOrReplaceTempView区别
createOrReplaceTempView:给df起了一个名,可以调用 val df: DataFrame = spark.read.json("D:/JulyMounth/spark/sparkData/zipcode.json") //局部临时表注册 // 创建它的SparkSession对象终止前有效 df.createOrReplaceTempView("message") val sql="select *from message" spar.原创 2020-08-25 11:09:50 · 1594 阅读 · 0 评论 -
hive连接hbase
创建hive中写入hbase有关的表:hive> CREATE TABLE hbase_table_4(key int, value string) > -- 死格式,存储的时候使用下面的类 > STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' > -- hbase的键和值与hive表的对应关系;自动对应列的关系;第一列对应第一列;cf1:(列族) > WITH SE原创 2020-07-29 16:35:54 · 235 阅读 · 0 评论 -
mongodb的命令:
启动服务./bin/mongod -f ./conf/mongod.conf启动 命令行./bin/mongo localhost:12345> dbtest> use localswitched to db local> db.createCollection("mycoll", {capped:true, size:100000}){ "ok" : 1, "$clusterTime" : { "cluster...原创 2020-09-12 17:28:26 · 305 阅读 · 0 评论 -
hive导入文件
导入文件:目录电脑上创txt文件; txt文件拉到浏览器; hive输入sql通过浏览器进入hive中可以查询;创建一个文件;(文件名随便起);如:data.txt1,aa,20,80,2019-01-17 15:45:002,bb,21,90,2019-01-17 15:45:003,cc,24,70,2019-01-18 15:45:004,dd,20,82,2019-01-10 15:45:005,ee,22,81,2019-01-20 15:45:006,gg,2.原创 2020-07-11 20:24:41 · 194 阅读 · 0 评论 -
flume和hive链接报错:
2020-07-16 19:55:38,039 (conf-file-poller-0) [ERROR - org.apache.flume.node.PollingPropertiesFileConfigurationProvider$FileWatcherRunnable.run(PollingPropertiesFileConfigurationProvider.java:150)] Failed to start agent because dependencies were not found .原创 2020-07-16 20:29:22 · 397 阅读 · 0 评论 -
hbase常用命令:
hbase中结尾没有符号,退出用’’(单引号)创建命名空间:create_namespace ‘空间名’创建表:hbase(main):016:0> create 'Test:p2','cf'Created table Test:p2Took 1.2919 seconds => Hbase::Table - Test:p2在这里插入代码片描述表:.原创 2020-07-29 14:47:55 · 432 阅读 · 0 评论 -
HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.S
只能进去不能输命令,一输就报错HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient初始化很多遍后,重装。重装又报错,初始化报错:[root@node7-4 apache-hive]# bin/schematool -dbType mysql -initSchemaSLF4J: Class.原创 2020-08-27 14:09:33 · 1035 阅读 · 0 评论 -
Scala入门到精通
List item一.官网:https://www.scala-lang.org/下载:https://www.scala-lang.org/download/文档:https://docs.scala-lang.org/开发工具:http://scala-ide.org/ (Eclipse插件)流程图(插件直接拖入eclipse中,按步骤安装即可)...原创 2020-02-09 19:03:06 · 263 阅读 · 0 评论 -
idea中HADOOP运行错误:
这是我的错误,参照以下两个链接配置:1.https://blog.csdn.net/weixin_41122339/article/details/81141913https://www.cnblogs.com/zimo-jing/p/8796685.html2.如果还没好,可能你的windows里的hadoop没有配好,我的电脑-属性-...原创 2020-01-07 15:57:49 · 609 阅读 · 0 评论 -
zookeeper初级
一、zookeeper是什么(概括)? Zookeeper是一个分布式协调服务的开源概架,主要用来解决分布式集群中应用系统的一致性问题; ZooKeeper本质上是一个分布式的小文件存储系统,提供基于类似于文件系统的目录树方式的数据存储, 并且可以对树中的节点进行有效管理,从而用来维护和监控你存储的数据的状态变化, 通过监控这些数据状态的变化,从而可以达到基于数...原创 2020-01-02 21:28:01 · 99 阅读 · 0 评论 -
hadoop,linux,zookeeper常见考试题
简单描述你对Hadoop集群SafeMode模式的理解? 集群处于安全模式,不能执行重要操作(写操作),集群属于只读状态。但是严格来说,只是保证HDFS元数据信息的访问,而不保证文件的访问。集群启动完成后,自动退出安全模式, 如果集群处于安全模式,想要完成写操作,需要离开安全模式。 (1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态) ...原创 2020-01-01 20:29:21 · 226 阅读 · 0 评论 -
Hadoop(一)面试题
Shuffle过程环形缓冲区的作用:key,value从map()方法输出,被outputcollector收集通过getpartitioner()方法获取分区号,在进入环形缓冲区。默认情况下,环形缓冲区大小值为100MB。当map输入的数据进入环形缓冲区的量达到80MB以上时,那么开始执行溢写过程,溢写过程中如果有其他数据进入,那么由剩余的百分之20反向写入。溢写过程会根据key,value...原创 2019-12-29 19:55:15 · 353 阅读 · 0 评论 -
hadoop 的hdfs:
1.通过代码验证集群的配置文件的优先级@Testpublic void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = new Configuratio...原创 2019-12-23 20:50:26 · 194 阅读 · 0 评论 -
hadoop周总结
Hadoop三大发行版本Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Hadoop的优势(4高)1)高可靠性: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作...原创 2019-12-22 20:02:02 · 226 阅读 · 0 评论 -
hadoop-hdfs
1、hdfs的组成架构:namenode:就是master,它是一个主管,管理者。datanode:就是slave.namenode下达命令,datanode执行实际的操作client:就是客户端sencondary namenode:并非namenode的后备。当namenode挂掉的时候,他并不能马上替换namenode并提供服务2.hdfs:是分布式文件管理系统的一个。3.hdfs...原创 2019-12-20 20:40:14 · 136 阅读 · 0 评论 -
shell03day
安装hadoop出现错误:jdk1.7删不掉:如图解决方法:忽略依赖rpm -e --nodeps jar包我是先没删jdk1.7直接配置hadoop1.8的jdk结果出现这个问题,如果配置了1.8jdk并且刚删除1.7可以不用再安装配置环境变量。...原创 2019-12-17 22:30:22 · 92 阅读 · 0 评论 -
shell(二)
一.数组:运算符:二.加减乘除法一:法二:混合与小数:三.常用判断条件1.两个整数之间比较= 字符串比较-lt 小于(less than) -le 小于等于(less equal)-eq 等于(equal) -gt 大于(greater than)-ge 大于...原创 2019-12-16 20:55:23 · 200 阅读 · 0 评论 -
linux用xshell连接的常见命令(一)
Linux提供的Shell解析器有:bash和sh:默认编辑器:第一个脚本创建于输出:脚本内容:sh和bash的相对路径:给了脚本权限的相对路径:变量:系统变量:自定义变量:特殊变量:$n:$#,$*,$@打印所有参数:...原创 2019-12-15 20:29:19 · 317 阅读 · 0 评论 -
linux常见命令(三)
1.df (disk free 空余硬盘)查看磁盘空间使用情况:-h以人们较易阅读的 GBytes, MBytes, KBytes 等格式自行显示df -h查询指定目录的磁盘暂用情况,默认为当前目录![在这里插-s 指定目录占用大小汇总-h 带计量单位-a 含文件–max-depth=1 子目录深度-c 列出明细的同时,增加汇总值2.ls -l /root | grep...原创 2019-12-13 22:04:33 · 147 阅读 · 0 评论