![](https://img-blog.csdnimg.cn/20200205140627241.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 52
大数据技术与经验
松门一枝花
建筑行业数字化产品总监
展开
-
同比和环比的区别
同比和环比是两种常用的数据分析方法,主要用于比较不同时间段的数据变化情况。是指将某一时期的数据与上一年同期的数据进行比较,以反映数据在相同时间段内的变化情况;是指将某一时期的数据与上一时期的数据进行比较,以反映数据在相邻时间段内的变化情况。原创 2023-11-16 15:51:28 · 502 阅读 · 0 评论 -
政务云公共服务区与资源共享区数据交换的方式
公共服务区与资源共享区数据交换的方式原创 2020-12-28 13:02:24 · 2252 阅读 · 0 评论 -
宁波政务云资源的介绍与申请
介绍如图所示:宁波政务云分公共服务区与资源共享区。公共服务区公共服务区,一般部署允许互联网访问的系统,数据不敏感,不重要的,可对外开发的系统。该区允许互联网访问,默认情况下不允许访问互联网,需要开通网络策略:互联网服务器IP地址+端口。不允许域名+端口。如果应用需要互联网访问的,要部署在公共服务区。申请流程:1.由项目立项单位(俗称甲方爸爸)向所在区的大数据申请。2.根据申请表填写完成,打印,盖章,由甲方爸爸提交所在区的大数据申请。申请材料:1)服务器..原创 2020-12-28 12:52:40 · 3081 阅读 · 0 评论 -
mapreduce程序开发的一些总结
mapreduce在编程的时候,基本上一个固化的模式,没有太多可灵活改变的地方,除了以下几处:1、输入数据接口:InputFormat ---> FileInputFormat(文件类型数据读取的通用抽象类) DBInputFormat (数据库数据读取的通用抽象类)默认使用的实现类是: TextInputFormat job.setInputFormatClass(TextI...原创 2020-02-29 22:26:22 · 286 阅读 · 0 评论 -
自己从零安装hadoop-HA集群
总体步骤1、分配机器,各安装什么软件2、每个节点设置时间一致,设置开机自动校验时间。3、每个节点修改主机名。4、每个节点配置hosts。5、每个节点关闭防火墙。6、上传JDK,配置JDK7、创建hadoop用户。8、给hadoop用户配置root组-------以下hadoop用户的操作---------9、开启ssh免密登录。10、上传Zooke...原创 2020-02-29 22:25:28 · 487 阅读 · 0 评论 -
安装hadoop集群---resourcemanager和NameNode同一台机器上
1、复制虚拟机,搞了5台。1:namenode,resourcemanager2:secondardNameNode3,4,5:DataNode2、修改了网卡配置,连接上SecureCRT---------root----用户----------3、date查看了时间4、开机启动了 ntpdatechkconfig --listchkconfig -...原创 2020-02-29 22:18:14 · 1428 阅读 · 1 评论 -
安装hadoop集群---resourcemanager和NameNode不在同一台机器上
1、复制虚拟机,搞了5台。1:namenode2:secondardNameNode,resourcemanager3,4,5:DataNode2、修改了网卡配置,连接上SecureCRT---------root----用户----------3、date查看了时间4、开机启动了 ntpdatechkconfig --listchkconfig -...原创 2020-02-29 22:17:20 · 4002 阅读 · 0 评论 -
Kafka集群安装--测试--关闭
一、前提1、kafka安装包下载:http://kafka.apache.org/downloads2、jdk已安装3、scala已安装4、zookeeper集群已安装并运行二、步骤1、对kafka_2.9.2-0.8.1.tgz进行解压缩:tar -zxvf kafka_2.9.2-0.8.1.tgz。2、对kafka目录进行改名:mv kafka_2.9.2-0.8.1 kafka3、配置ka...原创 2017-10-10 15:03:51 · 1113 阅读 · 0 评论 -
Spark应用日志级别设置
Spark-core包设置默认的日志级别为info,所以我们才看到一大堆日志信息。开发的时候,把print的日志掩盖了。方法一:代码中设置日志级别JavaSparkContext context=new JavaSparkContext(conf);context.setLogLevel("warn");方法二:添加 log4j.prope原创 2017-10-31 17:01:17 · 5110 阅读 · 0 评论 -
map flatmap mappartition flatMapToPair四种用法区别
原文链接:http://blog.csdn.net/u013086392/article/details/55666912-----------------------------------------------------------------------------------map: 我们可以看到数据的每一行在map之后产生了一个数组,那么rdd存储的是一个转载 2017-10-25 10:44:59 · 1496 阅读 · 0 评论 -
Spark集群运行jar包程序里的print日志哪里去了?
默认情况下,是输出到stdout里的。方法一:进入work所在机器的spark安装目录下的work目录,里面有日志输出。方法二:进入spark web ui 里点击stdout就可以查看,如果没有可能在其他work上。原创 2017-10-17 17:36:22 · 6098 阅读 · 3 评论 -
spark中saveAsTextFile如何最终生成一个文件
原文地址:http://www.cnblogs.com/029zz010buct/p/4685173.html-----------------------------------------------------------------------一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00000一直到part-0000n,n自然就是转载 2017-05-15 22:46:18 · 4995 阅读 · 1 评论 -
spark shell中编写WordCount程序
启动hdfs略启动spark略准备数据vi wordcount.txthello zenghello miaohello genhello zenghello wenhello biaozeng miao genzeng wen biaolu ting tingzhang xiao zhuchang sheng xiang qi lai原创 2017-05-15 22:48:28 · 2585 阅读 · 0 评论 -
第一个Spark实例:求PI值
向spark提交jar,需要使用 bin下的spark-submit[hadoop@nbdo1 bin]$ ./spark-submit --helpUsage: spark-submit [options] [app arguments]Usage: spark-submit --kill [submission ID] --master [spark://...]Usage: sp原创 2017-05-15 16:49:50 · 2922 阅读 · 0 评论 -
启动spark shell
spark集群安装教程:http://blog.csdn.net/zengmingen/article/details/72123717启动spark shell.在spark安装目录bin文件夹下 ./spark-shell --master spark://nbdo1:7077 --executor-memory 2g --total-executor-cores 2原创 2017-05-15 16:37:49 · 1865 阅读 · 0 评论 -
Spark算子reduceByKey深度解析
原文地址:http://blog.csdn.net/qq_23660243/article/details/51435257--------------------------------------------最近经常使用到reduceByKey这个算子,懵逼的时间占据多数,所以沉下心来翻墙上国外的帖子仔细过了一遍,发现一篇不错的,在此加上个人的理解整体过一遍这个算子,那么我们开转载 2017-05-15 15:29:24 · 1850 阅读 · 0 评论 -
Spark集群安装
Spark是独立的,所以集群安装的时候,不像hive,hbase等需要先安装hadoop,除非文件保存在hadoop上,才需要安装hadoop集群。如果虚拟机安装,点击阅读推荐配置前提环境:1、安装了JDK1.7及以上版本的Linux机器2、各台机器间SSH免密码登录已配置。3、各台Linux防火墙已关闭,时间已同步。SSH配置教程时间同步教程步原创 2017-05-15 14:38:39 · 919 阅读 · 0 评论 -
虚拟机安装spark配置推荐
如果虚拟机配置的内存太少,spark运行计算的时候会报:WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito ensure that workers are registered and have sufficient memory资源不足的问题,导致计原创 2017-05-11 15:36:28 · 1992 阅读 · 0 评论 -
Spark 常见问题小结
原文地址:http://www.aboutyun.com/thread-9946-1-1.html--------------------------------------问题导读1、当前集群的可用资源不能满足应用程序的需求,怎么解决?2、内存里堆的东西太多了,有什么好办法吗?1、WARN TaskSchedulerImpl: Initial job ha转载 2017-05-11 15:03:39 · 503 阅读 · 0 评论 -
Spark交互式分析平台Apache Zeppelin的安装
Zeppelin介绍Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括Spark, Hive, tajo等,原生支持Scala, Java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的,就是来自于当时的demo。Zeppeli转载 2016-12-15 14:40:20 · 576 阅读 · 0 评论 -
Intellij IDEA15:建立Scala的Maven项目
原文链接:http://blog.csdn.net/silentwolfyh/article/details/51172369------------------------------------------------------------------------------------在创建Scala的Maven之前要安装JavaJDK 、 Scala 的JDK 、 M转载 2017-10-19 10:29:14 · 434 阅读 · 0 评论 -
深入理解Scala的隐式转换系统
原文链接:http://www.cnblogs.com/MOBIN/p/5351900.html----------------------------------------------摘要:通过隐式转换,程序员可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来,这种特性可以极大的减少代码量,忽略那些冗长,过于细节的代码。转载 2017-08-24 10:19:57 · 336 阅读 · 0 评论 -
Scala-Actor并行wordcount
文件:"d://word.txt", "d://word.log"文件内容:代码:package cn.zengmg.day26.actorimport scala.actors.{Actor, Future}import scala.collection.mutable.ListBufferimport scala.io.Sourcecas原创 2017-08-22 11:01:00 · 442 阅读 · 0 评论 -
/* compiled code */ ?
原因:这是所用的ide自带了反编译工具,反编译的。不是具体的源码具体的源码需要手动关联源码包原创 2017-08-18 23:38:01 · 9780 阅读 · 2 评论 -
scala中:: , +:, :+, :::, +++的区别
原文链接:https://segmentfault.com/a/1190000005083578-------------------------------------------------------------4种操作符的区别和联系:: 该方法被称为cons,意为构造,向队列的头部追加数据,创造新的列表。用法为 x::list,其中x为加入到头部的元素,无论x是转载 2017-08-18 22:22:11 · 439 阅读 · 0 评论 -
查看Scala编译的.class文件
Scala是基于JDK运行的,必然会生成Java的字节码文件.class文件。如何查看?编码IDE:IntelliJ IDEA 2017.2 x64查看class文件工具:jd-guiscala代码如下:person.scalapackage cn.zengmg.day26class Person { val id="0001" //不变原创 2017-08-16 17:18:30 · 3439 阅读 · 1 评论 -
快学Scala习题解答—第三章 数组相关操作
原文链接:http://blog.csdn.net/ivan_pig/article/details/8257365--------------------------------------------------4 数组相关操作4.1 编写一段代码,将a设置为一个n个随机整数的数组,要求随机数介于0(包含)和n(不包含)之间random和yiel转载 2017-07-27 15:48:20 · 872 阅读 · 1 评论 -
《快学Scala》勘误
原文链接:http://www.blogjava.net/sean/archive/2012/11/15/391386.html----------------第11页(练习):在Scala REPL中键入3,然后按Tab键 应为 在Scala REPL中键入3.,然后按Tab键 第19页(正文):util方法返回一个并不包含上限的区间 应为 until方法返回一个并不转载 2017-07-27 12:50:16 · 325 阅读 · 0 评论 -
快学Scala习题解答—第二章 控制结构和函数
原文地址:http://blog.csdn.net/ivan_pig/article/details/8253068----------------------------------------------------------------------------------3 控制结构和函数3.1 一个数字如果为正数,则它的signum为1;如果是负数,则转载 2017-07-22 20:20:57 · 517 阅读 · 0 评论 -
IntelliJ IDEA 2017.2 x64 安装Scala
从官网下载好IntelliJ IDEA 和scalaIntelliJ IDEA 安装scala插件新建scala项目建好后,发现src右键--新建---没有 .scala选项解决方法原创 2017-07-22 17:12:40 · 2981 阅读 · 1 评论 -
快学Scala习题解答—第一章 基础
原文链接:http://blog.csdn.net/ivan_pig/article/details/8249768---------------------------------------------------------1 简介近期对Scala比较感兴趣,买了本《快学scala》,感觉不错。比《Programming Scala:Tackle Mult转载 2017-07-20 16:27:14 · 339 阅读 · 0 评论 -
eclipse编写wordcount提交spark运行
采用集成了scala的eclipse编写代码代码:package wordcountimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject WordCount { def main(args: Array[String]): Unit = { //非常重要,是原创 2017-05-18 11:30:39 · 753 阅读 · 0 评论 -
scala-wordcount
/* * Mapreduce步骤 * 1、map:获取一行 * 2、按空格分隔 * 3、每个单词统计, 输出到 reducer * 4、reducer 汇总 * 5、输出结果 */1、声明一个集合,模仿要统计的文档内容,一个逗号分隔的集合元素相当于一行scala> val lines原创 2017-05-15 11:04:15 · 571 阅读 · 0 评论 -
scala apply方法 笔记
原文出处:http://blog.csdn.net/pzw_0612/article/details/48576569-----------------------------------------------------Scala比Java更面向对象的一个方面是Scala没有静态成员。替代品是,Scala有单例对象:singleton object。当单例对象与某个转载 2017-05-14 14:56:33 · 448 阅读 · 0 评论 -
HBase中的HMaster、HRegionServer、Zookeeper
原文链接:http://blog.csdn.net/mm_bit/article/details/51304233-----------------------------------HMaster是Hbase主/从集群架构中的中央节点。通常一个HBase集群存在多个HMaster节点,其中一个为Active Master,其余为Backup Master.Hbase每转载 2017-04-24 19:38:55 · 5058 阅读 · 0 评论 -
Hbase介绍
1、为什么出现hbase?hadoop 的NameNode适合大文件,不适合小文件。HDFS不适合大量小文件的存储,因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放1million的文件至少消耗300MB内存,如果要存 放1billion的文件数目的话会超出硬件能力原创 2017-04-23 15:37:43 · 486 阅读 · 0 评论 -
hbase多master和动态添加节点
1、多个master节点。在reginserver节点上使用命令:hbase-daemon.sh start master在nbdo3机器上启动主备后,查看nbdo3机器上master产生的日志:2017-04-08 09:37:52,471 INFO [nbdo3:16000.activeMasterManager] master.ActiveMasterManager原创 2017-04-20 16:56:35 · 1821 阅读 · 0 评论 -
Flume实战采集文件内容存入HDFS
1、flume安装目录下新建文件夹 example 2、在example下新建文件 log-hdfs.conf内容如下:# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1#exec 指的是命令# Describe/configure the sourcea1原创 2017-03-23 16:34:57 · 6761 阅读 · 2 评论 -
Flume实战监听文件夹内文件变化
Flume官网有多种场景的source,sink,channel的配置1、flume安装目录下新建文件夹 example 2、在example下新建文件 spooldir-logger.conf内容如下:a1.sources = r1a1.sinks = k1a1.channels = c1# Describe原创 2017-03-23 12:13:52 · 8990 阅读 · 0 评论 -
Flume实战监听网络端口
具体的配置解释见官网http://flume.apache.org/FlumeUserGuide.html#flume-sources1、flume安装目录下新建文件夹 example 2、在example下新建文件 netcat-logger.conf内容如下:#name the components on this agenta1.sources = r1原创 2017-03-23 11:54:04 · 4909 阅读 · 0 评论