自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (4)
  • 收藏
  • 关注

原创 spark 编程

Spark programQuick Start——Spark Shell./bin/spark-shellscala> val textFile = spark.read.textFile("README.md")textFile: org.apache.spark.sql.Dataset[String] = [value: string]scala> textFile.count(...

2018-05-30 14:46:01 286

原创 Spark 提交应用

Spark Submitting ApplicationsSpark的bin目录中的Spark -submit脚本用于在集群上启动应用程序。它可以通过一个统一的接口使用所有Spark支持的集群管理器,这样您就不必配置您的应用程序,尤其是对每个应用程序ddBundling Your Application’s Dependencies如果您的代码依赖于其他项目,您将需要将它们与应用程序一起打包,以便...

2018-05-30 14:36:06 158

原创 Spark 简介

SparkApache Spark是一种快速、通用的集群计算系统。它提供了Java、Scala、Python和R的高级api,以及一个支持通用执行图的优化引擎。它还支持丰富的高级工具集,包括用于SQL和结构化数据处理的Spark SQL、用于机器学习的MLlib、图形处理的GraphX和Spark流。ComponentsSpark应用程序在集群上作为独立的进程集运行,由主程序中的SparkCont...

2018-05-30 10:03:21 841

原创 kafka 设计

  1. Motivation(动机)  设计Kafka作为一个统一的平台来处理大公司可能拥有的所有实时数据:  1. 必须有高吞吐量来支持高容量事件流  2. 优雅地处理大数据积压,以便能够支持离线系统的周期性数据负载  3. 系统将不得不处理低延迟交付,以处理更传统的消息用例  4. 系统必须能够保证在出现机器故障时的容错。支持这些用途使我们设计了一些独特的元素,更类似于数据库日志,而不是传统...

2018-05-28 16:10:10 287

原创 kafka start

Step 1: Download the codeDownload the 1.1.0 release and un-tar it.12> tar -xzf kafka_2.11-1.1.0.tgz> cd kafka_2.11-1.1.0Step 2: Start the server> bin/zookeeper-server-start.sh config/zookeepe...

2018-05-28 14:48:16 300

原创 Kafka 简介

Kafka是一个分布式的流处理平台,有三个关键的功能:1.  发布/订阅消息流,类似于消息队列或者企业消息系统2. 容错持久的消息存储3. 实时产生数据流的处理Kafka通常用于两大类应用程序:1.  构建实时的流数据处理管道用来从系统或应用可靠地获取数据2. 构建实时流处理程序以处理流数据的处理和转换Kafka运行在跨数据中心的多个服务器上Kafka以topics为类别存储数据流记录每个流记录都...

2018-05-28 14:32:12 492

转载 confluent

最开始接触confluent是通过这篇博客,How to Build a Scalable ETL Pipeline with Kafka Connect,对于做大数据的,数据的ETL(抽取,转换,装载)是必不可少的。例如,要把传统的关系型数据库中的数据导入到HDFS里,或者导入到Hive中,进一步对数据进行分析,或者把json或者文本文件中的数据导入到大数据数据仓库中进行分析。这都需要ETL。这...

2018-05-28 09:27:08 1026

原创 spring main projects

1. spring framework核心支持依赖注入,事务管理,Web应用程序,数据访问,消息传递,测试等等。特征核心技术:依赖注入,事件,资源,i18n,验证,数据绑定,类型转换,SpEL,AOP。测试:模拟对象,TestContext框架,Spring MVC测试,WebTestClient。数据访问:事务,DAO支持,JDBC,ORM,编组XML。Spring MVC和Spring We...

2018-05-22 10:01:18 505

转载 一名3年工作经验的程序员应该具备的技能(写得很好,果断转)

因为和同事有约定再加上LZ自己也喜欢做完一件事之后进行总结,因此有了这篇文章。这篇文章大部分内容都是面向整个程序员群体的,当然因为LZ本身是做Java开发的,因此有一部分内容也是专门面向咱们Java程序员的。简单先说一下,LZ坐标杭州,13届本科毕业,算上年前在阿里巴巴B2B事业部的面试,一共有面试了有6家公司(因为LZ不想请假,因此只是每个晚上去其他公司面试,所以面试的公司比较少),其中成功的有...

2018-05-11 15:22:48 697 2

janusgraph部署开发.docx

JanusGraph over HBase支持全局顶点和边缘迭代。但是,请注意,所有这些顶点和/或边都将加载到内存中,这可能会导致OutOfMemoryException。使用JanusGraph和TinkerPop的Hadoop-Gremlin有效地遍历大型图中的所有顶点或边。

2020-05-15

graylog日志检索系统调研.docx

graylog 调研 --安装 源代码分析 1. Graylog 作为一个开源项目,类没有一行注释,真的是很难想象,

2020-04-26

【恩墨学院】CDH集群的企业部署.pdf

cdh安装及部署文档:操作系统修改,cm安装,cdh安装.///

2019-10-16

Oozie的安装与配置.docx

oozie安装文件:Oozie的安装与配置及自带example演示。1111

2019-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除