- 博客(9)
- 资源 (4)
- 收藏
- 关注
原创 spark 编程
Spark programQuick Start——Spark Shell./bin/spark-shellscala> val textFile = spark.read.textFile("README.md")textFile: org.apache.spark.sql.Dataset[String] = [value: string]scala> textFile.count(...
2018-05-30 14:46:01 286
原创 Spark 提交应用
Spark Submitting ApplicationsSpark的bin目录中的Spark -submit脚本用于在集群上启动应用程序。它可以通过一个统一的接口使用所有Spark支持的集群管理器,这样您就不必配置您的应用程序,尤其是对每个应用程序ddBundling Your Application’s Dependencies如果您的代码依赖于其他项目,您将需要将它们与应用程序一起打包,以便...
2018-05-30 14:36:06 158
原创 Spark 简介
SparkApache Spark是一种快速、通用的集群计算系统。它提供了Java、Scala、Python和R的高级api,以及一个支持通用执行图的优化引擎。它还支持丰富的高级工具集,包括用于SQL和结构化数据处理的Spark SQL、用于机器学习的MLlib、图形处理的GraphX和Spark流。ComponentsSpark应用程序在集群上作为独立的进程集运行,由主程序中的SparkCont...
2018-05-30 10:03:21 841
原创 kafka 设计
1. Motivation(动机) 设计Kafka作为一个统一的平台来处理大公司可能拥有的所有实时数据: 1. 必须有高吞吐量来支持高容量事件流 2. 优雅地处理大数据积压,以便能够支持离线系统的周期性数据负载 3. 系统将不得不处理低延迟交付,以处理更传统的消息用例 4. 系统必须能够保证在出现机器故障时的容错。支持这些用途使我们设计了一些独特的元素,更类似于数据库日志,而不是传统...
2018-05-28 16:10:10 287
原创 kafka start
Step 1: Download the codeDownload the 1.1.0 release and un-tar it.12> tar -xzf kafka_2.11-1.1.0.tgz> cd kafka_2.11-1.1.0Step 2: Start the server> bin/zookeeper-server-start.sh config/zookeepe...
2018-05-28 14:48:16 300
原创 Kafka 简介
Kafka是一个分布式的流处理平台,有三个关键的功能:1. 发布/订阅消息流,类似于消息队列或者企业消息系统2. 容错持久的消息存储3. 实时产生数据流的处理Kafka通常用于两大类应用程序:1. 构建实时的流数据处理管道用来从系统或应用可靠地获取数据2. 构建实时流处理程序以处理流数据的处理和转换Kafka运行在跨数据中心的多个服务器上Kafka以topics为类别存储数据流记录每个流记录都...
2018-05-28 14:32:12 492
转载 confluent
最开始接触confluent是通过这篇博客,How to Build a Scalable ETL Pipeline with Kafka Connect,对于做大数据的,数据的ETL(抽取,转换,装载)是必不可少的。例如,要把传统的关系型数据库中的数据导入到HDFS里,或者导入到Hive中,进一步对数据进行分析,或者把json或者文本文件中的数据导入到大数据数据仓库中进行分析。这都需要ETL。这...
2018-05-28 09:27:08 1026
原创 spring main projects
1. spring framework核心支持依赖注入,事务管理,Web应用程序,数据访问,消息传递,测试等等。特征核心技术:依赖注入,事件,资源,i18n,验证,数据绑定,类型转换,SpEL,AOP。测试:模拟对象,TestContext框架,Spring MVC测试,WebTestClient。数据访问:事务,DAO支持,JDBC,ORM,编组XML。Spring MVC和Spring We...
2018-05-22 10:01:18 505
转载 一名3年工作经验的程序员应该具备的技能(写得很好,果断转)
因为和同事有约定再加上LZ自己也喜欢做完一件事之后进行总结,因此有了这篇文章。这篇文章大部分内容都是面向整个程序员群体的,当然因为LZ本身是做Java开发的,因此有一部分内容也是专门面向咱们Java程序员的。简单先说一下,LZ坐标杭州,13届本科毕业,算上年前在阿里巴巴B2B事业部的面试,一共有面试了有6家公司(因为LZ不想请假,因此只是每个晚上去其他公司面试,所以面试的公司比较少),其中成功的有...
2018-05-11 15:22:48 697 2
janusgraph部署开发.docx
2020-05-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人