大数据开发
闲云野鹤~~~
这个作者很懒,什么都没留下…
展开
-
大数据开发职位要求
1、本科及以上学历;2、计算机、数学或统计学,软件工程,信息处理,金融等相关专业;3、两年以上数据分析师相关工作经验;4、主要从事数据分析、建模方向的工作;5、熟悉R或python语言,有成熟的R或python语言项目开发经验;6、熟悉至少一种或几种机器学习算法,(如线性模型、朴素贝叶斯、决策树、支持向量机、随机森林、神经网络、逻辑回归、聚类分析、推荐算法、广告算法、PCA、SVD等);...原创 2019-02-13 20:57:22 · 2729 阅读 · 0 评论 -
ELK原理与介绍
ELK原理与介绍为什么用到ELK:一般我们需要进行日志分析场景:直接在日志文件中 grep、awk 就可以获得自己想要的信息。但在规模较大的场景中,此方法效率低下,面临问题包括日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询。需要集中化的日志管理,所有服务器上的日志收集汇总。常见解决思路是建立集中式日志收集系统,将所有节点上的日志统一收集,管理,访问。一般大型系统是一个分布式部署...转载 2019-03-25 19:16:05 · 124 阅读 · 0 评论 -
Java面试总结
1.String/String Buffer/String Builder之间的区别和联系2.运行时异常与一般异常有什么区别?3.java的特征?ArrayList和LinkedList以及Vector之间的区别和联系Vector是线程安全的,而ArrayList和LinkedList是线程不安全的。ArrayList底层是数组,查询速度较高,不适合用于增删;LinkedList底...原创 2019-03-18 20:10:51 · 87 阅读 · 0 评论 -
集群的优点
集群的优点高可伸缩性:服务器集群具有很强的可伸缩性。随着需求和负荷的增长,可以向集群系统添加更多的服务器。在这样的配置中,可以有多台服务器执行相同的应用和数据库操作。高可用性:高可用性是指,在不需要操作者干预的情况下,防止系统发生故障或从故障中自动恢复的能力。通过把故障服务器上的应用程序转移到备份服务器上运行,集群系统能够把正常运行时间提高到大于99.9%,大大减少服务器和应用程序的停机时...原创 2019-03-13 15:21:12 · 12550 阅读 · 0 评论 -
Flume+Kafka+Storm+Redis构建大数据实时处理系统
Flume+Kafka+Storm+Redis构建大数据实时处理系统摘要:在实际中,基于每个人的工作环境不同,业务不同,因此业务系统的复杂度也不尽相同,相对来说,这里统计PV、UV的业务是比较简单的,但也足够让我们对大数据实时处理系统有一个基本的、清晰的了解与认识,是的,它不再那么神秘了。一、大数据处理的常用方法之前在《采集→清洗→处理:基于MapReduce的离线数据分析》中已经有...转载 2019-03-20 18:52:53 · 401 阅读 · 0 评论 -
HBase – 探索HFile索引机制
本文由网易云发布。作者:范欣欣01HFile索引结构解析HFile中索引结构根据索引层级的不同分为两种:single-level和mutil-level,前者表示单层索引,后者表示多级索引,一般为两级或三级。HFile V1版本中只有single-level一种索引结构,V2版本中引入多级索引。之所以引入多级索引,是因为随着HFile文件越来越大,Data Block越来越多...转载 2019-03-20 17:59:09 · 153 阅读 · 0 评论 -
HBase – 存储文件HFile结构解析
本文由网易云发布。作者:范欣欣HFile是HBase存储数据的文件组织形式,参考BigTable的SSTable和Hadoop的TFile实现。从HBase开始到现在,HFile经历了三个版本,其中V2在0.92引入,V3在0.98引入。HFileV1版本的在实际使用过程中发现它占用内存多,HFile V2版本针对此进行了优化,HFile V3版本基本和V2版本相同,只是在cell层...转载 2019-03-20 17:57:41 · 294 阅读 · 0 评论 -
B树、B+树、LSM树以及其典型应用场景
原文链接:https://blog.csdn.net/hellozhxy/article/details/79911807前言动态查找树主要有:二叉查找树、平衡二叉树、红黑树、B树、B+树。前面三种是典型的二叉查找树,查找的时间复杂度是O(log2N)与树的深度有关系,那么降低树的深度也就可以提升查找效率。这时就提出了平衡多路查找树,也就是B树以及B+树。B树和B+树非常典型的场景就是...转载 2019-03-20 17:35:16 · 163 阅读 · 0 评论 -
LSM-Tree原理
LSM-Tree原理原文链接:https://cloud.tencent.com/developer/news/340271先看名字,log-structured,日志结构的,日志是软件系统打出来的,就跟人写日记一样,一页一页往下写,而且系统写日志不会写错,所以不需要更改,只需要在后边追加就好了。各种数据库的写前日志也是追加型的,因此日志结构的基本就指代追加。注意他还是个 “Merge-t...转载 2019-03-20 17:29:08 · 658 阅读 · 0 评论 -
为什么HBase不使用B+ Tree而使用LSM-Tree?
问题:为什么HBase不使用B+ Tree而使用LSM-Tree?原因是:1.B+Tree不适合为经常发生写操作的表建立索引,因为表数据发生变化,就需要重写物化索引,尤其是当表的数据量特别大的时候,物化索引的时间是相当长的。2.在数据插入时,尤其是数据量比较大的时候,会发生大量的磁盘随机写。随机写会发生多次的磁盘调度和寻道时间,一般在1ms~10ms。所以海量数据写入的时候性能很低。...原创 2019-03-20 16:59:43 · 829 阅读 · 0 评论 -
kafka的相关配置解析
Property Default Description broker.id 每个broker都可以用一个唯一的非负整数id进行标识;这个id可以作为broker的“名字”,并且它的存在使得broker无须混淆consumers就可以迁移到不同的host/port上。你可以选择任...原创 2019-03-20 15:12:23 · 183 阅读 · 0 评论 -
kafka清空原始配置
恢复kafka初始配置的清空kafka的操作:第一步:清除kafka的log保存位置所在的目录(kafka集群中的该目录都要删除)[root@hadoop02 kafka]# rm -rf kafka-logs/第二步:清除zookeeper中kafka相关的目录(具体删除哪些目录可以查看下方的截图)神奇的事情是:并不是你认为清空了之后重启kafka服务就可以成功的,有很多时候...原创 2019-03-20 10:41:38 · 770 阅读 · 0 评论 -
携程如何从海量数据中构建精准用户画像?
摘要:用户画像作为“大数据”的核心组成部分,在众多互联网公司中一直有其独特的地位。 作为国内旅游OTA的领头羊,携程也有着完善的用户画像平台体系。目前用户画像广泛用于个性化推荐,猜你喜欢等;针对旅游市场,携程更将其应用于“房型排序”“机票排序”“客服投诉”等诸多特色领域。用户画像作为“大数据”的核心组成部分,在众多互联网公司中一直有其独特的地位。作为国内旅游OTA的领头羊,携程也有着...转载 2019-03-08 19:22:24 · 3164 阅读 · 0 评论 -
Spark 电子书
Spark最佳实践 (陈欢/林世飞著) 完整pdf扫描版[39MB]http://pan.baidu.com/s/1i4LNOVVSpark SQL编程指南 (Spark 官方文档翻译) 中文PDF版http://qunying.jb51.net:81/201608/books/SparkSQLbczngfwdfy_jb51.rarSpark高级数据分析 中文pdf完整版[7MB]http:/...转载 2019-03-06 11:24:22 · 2100 阅读 · 6 评论 -
Spark--倒排索引
Spark--倒排索引输入id1hello worldhello hadoophadoop lovelove catcat love rabbitid2hello sparkthe spark app for youI love youyou are a catid3hello cathello rabbitcat is doing spark...转载 2019-03-02 19:16:34 · 443 阅读 · 0 评论 -
开源数据可视化工具(For Apache Kylin)使用说明
开源数据可视化工具(For Apache Kylin)使用说明Apache Kylin,很好的解决了海量数据OLAP的底层存储与分析引擎,但还缺一个数据可视化工具,可以使用户非常方便的通过图形化分析探索海量数据,而不用写SQL。于是我们发现了Caravel。原生的Caravel并不支持Kylin,也不支持多表关联,经过好友Rocky和我的修改和调试,使得Caravel支持Kylin,同...转载 2019-03-25 19:19:41 · 832 阅读 · 0 评论