大数据技术总结

最新推荐文章于 2022-09-19 22:32:08 发布

yfx000

最新推荐文章于 2022-09-19 22:32:08 发布

阅读量2.7k

点赞数 5

分类专栏： BigData 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yfx000/article/details/51737358

版权

BigData 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文用来记录大数据的各项技术，用作技术提纲

一、数据接入

kafka 消息管道可配置多个缓存副本（推荐）
Flume 直接写到目的地,Cloudera开源的一套日志传输系统，和Scribe类似。
Scribe Facebook开源的一套日志传输系统，将源日志传输到Hadoop等分布式文件系统中。
Sqoop 用于传统数据库和Hadoop之间的数据传输。
RDL 结构化和非结构化数据传输组件
Chukwa
Avro
Minos

二、ETL

Kettle
Talend

三、存储

1、HDFS
2、NoSQL
HBase
MongoDB
Cassandra
3、SQL
GBase
MonetDB
GreenPlum

4、缓存

Redis

四、批量处理

Hive 把SQL转为MapReduce任务

MapReduce

Pig

五、实时处理

Spark Streaming
Storm

六、查询OLAP

Impala
Spark SQL 跑在Spark上处理的数据流，推荐
Presto
Drill

七、数据挖掘

R,Mahout

八、可视化

Saiku 多维数据查询可视化
ECharts
HighCharts
Tableau
Qlik
Pentaho

九、全局-监控

Ganglia

Nagios

十、全局-元数据管理

mysql
Zookeeper
Hcatalog

十一、全局-任务调度器

Oozie 多个任务间调度，一般用这个，用于复杂的任务调度

Azkaban

Yarn 一般用于调度mapreduce任务，用于简单的任务调度

十二、平台维护

cdh

【友人方案】

虚拟化openstack
数据采集是flume+kafka
数据存储用hbase
文件存储nfs
计算用spark
平台维护用的cdh5 百度搜索cdh
检索用的solr
前端展现D3js

【从日志统计到大数据分析】百度

https://zhuanlan.zhihu.com/p/20390103?refer=sangwf

经验总结

1、百度用户行为(百科、搜索、知道等)存成一个逻辑大表， 1000字段，

实际根据时间、业务类型，分区分表

并用列存储，宽表结构信息存在数据库中，宽表内容存在HDFS中

2、数据源很重要，成功了一半

结构化日志源 Google Protocol Buffer

格式前后兼容；解析效率高；节省存储和带宽；数据带有Schema

3、Event模型很有效，用户行为分析时，先把数据整理成前面大表，

以免在杂乱数据中分析

4、结构化数据源用Parquet存储很合适，再用impla分析。protobuf行存储不适合

数据层如何选择：

关注

5
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据技术总结

二、数据层1、SQLGBaseMonetDB2、NoSQLHBaseCassandraMongoDB3、缓存RedisMemcached三、计算层1、内存计算SparkShark2、IMDGDrillImpala3、数据仓库
复制链接

扫一扫

专栏目录

yfx000 CSDN认证博客专家 CSDN认证企业博客

码龄11年

186: 原创

4万+: 周排名

7万+: 总排名

102万+: 访问

: 等级

7201: 积分

152: 粉丝

288: 获赞

108: 评论

816: 收藏

私信

关注

热门文章

分类专栏

PMP 2篇
前端 43篇
Linux 6篇
Java 35篇
Jvm 3篇
中间件、开发软件 39篇
架构 10篇
数据库 40篇
Office 6篇
生活 21篇
BigData 3篇
jenkins 6篇
bugs 1篇
人工智能 8篇
python 9篇
运维 35篇
理财 2篇

最新评论

spring security 自定义Provider 实现多种认证方式
IT搬砖道人: authenticationTokenFilter这个里面的代码可以看下吗
笔记本_cpu_突然性能下降_cpu锁频_cpu降频_重装无用_解锁办法
yfx000: 是不是该换硅脂了，睡眠刚恢复时cpu温度低，过一会锁了是cpu温度上来了
笔记本_cpu_突然性能下降_cpu锁频_cpu降频_重装无用_解锁办法
2301_81479419: 我买了新电池试试吧，其他方法（排静电，电源设置，Bios 恢复出厂，拔插适配器插头，还有那个外国软件）都试了没用，很奇怪，睡眠模式刚恢复正常的时候我看频率还是正常的，过一会就自动锁了，在PE模式下也是锁频率的，我把电池拆了还是锁频率
笔记本_cpu_突然性能下降_cpu锁频_cpu降频_重装无用_解锁办法
yfx000: 电源模块有问题吧，甚至可能影响了电池充电，可以用你的电池在同款笔记本上试试能否充电，排除下
笔记本_cpu_突然性能下降_cpu锁频_cpu降频_重装无用_解锁办法
2301_81479419: 我的神舟也是这个问题，插电源降低频率到0.97用电池正常，但是电池充不进电，显示0%

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yfx000 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。