大数据架构文章整理

以下是学习数据分析过程中用到的文档:


一、 Hadoop相关:


0. hadoop十年解读与发展预测: http://www.infoq.com/cn/articles/hadoop-ten-years-interpretation-and-development-forecast

1. Hadoop集群搭建: http://blog.csdn.net/weixuehao/article/details/15813681

2. 分布式文件系统HDFS的架构和设计: https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html

3. Hadoop fs shell命令:https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html

4. mapreduce计算框架原理:

     http://www.snia.org/sites/default/education/tutorials/2013/fall/BigData/SergeBazhievsky_Introduction_to_Hadoop_MapReduce_v2.pdf

5. mapreduce的核心shuffle and sort: http://langyu.iteye.com/blog/992916

6. hadoop streaming: https://hadoop.apache.org/docs/r1.2.1/streaming.html

7. hadoop Sqoop: https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html

8. hadoop streaming multiple output: http://stackoverflow.com/questions/18541503/multiple-output-files-for-hadoop-streaming-with-python-mapper


二、 Hive相关:


1. Hive编译成mapreduce: http://tech.meituan.com/hive-sql-to-mapreduce.html

2. Hive数据存储模式: http://www.iteblog.com/archives/866

3. Hive内部表和外部表: http://www.aboutyun.com/thread-7458-1-1.html

4. Hive的left join、left outer join和left semi join三者的区别:  http://www.crazyant.net/1470.html

5. Hive regex_extract: http://blog.csdn.net/lxpbs8851/article/details/39202735

6. get_json_object,  lateral view等函数用法:  http://my.oschina.net/leejun2005/blog/120463


三、瓦利哥的专栏:

 http://zhuanlan.zhihu.com/sangwf   (讲了百度大数据从0到1的架构演变)


四、Spark:

1. Spark的核心--RDD: http://www.infoq.com/cn/articles/spark-core-rdd




  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值