大数据之新人在新浪

最新推荐文章于 2024-09-21 23:46:33 发布

润蛋

最新推荐文章于 2024-09-21 23:46:33 发布

阅读量788

点赞数

文章标签： hadoop sina 存储 MapReduce

本文链接：https://blog.csdn.net/linrunzhang/article/details/10198363

版权

今天部门人，差不多都走了，难得清静，突发感触，想写点东西，来纪念下来了新浪这些日子，而且总结这段时间的对hadoop的体会。

2013-07-30:新浪第一天，上午很不错（和个人力妹妹聊得high~），下午开始蛋疼，申请通道居然足足申请了俩天，，在不能动手的时候，对于我这样有轻微阅读障碍的人，看了一天的资料，想起一首歌 ---》男人好难~~

2013-08-02：今天终于可以开始干活了，算的上是与hadoop的第一次^ ^, 然后体会了俩件事，hadoop无异乎分俩部分，一是分布式文件系统hdfs，简单理解来说就是数据存放的地方；二是MapReduce，是用来进行逻辑处理的地方，牛逼之处在于可以并行处理，那处理大数据的速度可想而知，然后第一个任务就是用mapReduce开发一个数据。

由于起初真的挺难理解map，reduce的数据组织关系，然后，，，，，，，

2013-08-03：是周六，作为寂寞的男人，宅男的典范，新浪新人，，只能苦逼来公司加班了，不过天道酬勤，组里个美女jingyi在，于是在美女的滔滔教诲下，终于对mapreduce小懂，开始干活。。。

2013-08-06：需求总是不断变化，不过正是在这种情况下，才能学到更多，需求要求输出rcfile，，然后？？？？？？？？？？，于是开始度娘，晓得，原来hive文件存储格式有三种， textfile（文本，不做压缩），sequencefile（二进制文件），这俩个是行存储，还有一个就是rcfile（基于行列存储的一种压缩格式）；soga~，，，于是用专门处理的工具类，开始处理，最终搞定，第一个完整的mapReduce诞生，兴奋之情无异于helloWorld~~，在此，感谢下jingyi~

2013-08-09：需求有变，需求增了俩个，于是需要分路径输出结果，然后？？？？？？？？，，在jingyi的指导下，于是晓得了，是一个reduce输出不同结果。于是开始，，，最终做出了了，看着成果，有点小激动，，（刚开始总是对小成果很兴奋~~）。

2013-08-16：悲剧发生了，测试出一个bug，实际2W多的数据，只处理出200多条，于是开始bug---debug，，，最终经过2天的琢磨，发现了rcfile的key_value方式与普通的MR的不一样，，然后，想办法解决，最后只能但路径输出，多了一个job，，不是最好的办法，不过对着需求上的时间上考虑，只能先出数了，哎，，目前这个问题仍在解决中~~

2013-08-22：今天是blog第一次，其实去年在做java web开发的时候就想写，，但是被天下博客伤心了，大学那会的100多篇文章，随着服务器的崩溃，此处省略100可字，真想骂天下博客，此处省去1W字，九点了，job快跑完了，撤了，相关代码，改天上传，安~