大数据之新人在新浪

今天部门人,差不多都走了,难得清静,突发感触,想写点东西,来纪念下来了新浪这些日子,而且总结这段时间的对hadoop的体会。

          2013-07-30:新浪第一天,上午很不错(和个人力妹妹聊得high~),下午开始蛋疼,申请通道居然足足申请了俩天,,在不能动手的时候,对于我这样有轻微阅读障碍的人,看了一天的资料,想起一首歌  ---》男人好难~~

          2013-08-02:今天终于可以开始干活了,算的上是与hadoop的第一次^ ^, 然后体会了俩件事,hadoop无异乎分俩部分,一是分布式文件系统hdfs,简单理解来说就是数据存放的地方;二是MapReduce,是用来进行逻辑处理的地方,牛逼之处在于可以并行处理,那处理大数据的速度可想而知,然后第一个任务就是用mapReduce开发一个数据。

由于起初真的挺难理解map,reduce的数据组织关系,然后,,,,,,,

          2013-08-03:是周六,作为寂寞的男人,宅男的典范,新浪新人,,只能苦逼来公司加班了,不过天道酬勤,组里个美女jingyi在,于是在美女的滔滔教诲下,终于对mapreduce小懂,开始干活。。。

          2013-08-06:需求总是不断变化,不过正是在这种情况下,才能学到更多,需求要求输出rcfile,,然后??????????,于是开始度娘,晓得,原来hive文件存储格式有三种, textfile(文本,不做压缩),sequencefile(二进制文件),这俩个是行存储, 还有一个就是rcfile(基于行列存储的一种压缩格式);soga~,,,于是用专门处理的工具类,开始处理,最终搞定,第一个完整的mapReduce诞生,兴奋之情无异于helloWorld~~,在此,感谢下jingyi~

          2013-08-09:需求有变,需求增了俩个,于是需要分路径输出结果,然后????????,,在jingyi的指导下,于是晓得了,是一个reduce输出不同结果。于是开始,,,最终做出了了,看着成果,有点小激动,,(刚开始总是对小成果很兴奋~~)。

          2013-08-16:悲剧发生了,测试出一个bug,实际2W多的数据,只处理出200多条,于是开始bug---debug,,,最终经过2天的琢磨,发现了rcfile的key_value方式与普通的MR的不一样,,然后,想办法解决,最后只能但路径输出,多了一个job,,不是最好的办法,不过对着需求上的时间上考虑,只能先出数了,哎,,目前这个问题仍在解决中~~

         2013-08-22:今天是blog第一次,其实去年在做java web开发的时候就想写,,但是被天下博客伤心了,大学那会的100多篇文章,随着服务器的崩溃,此处省略100可字,真想骂天下博客,此处省去1W字,九点了,job快跑完了,撤了,相关代码,改天上传,安~




          

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值