年终总结-2014

    2014年整个一年的感觉是太忙碌了,忙碌着为产品做功能的设计,忙着做研发计划,忙着做功能开发,忙着去客户现场调试上线。

    各种忙碌中,我度过了2014年。


这一年尝试了哪些新技术

    记得2013年底的时候,我们的产品推出了分析的功能,那个时候,写了一个python的http-server,用来做分析程序的外壳。然后每一个分析程序都是使用shell写的。
    这一年终于看到单机版的性能太低下了。并且shell想要写出并行的程序基本不可能。果断将程序换成了map-reduce。这个是这一年付出心血的最多的地方了。
    具体的新技术有:

cdh4向cdh5的切换

    为了切换cdh的版本,不得不升级数据,而之前有的hbase集群是用rpm的方式安装的,那么需要将数据先导出,再导入。说到导出,今年可能遇到了最大的一个失败就是导出中没有设置batch的大小,导致导出失败,从而丢失了数据。
    其他的cdh4向cdh5的切换的一个很重要原因是原有使用的hbase版本中对于memstore中的数据如果没有达到大小限制,不会刷写到hfile中
当然还有发现的hbase的问题是在0.98.1中解决的。因此果断切换了。

map-reduce的使用

    从一无所知,到基本明白map-reduce的接口原理,再到明白了shuffle sort call-application
    编写了很多map-reduce的小程序,基本上都是python写的。因为使用的streaming。当然使用python的最大好处就是现场可以更改,对调试真的是帮助太大了。
    处理到了千亿级的数据,当然时间上一个算法计算完成耗费了2天左右的时间。
    同时也计算出了600亿的结果数据,看起来挺不错。

spark的使用

    在这一年也看到了很多并行计算的架构,map-reduce yarn spark storm 
    因为一直没找到yarn的streaming的工具,因此一直没有做切换
    终于在快到年底的时候使用sprak做了一个程序,还是使用的python效果不错,明年继续努力。


这一年自己做了什么东西


分析框架的搭建

    使用数据库(oracle)来存储原始数据,当然也可以直接存储到hdfs上。
    然后使用python搭建了一个http_server,使用rabbitmq做任务消息的队列 (当初设计的时候还想过调度啥的,现在根本没想法)
    使用shell来调用streaming程序来做并行运算
    计算结果也是几种: 可以直接入库--出bcp,入oracle。 或者直接入其他存储。

按照公司的规则出了几个产品的新版本

    公司小产品比较多,出版本也比较快,一共加起来能有10个左右吧。
    我们的基本流程吧: 设计版本功能--制定版本计划--开发+自测--拉出分支,进行测试--测试完成,打tag,发布版本。
    周而复始。没有尝试同时多分支开发,人力和智力都不够啊。

伤心的看到带出的新人离开了

    好不容易培养出来的新人,由于各种原因,离开了公司。
    之前看到学校的老师一辈子了也就带出来了4-5个博士,20个硕士,现在看来,每带一个人都是要花费巨大心血的。
    向以前藐视过得老师们道个歉吧。

这一年最大的感触


理想主义者活着真不容易

    看着老罗饿锤子手机,真的不容易,想想身边一个个离开的同事。想将工作生活合理的安排好,真的很难。
    当然单单是在工作中让老板们满意就已经很难了。

自己的激情确实在渐渐减少

    以前对于问题的专研,真的是能够沉下心来,细细的去寻找真谛。现在越来越是为了工作而工作了
    工作之外的研究也越来越少了。
    自己的懒惰导致现在体重也越来越难以,,,,,,了

明年会怎样


    还有几天才到明年,不敢想太多,但是只要自己积极,主动,热情的去面对未来,相信会越来越好的。
深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值