菜鸡成长日记-番外篇

菜鸡成长日记-番外篇

俗话说,初生牛犊不怕虎;本博客作为小弟第一篇博客,记载了本人第一次进入大数据体系海洋的经历;想要在海洋上远航,就必须要有"坚固的船体"和"丰富经验",而小弟却是小白一位,“船体不牢”,经验也是空白,单凭着丰富的想象力和边做边学而搭建的小船就冲向了华为云大数据挑战赛,所以很快的倒在了复赛的门前,话说凭借着这一艘小船我们还能在初赛a阶段吊在进复赛的车尾也是不容易,也保住了小牛的信心,不至于收拾好包袱回家"种田"
“了;好了,废话不说了,以下总结本次小船入水到翻船的过程:
第一步 “砍树”:造船也得要材料,怎么说还是得懂一门处理数据的语言,我们选择了python3,最近几年python在大数据领域挺火的,所以我们也就选择了学习它,学习python我个人就那啥稍微学习几天,了解了基本的语法和使用库,对于其他特点的使用没去深入的了解。
1.python最快乐的地方就是库,你想要的大部分东西都有很多现成的库,我们只需要去下载他们,将他们import到当前文件就可以使用了,方便了我们去做很多事情;
2.if,for等语句内部对齐就可以不需要中括号了。
3.函数构造:
4.无需定义类型
第二步 “造船”:语言的学习我比作"砍树”,那"造船"又是什么了?“造船"就是用python语言做些什么个什么"东西”,从而是使这个"东西"达到可以去"下水",即可以去用来做我们想做的事情,我们想做什么?当然就比赛喽,预测呗,想要做到预测的目的我们要做些什么?构造模型呗,什么样的模型预测会更加精准了?"好"的数据去训练"优秀"的模型的到的模型呗,到此,“造船"是什么已经很明白了,就是用语言去实现一系列模块,这一系列模块整合从而得到一个模型,这个模型也就是这艘"船”。
第三步 “船入水”:很简单,船入水就是测试我的"船"能航多远(模型预测的准确程度)。

语言的水平决定木板的优秀程度,而知识和经验的丰富程度决定了模块的优秀程度,模块的优秀决定了最终模型的优秀程度。
我总结的模块有两部分,一是数据处理模块,二是模型模块,我们由于水平的不够,所以只针对性的对数据做了处理,而且也不是特别好,比如去重,填补缺失值,删除我们觉得关系不是很大的列数据(但可能还是有关系的)等;去重我们用的就是库方法drop_duplicates(),填补缺失就是需要找到相近的数据去填进入,删除列就是drop()方法,这些所做的一切其实都是为了洗掉"脏"数据,最后剩下的数据不是说越少越好,而是"脏"数据越少越好!有一点对于我们这样的初学者很重要,我那就是进入模型的数据是没有文字数据的,我一开始就是不知道这一点,还是后面训练的时候才知道,对于这种文字数据我们可以采取"哑变量"方法,将一列变成多列,这种方法是把一列中的每种不同情况文字变成了一个列名,如果某一行未分解前的此列值符合当前一个列名,那么此行此列的值为1,其余列为0,但是此方法把一列变成了多列,列不想关,所以使用这个也得想清楚了,或许再用协方差,还没来及实践就无了,待考证,还有一种方法就是变成字符编码。
总得来说我们这次比赛就是重复的造船试水,也就不太多来描绘了,其中的困难也是层出不穷,经历过才懂得,虽然最终没能挺进复赛,但我还是受益匪浅,这不仅仅是一种知识上的提升,也是对自己未来方向的一种帮助,看到
了自己与同时代人的差距,也看清楚了自己的追求,最后一句话,“比你优秀的人都在努力,你又为什么不努力,难道真就当咸鱼吗!”

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值