阿里数据研发/数据挖掘提前批录用

纪念一下今天,第一个OFFER,感谢阿里!秋招开始!大家加油!

面经和学习总结在其他博客里面有,欢迎相互讨论和学习!

 

2019-12-11更:

又是一年的毕业季,希望师弟师妹们有个好offer,无论去哪里,适合自己才是最好的,最好能去不同的offer公司,实习一段时间,感触一下,毕竟亲身的体验才是最真实的。稳定取决于你自己,环境影响的量很小。后续也拿了几个offer,最终选择了阿里

2020-03-03更新:

        进入大厂之后对你的要求会更加高,为了更好的适应下来,建议学弟学妹多掌握一些技能,丰富个人的技能包。就个人本身举例,从事数据研发和算法相关的工作,那么我们可以从数据和算法角度分开讨论:

  • 针对数据研发而言
    • 数据获取
      • 最简单是Python的request模块 + urlib模块 + re 正则来合法(切勿非法获取数据,谨记)获取网上的公开数据集,但是现在的网站基本都是异步动态加载,所以你需要了解如何去找到网站上数据端口。如果对这块有兴趣可以一下我个人的一个动态页面抓取音频的教程,仅供参考和学习
      • 或者去github等开源项目里面、国家开放的数据平台里面,一般也能找到一些有用数据集。这里做一些开放接口推荐
        • 例如,路况、地理信息可以尝试用高德开放的平台去尝试获取 https://lbs.amap.com/api/webservice/guide/api/search/
        • ownthink 里面会有一些对话数据,也有部分地理信息,可以调用api接口去抽取,具体可以看其文档 https://www.ownthink.com/
        • 中文餐饮数据可以去和鲸社区或者北大研究院开放数据平台看看(可以直接百度
        • sklearn中也会带有一部分数据集,看你的需求,可以参考其官方文档(sklearn.datasets模块
    • ​​​​​​​
      • 离线计算
        • 主要针对t+1或者延时更长的任务,你需要有娴熟的sql、java、python的语言能力,其中比较重要的是Java能力和sqld的优化技巧。必要时还需要掌握数据库建模方法、一种关系型数据库如MySQL、一种非关系型数据库如Hbase。因为你无法确定未来的工作会承担哪个种类的项目和需要什么类型的技能
          • 可以总结:
            • 数据平台:mysql + hive + hbase
            • 语言:java + sql + shell + python
      • 实时计算
        • 实时计算这块比较复杂,而且很多公司都是采用Spark的准实时进行计算。实际上延时较小是Flink,也是阿里一直在强推的一个计算引擎。之前有做过两个实时项目,上手比较快,但是深入理解内部的原理和一些细节的东西就比较难,对个人有高要求的同学可以学习一下,未来也是一个大方向
  • 针对算法工程师而言
    • 必须要有足够强大的工程能力,在公司不是在读研做论文。在公司做算法是需要定目标指标,迅速产出和优化到一定level发布上线。
    • 关于如何培养工程能力,有以下几点建议
      • 看懂数据,即知道这份数据在描述的事情和数据是否存在问题,并快速定位问题和修复问题
      • 理解数据,即能够在心中确定几个需要实验的算法进行实验,当然也主要是在优秀的算法圈内尝试
      • 分析结果,为何效果不过?是数据问题,还是算法问题;最好能够出一份数据结果衬托你的分析,立足于数据才有说服力

             

       

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值