随着这两年人工智能的快速发展,机器学习与深度学习行业炙手可热,对于那些想进入这个行业的同学们,小编在这里给大家介绍一下自己的心得体会以及利用Python的一些小技巧,希望对大家有所帮助。
在机器学习方面,对于想入门的新手,首先不得不提就是斯坦福大学的Andrew Ng-吴恩达,他在例如Coursera等网站上面的课程非常适合新手,并且当你入门之后,回头再看,又会有新的收获,在这里我把相应的链接放在这里Machine Learning | Coursera。
对于一个机器学习工程,或者参加例如kaggel、天池之类的比赛也好,流程都是类似的,小编在这里对前人的工作进行了一下总结。流程如下:
- 对数据进行简单的清洗与处理,得到一些基本特征。
- 建立简单的机器学习模型,按照重要性对特征进行排列。
- 根据得到的特征排列,有针对的进行特征工程,提取特征
- 重复上述过程,不断的优化自己的模型,找到关键的特征
- 对模型的参数进行调参,采用例如grid search的方法找到最优参数
- 进行模型融合,采用如Stacking 的方法得到最佳模型组合
对于实际的机器学习工程问题,数据的获取以及清洗是一件非常头疼事情,在这个方面要花费非常大的精力,而我们上述的流程比较适合一些初步清洗较好的数据,比较适用于一些比赛项目流程。
好了,说完机器学习基本流程,下面我们来说一下技巧了。目前,在机器学习方面最流行的有两种语言,一个是R,另外一个是Python,在这里小编介绍一下利用Python进行机器学习的一些小技巧,这些技巧对于大家的特征工程都有很大的帮助。
1. 数据读取
一般采用Python 的pandas 包,大部分数据集都可以利用它来读取