5.机器学习资源收集
5.1 资源收集
输入信息:从访问日志等提取出来的特征
输出信息:分类标签或预测值
输入信息提取模式 | |
1 | 开发服务日志获取功能模块,从日志中提取(全自动方式) |
2 | 人工浏览内容等,然后添加(人工方式) |
3 | 自动添加信息,由人确认(自动+人工方式) |
方式 | |
1 | 利用公开的数据集或模型 |
2 | 开发者自己创建训练数据 |
3 | 他人(同事或朋友等)帮忙输入数据 |
4 | 数据创建众包 |
5 | 集成于服务中,由用户输入 |
5.2利用公开的数据集或者模型
常见数据集:
UCI Machine Learning Repository (http://archive.uci.edu/ml/index.php)
Kaggle 机器学习数据集(https://www.kaggle.com/datasets),Kaggle机器学习竞赛所拥有的各类机器学习竞赛和普通用户共享的数据集
ImageNet数据集(http://www.image-net.org/),适用于图像识别领域。
Model Zoo数据集(http://github.com/BVLC/caffe/wiki/Model-Zoo),深度学习架构Caffe拥有能够共享训练好的模型库
Tensorflow数据集(http://research.googleblog.com/2017/06/supercharge-your-computer-vision models.html),提供物体识别所用的API,用于识别一般物体的学习模型。
骇客娃娃数据集(http://www.slideshare.net/mosa_siru/ss-40136577),日文的文本数据语料库,来源来自漫画,动画,轻小说,声优,动漫产品,cosplay等9大类御宅情况源将Wikipedia作为词素解析的词典。
后面两个应该要翻个墙,用chrome登录不了。
需要考虑的问题:
1.模型或者数据集是否有商用许可
2.训练过的模型或者数据集是否适合于自己的领域
5.3 开发者自己创建的数据集
5.4 他人帮忙输入数据
5.5 数据创建众包
优点 | 缺点 | |
1 | 相比于雇佣专业人员,工作效率更高,而且费用也比专业人员低。 | 任务设计难度大 |
2 | 工作效率高,容易实现试错迭代。 | 专业性要求高的任务需要进行任务步骤的细化和划分 |
3 | 工作费用低,可以委托多人完成同一项任务 | 为确保工作结果的质量,使用结果时需要下功夫 |
5.6 基于服务的用户输入