机器学习应用系统设计第五章

最新推荐文章于 2024-03-10 16:45:37 发布

南楚巫妖

最新推荐文章于 2024-03-10 16:45:37 发布

阅读量256

点赞数

分类专栏：机器学习方法文章标签：机器学习应用系统设计

本文链接：https://blog.csdn.net/yingdajun/article/details/103208241

版权

26 篇文章 1 订阅

订阅专栏

5.机器学习资源收集

5.1 资源收集

输入信息：从访问日志等提取出来的特征

输出信息：分类标签或预测值

5.2利用公开的数据集或者模型

常见数据集：

UCI Machine Learning Repository (http://archive.uci.edu/ml/index.php)

Kaggle 机器学习数据集（https://www.kaggle.com/datasets），Kaggle机器学习竞赛所拥有的各类机器学习竞赛和普通用户共享的数据集

ImageNet数据集（http://www.image-net.org/），适用于图像识别领域。

Model Zoo数据集（http://github.com/BVLC/caffe/wiki/Model-Zoo），深度学习架构Caffe拥有能够共享训练好的模型库

Tensorflow数据集（http://research.googleblog.com/2017/06/supercharge-your-computer-vision models.html），提供物体识别所用的API,用于识别一般物体的学习模型。

骇客娃娃数据集（http://www.slideshare.net/mosa_siru/ss-40136577），日文的文本数据语料库，来源来自漫画，动画，轻小说，声优，动漫产品，cosplay等9大类御宅情况源将Wikipedia作为词素解析的词典。

后面两个应该要翻个墙，用chrome登录不了。

需要考虑的问题：

1.模型或者数据集是否有商用许可

2.训练过的模型或者数据集是否适合于自己的领域

5.3 开发者自己创建的数据集

5.4 他人帮忙输入数据

5.5 数据创建众包

众包模式的优缺点
	优点	缺点
1	相比于雇佣专业人员，工作效率更高，而且费用也比专业人员低。	任务设计难度大
2	工作效率高，容易实现试错迭代。	专业性要求高的任务需要进行任务步骤的细化和划分
3	工作费用低，可以委托多人完成同一项任务	为确保工作结果的质量，使用结果时需要下功夫

5.6 基于服务的用户输入