机器学习应用系统设计 第五章

5.机器学习资源收集

5.1 资源收集

输入信息:从访问日志等提取出来的特征

输出信息:分类标签或预测值

机器学习获取数据集模式
 输入信息提取模式
1开发服务日志获取功能模块,从日志中提取(全自动方式)
2人工浏览内容等,然后添加(人工方式)
3自动添加信息,由人确认(自动+人工方式)
训练数据获取的5种方式
 方式
1利用公开的数据集或模型
2开发者自己创建训练数据
3他人(同事或朋友等)帮忙输入数据
4数据创建众包
5集成于服务中,由用户输入

5.2利用公开的数据集或者模型

常见数据集:

UCI  Machine Learning Repository (http://archive.uci.edu/ml/index.php)

 

Kaggle 机器学习数据集(https://www.kaggle.com/datasets),Kaggle机器学习竞赛所拥有的各类机器学习竞赛和普通用户共享的数据集

 

ImageNet数据集(http://www.image-net.org/),适用于图像识别领域。

 

Model Zoo数据集(http://github.com/BVLC/caffe/wiki/Model-Zoo),深度学习架构Caffe拥有能够共享训练好的模型库

 

Tensorflow数据集(http://research.googleblog.com/2017/06/supercharge-your-computer-vision models.html),提供物体识别所用的API,用于识别一般物体的学习模型。

 

骇客娃娃数据集(http://www.slideshare.net/mosa_siru/ss-40136577),日文的文本数据语料库,来源来自漫画,动画,轻小说,声优,动漫产品,cosplay等9大类御宅情况源将Wikipedia作为词素解析的词典。

后面两个应该要翻个墙,用chrome登录不了。

 

需要考虑的问题:

1.模型或者数据集是否有商用许可

2.训练过的模型或者数据集是否适合于自己的领域

 

5.3 开发者自己创建的数据集

5.4 他人帮忙输入数据

5.5 数据创建众包

众包模式的优缺点
 优点缺点
1相比于雇佣专业人员,工作效率更高,而且费用也比专业人员低。任务设计难度大
2工作效率高,容易实现试错迭代。专业性要求高的任务需要进行任务步骤的细化和划分
3工作费用低,可以委托多人完成同一项任务为确保工作结果的质量,使用结果时需要下功夫

5.6 基于服务的用户输入

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南楚巫妖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值