开源数据
文章平均质量分 69
数据堂官方账号
数据堂是一家人工智能数据服务企业
展开
-
AI训练数据不够用?MIT推出新的合成数据开源工具
随着计算机视觉和自然语言处理的预先设计的模型变得越来越普遍和强大,数据科学家必须面对数据的收集和处理这一主要问题。但企业通常难以在规定时间内获取到足够量的、用于机器训练的数据,手动标记获取数据的方法通常又存在成本高、效率低、难度大的问题。在这种情况下,合成数据成为了真实数据的替代品。合成数据可以帮助数据科学家和企业克服上述障碍,并支持以更快捷的方式开发可靠的机器学习模型。合成数据有点像无糖汽水,为了实现真正的效用,它必须在某些方面与“真实数据”相似,即合成数据集必须具有与实际数据集相同的数学和统计属性原创 2021-08-13 14:57:21 · 451 阅读 · 0 评论 -
推荐!12个经典开源人脸识别数据库
人脸识别是身份识别的一种,是计算机视觉领域很典型的应用。与指纹识别、虹膜识别类似,人脸识别的目的就是要对图片和视频中人脸的身份进行判断。人脸识别的过程有四个关键步骤。首先,机器根据眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之间的几何位置关系来检测人脸。其次,系统会对检测到的人脸进行人脸校对预处理,以获得位置端正的人脸图像。然后,人脸图像的像素值会被转换成紧凑且可判别的特征向量。理想情况下,同一个主体的所有人脸都应该映射到相似的特征向量。最后,进行人脸图像匹配与识别。系统将待识别的人脸特征与已得到的原创 2021-08-03 16:43:43 · 11414 阅读 · 0 评论 -
光学字符识别的 5 个最佳免费数据集
光学字符识别技术,即OCR。OCR是指电子设备,例如扫描仪或相机检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别的方法将形状翻译成计算机文字的过程。OCR的作用是检测图像中的文字区域以及识别文字内容,它在很多场合可替代键盘完成高速文字录入任务。OCR技术的应用场景十分广泛OCR技术的应用场景十分广泛,以下是几个应用较为成熟的领域:· 远程身份认证:结合OCR和人脸识别技术,实现用户证件信息的自动录入,并完成用户身份验证。应用于金融保险、社保、O2O等行业,有效控制业务风险。·原创 2021-07-21 14:54:35 · 1036 阅读 · 0 评论 -
机翻福音-多种语言平行语料库资源
与大多数机器学习模型一样,机器翻译需要大量的训练数据才能实现较好的性能提升。平行语料库是两种语言之间翻译文本的结构化集合。这种平行文本语料库是训练机器翻译算法的基础。▲图片来自网络通过对网络资源的梳理,我们整理出一份表单,机翻从业者的终极福音——25个平行语料库数据集(选自gengo.ai)Aligned Hansards of the 36th Parliament of Canada:包含130万英语-法语句对。地址:https://www.isi.edu/natural-language/do原创 2021-06-03 14:17:26 · 1496 阅读 · 0 评论