AI 数据库me

专注于多模态数据采集、大数据处理、人工智能数据加工等方面的研究；分享人工智能技术知识，训练数据，算法研究等干货。

数据产品

关注

文章平均质量分 67

关注数：文章数：114 文章阅读量：232751 文章收藏量：542

作者: 数据堂官方账号

数据堂是一家人工智能数据服务企业

展开

数据推介⎮情感语音合成音库

说话人相关即保持目标说话人的音色，情感相关即捕捉源说话人的情感表达，因此需要多人多情感和多人无情感的数据来共同训练。涵盖新闻、日常口语、有声读物、诗词、广告、消息播送、娱乐等类别，语种涵盖中文、英文、中英混读，发音人男女各50人，涵盖儿童、成人、老人的不同年龄段，每人录制600到700个句子。作为全球领先的人工智能的数据服务商，数据堂可以为客户提供丰富的情感语音数据，通过这些数据训练的人工智能，合成在情感和表达上更加丰富的语音，让合成的声音更加自然真实，更好的应用在不同的场景。

原创 2023-03-10 18:10:55 · 1448 阅读 · 0 评论
多语种平行语料数据，助力“一带一路”深入交流

沉淀十余年数据处理经验的数据堂，积累了自己在语言资料库方面独特的数据优势，覆盖医疗、外贸、体育、金融、能源、计算机、法律等专业领域，提供各类句子级的双语对齐语料，可以帮助各翻译系统实现中、英、日、韩、法、俄、维等不同语种之间的互译。随着近年人工智能和自然语言处理技术的快速发展，机器翻译技术与人工翻译水平的差距不断拉近，机器翻译被看作是突破语言障碍的“金钥匙”，将在“一带一路”经济、政治、外交、文化交流等方面起到越来越重要的作用。数据堂有几十个语种的大规模、高质量的平行语料数据，涵盖书面语、口语等多种类别。

原创 2023-02-24 18:04:39 · 197 阅读 · 0 评论
【无标题】多语种平行语料数据，助力“一带一路”深入交流

图片沉淀十余年数据处理经验的数据堂，积累了自己在语言资料库方面独特的数据优势，覆盖医疗、外贸、体育、金融、能源、计算机、法律等专业领域，提供各类句子级的双语对齐语料，可以帮助各翻译系统实现中、英、日、韩、法、俄、维等不同语种之间的互译。随着近年人工智能和自然语言处理技术的快速发展，机器翻译技术与人工翻译水平的差距不断拉近，机器翻译被看作是突破语言障碍的“金钥匙”，将在“一带一路”经济、政治、外交、文化交流等方面起到越来越重要的作用。大规模高质量的平行语料数据对于统计机器翻译系统性能的提高具有重要作用。

原创 2023-02-17 16:45:54 · 112 阅读 · 0 评论
数据推荐 | 手势识别训练数据集

多样化，有按键、语音等，也由于整个疫情的大环境下，一种更方便更卫生更符合人们的非接触式交互方式—手势识别正大步发展，极富图像化和具备行动性的手势操作将会与人们的生活息息相关。该数据集采集通用静态手势数据，用于人机交互。从手势种类来看，包含日常人机交互等50种常用的动态手势，具体包括手指滑动，手掌滑动，全掌变换、拳部滑动，静止等。

原创 2023-02-10 15:08:17 · 3186 阅读 · 5 评论
数据推荐 | 自然对话语音数据集

由于日常生活中说话人的发音习惯更加自然，在发声时会有大量的连音、吞音、发音变形、咬字不清等，包括一些无意识的“嗯、啊、呃”等，说话人往往不会刻意去控制语音、发音习惯，多人同时交流时甚至会出现语句打断、抢话、交叠音等复杂语音现象，所以这种自然对话风格的语音识别率就不是很理想。目前数据堂拥有20万小时成品语音数据集，其中，自然对话风格的语音数据近4万小时，包括中文普通话、方言、英语、日语、韩语、印地语、越南语、阿拉伯语、西班牙语、法语、德语、意大利语等，发音人来自不同地域及城市、年龄性别覆盖均衡。

原创 2022-09-16 14:46:02 · 980 阅读 · 0 评论
智能座舱行为识别数据解决方案，助力打造第三空间新体验

在具体行为种类方面，数据集涵盖了乘客行为识别需要的大多数行为种类，包含乘客打电话、玩手机、看书、喝水、抽烟、吃东西、手伸到车窗外、用笔记本办公等正常行为；每位乘客共采集120段视频。对于不同的座舱行为，识别的人体目标不同，因此标注的方式不同，典型的标注方式包括人脸关键点标注，手势关键点标注，物品检测框标注，物品&行为标签标注。

原创 2022-09-02 16:29:42 · 1137 阅读 · 0 评论
融合与创新：数据堂骨龄标注工具为医生赋能

数据堂旗下数加加Pro标注平台以医疗标注领域的骨龄标注为着力点，将dicom医疗数据阅片能力与骨龄标注细致整合，推出骨龄标注模板，支持TW3-C RUS、TW3-C Carpal和RUS-CHN法等多种骨龄标注方法，更注重在骨龄标注场景下的效率和体验。骨龄标注工具除了能够标注骨龄外，还支持对医疗影像做目标检测标注，项目经理可以灵活的在工具页面配置业务需要的标签和属性，标注医师无需关注配置细节，只需要在标注页面进行矩形框绘制和标签选择即可。同时，骨龄标注工具也支持关键点标注。

原创 2022-09-02 15:57:53 · 931 阅读 · 0 评论
通用场景语音合成数据集推荐

涵盖新闻、日常口语、有声读物、诗词、广告、消息播送、娱乐等类别，语种涵盖中文、英文、中英混读，发音人男女各50人，涵盖不同年龄段（成人70人、儿童20人、老人10人），每人录制600到700个句子。温柔亲切的年青女性录制，六种情感文本，语料音素覆盖均衡，专业语音学家参与标注，文字标注的字准确率不低于99.9%，音素标注的句准确率不低于99%，韵律标注的句准确率不低于98%。年轻积极的成人男性录制，语料涵盖通用陈述句、通用疑问句等类别，文字标注的字准确率不低于99.9%，韵律标注的句准确率不低于98%。...

原创 2022-08-26 15:12:02 · 1002 阅读 · 0 评论
活体检测再升级，3D头模数据增强“刷脸”保护罩

脸部运动是一种重要的活体信号，如果采用视频，还可以进一步捕捉人脸的运动信息甚至估计人脸的3维信息、活性生理信息用于人脸活体检测。基于3D数据的活体检测算法一般有两种，一种是将3D数据分成多个模态（RGB、红外、深度图）分别进行识别然后合并识别结果，另一种是直接对3D人脸的点云进行识别。不管用哪一种方案，由于3D数据多了深度维度，因此识别准确率上限远高于2D活体检测算法。目前，活体检测的主要方法可分为三种，一种是基于平面二维 RGB摄像机，另一种是基于红外摄像机，第三种是基于三维深度摄像机的活体检测方案。

原创 2022-08-19 16:22:29 · 802 阅读 · 0 评论
已经刷新了四大公开数据集纪录？吃一记新ReID数据集安利！

为了采集原始监控视频，在一个月里选择了具有不同天气条件的4天。在了解上述几个知名的ReID数据集之后，相信大家会有一个直观的感受：针对ReID研究，现有开源数据的数量大概在几万张左右，而 ID 数量不足万人，摄像头大概在10个以下，且这些照片大部分都来自于学校，被采集人身份大部分是学生。在上述问题的基础上，已知ReID对人的服饰特征依赖较大，因此身高体重相似的人如果穿相同的衣服，比如学校学生都穿统一样式的校服，工人都穿特定工作服等，那么就会造成不同人的服饰特征非常相似，同样会给算法识别带来巨大干扰。...

原创 2022-08-09 17:14:52 · 1175 阅读 · 0 评论
【好数推荐】小语种语音数据集

近两年，随着“一带一路”建设的深入推进以及AI和云计算等新兴技术产业迅速崛起，已经有越来越多的中国科技企业实现走出去。然而，对于一些人工智能企业来说，出海之路仍面临诸多难题。首当其冲就是语言问题，准确而清晰的识别语音，是智能产品打开当地市场的基本前提。小语种，顾名思义即语言覆盖范围小，使用人数少而无法作为国际流通语言，对于小语种语音识别的实现而言，由于不同语言之间差异很大，人工智能厂商需要根据不同的语言特性单独建模，为保证语音识别的效果，就需要运用不同语种的优质数据集进行模型优化，然而高质量小语种训练数据

原创 2022-07-08 15:09:29 · 1019 阅读 · 0 评论
冬奥AI手语主播亮相，人工智能技术助力跨越声音障碍

万众期盼的2022年北京冬奥会即将举行，这是中国历史上第一次举办冬季奥运会。在关注冬奥会的观众中，有一个特殊的群体，他们听不到赛场的声音，但他们关注着冬奥赛事，希望了解比赛动态，渴望感受比赛的激情，全球约4.3亿人有中度及以上程度的听力障碍，根据全国第二次残疾人抽样调查数据，中国有听障人士2780万。用技术跨越声音障碍“从北京冬奥会开始，我将全年无休用AI智慧为听障用户提供手语服务，让他们快捷的获取比赛资讯！”11月24日，央视新闻推出的央视总台首个AI手语主播正式亮相——她有着真人般的皮肤、头发、眼睛，形

原创 2022-06-29 10:37:55 · 389 阅读 · 0 评论
【好数推荐】方言语音数据集

随着人工智能应用领域的拓展，方言识别问题也越来越受到重视。但是方言与普通话不一样，方言语音识别要复杂得多。中国的方言南北差异太大，哪怕同属于一个大的方言分区，也分歧异出，方言数据的采集，面临很多困难。一般来说，数据集的采集无非是字、词、句的搜罗，把该方言常用句子、词语通过文字、音标乃至语音的方式记录下来，集成一个数据库，供人工智能学习使用。但众多方言种类意味着需要收集的数据也是海量的，很难在短时间建立起全国通用的方言数据集。面向方言识别技术的大规模应用，数据堂提前预知、布局，已采集涵盖八大方言区的数万小

原创 2022-06-22 15:53:01 · 1267 阅读 · 0 评论
一张照片就能攻破人脸识别系统，人脸识别安全性亟需提高

如今，看一眼手机，就能唤醒屏幕进行刷脸解锁。逛完超市，双手提着购物袋，看一眼收银台的终端设备，就能刷脸支付。如此便利的体验，都缘于人脸识别技术的普及。不过，“刷脸”在给人们日常生活带来便利体验的同时，其安全性更是备受关注。就在最近，央视网曝出了一种只需要一张照片就能攻破人脸识别的方法。技术人员演示，一张人脸图片和一段包含点头、摇头、说话等动作的视频，运用深度合成技术就能让人脸图片动起来。一张静态图，大概率是无法破解人脸识别，但动起来之后视频，就能达到以假乱真，轻松攻破人脸识别系统。想要实现让人脸图片动起来，

原创 2022-06-15 16:49:15 · 6397 阅读 · 2 评论
好数推荐数据堂平均音色语音库

语音合成，即是把文字变成声音的技术，声音是文字内容的信息载体。语音交互是日常生活中最常见、最被人熟悉并乐于接受的展现形式，语音交互体验效果的好坏，会对用户的感知造成很大影响。如果语音合成质量较好，说话效果更接近真人且情感表达丰富，那么用户的交互意愿自然也会更强，用户会觉得这不是一个冷冰冰的机器，会有愿意与这类智能机器人进一步交互。为了让合成语音具有更进一步的声音表现力，传递出文本文字之外的更多信息，做到声情并茂，以更动听的声音，更富有情感地表达内容，就需要通过庞大的语音数据进行训练。作为全球领先的人工智能

原创 2022-06-07 17:20:07 · 135 阅读 · 1 评论
【好数推荐】面向儿童的语音数据集

工程师在对语音识别做研究的过程中发现现有的人工智能并不能很好的识别儿童语音，包括在Amazon Echo与Google Home等设备在与儿童交互的场景下的都出现了识别错误的现象。之所以发生这类问题，除了儿童语言因其声线与吐字等原因，语音和语言特性不同于成年人，有着天然的技术辨别难度，更为重要的是，儿童并不擅长按照机器能理解的方式与其交互，无论是采用了更友好的交互界面亦或是更加智能的语音助理，识别效果都不尽人意。所以，高质量儿童语音数据的重要性不言而喻。为此，针对面向儿童语音识别应用场景，数据堂推出了近40

原创 2022-06-01 10:48:02 · 414 阅读 · 0 评论
【好数推荐】高质量的语音合成数据集

语音合成技术是将任意文本转换成语音的技术，是人与计算机语音交互必不可少的模块。如果说语音识别技术是让计算机学会“听”人的话，那么语音合成技术就是让计算机程序把文字“说”出来。从地图导航、语音助手、新闻朗读、到各种大大小小的客服、呼叫中心、甚至机场广播、地铁公交车报站都少不了语音合成技术的身影。而且不仅仅是文字转语音，语音合成技术研究范围还包括：歌唱语音合成、耳语语音合成、方言合成、动物叫声合成等等。目前语音合成技术，已经成功应用在很多领域。区别于传统TTS刻板播音式合成表现，个性化TTS应用场景越来

原创 2022-05-18 17:26:35 · 404 阅读 · 1 评论
自然对话语音数据集来啦

当前行业提供的大部分人工智能数据都以朗读式训练数据为主，然而人与机器之间的交互不应该只是一问一答的简单对话或者命令控制，而是要理解语言的上下文，识别人的情感需求并做出相应的反馈”。随着技术突破带来的用户体验的提升，对话式语音交互成为AI巨头发力的重点，谷歌、亚马逊、阿里、腾讯、百度、小米等纷纷推出了支持多轮连续对话的智能音箱、智能助理、智慧客服、智能机器人等产品。AI系统连续对话能力将引发金融、教育、科技互联网、交通出行、移动通信、科技制造等行业的交互变革。作为全球领先的人工智能数据服务服务商，数据堂

原创 2022-05-12 17:41:56 · 273 阅读 · 0 评论
亿级像素秒级加载数加加Pro上线遥感影像数据标注工具

近些年来，随着计算机人工智能技术的发展，遥感影像的应用也在各个领域大放异彩。在军事上，遥感影像可用于目标侦查、伪装识别、精确定位；农业上的作物估产、监测病虫害；林业上蓄积量计算、科学伐木等等，使用领域不一而足。随着遥感影像大规模的应用，遥感影像呈现出精细化的发展趋势。高空间分辨率遥感影像能够提供更加丰富细致的图像信息，遥感影像的分辨率也随之“越来越大”。与普通影像相比，大分辨率的遥感影像数据往往具有“较宽”的视场和丰富的“上下文”信息，数据更全面，细节更丰富。以机场为例，大分辨率的遥感影像下，对机场的

原创 2022-04-20 15:06:56 · 606 阅读 · 0 评论
新加坡设自动巡逻机器人,助力城市精细化治理

近日新加坡对两个名为“泽维尔”的人工智能机器人进行为期三周的城市精细化管理实验，让人工智能机器人在城市中巡逻，去发现一些“不受欢迎的社会行为”包括在禁烟区吸烟、非法贩卖、不按规定停车和在新冠疫情期间进行集会等一些“不受欢迎的社会行为”。这两个人工智能机器人配备了可以360度旋转的镜头和传感器，让他们能够在公共场合导航并分析潜在的公共安全违规行为。如果泽维尔发现了一种违规行为，它就会通知控制中心，控制中心就会通知最近的行政人员赶到现场，去处理这些违规行为。新加坡政府的官员表示：“部署人工智能机器人进行巡

原创 2022-04-20 14:42:09 · 4785 阅读 · 0 评论
口音英语识别能力评测，你的AI升级了吗？

据国外媒体报道，Vocalize.ai的实验室曾经对亚马逊的语音助手Alexa、苹果的语音助手Siri和谷歌的语音助手Google Assistant进行了一项语音识别能力测试。研究人员分别使用美国、印度、中国三个不同国家的口音英语对这三种语音助手进行了测试。来检测这些语音助手对口音英语的理解程度。结果发现，Google Assistant在理解中国口音英语方面完全超过了其它两种语音助手。出现这种结果的主要原因是Google Assistant学习了中国口音英语数据而其他两种语音助手并没有学习。作为一

原创 2022-04-12 16:26:26 · 2021 阅读 · 0 评论
AI癌症检测手机拍照就能检测肿瘤，也太牛了吧

近日麻省理工学院发布了一种可以帮助检测黑色素瘤的人工智能，它利用深层卷积神经网络，快速分析患者皮肤的广域图像，可以更有效检测癌症。它的工作原理是先使用智能手机摄像头拍摄一张病人的皮肤切片，人工智能检测、提取和分析图片中可观察到的所有色素皮肤病变，通过预先训练的深层卷积神经网络确定单个色素病变的可疑性并对其进行标记。提取的特征用于进一步评估色素性病变，并以热图格式显示结果。研究人员使用马德里Gregorio Maraón医院133名病人的20388张照片以及公开获取的图像数据集对该人工智能进行训练。该人

原创 2022-04-12 16:16:25 · 384 阅读 · 0 评论
东京奥运会完美收官，来看看这届奥运会都有哪些人工智能黑科技

东京奥运会闭幕式8月8日晚，雨后东京湾的天幕上出现了“双彩虹”，新国立竞技场一片欢腾。16天前，在这里，全球见证了奥林匹克五环旗的缓缓升起。过去16天里，在奥林匹克精神的感召下，上万名运动员在东京奥运会拼搏、交流，情同与共，共同创造新的历史。本次奥运会中国代表团共收获颇丰，令大家印象深刻的，远远不止那些奖牌，有太多名场面值得回味！小堂致敬所有为国出征的奥运健儿，你们是最棒的！除了运动健儿们在赛场上拼搏的身影之外，本次东京奥运会上亮相的前沿人工智能技术，也是格外的引入瞩目，让我们一起揭秘这些人工智.

原创 2022-03-09 14:57:11 · 4184 阅读 · 0 评论
技术升级 | 戴着口罩也能识别人脸啦

近期，国内疫情出现反复，作为抗击疫情的战争中强有力的护盾，口罩再次成为了公民的标配，但在抗疫常态化的进程中，口罩却对诸如“刷脸”支付、身份认证等需要人脸识别的场景提出了挑战。人脸识别原理人脸识别技术在了解人脸识别面临的问题之前，我们首先要了解人脸识别系统，人脸识别系统主要是由硬件和软件两部分构成，硬件主要就是摄像头和计算机，人脸识别系统的软件则比较复杂——人脸识别系统的软件需要控制摄像头采集图片，然后对采集到的图片进行预处理，之后完成人脸检测定位、人脸特征提取和人脸特征匹配这几项工作。人脸检测定位

原创 2022-03-03 14:53:12 · 6929 阅读 · 2 评论
全黑的环境也能人脸识别？红外人脸识别技术助力人脸识别更自由

人脸识别是近些年来在生物特征识别领域中最常用的一种模态，在公共安全领域得到了广泛应用。同时，人脸识别方式也是多样化发展，如静态人脸识别、动态人脸识别、3D结构光人脸识别等，其实各类人脸识别方式大同小异，关键都在于如何提取人脸数据中与身份相关的本质特征，同时消除其中受非身份因素影响的部分。红外人脸识别系统优点突出人脸识别系统在实际应用中面对的最主要问题是光照问题，用户普遍要求人脸识别系统能在不同的光照环境进行识别。但多数人脸识别系统采用可见光人脸图像进行识别，这类系统很容易受到环境光线变化的影响，从而无.

原创 2022-03-03 14:47:15 · 6204 阅读 · 0 评论
从感知到认知，情感识别让AI更高级

如今，对于企业来说，了解客户的感受成为了头等大事。今天的技术已经能使企业做到这一点。在计算机视觉和先进面部分析算法的推动下，情感识别技术现在被用来识别情绪和面部表情。它可以识别像愤怒、恐惧、厌恶、困惑以及快乐这样的感情。什么是情感识别电视剧《Lie to me》演员表情图片素材来源于网络，侵删情感识别广义上是通过表情、语音语调或者脑电捕捉等进行的一项技术。目前技术上最成熟、得到广泛应用的是表情识别技术，也就是基于计算机视觉算法，识别人脸的表情动作来推断其喜怒哀乐等基本情感。情感识别原理七大面

原创 2022-02-16 15:52:29 · 2306 阅读 · 1 评论
多模态生物识别技术将会是未来的发展趋势

全球行业分析公司GIA(Global Industry Analysts, Inc.)的一份预测报告中显示，2020年全球生物识别市场预计将达到241亿美元，而在这之后的7年，年复合年增长率将达到19.3%。到2027年，全球生物识别市场规模预计将达到828亿美元。届时，仅中国的市场规模预计将占到全球的一半份额，即超过400亿美元。由此说明生物识别技术将迎来爆发式增长。多模态生物识别系统市场增长迅速由于社会变化带动用户日益多变的需求，单一生物识别无法支撑越来越复杂化、多样化的身份验证场景，现在很多企业尝

原创 2022-02-11 18:13:10 · 5181 阅读 · 0 评论
智能驾驶走上时代风口，数据堂助力汽车更具“智慧”

2021被称为智能汽车元年，智能驾驶和高级辅助驾驶功能都得到各方加码。在世界人工智能大会（WAIC）现场，众多厂商纷纷推出自家的智能驾驶技术及新品，都在表明智能驾驶领域迎来井喷式发展。嬴彻科技在大会现场展示最新两款智能驾驶重卡量产车型阿里也带来了最新前沿技术的无人物流车“小蛮驴”据相关机构预测2030年智能驾驶汽车会占据整体出行里程40%以上，完全智能驾驶新车渗透率能达到10%，据乘联席会数据预测，未来五年智能驾驶市场规模将继续保持增长的态势，到2024年，智能驾驶市场规模有望突破1000亿，在巨

原创 2022-02-11 18:00:32 · 1389 阅读 · 0 评论
50米外，秒读你的“活体密码”——步态识别将带给用户更好的识别体验

不知道看过《碟中谍5》的朋友对这个场景是否还有印象：阿汤哥的搭档班吉在破解了指纹解锁、三重物理旋转密码锁挑战后，迎来了“步态识别锁”。班吉对这个系统束手无策，只能依靠阿汤哥通过潜水强行入侵后台数据才得以攻破。而这套让剧中情报机构都无法正面抗衡的安保系统就是“步态识别系统”。什么是步态识别步态识别是一种新兴的生物特征识别技术，旨在通过身高、头型、腿骨、肌肉、关节等生理特征和走路姿态进行身份识别的一种技术，与其他的生物识别技术相比，步态识别具有非接触远距离和不容易伪装的优点。尤其是在智能视频监控领域，其

原创 2022-01-26 17:19:40 · 3187 阅读 · 0 评论
动动嘴就可以解锁？来看下华为最新的技术专利

近些年来，随着智能手机技术的不断进步，手机的解锁方式也是越来越五花八门，从最早的密码解锁、画图解锁到后来的指纹解锁、人脸识别解锁、到最先进的虹膜解锁，随着解锁方式的增多，智能手机的安全性也大幅提升。但，总有些厂商想要寻求更安全的解锁方式，6月29日，企查查显示，华为公开了一项设备解锁方法和装置（专利公开号为 CN113051535A）这种方法和装置能够利用唇动特征的生物属性进行身份认证。什么是“唇动解锁”？通俗来说，“唇动解锁”就是动动嘴就能将手机解锁，按照华为的说法，每个人动嘴时所展现的特征都不

原创 2022-01-26 16:47:06 · 535 阅读 · 0 评论
智能票据识别数据解决方案及行业案例

随着经济往来的日益频繁，票据表单等纸质材料在办公室中随处可见。一般来说，这些纸质材料都有着不容忽视的重要性，若不加以整理，便很容易丢失、损坏，造成难以处理的麻烦。信息化时代，票据、表单等纸质资料的管理方式也在不断推陈出新，如今，电子化管理才是主流。将纸质资料信息化是数字化时代的必然趋势。过往票据、表单等资料信息化完全依赖人工录入，不仅效率低、易出错，且成本高，需要耗费巨大的人力物力。同时，人力录入的数据不是AI需要的数据，难以被复用，也无法支撑AI算法。以保险行业为例，截至2018年底，我国保险市场的年

原创 2022-01-21 14:49:16 · 2704 阅读 · 0 评论
语音合成数据解决方案助您获取专属AI声音

在2020年小米开发者大会（MIDC）上，小米宣布小爱同学5.0正式上线。小爱同学在声音体验上做了很多创新，如奶萌泡芙童声、多情感语音、粤语合成、定制声音等。在语音合成技术的支持下，小爱同学做了很多创新小爱同学声音体验升级的背后，其实正是小米自研语音合成技术的迭代创新。01什么是语音合成？语音合成（Text to Speech），简称TTS，是将人类语音用人工方式产生、将任意文字信息实时转化为标准流畅的语音朗读出来的技术。TTS涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处

原创 2022-01-21 14:17:56 · 5957 阅读 · 0 评论
吴恩达提出了著名的二八定律

国际最权威的ML学者之一吴恩达（Andrew Ng）在他45岁生日当天发推文称，“大家为自己送上最好的礼物就是，观看这个视频观看并提出自己的见解。让大家的工作从以模型为中心向以数据为中心的AI转变。”在这个视频中，吴恩达提出了著名二八定律：80%的数据+20%的模型=更好的AI。吴恩达强调，一个机器学习团队80%的工作应该放在数据准备上，确保数据质量是最重要的工作。如果更多地强调以数据为中心而不是以模型为中心，那么机器学习的发展会更快。吴恩达提出了著名的二八定律吴恩达的观点强调了数据对人工智能的

原创 2022-01-12 18:00:00 · 1998 阅读 · 2 评论
火出圈的3D人脸识别如何让“刷脸”更安全？

看一眼智能手机，就能自动唤醒屏幕进行刷脸解锁，很多人都习惯了不再手动输入密码。逛完超市，双手提着购物袋，看一眼收银台的终端设备，就能刷脸支付，节省了大家排队等待的时间。如此便利的体验，都缘于人脸识别这项技术的普及。不过，“刷脸”在给人们日常生活带来便利体验的同时，其安全性更是备受关注。前不久，瑞莱智慧Real AI的研究人员通过对抗样本攻击，破解了19款安卓手机的人脸识别解锁系统，只有一台iPhone 11未被破解。多款手机人脸识别解锁系统被轻易攻克为何人脸识别如此容易被“攻克”？简单来说，目前市

原创 2021-12-29 14:52:08 · 6934 阅读 · 0 评论
直播还有哪些新想象？AI+直播打造更有趣的直播间

一部手机、一位主播，成就了2020年消费领域最流行的新玩法——直播带货。除了薇娅、李佳琦等带货 KOL，很多明星、主播、甚至是企业 CEO 们也开始进入直播间带货。在娱乐圈，直播为明星和粉丝提供了距离更近的互动平台，更是迎来了火爆的发展。例如近年来大火的歌手周深，在28岁生日当天直播唱歌，和粉丝一起过生。2018年，国内所有直播平台的日活用户加在一起不到5000万，如今直播行业用户已达4.33亿。正如过去十年电商的崛起，离不开交通、物流等领域的持续投入，直播间经济的火爆，与人工智能、物联网等新技术的赋能

原创 2021-12-29 14:31:23 · 3013 阅读 · 0 评论
打破数据量瓶颈数据堂推出超大规模英语发音词典

英语是最具影响力的全球性交流语言之一，与其相关的英语语音识别系统也在学术界和工业界受到广泛关注。英语语音识别技术取得了非常可观的落地应用成果，AI企业和相关机构持续发力，致力于不断提升英语语音识别准确率。训练语音识别模型通常需要三类数据：语音数据，多人语音及其对应文本；发音词典，该语种的词汇和对应音标；原始文本，也就是该语种的文本。其中，发音词典指的是系统所能处理的单词的集合，对这些单词标明了发音。所以，发音词典所包含的单词量越大，对提升语音识别精准度越有效。发音词典指的是系统所能处理的单词的集合

原创 2021-12-15 15:02:10 · 2741 阅读 · 0 评论
如何让机器智能“观色”？人脸表情数据功不可没

察言观色是全面分析人物的重要依据。而在计算机视觉领域，如果能够通过识别一个人的表情以观其色，即可为场景中出现的人物提供辅助的结构化信息。例如，华为与波兰盲人协会合作，开发了一款能够“读懂他人情绪”的 Facing Emotions 应用。这项应用是面向视障人群开发的，当盲人用户与另一个人说话时，手机的后置摄像头会扫描对方的面部。Facing Emotions 能够分辨七种基本情绪，然后通过手机扬声器，来听到特定情绪的“提示音”。华为面向视障者开发了 Facing EmotionsAI识别的巅峰是理解

原创 2021-12-09 14:29:55 · 3359 阅读 · 0 评论
构建口音英语识别数据，一招化解人机口音交流

语音对于人机交互的重要性毋庸置疑，让机器“听懂”人类语言，是语音识别技术自诞生起，就致力于实现的目标。英语是世界通用语言，国内外企业都在英语语音识别的速度、准确度等方面持续创新。然而，AI似乎在口音英语识别上显得有些“力不从心”。AI在口音英语识别上遇到了挑战《华盛顿邮报》曾与Globalme、Pulse Labs两家语言研究公司合作，研究智能音箱的口音识别问题，结果显示，谷歌智能音箱Google Home更容易“听懂”美国西岸口音，对南部口音的识别准确率则要低3%；而亚马逊Echo搭载的语音助手A

原创 2021-12-02 14:25:36 · 2149 阅读 · 0 评论
手机被“秒解锁”？活体检测+3D人脸识别让刷脸更安全

如今，人们使用智能手机进行刷脸解锁、刷脸支付就像吃饭喝水一样自然。人脸识别技术的进步为人们的日常生活带来了诸多便利，但同时也引发了隐私安全问题。近日，来自清华的 Real AI（瑞莱智慧）展示了一项简单的攻击技术：测试者佩戴了一副含有对抗样本图案的眼镜，眼镜的制作成本很低，只需要一台打印机和一张 A4 纸。Real AI用简单的攻击技术轻松打开了手机在这样一副眼镜的攻击下，19 款使用 2D 人脸识别的国产安卓手机无一幸免，全部被快速破解。测试人员成功解锁手机后，机主的微信、信息、照片等个人隐私信息

原创 2021-11-24 14:58:53 · 6144 阅读 · 0 评论
玩转儿童语音数据，打造儿童专属AI

根据国家统计局及咨询公司的最新数据显示，我国0-14岁人口数量已达到近2.5亿。相比其他群体，儿童是更习惯使用语音交互的群体。对于文字来说，他们更迫切需要用语音来表达观点、获取知识、进行视频播放和互动等操作。随着AI技术的深化和用户普及度的提升，语音交互已经从过去人机交互中的辅助或补充交互方式，逐渐成为更加主要且独立的交互方式。继成人智能语音市场后，儿童智能语音市场将成为语音交互的下一个爆点市场。儿童陪护生活中，儿童陪护机器人利用智能语音交互，以更有趣味的方式调动小朋友听故事、唱儿歌、学英语的兴趣。

原创 2021-11-17 16:42:58 · 4975 阅读 · 0 评论