自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(78)
  • 收藏
  • 关注

原创 数据开源 | Magic Data开源基于ChatGPT的可扩展的对话数据集

在过去的一月里,人工智能领域中最火的话题莫过"ChatGPT"

2022-12-23 10:30:48 6244 1

原创 数据开源 | Magic Data开源DMS驾驶员行为数据集

更多开源数据欢迎访问 MagicHub 开源社区

2022-12-08 16:18:02 2559 6

原创 数据开源 | Magic Data中英文座舱功能点泛化语料

Magic Data新开源NLP数据1000+,该数据为中英文座舱功能点泛化语料,欢迎下载。

2022-11-10 18:15:06 1103

原创 数据分享|纯净音自然多轮对话数据集——语音大模型

语音大模型构建需要大量的自然数据,尽可能保证自然度,内容多样性,以及口音多样性。此数据集采集自来自中国30个省份的说话人,地域分布均衡,涵盖18-60岁的说话人,囊括了普遍的说话风格与特点;此数据集含有说话人在多种状态下的自发对话,包括商务工作、购物咨询、争议协商、闲聊等状态,帮助机器学习及掌握人类在多种对话状态下的发音特征和风格从而实现更好地拟合。晴数智慧高纯净音自然多轮对话数据集处理过程遵循完整的晴数智慧数据合规保障机制,在整个数据生命周期中,保证数据的流转可溯性,确保数据版权完整。

2024-01-12 16:33:45 536

原创 勇立潮头!高品质SFT语音数据实现Zero-Shot语音复刻大模型

为了实现高效合成既自然又高质量的人类语音,有不少机构及企业都进行了相关项目的研究,包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech(https://speechresearch.github.io/naturalspeech2/)还有Meta今年发布的Voicebox(https://voicebox.metademolab.com/),都是利用大数据、大模型和零样本(zero-shot)合成技术,实现语音合成的音色、韵律、风格的多样性的代表。

2023-09-22 14:10:52 337

原创 巴别塔再现?高质量端到端数据助力Meta推出AI模型SeamlessM4T

Meta推出AI模型SeamlessM4T,该模型可翻译和转录近百种语言,似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

2023-08-25 18:28:33 312

原创 案例|智慧金融:借助AI训练数据打造全新数字员工

彭博近日发布了金融领域大语言模型:BloombergGPT,500 亿参数语言模型(*)。数字化、智能化转型正在各行各业全面铺开,人工智能等技术加速向金融业渗透,保险从业机构保持技术的敏感度,持续提升创新能力,不断挖掘增量市场,以应对科技发展带来的挑战和机遇。Magic Data作为领先的AI数据解决方案提供商,深耕对话式人工智能领域,期待能在未来持续为行业客户提供数据侧支持,从数据科学的专业视角赋能客户的数智化转型。

2023-03-31 16:47:53 598

原创 张晴晴:对话数据推动AIGC——大模型底层数据探索

“Training data is technology” .数据即科技,OpenAI的联合创始人Ilya Sutskever在与知名科技媒体The Verge访谈中提到。ChatGPT自发布以来热度席卷全球,一周前惊艳亮相的GPT-4更是让人感叹我们迎来了AI发展的历史性时刻。然而我们也困惑,OpenAI为何不开源GPT-4?在我们看来,更多的奥秘或许存在于数据之中......

2023-03-24 15:19:09 2079

原创 MagicThoughts|让ChatGPT变得更智能的Finetuned数据集

现有的ChatGPT,除了稳定性有待提高、内容准确度有待提升外,想要做到垂直领域商业应用的“定制化”,还是一件很难的事。

2023-02-14 09:52:09 4943

原创 行业洞察|猴子可以打字,动物走进元宇宙还有多远?

人类思维可以导入元宇宙,同时动物也可以参与到元宇宙中,元宇宙才能真实的还原人类社会,才能是我们生活的另一个逼真的平行世界。

2023-01-09 15:19:14 545

原创 行业洞察 | 当数据燃尽,AI大模型出路几何?

模型训练数据的丰富程度、清洗的干净程度一定程度上决定了 AI 算法的优劣。

2022-12-08 14:59:00 755

原创 数据开源 | 跨境电商场景中日平行语料1000

海量数据的开源是众多科研工作者的诉求,希望通过开源数据激发技术的革新,促进行业进步。

2022-12-01 11:10:10 584

原创 行业洞察 | 谁动了艺术家的奶酪?

目前,由于缺乏带有海量、高质量标注信息的数据,成为制约AIGC发展的壁垒。

2022-11-24 16:19:56 601

原创 技术分享 | 无人驾驶汽车的眼睛

缺乏大量的无人驾驶的数据是阻碍视觉感知系统在自动驾驶领域应用的主要原因之一。

2022-11-24 16:00:01 808

原创 功能上新 | Magic Data Annotator智能出行舱内舱外全场景标注

智能驾驶已经成为目前车企营销的核心竞争力,在人车协作过程中,智能汽车最重要的功能就是车舱内外视觉功能,该功能就如同人类的眼睛一般重要。

2022-11-18 17:18:01 529

原创 行业洞察 | AI贩卖的焦虑,我们该买单吗?

在过去的几个月里,人工智能生成的艺术在受欢迎程度和可访问性方面都经历了快速增长。

2022-11-17 16:02:42 478

原创 行业洞察 | OCR文字识别技术都有哪些用途

现在连一支笔也卷起来了,配备文字识别OCR(Optical Character Recognition)摄像头。近年来文字识别也几乎成为了无处不在的便利小帮手。

2022-11-10 17:45:40 1744

原创 行业洞察 | 爱聊天的虚拟人

现如今,越来越多的年轻人在电商平台购买“陪聊服务”,尝鲜“虚拟陪伴”,向“陪聊师”倾诉交流、吐露心声。

2022-11-03 17:08:59 563

原创 行业洞察 | 你的语音小助手的词汇量够吗?

对答如流的语音助手,到底有多少词汇量?是否和人类一样需要从ABC开始积累呢?答案是,他们并不需要逐步积累。

2022-10-27 17:18:05 912

原创 技术分享 | 自动驾驶的春晚—Tesla AI Day

硬核拆解特斯拉Full Self-Driving Computer (FSD) 创新的底层技术。

2022-10-27 17:03:39 1440

原创 技术分享 | 语音AI如何驱动虚拟人

AI语音驱动虚拟数字人作为虚拟人落地的核心技术,不仅大幅节省了制作成本,同时精细化的培养了虚拟数字人口手合一的协调性。

2022-10-20 21:11:57 5566

原创 行业洞察 | 自动驾驶的奶酪到底有多大?

根据彭博社《2022年电动汽车展望》预测,中国将在2040年成为全球最大的自动驾驶出行服务市场。

2022-10-20 21:02:06 191

原创 行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹?

近期,Meta和Google在文本生成图片的基础上更进一步,相继推出文本、语音生成视频的黑科技。

2022-10-13 18:27:00 1992

原创 技术解析 | 特斯拉为什么押注人形机器人“擎天柱”?

在9月30日的特斯拉 2022 AI Day上,马斯克终于揭下Tesla Bot的神秘面纱。

2022-10-13 17:34:29 796

原创 挑战赛 | ISCSLP2022中英混语音识别挑战赛成绩发布

9月23日,组委会正式公布“ ISCSLP2022中英混语音识别挑战赛”成绩排名。

2022-09-23 18:18:27 1220

原创 行业洞察 | 脑机接口,下一代智能机器人的风口?

脑机接口在各个领域的应用,都是真正有思维的智能机器人实现的基石,当这些基石铺垫的足够高的时候,也许一个庞大的具有意识的智能机器人就诞生了。

2022-09-23 17:50:04 706

原创 挑战赛 | ISCSLP2022对话短语音说话人日志挑战赛决出三甲

9月16日,组委会正式公布「ISCSLP2022对话短语音说话人日志挑战赛」成绩排名。

2022-09-16 16:43:28 736

原创 行业洞察 | 你的耳机能进行骨传导声纹识别吗?

什么是骨声纹识别?确切的说应该是根据骨传导语音进行声纹识别

2022-09-16 16:35:42 655

原创 白玉兰开源携手30+家学界业内先锋,发布《中国人工智能软件基础设施高质量发展报告》

在2022世界人工智能大会上,白玉兰开源携手Magic Data等30+家学界业内先锋,发布《中国人工智能软件基础设施高质量发展报告》。

2022-09-08 18:28:36 634

原创 行业洞察 | 探索元宇宙世界,打造虚拟人的钥匙在哪里?

随着元宇宙的到来,动作捕捉作为虚拟人的必备「技能」,应用将越来越广泛。

2022-09-08 18:25:53 115

原创 行业洞察 | 听说,大语言模型无法接近人类水平智能?

与其争论AI到底有没有“意识”,其智能极限是否有限,何不善假于物呢?

2022-09-05 12:09:42 492

原创 挑战赛 | MagicHub中英混语音识别挑战赛发布基线系统和开发训练集

8月24日,MagicHub中英混语音识别挑战赛发布基线系统和开发训练集。

2022-08-24 17:22:51 801

原创 行业洞察 | 机器翻译何时能够达到可言传,可意会的境界?

机器翻译的效果显著进步,但是尚未达到能够对需要翻译的语言“心领神会”的地步。

2022-08-24 16:36:32 284

原创 行业洞察 | 未来人形机器可能是最懂你的人

也许,未来有一天,你会发现,这个世界上最懂你的是人形机器人。

2022-08-21 21:57:41 327

原创 行业洞察 | 小米发布人形机器人的AI技术

全尺寸仿生人形机器人CyberOne,其听觉传感器配合音频算法,可识别6类45种人类情绪语音,外加85种环境音识别。

2022-08-14 20:01:04 987

原创 MagicHub中英混语音识别挑战赛开启报名

8月12日,Magichub中英混语音识别挑战赛开启报名。

2022-08-14 19:13:55 688

原创 MLOps分享 | 如何通过MLOps解放和提升AI生产力?

Magic Data 与 AWS 亚马逊云科技 共同举办直播,对 MLOps 进行深入解读与分享,吸引到众多对机器学习及 MLOps 感兴趣的从业者。

2022-08-14 18:59:08 210

原创 行业洞察 | 如何更好的实现与虚拟人的互动体验?

如何让虚拟人听懂我们的表达,从而对我们的诉求给予合理的答复,是虚拟人底层技术的关键。

2022-08-02 18:36:08 1026

原创 直播预约 | 如何通过MLOps解放和提升AI生产力?

8月4日 (周四) “如何通过MLOps解放和提升AI生产力?” MLops专场直播分享活动。

2022-07-26 10:00:31 208

原创 挑战赛 | ISCSLP 2022 CSSD 正式发布基线系统和开发训练集

7月24日,主办方正式向参赛队伍开放ISCSLP 2022 CSSD挑战赛的开发训练集和基线系统。

2022-07-25 18:46:33 651

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除