极限挑战，多模态档案一体化智能检索系统演示

最新推荐文章于 2025-05-17 13:34:47 发布

数字罗塞塔计划

最新推荐文章于 2025-05-17 13:34:47 发布

阅读量716

点赞数 23

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_56245650/article/details/139062333

版权

关注我们 - 数字罗塞塔计划 -

这场AI+档案的极限挑战为大家带来不一样的体验，5月18日，多模态档案一体化智能检索系统演示，我们为北京八九数码科技有限公司岳茂勇总经理的勇气点赞，无惧直播，无惧来自主持人杨安荣博士和档案行业专家闫月总经理、AI直播达人雒猛总经理、AI行业先锋宇星总监的现场考验，无惧粉丝们的当堂测验。

一、直播总结

直播新模式，压迫感十足，带给粉丝新体验，直播间多个系统功能展示，嘉宾、主播及粉丝之间互动不间断，观看人数1963人，共计2733人次，点赞高达2.7W，评论261次。

直播后台数据

二、粉丝问答

Q1

视频是预处理的吗？

A

是的，详细信息参见本公众号文章《多模态档案一体化智能检索研究（上篇）》PART 3多模态档案数据化处理及其他部分。

Q2

不需要对这些音视频信息进行任何的关键词信息的著录就可以直接检索吗？

A

本次系统演示主要强调对音视频等声像档案的内容级、细颗粒度检索，从这个角度来说不需要对音视频信息进行关键词信息著录，是自动化处理的（参见第1个问题）。但从音视频数字化的过程来看还是需要信息著录的，如声像档案数字化加工过程中可能需要人工著录档案元数据信息。

Q3

近现代真实的历史人物，是否已有基础的训练数据？

A

有一些，但肯定不够完整。

Q4

关于AI+档案的应用目前有相关的法规要求吗？

A

您这个问题可能涉及到数据隐私安全、知识产权等合规方面的问题，是有相关法规要求的，如《知识产权法》、《个人信息保护法》等。至于如何确保系统/软件合规，目前主要依靠权限控制、隐私保护等技术或功能来确保合规。

Q5

检索某个人的声音（声纹）是如何采集的？

A

可以从网上搜集某人的声音片段，具体处理流程可参见本公众号文章《多模态档案一体化智能检索研究（上篇）》中的语音识别和声纹检索等相关内容。

Q6

错别字能识别吗？

A

在OCR识别过程中，通过语义分析或叠加大语言模型技术可实现错别字智能分析和纠错，在本次直播过程中已经演示相关功能。

Q7

向量数据库用的哪个？国产的有哪家？

A

涉及到软件厂商技术底层架构，暂无法披露。国产向量数据库有腾讯云向量数据库、星环科技名为Transwarp Hippo的向量数据库等，具体可详询上述厂商。

Q8

可以传多人头像照片么？

A

可以，详细信息参见本公众号文章《多模态档案一体化智能检索研究（上篇）》PART 4视频检索。

Q9

图数据库用的neo4j?

A

涉及到软件厂商技术底层架构，暂无法披露。

Q10

文字检索图像不需要手动或自动标注么？

A

通过文字检索图像需要人工标注，直播时的场景是用图片检索视频人像，无需人工标注。

Q11

不知道这个OCR识别图纸能力怎么样？比如竣工图之类的。

A

直播时已进行施工图纸OCR识别演示，应该说效果还是很不错的，如想进一步了解详细信息可与有关厂商对接。

Q12

岳总多少人的标注团队呢？是外包的吗？

A

涉及到直播单位具体人事和研发等商密信息，暂无法披露。

Q13

如果OCR识别有误，那后面所有的搜索结果不就都有缺失或错误的风险？

A

直播时展示过大语言模型对OCR识别错误的文本具有智能分析和纠错能力，所以是有技术方法避免上述问题的。

Q14

修改后需要特别标注吧，不然管理员都不知道你改过了，也不符合著录规则要求了。

A

修改后在特定场景下确实有可能需要特别标注，具体需根据客户需求进行定制。

Q15

可以演示一下人脸提取和识别嘛？

A

直播时已展示。

Q16

刚才岳总说花了3年时间，训练了几千万的档案数据，请问这些数据集是怎么来的？

A

大语言模型训练有免费或收费的语料库/训练数据集，可从网络及其他途径获取。同时我们与客户进行合作，联合开发，共同受益。

Q17

请问有一本人事档案，PDF格式，100兆左右，有手写有打印，有没有能够自动生成目录的案例？

A

单独的人事任免通知自动生成目录已有案例，并在直播时进行了演示。但完整的一本人事档案包含的档案文件类型不同、模板不同，需对大语言模型进行单独训练，成本较高。

Q18

照片是传给后台处理的吗？后台处理的话，怎么知道是实时运算得到的呀？

A

可以理解为后台处理，并已在直播时进行演示。可对比处理前和处理后能否检索到照片中某个人物，若处理后可检索到就说明是“实时运算”。

Q19

请问可以做到扫描档案后识别档案中内容，进行自动分类吗？

A

可以，北京八九数码科技有限公司正在开发智能档案分类鉴定系统，可实现自动分类。

Q20

视频和声音可以清晰化吗？

A

可以，专业名称叫做“超分辨处理技术”，可提升视频和声音的“清晰度”。

Q21

音视频盒带的那种，有没有快的数据化的方式？特别是导入的时候。

A

音视频盒带首先需进行声像档案数字化加工，再进行数据化处理。具体信息参见本公众号文章《多模态档案一体化智能检索研究（上篇）》PART 3多模态档案数据化处理部分内容。

Q22

向量数据库用的哪个？

A

涉及到软件厂商技术底层架构，暂无法披露。

三

中奖名单

请以下粉丝加小罗留下您的收件信息，奖品将于今天（5月20日）统一寄出，近期请注意查收~

答题环节名单公布

第一题天边

第二题刘万超

第三题曾涛（ZT^^ZT）

幸运粉丝

幸运粉丝大奖获得者为：血月

意犹未尽？

依依不舍？

回味无穷？

下期直播，我们AI话题继续！同样是AI在档案行业的应用，却是另一个赛道，《大咖论道：智慧档案编研的规划与落地》，五位大咖的头脑风暴，这谁能不爱？快来预约吧~

数字罗塞塔计划

将在05月25日 14:00 直播

欢迎提前预约

大咖论道：智慧档案编研的规划与落地

视频号

数字罗塞塔计划公众号始终秉持中立的立场，客观公正地分享和交流档案信息化与档案文化领域的知识和观点。我们将一如既往地对推动档案工作的论坛、会议、培训、活动提供技术支持，致力于成为全国领先的档案行业新媒体平台。

关注我们 - 数字罗塞塔计划 -

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

数字罗塞塔计划 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。