关注我们 - 数字罗塞塔计划 -
本期直播全程“回放”,主题分享以视频形式,专家们的观点以文字形式,便于细读和收藏。
一、主题分享
详细视频请在 公众号 数字罗塞塔计划 中观看
二、大咖论道
以下内容整理来自直播间,上海市档案馆档案史料编研部石磊主任、嘉定区档案局周万春局长 、上海师范大学人文学院吕元智教授 、复旦大学计算机科学技术学院赵卫东副教授、上海涵妍档案信息技术有限责任公司陈亮技术总监五位专家的精彩发言。
问题1@石主任
请您为我们介绍下档案编研工作,以及新形势下我们在档案编研工作存在哪些新的挑战?
档案编研是档案利用的重要体现与工作重点。从编研流程上来说包含选题、选材、加工与编写、审核、出版等工作步骤,其中工作量较大的板块为选材与加工编写工作:
1、编研选材工作需要秉承全面查找、宁多勿漏、博约得当的原则,包括据查找档案资料、馆外相关信息资料查找与分析挖掘等工作内容,确保档案资料能够充分支撑档案编研。
2、编写工作需要对所选档案文献进行加工。根据最终形成的编研成果的不同,对档案文献加工的过程也有所不同,如对档案文献字句的勘正与恢复、划分段落与标点、修拟标题与正文的删节、对文献内容的提炼等。无论以何种形式对档案文献进行加工,都应坚持“维护档案文献的原貌,忠实文献内容的原意”,在真实、客观、准确的基础上进行。经过加工后的档案文献,还需要须按照一定的体例进行系统化编排和格式化处理,形成便于利用者利用的编研成果。
上述工作内容目前各单位大部分都是通过人工编研的方式来做的,近年来随着人工智能、大数据分析、OCR识别、视频图像处理等技术飞速发展,如何在依法依规的前提下,将新一代信息技术应用于档案编研工作,辅助档案工作者高效形成“党史”“地方史志”“重大活动”等各类专题档案编研成果,更好地贯彻档案服务人民的宗旨,是我们各级各类档案部门非常关注的问题。
问题2@周局长
请您介绍一下近年来嘉定区档案局在档案编研工作方面的相关情况,以及在具体开展编研工作中是否遇到过困难?
近年来,我们的编研成果既有《嘉定县政概况》《练川十二家诗》《嘉定竹枝词》《印话嘉定》《嘉定历史名人小传》这样传统的纸质出版物;也有像“嘉速蝶变,奋楫争先”嘉定区纪念撤县建区30周年主题地铁展、于光远同志生平陈列室,这些展览形式的编研成果;还有像“档案方志里的嘉定”“独角楼里的红色记忆”以纪录片、短视频的方式呈现的编研成果。
可以看到编研成果的类型在不断地丰富,无论是一本几十万字的书,还是几百幅画面的展览,或是几分钟的短视频,同样都凝练着档案编研工作者的心血。编研选题、方案大纲拟定、史料挖掘、文字编辑等是编研工作中常见的环节,这些都需要编研工作者有较高的历史文化素养、熟悉馆藏资料,以及大量的时间成本。在馆藏量以几何倍数增加,档案种类日益丰富的新形势下,档案编研工作的挑战无疑是巨大的。
随着人工智能等技术的发展,我们嘉定区档案馆也在尝试研究是否可以通过AI等先进技术赋能档案编研利用的可行性,提升档案编研工作效率。同时,培育一支掌握人工智能智慧编研技术的新型编研人才队伍。
问题3@吕教授
您觉得应该如何实现档案编研与其他领域的融合与合作,从而共同推动学术和技术创新?
关于档案编研,我们可以将它理解为档案知识加工和生产的一个过程,最终它会形成面向用户需求的产品,所以必然是和我们的业务场景紧密结合的。在今天这样一个人工智能、大数据时代,更是应该实现创新技术和业务需求的融合,从而形成满足多元化需求的档案编研成果。
从我们学界来说,我们也在关注这些发展变化,我们也会经常对一些经典的案例做一些分析,也是希望把这样一些成功的模式总结出来,以便这个档案编研的一般理论方法能够更好地进行推广。
问题4@周局长
这次嘉定区档案局的课题是基于“双驱动”模型的智慧档案编研系统建设研究,这个双驱动模型具体指什么,能否给我们介绍下呢?
本次课题主要目标是借助AI技术研究智慧档案编研的可行性,重点对涉及的AI关键技术、算法、模型与系统展开研究,通过AI赋能档案编研,实现档案编研的智慧化发展。
“双驱动”模型技术设计理念来源于大家目前熟知的文心一言(百度)、星火(科大讯飞)、盘古(华为)等大模型设计理念,包含了“样本学习驱动模型”与“泛语言模型”。其中样本学习驱动模型主要让AI学习编研人员的工作方式与内容,然后由AI生成基础编研成果,包括根据编研材料制定编研章节、审核编研内容是否符合编研通用要求和规律、根据历史成果进行内容排版。泛语言模型驱动主要提供AI智能问题处理能力,通过模型AI推理的方式由AI给出各类具体成果。包括基于编研知识库生成编撰内容、文章润色,基于编研选材资料的问答机器人等功能。
问题5@石主任
请您就智慧档案编研的发展情况及政策情况给我们屏幕前的粉丝们做一下介绍?
关于智慧编研的发展情况:随着数字技术的日渐发展,国内外对于数字技术赋能档案编研这一主题研究也日渐丰富。其一,重视数字技术在档案编研中的应用并充分阐释了数字技术赋能档案编研的现实意义,这是产出符合人民对档案编研开放化、多样化、精品化需求的关键一环。其二,兼顾了数字赋能档案编研理论与实践的双重研究。将三态五化、叙事学相关理论等引入档案编研中,并引入了高校、企业、地方档案馆的实践探索。其三,强调了档案管理中应用AI的技术发展趋势,并保持了对AI技术应用的批判性思考。
关于政策支持情况:档办〔2010〕116号《数字档案馆建设指南》明确对档案信息系统提出要求:能够辅助进行档案信息智能编研、深度挖掘。在2020年《“十四五”全国档案事业发展规划》中明确要求加大档案资源开发力度,通过编研出版等方式不断推出档案文化精品。最新颁布的《档案法实施条例》第三十七条中也指出:“国家档案馆应当根据工作需要和社会需求,开展馆藏档案的开发利用和公布,促进档案文献出版物、档案文化创意产品等的提供和传播”。
问题6@吕教授
如何在智慧档案编研方面建立政府、企业、大学等社会机构的合作机制,共同推动档案资源的开发利用和社会共享?
这实际上是一个跨界合作的问题,我们可以把智慧编研想象成一个生态系统,在这个生态系统里面,它有很多的主体。比如政府,主要是出政策规划对这方面进行支持;企业,主要是出资金和人才;高校,主要是学术研究和人才培养。那我们应该做一个规划,按照什么样的模式把他们整合在一起,定义清楚各自的分工、职能和责任。
另一方面,我们现阶段应该找一些比较容易突破的主题,比如红色档案,这是永恒的主题,国家重视、资源丰富,非常适合就这个主题进行突破。在这个过程中把经验总结出来,再形成一般的模式和方法进行推广,那么这个事情就有可能会做得更顺利一些。
问题7@赵教授
您觉得一个比较符合规范要求和需求完善的智慧档案编研系统,应该分成哪几个阶段来投入建设呢?
大致可以分为四个阶段:
第一,编研技术分析阶段
主要包括编研素材采集后的数据处理技术、编研素材采集后的数据分析技术以及AI智能辅助编研技术。
第二,AI技术优化阶段
对档案编研相关的人工智能技术和算法进行研究及优化,然后基于优化的算法搭建智能编研模型,再以智能编研模型为基础,按照档案编研业务流程建设智慧档案编研系统。
第三,档案编研系统建设阶段
采取机器学习技术与深度学习技术,实现AI辅助编研各类功能。
第四,档案编研系统实证阶段
将系统在嘉定区档案馆实际编研工作中进行应用,通过实践验证系统的有效性、可用性和实用性。
问题8@陈总
在咱们这次智慧档案编研系统的研发过程中,您能否介绍下系统设计思路和总体架构呢?
这个问题实际上我在前面的PPT中已有讲解,下面我再简要做一个总结:
以“双驱动”AI智能编研模型为基础,通过对档案编研流程进行梳理,融合自然语言处理技术、流程自定义技术等,构建智慧档案编研系统框架,建立机器辅助编研和人工编研相结合的档案编研模式。系统框架的核心功能点包括:
(1)编研素材分析汇总功能;
(2)智能AI编制提纲功能;
(3)内置AI编研问答机器人,包含编研素材归纳与总结、写作提示、基于编研主题内容的问答功能;
(4)AI成文润色功能;
(5)双屏档案编研,集成审阅、引用来源、编研历史记录等功能;
(6)多途径的成果展示功能,包含电子书、在线浏览(支持移动端、PC端多端浏览)、实体书)。
问题9@赵教授
技术革新带来了便利,但同时也会产生安全隐患。您觉得在进行智慧档案编研时,如何确保编研数据的安全性和隐私性?
安全问题实际上是所有信息系统的共性问题,当然对于档案系统而言可能更加重要一些,毕竟档案数据中包含了大量敏感甚至涉密的信息。具体的措施可以从以下几个方面进行考虑:
01、尽量减少人为的操作,能让计算机完成的事情尽量不要去让人去做,这样可以减少很多人为不可控因素。
02、可以采用隐私计算技术,也就是数据可用不可见。比如,我们在做档案编研时,可能需要进行馆际资源共享,但是其他馆的数据是不希望被别人看到的,这时候就可以用类似于联邦学习这样的技术,既可以用数据但又不需要看到数据。
03、由AI进行敏感数据筛查,在编研利用,甚至训练学习之前先将敏感、涉密的数据筛查出来,杜绝安全隐患。
问题10@陈总
在智慧档案编研系统开发过程中,用到了哪些AI相关的技术呢?
主要技术包括:
1、编研素材采集后的数据处理技术:
包含文本OCR识别技术、视频与照片图像分析技术,通过上述技术完成编研素材预处理功能,自动提取素材可用信息,形成可视化数据供后续编研利用。
2、编研素材采集后的数据分析技术:
按照编研主题,通过大数据分析技术对各类编研素材数据进行有效分析,结合编研主题按照“时间”、“地点”、“人物”、“事件”等信息进行有效整合汇总。
3、AI智能辅助编研技术:
梳理分析档案开放审核涉及的AI技术,包含机器学习、深度学习、自然语言处理、大语言模型技术,重点对对深度学习技术展开研究。结合档案数字资源的特点和档案编研主题的要求,对现有的深度学习算法进行优化,研究一种更适于档案智能编研的算法——深层知识感知神经网络算法。
4、具体的技术应用:
包含AI辅助编文功能、AI目录提纲辅助编制、AI编文润色功能、AI编写规范校验功能、AI编研问答、AI机器人等。
问题11@石主任
您能给我们介绍一下国外智慧档案编研的发展情况吗?他们是否有一些成功经验和做法供我们借鉴?
目前国外专门针对智慧档案编研的研究和应用还比较少,大家可以去关注一下中国人民大学数字人文研究院的公众号:“数字人文研究”,里面有一些国外编研成果的介绍。实际上我们可以从国外AI的发展模式上进行借鉴。
第一,技术创新与突破。
在国外,尤其是硅谷等科技创新高地,AI技术的研发与应用日新月异。深度学习、自然语言处理、机器学习等技术的不断创新,使得AI在图像识别、语音识别、自然语言理解等方面取得了突破性进展。同时,算法的优化和计算能力的提升,促使AI具备了处理复杂任务和大数据方面的能力。以ChatGPT为例,其应用场景十分广泛,包括但不限于客户服务、教育培训、智能助手、娱乐等方面,并可进行邮件撰写、视频脚本、文案、翻译、代码等多种任务,当然也包括智慧档案编研。
第二,产业融合与应用拓展。
AI与传统业务的融合不仅加速了传统行业的升级转型,也催生了众多新兴产业的崛起。在医疗、金融、教育、交通等领域,AI通过大数据分析和深度学习,为疾病诊断、制定学习计划、辅助驾驶、智能制造等提供了更加精准和高效的手段。
第三,政策扶持与伦理关注。
面对AI技术的快速发展,各国政府纷纷出台相关政策,加大对AI产业的扶持力度。例如,在美国,政府、企业和学术界共同合作,推动AI伦理的研究和制定,确保AI使用符合伦理规范。此外,联合国也在全球范围内推动AI伦理的探讨和制定。通过举办国际会议、制定国际协议等方式,推动各国在AI伦理问题上达成共识,共同推动AI技术的健康发展。
问题12@周局长
咱们这次智慧档案编研的课题研究会有哪些相关成果落地,能否提前给我们透露下?
在课题任务书要求的“1+1+1”(即一套研究报告、一套编研系统、一套操作指南)的成果目标基础上,我们寄希望结合馆藏的文书和声像档案,看能不能通过编研系统,自主编研出有嘉定人文特色的一段小视频。
问题13@吕教授
您觉得要如何构建咱们档案编研工作的长效机制,使智慧档案编研的工作可持续发展?
实际上我们可以把智慧档案编研工作比喻成一辆车,要使这辆车高速、平稳、安全地持续运行,需要多方面的协同。比如得有方向盘,这就要求档案编研的方向要和业务需求保持一致;得有四个轮子,那就是政策法规,这是基本保障;得有动力,就是发动机,那就是人工智能等新一代信息技术,推动车子持续前进;还得不断加油,否则车子会抛锚,那就是资金、人才等方面的投入。只要这些方面都具备了,它就会健康平稳的一直发展下去。
问题14@赵教授
您觉得随着不断有新技术的涌现,如何有效持续改善系统,配合编研工作的可持续发展?
技术发展日新月异,就AIGC多模态处理来说,今天文生文、文生图、文生视频,明天可能文生3D模型、文生动画、文生电影了。所以技术的更新迭代是不可阻挡的,也是很难积累的。但是文化是可以积累、可以传承的。档案中蕴藏的历史、文化、知识千年不变,我们应该让它传承下去,发扬光大。虽说计算机能力越来越强,但如果缺少了文化、缺少了历史,就如同缺少了灵魂,生成出来的都是没用的东西,所以技术要服务于业务,这样才能实现可持续发展。
我们的档案人员也应该在这个AI科技浪潮中发挥主观能动性。目前AI已经非常智能,不缺技术,不缺算力,但缺少创意,而档案编研工作最重要的恰恰是创意。所以将来在档案编研工作中,人和计算机必然是共生的,人出创意,由计算机完成制作,这样才能生成一个又一个漂亮的编研成果出来。
问题15@陈总
结合咱们实际的系统研发情况,具体有哪些创新点?
首先,从技术上来说,AIGC生成式人工智能应用、Transformer大模型、RAG本地知识化管理等都已经有应用。当然,技术上没有最新只有更新,可能每个季度都会进行迭代。
其次,从业务上来说,我们这个团队作为在档案信息化行业打拼了十几年的团队,对于档案信息化这件事还是非常有感情的,我们是真真实实在把它当成一个事业去做,希望它不断有新的东西。
最后,我们的动力来自于政策的指引和甲乙方(业务和技术)的紧密合作,促使我们不断地创新,也使我们越有动力去做这个事情。所以我觉得我们做这个课题、做这套系统以及我们去研究智慧编研的这个行为本身其实就是一种创新的心态和行为了。
经过连续两场直播,关于AI+档案的话题暂时告一段落,通过直播中专家们的精彩分享,我们见证了AI技术在档案管理中绽放出的璀璨光芒。请持续关注数字罗塞塔计划公众号,我们将为您带来更多干货满满的档案信息化直播内容。
数字罗塞塔计划公众号始终秉持中立的立场,客观公正地分享和交流档案信息化与档案文化领域的知识和观点。我们将一如既往地对推动档案工作的论坛、会议、培训、活动提供技术支持,致力于成为全国领先的档案行业新媒体平台。
关注我们 - 数字罗塞塔计划 -