关注我们 - 数字罗塞塔计划 -
当前各级档案馆面向社会公众开放档案以供查询利用,满足公众档案利用需求,最大化发挥档案价值已是大势所趋。《“十四五”全国档案事业发展规划》提出:“着力推动档案工作走向依法治理、走向开放、走向现代化”。2020年新修订的《档案法》要求:“县级以上各级档案馆的档案,应当自形成之日起满二十五年向社会开放。”
国家档案局第19号令《国家档案馆档案开放办法》第七条指出:“自形成之日起满二十五年的国家档案馆的档案,经开放审核后无需限制利用的应当及时向社会开放。经济、教育、科技、文化等类档案,经开放审核后可以提前向社会开放。”以上法规、政策为档案开放利用指明了方向。但受制于开放审核标准和程序不统一、不具体以及档案开放审核人员不足等因素,档案开放审核工作进展缓慢。
Part 01
AI技术助力档案开放审核
随着AI技术的迅猛发展,通过AI技术推动档案开放审核向前快速发展已成为现实。过往档案开放审核应用主要依赖于敏感词过滤、自然语言处理(NLP)等技术,存在迁移学习能力不强、适应面窄、语义分析能力弱等诸多技术问题,无法大幅降低合规遵循、隐私保护等风险,而采用基于定制化训练模型的档案开放审核系统能够很好解决以上问题。
在档案开放审核领域,定制化训练模型对比自然语言处理技术的优势如下:
上下文理解:定制化训练模型能够更好地理解文本上下文关系,而不仅仅根据当前状态预测下一个状态。能够理解复杂语境,尤其长文本或大容量文本。
语义理解:定制化训练模型能够更准确地捕捉词语的语义信息,能够深层次的理解和分析文本。
泛化能力:定制化训练模型具有较强的泛化能力,可以适应各种文档类型和领域。
端到端学习:定制化训练模型支持端到端学习,中间不需要太多预处理或人工特征提取,更好适应复杂任务,简化流程。
迁移学习:定制化训练模型迁移学习能力强,在具体任务上能够快速部署和展示能力。
Part 02
档案开放审核模型架构
除定制化训练模型之外,还需综合智能OCR识别、公章检测、公章OCR识别、图像识别、图像比对、语义识别、自然语言处理技术构建AI档案开放审核系统,可自定义审核规则,智能开展档案开放审核工作,可视化展现审核过程和结果,系统架构如下图所示:
Part 03 档案开放审核实现路径
Part 04 实践验证
更多文章内容,请点以下链接进入观看:
关注我们 - 数字罗塞塔计划 -