2021年山东大学软件学院暑期实训——骨刻文字数字化识别开发与学习笔记1

项目背景

中国文字自骨刻文起,甲骨文、金文……楷书,一脉相承,是研究人类思想文化发展的唯一的一份历史最长、发展序列最完善的文字。在海量的储存年代久远的兽骨中,识别出微小的文字是一项有意义的工作,项目工作将首先对兽骨上自然腐蚀,虫蛀及人为刻画进行分类,通过人工频道的方法代替繁重的人力劳动。更进一步将文字进行归类,依据其笔画的走向和纹理,尝试识别出兽骨上所记载的不同的文字个数。最后尝试通过甲骨文,小篆,鼎铭文等已知的汉字推断出古文字的具体含义。

项目介绍

骨文字自动识别系统

基于桌面系统的骨文字识别记录系统

“骨文字”是刻录在兽骨的人工刻画痕迹,然而在上千年的存留过程中,有很多的兽骨存在环境腐蚀,虫蛀蛇咬痕迹,设计一套整体方案,实现兽骨痕迹快速录入,并区分刻画痕迹和其他痕迹。

后台图像处理模块

前台收集影像数据后,进行初步的分类,提取出文字进行后台处理,通过机器学习方法和图像处理将前台图片进行文字提取,标准化,同一化,确保像素一致性。

文字识别归类

骨文字识别的重要目标是对骨文字的含义的解析,目前针对这些发掘的骨文字中,仅推断出9个子,对于骨文字的包含的不同文字的个数仍没有一个可靠的方法进行归类。本工作拟通过人文、考古、语言学与人工智能结合,提取特征,基本实现骨文字归类。

建立甲骨文和小篆比对库和数据集

建立甲骨文和小篆对应汉字的数据,并提取甲骨文和小篆对应的结构特征,以供骨刻文字的比对。

后期探索类工作

骨文字归类后,通过对比甲骨文和小篆等文字集合,推断骨文字含义,证明这段文明的存在,并尝试了解当时记录的社会结构。

个人工作

工作分析

本人当前分到的工作为甲骨文、小篆的简体字比对数据库建设和导入,完成该部分工作后会进行另外的工作。该数据库的建设是在为了跟识别后的骨刻文字进行匹配,因此该数据库的数据量是比较重要的。这导致个人工作的一大难点在于:“如何搜集甲骨文—简体字以及小篆—简体字的完整对照数据”。另一个需要考虑的地方在于在什么地方布置数据库。

工作思路分析

由于当前的任务在于构建数据库,因此最直接的思路就是构建三列的数据库,主键为甲骨文\小篆图片的编号、其余两列为对应图片的路径和对应汉字名称。后续特征数据库目前先不考虑。
总结出来的思路有两个:

思路一

①搜集简体常用字;
②对每个常用字﹐再根据甲骨文和小篆查询网站,查找该常用字对应的字体﹔
③把对应的字体图像保存为jpg或者png格式,保存入库。

思路二

①收集现有的甲骨文汉字对照表、小篆汉字对照表;
②在对照表中提取甲骨文\小篆图像数据、对应中文;
③把对应的字体图像保存为jpg或者png格式,保存入库。

具体使用那个思路要根据数据收集的情况而定。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值