郭一璞 发自 凹非寺
量子位 报道 | 公众号 QbitAI
在电影《大侦探福尔摩斯》中,福尔摩斯能够根据两个英文字母的笔迹,判断书写者的才能与性格特点,识破对手的伪装。
如此神奇的笔迹理论听起来像是玄学,恐怕只能在小说电影中出现。现实社会中,利用笔迹来破案倒不是一件稀罕事。
但是,你听说过AI也能判断笔迹了么?
一个跨国研究团队通过机器学习的算法,让机器从英文手写的字迹中判断书写者来自中国、印度、马来西亚、孟加拉国和伊朗中的哪个国家。
这个团队包含中国、印度和马来西亚研究人员,其中两名中国研究者分别来自河海大学和南京大学。
亚洲五国英文书法
这项研究的基础是来自中国、印度、马来西亚、孟加拉国、伊朗五个国家的数据集。
研究者们找了每个国家100份英文书写文本,总共500份数据。
正如上图的例子所示,每个国家的人写英文风格都有所不同。
比如,中国人写英文就像写汉字,横平竖直,尤其是在“f”、“l”、“d”这些字幕上,竖着的笔画顶天立地一般。
而印度人和孟加拉人写的英文则完全不同,就像绣花一样,笔画圆润、上下起伏明显。
于是,他们根据笔画的特征,设计了下面这样一套方法:
降噪后提取笔画线条,识别字体数据的四种特征:距离因素、主成分分析(PCA Direction)、通过Cloud of Line Distribution软件进行的线分布特征、描边特征,通过分类器判断属于五个国家的哪一种。
Cloud of Line Distribution(COLD)是一个分析笔画的软件,可以分解单个字母,测量笔画的垂直度和弯曲度,进而判断写字者的国别。
五国人书写的英文描边特征有巨大的区别。
而通过COLD分析笔迹关键点,可以变为极坐标系的展示形式,而五国笔迹的极坐标系图有巨大差别:
综合所有特征,五国笔迹就有了他们特有的矢量特征:
准确率比前人算法翻倍
在最后的测试中,这套方法的确识别出了不少各种各样的字体:
研究者们统计了一下这个方法的准确率:
上图中,下面的表格是前人研究的方法测试结果,可以看出,针对数据集中的每个国家,笔迹识别准确率都在40%左右,没有过半;
上方的表格则是这次研究者们的测试结果,每个国家的笔迹识别准确率都在60%以上,平均达到了75%。
识别笔迹的国家到底有什么用?
75%的准确率并不是一个多么好看的数字,何况这是仅仅建立在5个国家的基础上的。
毕竟,人们对这项技术的应用还有疑虑。或许它可以用在刑侦领域,以字迹结合人脸识别、生物识别等技术来判断犯罪,但字迹的识别只能作为参考,有误判的可能性。
不过,字迹作为个人的数据也可以被用来做营销。想想去银行填单子的时候留下了多少字迹,或许他们就会用字迹判断国家,进而给你推送理财产品呢。
论文传送门
A New COLD Feature based Handwriting Analysis for Ethnicity/Nationality Identification
作者:Sauradip Nag, Palaiahnakote Shivakumara, Wu Yirui, Umapada Pal, Tong Lu
Comments: Accepted in ICFHR18
arXiv: https://arxiv.org/abs/1806.07072
— 完 —
加入社群
量子位AI社群18群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot8入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot8,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
实习生招聘
量子位正在招募活动运营实习生,策划执行AI明星公司CEO、高管等参与的线上/线下活动,有机会与AI行业大牛直接交流。工作地点在北京中关村。简历欢迎投递到quxin@qbitai.com
具体细节,请在量子位公众号(QbitAI)对话界面,回复“实习生”三个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态