现对CROHME数据集的数据信息含义进行逐行讲解
目录
1.1<ink xmlns>
1.2<traceFormat>
1.3<annotation>
1.4<annotationXML>
一、基本信息
一个inkml文件开头会介绍部分作者信息:
1.1<ink xmlns>
表示遵守http://www.w3.org/2003/InkML的命名空间,类似于c++内的#including <iostream> using namespace std,作文档的规则声明。
1.2<traceFormat>
指定了笔迹数据包含手写笔画的 X 和 Y 坐标,都表示为十进制值。
1.3<annotation>
包含注释信息,age—年龄、gender—性别、hand—左右手、writer—作者、UI—文件名、copyright—版权。
重要的是type=true,表示这个注释记录了数学表达式的正确形式,$x^{2M}+x^{M-1}$表示公式的LaTeX格式。
1.4<annotationXML>
以XML的MathML 元素表示公式,type=true表示该公式的MathML的正确格式。
其中:
mro | 作为整体 |
msup | 上标 |
msub | 下标 |
mi | 字符 |
mn | 字母 |
mo | 操作数 |
mfrac | 分数 |
msqrt | 平方根 |
mroot | 任意方根 |
举例:
表示:
<xml:id>将作为被引用与后面相联系。
二、trace单条笔迹信息
每一个trace笔迹作为一个笔画被记录x与y的坐标,以逗号隔开,相应的id将在后面被引用
三、traceGroup笔迹组合
注释"Closest Strk" 代表了与数学表达式中的符号或运算符最相关的笔迹,当处理 $x^{2M} + x^{M-1}$ 这个手写表达式时, "Closest Strk" 注释可以帮助系统准确地将每个笔迹与表达式中的变量、指数、加号等元素进行关联,对于最终得到正确的数学公式非常关键。
<annotation type="truth">x</annotation>
表示该笔迹组合正确地表示x;
<traceView traceDataRef="0"/>
表示引用前面trace标记的id号为0的单条笔迹,在这里id为0和1的笔迹构成了x;
<annotationXML href="x_1">
表示该笔迹组合与前面的MathML的id为"x_1"相应对,是它的正确表示方式:
最终最大的traceGroup将所有笔记组合包括,形成整体的笔迹组合,即该inkml所表达的手写公式