汉字笔画教学控件开发-存储文件结构

最新推荐文章于 2024-04-19 20:58:15 发布

瑾安

最新推荐文章于 2024-04-19 20:58:15 发布

阅读量885

点赞数 1

分类专栏： C# 文章标签：存储 sql server 文本编辑 oracle 数据库 mysql

本文链接：https://blog.csdn.net/xiarenwang/article/details/5776441

版权

C# 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

问题分析

目前作为存储信息的虚拟介质多种多样，像Oracle、SQL server、Acess、MySql等数据库系统，像XML、SML、GML等的标准化存储文件，均可以作为虚拟存储介质来使用，接下来就分析下目前需要的虚拟存储介质要有什么特性：

1、数据量巨大。在计算机的世界中，汉字均存储Unicode码，目前汉字的Unicode码的范围在4E00~9FFF，即19968~40959，也就是说，计算机中存储的汉字有20992个，所以数据量巨大。

2、无依赖性。根据需求，所需的虚拟存储介质必须要对外界无依赖性，甚至连文本编辑器都可以不要，只需要一个可以读写的存储介质即可。

3、效率快。因为在第一点中已经提到数据量的问题，所以效率也就必须得不关注一下，将其考虑在内。

像Oracle、SQL server、Acess、MySql等数据库系统对计算机或软件都有一定的依赖性，因此不能使用，而像XML、SML、GML等的标准化存储文件则需要制定存储规则，麻烦，另外不适合用这类文件来存储数据量大的信息，最后一点的效率问题让我想到了计算机原始的二进制，计算机处理二进制要比处理编程语言要快多了，而且二进制文件不依赖于外界，满足第二个特性，且在数据量的存储上在此项目中适用，所以这里使用二进制文件来存储数据。

文件存储格式

二进制文件

存储格式示意图

0000000000000000 00000000 00000000 …… 00000000

汉字对应Unicode码第1笔对应路径序号第2笔对应路径序号第100笔对应路径序号

存储格式说明

前16位代表的是汉字对应的Unicode码，在存储中增量为1。在接下来的第一个8位存储的是汉字的第一笔对应的子路径序号，第二个8位存储的是汉字的第二笔对应的子路径序号，总共存储100笔，若汉字的笔画数少于100，则在大于笔画数位置的值均为00000000，若Unicode码没有对应的汉字，则笔画部分的所有位均为0。

至于为什么要存储100笔，主要有2方面的原因

1、因为目前汉字的总笔画数不同，有的多有的少，目前最多笔画数的字为，共有84笔，但以后可能有更多笔画数的字会出现，所以将笔画数扩展到100笔

2、为了方便与查找目标汉字，若不定制规范的规则则将很难实现，因此统一将所有字的笔画位都设为100*8位

实现可行性

1、100可存储目前的所有汉字。

2、每个汉字占用816位，总存储20992个汉字，所以最后可以算出文件的大小为（16+100*8）*20992=17129472Bit=2141184Byte=2091KB 也就是2点多M，存储所有的信息占用的空间很小。

3、在查找效率方面，因为位置都是固定的，所以可以通过规则来进行查找。例如：一个“夏”对应的Unicode码为590F，则直接查找第（590F-4E00）*（16+100*8）位到（（590F-4E00）+1）*（16+100*8）-1位即可获得“夏”对应的数据。

总结

使用二进制文件满足所需要求，可以在实践中使用。

瑾安

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
汉字笔画教学控件开发-存储文件结构

问题分析目前作为存储信息的虚拟介质多种多样，像Oracle、SQL server、Acess、MySql等数据库系统，像XML、SML、GML等的标准化存储文件，均可以作为虚拟存储介质来使用，接下来就分析下目前需要的虚拟存储介质要有什么特性：1、数据量巨大。在计算机的世界中，汉字均存储Unicode码，目前汉字的Unicode码的范围在4E00~9FFF，即19968~40959，也就是说，计算机中存储的汉字有20992个，所以数据量巨大。2、无依赖性。根据需求，所需的虚拟存储介质必须
复制链接

扫一扫