DOC与DOCX的区别

可以参考一下英文文档的帮助文件
http://www.differencebetween.net/technology/protocols-formats/difference-between-doc-and-docx/comment-page-1/

最近书写论文的时候突然发现,在docx与doc中粘贴图片时,图片的大小不一致,缩放比例也不太一致,因此,从word的结构原理上进行了调查与分析,发现是两者之间有一定的区别,因此搜集了一下相关的知识,以求有所收获。

1. 在doc中,微软还是用二进制存储方式;
2. 在docx中微软开始用xml方式,docx实际上成了一个打包的压缩文件(经众多知友确认,为zip方式压缩)。
下面是解压缩了一个doc文件得到的结果。没有文件夹,都是没有扩展名的文件碎片。
这个则是解压缩docx文件得到的结果。有一个xml和包含其他信息的文件夹。
处理了一下xls和xlsx,结果类似
下面这个是xls的,因为文件启用了宏,所以多了一个Marco的文件夹

xlsx和docx的结果非常类似,要不是xml的文件大小不同,我还以为贴错图了
ppt和pptx也结果类似。
docx(所有带x的新文件格式)优点:
1. 同样文件体积小
2. 对复杂对象处理更好,如公式编辑器,表格样式,甚至可以直接在文件中呈现flash,视频和音频。
3. 更好的支持复杂光影和颜色
4. xlsx里面对复杂公式支持也更好,单元格总数和其内容限制大了很多
5. 所以从***x文档内提取原始图片是很方便的,可以解压出来
6. 优化了加密。加密方式更给力了,举个例子,用知名office密码爆破软件advanced office password recovery破解docx或xlsx这类文档在i7 3770处理器下每秒才100个。密码够强壮的话普通电脑基本解不出来,高级点的gpu设备难度也很大。
新的文件格式使用XML和zip技术,这些技术被大家所熟知,有相关经验的开发人员比较多。解析XML和zip格式的软件也非常多。而且原有的格式是复合文档中的二进制码流,这些格式怎么解析会让开发人员费一番脑筋。而新格式中只需要将zip压缩数据解压出来,解析其中的png图片,XML描述等等就可以了,清晰很多,也更容易让独立的应用程序去对素材做加工处理。原有的格式使用COM体系下的复合文档,而COM专业开发人员比较难找也比较贵,而且解析工具主要是从Windows附带的功能中来,软件资源不如XML和zip这样的技术丰富。举例来说,C#/.NET平台至今仍然没有直接的复合文档支持,需要通过interop调用本地的Windows API来访问复合文档的内容,这意味着甚至对微软来说老格式支持都会造成资源浪费,老格式在需要将文档放到云平台供包括移动平台在内的客户端访问的今天显得不合时宜。


  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值