使用pdfbox提取pdf文件中的字符信息

前段时间使用了一下pdfbox(1.6.0)的文本提取功能,发现很好用。但是能给出的比较准确的结果只有行的粒度,后来又有了定位文章题目、章节标题、自然段落的需求,pdfbox目前好像没有这方面的支持(尤其是对于中文的期刊论文而言,排版情况很复杂,如一页中存在多篇文章混排等),只能先从比较低层次的字...

2012-09-03 12:03:19

阅读数 3229

评论数 2

SRILM学习笔记说明

最近学习了一下SRILM的源代码,分享一下学习笔记(最新完整版本),希望能够对大家了解SRI语言模型训练工具有些许帮助。限于本人水平,不足之处,望大家多多指教。 笔记的主要内容使用starUML及其逆向工程工具绘制,主要针对SRILM的训练(ngram-count),内含5个jpg文件: 类图-...

2012-09-01 14:27:48

阅读数 5738

评论数 9

提示
确定要删除当前文章?
取消 删除
关闭
关闭