- 博客(2)
- 资源 (6)
- 收藏
- 关注
原创 使用pdfbox提取pdf文件中的字符信息
前段时间使用了一下pdfbox(1.6.0)的文本提取功能,发现很好用。但是能给出的比较准确的结果只有行的粒度,后来又有了定位文章题目、章节标题、自然段落的需求,pdfbox目前好像没有这方面的支持(尤其是对于中文的期刊论文而言,排版情况很复杂,如一页中存在多篇文章混排等),只能先从比较低层次的字符提取入手,但需要保留字符的位置、大小、字体等信息,pdfbox源码中的一个小例子PrintTextL
2012-09-03 12:03:19 5459 2
原创 SRILM学习笔记说明
最近学习了一下SRILM的源代码,分享一下学习笔记(最新完整版本),希望能够对大家了解SRI语言模型训练工具有些许帮助。限于本人水平,不足之处,望大家多多指教。笔记的主要内容使用starUML及其逆向工程工具绘制,主要针对SRILM的训练(ngram-count),内含5个jpg文件:类图--与ngram-count相关的主要类的静态图;ngram-count--从语料训练出模型的主要
2012-09-01 14:27:48 7757 10
词性标注包(acopost-1.8.6)源代码阅读笔记
2014-01-15
汉语数字串与阿拉伯数字串间转换小工具(C源码)
2013-11-22
SRILM源代码分析笔记
2012-09-04
SRILM的ngram训练相关的类图及流程图
2012-09-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人