yqzhao-CSDN博客

原创使用pdfbox提取pdf文件中的字符信息

前段时间使用了一下pdfbox（1.6.0）的文本提取功能，发现很好用。但是能给出的比较准确的结果只有行的粒度，后来又有了定位文章题目、章节标题、自然段落的需求，pdfbox目前好像没有这方面的支持（尤其是对于中文的期刊论文而言，排版情况很复杂，如一页中存在多篇文章混排等），只能先从比较低层次的字符提取入手，但需要保留字符的位置、大小、字体等信息，pdfbox源码中的一个小例子PrintTextL

2012-09-03 12:03:19 5459 2

原创 SRILM学习笔记说明

最近学习了一下SRILM的源代码，分享一下学习笔记（最新完整版本），希望能够对大家了解SRI语言模型训练工具有些许帮助。限于本人水平，不足之处，望大家多多指教。笔记的主要内容使用starUML及其逆向工程工具绘制，主要针对SRILM的训练（ngram-count），内含5个jpg文件：类图--与ngram-count相关的主要类的静态图；ngram-count--从语料训练出模型的主要

2012-09-01 14:27:48 7757 10

词性标注包(acopost-1.8.6)源代码阅读笔记

acopost是Ingo Schroder于02年在德国汉堡大学完成的一个词性标注工具包。主要实现了基于实例、最大熵、2元隐马、基于转换规则等4种词性标注算法，以及评价和算法融合等。采用的语言是perl和c，代码比较短小，非常适于学习。本笔记记录内容： o 对acopost所实现的每个算法的训练和标注的基本流程、函数调用关系、相关文献等做了记录和阐述； o 对每个算法相关的源文件进行了详细注释； o 以汉语分词为实例，记录了4个标注算法的训练和标注结果。 [acopost] http://acopost.sourceforge.net/

2014-01-15

汉语数字串与阿拉伯数字串间转换小工具（C源码）

本人用c写的完成汉语数字串与阿拉伯数字串间转换的一个小工具，完全基于串操作，不需要经过中间数值表示，原则上可以对任意长数字串进行转换，附带汉语数字串的大小写转换功能。

2013-11-22

semantic web学习笔记

semantic web学习笔记内容包括原书中RDF、RDFs、OWL、SPARQL等内容的总结。

2012-09-06

SRILM源代码分析笔记

SRILM源代码阅读笔记。主要针对SRILM的ngram的训练，即ngram-count。 7个文件： 1.类图.jpg：与ngram-count相关的主要类的静态图（使用了starUML的逆向工程工具）； 2.ngram-count.jpg：从语料训练出模型的主要流程； 3.lmstats.countfile.jpg：ngram-count的子流程，用于构建词汇表和统计ngram的频度； 4.ngram.estimate.jpg：ngram-count的子流程，在词汇表和ngram频度的基础上计算ngram条件概率以及backoff权值的过程； 5.ngram.read.jpg：与训练无关，读取ARPA格式的语言模型的过程； 6.SRILM.uml：以上5个文件的原始图，以StarUML绘制（利用StarUML可直接编辑） 7.SRILM.vsd：ngram-count相关的主要数据结构的内存布局 + ngram条件概率计算公式的参数说明，以visio绘制（利用visio可直接编辑）

2012-09-04

SRILM的ngram训练相关的类图及流程图

本人阅读SRILM源代码的笔记，使用starUML及其逆向工程工具绘制。主要针对SRILM的训练，即ngram-count。内含5个jpg文件： 1.类图--与ngram-count相关的主要类的静态图； 2.ngram-count--从语料训练出模型的主要流程； 3.lmstats.countfile--ngram-count的子流程，用于构建词汇表和统计ngram的频度 4.ngram.estimate--ngram-count的子流程，在词汇表和ngram频度的基础上计算ngram条件概率以及backoff权值的过程 5.ngram.read--与训练无关，读取ARPA格式的语言模型的过程

2012-09-02

SRILM与ngram-count相关的主要类的类图

SRILM与ngram-count相关的主要类的类图使用starUML及其逆向工程工具绘制