自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 资源 (6)
  • 收藏
  • 关注

原创 使用pdfbox提取pdf文件中的字符信息

前段时间使用了一下pdfbox(1.6.0)的文本提取功能,发现很好用。但是能给出的比较准确的结果只有行的粒度,后来又有了定位文章题目、章节标题、自然段落的需求,pdfbox目前好像没有这方面的支持(尤其是对于中文的期刊论文而言,排版情况很复杂,如一页中存在多篇文章混排等),只能先从比较低层次的字符提取入手,但需要保留字符的位置、大小、字体等信息,pdfbox源码中的一个小例子PrintTextL

2012-09-03 12:03:19 5459 2

原创 SRILM学习笔记说明

最近学习了一下SRILM的源代码,分享一下学习笔记(最新完整版本),希望能够对大家了解SRI语言模型训练工具有些许帮助。限于本人水平,不足之处,望大家多多指教。笔记的主要内容使用starUML及其逆向工程工具绘制,主要针对SRILM的训练(ngram-count),内含5个jpg文件:类图--与ngram-count相关的主要类的静态图;ngram-count--从语料训练出模型的主要

2012-09-01 14:27:48 7757 10

词性标注包(acopost-1.8.6)源代码阅读笔记

acopost是Ingo Schroder于02年在德国汉堡大学完成的一个词性标注工具包。主要实现了基于实例、最大熵、2元隐马、基于转换规则等4种词性标注算法,以及评价和算法融合等。采用的语言是perl和c,代码比较短小,非常适于学习。 本笔记记录内容: o 对acopost所实现的每个算法的训练和标注的基本流程、函数调用关系、相关文献等做了记录和阐述; o 对每个算法相关的源文件进行了详细注释; o 以汉语分词为实例,记录了4个标注算法的训练和标注结果。 [acopost] http://acopost.sourceforge.net/

2014-01-15

汉语数字串与阿拉伯数字串间转换小工具(C源码)

本人用c写的完成汉语数字串与阿拉伯数字串间转换的一个小工具,完全基于串操作,不需要经过中间数值表示,原则上可以对任意长数字串进行转换,附带汉语数字串的大小写转换功能。

2013-11-22

semantic web学习笔记

semantic web学习笔记 内容包括原书中RDF、RDFs、OWL、SPARQL等内容的总结。

2012-09-06

SRILM源代码分析笔记

SRILM源代码阅读笔记。 主要针对SRILM的ngram的训练,即ngram-count。 7个文件: 1.类图.jpg:与ngram-count相关的主要类的静态图(使用了starUML的逆向工程工具); 2.ngram-count.jpg:从语料训练出模型的主要流程; 3.lmstats.countfile.jpg:ngram-count的子流程,用于构建词汇表和统计ngram的频度; 4.ngram.estimate.jpg:ngram-count的子流程,在词汇表和ngram频度的基础上计算ngram条件概率 以及backoff权值的过程; 5.ngram.read.jpg:与训练无关,读取ARPA格式的语言模型的过程; 6.SRILM.uml:以上5个文件的原始图,以StarUML绘制(利用StarUML可直接编辑) 7.SRILM.vsd:ngram-count相关的主要数据结构的内存布局 + ngram条件概率计算公式的参数说明, 以visio绘制(利用visio可直接编辑)

2012-09-04

SRILM的ngram训练相关的类图及流程图

本人阅读SRILM源代码的笔记,使用starUML及其逆向工程工具绘制。 主要针对SRILM的训练,即ngram-count。 内含5个jpg文件: 1.类图--与ngram-count相关的主要类的静态图; 2.ngram-count--从语料训练出模型的主要流程; 3.lmstats.countfile--ngram-count的子流程,用于构建词汇表和统计ngram的频度 4.ngram.estimate--ngram-count的子流程,在词汇表和ngram频度的基础上计算ngram条件概率以及backoff权值的过程 5.ngram.read--与训练无关,读取ARPA格式的语言模型的过程

2012-09-02

SRILM与ngram-count相关的主要类的类图

SRILM与ngram-count相关的主要类的类图 使用starUML及其逆向工程工具绘制

2012-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除