NLP
alicexc++
这个作者很懒,什么都没留下…
展开
-
笔记-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New
Fast Online Training with Frequency-Adaptive Learning Rates for Chinese Word Segmentation and New Word Detection作者:香港理工大学,北京大学,Xu Sun , Houfeng Wang, Wenjie Li出处:Proceedings of the 50th Annual Mee原创 2012-08-12 21:17:35 · 1060 阅读 · 0 评论 -
笔记-2004-基于无指导学习策略的无词表条件下的汉语自动分词
基于无指导学习策略的无词表条件下的汉语自动分词孙茂松,肖明,邹嘉彦清华大学、香港城市大学2004年6月计算机学报互信息、t-测试差、线性叠加、波峰波谷由于这个时候还没有SIGHAN2005,所以不好评说这个的效果,但是思想很好互信息,用于检查两个字的结合紧密程度,注意,互信息是二元的,多于二元的都不行。t-测试差的作用也是这样,但是公式不同,都是越大,结合越紧密原创 2012-10-21 18:43:23 · 496 阅读 · 0 评论 -
笔记-2003-Chinese Word Segmentation as LMR Tagging
Chinese Word Segmentation as LMR Tagging作者:Nianwen Xue,LibinShen单位:Inst. for Research in Cognitive Science;UniversityofPennsylvania出处:Proceedings of the Second SIGHAN Workshop on Chinese Languag原创 2012-11-06 17:50:40 · 891 阅读 · 0 评论 -
CRF++模型可视化输出的格式
我没有看源代码,但是今天分析的时候觉得格式应该是下面这样的Maxid=数,这个数是特征有多少个B,B2,B3,E,M,S是Tag的顺序U00,U01,……,B 是模板的顺序ID 模板号:特征26016 U00:细这个块是说明了每个特征在下面参数数组中的ID,ID的起始地址是0;每个特征在每个Tag上的拉姆达2.7613490877201383这一块就是参数数组原创 2012-11-08 18:07:38 · 1047 阅读 · 0 评论 -
笔记-2010-2011 孙薇薇
语料宾州树库CTB1:2010Word Based and Character-Based Word Segmentation Models: Comparison and Combination就是简单的说明了一下字、词单位的区别。然后实验对比了一下。分词方法就是投票,找M个分词结果,多的胜出。投票boosting最高提高0.4个点2:2011A Stac原创 2013-01-05 13:37:49 · 612 阅读 · 0 评论 -
SIGHAN评测回顾-1-(2003-2005)
这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述,不详细不精确,个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。 国际中文自动分词评测(简称SIGHAN[1]评测)采用多个由不同机构提供的数据集合进行评测[2]。每个机构提供的数据集都包含训练语料、测试语料和标准答案,参评者可以自由选择一种或者多种参原创 2013-06-21 10:45:24 · 5642 阅读 · 2 评论 -
SIGHAN评测回顾-2-(2006-2010)
这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述,不详细不精确,个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。表 1-3 2006年Bakeoff评测结果Table 1-3 Result of Bakeoff 2006任务最高分队伍最高分第一作者原创 2013-06-21 10:53:28 · 4706 阅读 · 1 评论 -
形式语义学-chapter 3 Attribute Grammars
ATTRIBUTE GRAMMARS 属性文法前言:1968年被Donald Knuth 提出,当时的目的是为了对上下文无关的语义进行形式化。现在多用于类似:检查声明,检查变量or函数是否与声明一致,操作语义等。静态语义形式化描述最常采用的是属性文法(attributegrammars),它实际上是为产生式中的符号扩充属性。因此,也可以认为属性文法是对上下文无关文法的扩充,二者结合原创 2012-08-17 10:55:06 · 616 阅读 · 0 评论 -
语言模型使用
最近同门在处理srilm,问我大规模怎么弄,真惭愧好久没用了这是以前写的#inputfile切成小文件放到outputfiledir目录下,文件名的前缀outputfie_prefixsplit -l 100 inputfile outputfiledir /outputfie_prefix#进入outputfiedir文件cd outfiledir#生成文件列表,file原创 2012-11-26 10:35:42 · 1218 阅读 · 0 评论 -
形式语义学-chapter 1 specifying syntax
chapter 1 specifying syntax(这个怎么翻译?指定的语法?具体语法?)1.syntax ['sint?ks] 语法;句法refers to the ways symbols may be combined to create well-formed sentences(or programs) in the language.(ps:整本书中,大部分还是以编程语原创 2011-11-24 15:19:03 · 715 阅读 · 0 评论 -
Tensorflow - 安装
我的机器Ubuntu 16.04参考:http://ju.outofmemory.cn/entry/270769 http://ju.outofmemory.cn/entry/328609 查看机器状态$ lspci | grep -i nvidia$ sudo dpkg --list | grep nvidia-*$ uname -m && c原创 2018-02-06 18:36:29 · 262 阅读 · 0 评论 -
笔记-2004-Adaptive Chinese Word Segmentation
Adaptive Chinese Word Segmentation作者:Jianfeng Gao,Andi Wu,Mu Li,Chang-Ning Huang,Hongqiao Li,Xinsong Xia,Haowei Qin单位:Microsoft Research出处:ACL '04 Proceedings of the 42nd Annual Meeting on Ass原创 2012-11-06 18:06:59 · 592 阅读 · 0 评论 -
笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging
2004-Chinese and Japanese Word Segmentation Using Word-Level and Character-Level Information作者:Tetsuji Nakagawa出处:Proceedings of COLING 2004,pages 466-4722007-A Hybrid Approach to Word Segmentat原创 2012-11-07 13:33:29 · 806 阅读 · 0 评论 -
常用被引用文献 MIRA CRF
MIRA (Margin Infused Relaxed Algorithm )一种超保守在线算法, 在分类、排序、预测等应用领域取得不错成绩理论Koby Crammer.2004. Online Learning of Com-plex Categorial Problems. Hebrew Univeristy of Jerusalem, PhD Thesis2005.原创 2012-08-12 11:54:36 · 3451 阅读 · 1 评论 -
笔记-2012-Unsupervized Word Segmentation the case for Mandarin Chinese
Unsupervized Word Segmentation the case for Mandarin ChinesePierre Magistry ,Benoit Sagot法国的,2012在ACL上发表左右熵,差值,归一化这篇是针对北理工那篇文章写的,很佩服啊,人家法国人做中文分词,还发在顶级会议,哎。ESA那篇发在CL上,号称是目前无监督学习最好的方法了。这篇论文的原创 2012-10-21 18:28:10 · 1267 阅读 · 2 评论 -
笔记-2002-Combining Classifiers for Chinese Word Segmentation
Combining Classifiers for Chinese Word Segmentation作者:Nianwen Xue,Susan P. Converse单位:Institute for Research in Cognitive Science ;University of Pennsylvania 出处:Proceeding SIGHAN '02 Proceedin原创 2012-11-06 17:46:46 · 924 阅读 · 0 评论 -
笔记-2003-Chinese Word Segmentation as Character Tagging
Chinese Word Segmentation as Character Tagging不知道这篇是不是上一篇的扩写,发表在不同杂志上作者:Nianwen Xue单位:Inst. for Research in Cognitive Science出处:Computational Linguistics and Chinese Language Processing Vol.原创 2012-11-06 17:54:31 · 1373 阅读 · 1 评论 -
笔记-2009-An Error-Driven Word-Character Hybrid Model for Joint CWS and POS Tagging
An Error-Driven Word-Character Hybrid Model for Joint Chinese Word Segmentation and POS Tagging作者:神户大学,Canasai Kruengkrai, and Kiyotaka Uchimoto, and Jun’ichi Kazama, Yiou Wang, and Kentaro Torisawa原创 2012-08-12 16:47:35 · 1035 阅读 · 0 评论 -
笔记-2011-A New Unsupervised Approach to Word Segmentation
A New Unsupervised Approach to Word SegmenationHanshi Wang, Jian Zhu, Shiping Tang, XiaoZhong Fan北京理工大学,2011 发在CL上长度、频次、左右熵:无监督~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~原创 2012-10-21 18:08:11 · 707 阅读 · 0 评论 -
笔记-2007-基于有效子串标注的中文分词
基于有效子串标注的中文分词作者:赵海,接春雨单位:香港城市大学-出处:中文信息学报,2007年,21卷,5期,8-13页本文主要是确定什么做子串;特征6Tag:B,B2,B3,M,E,S;仅CRF结果评价数据:Sighan bakeoff 2005;CityU,MSRA,最好结果0.952,0.974。步骤:1 从训练语料中得到词典,高于某个频率的进入子串词典;原创 2012-11-06 17:13:11 · 415 阅读 · 0 评论 -
笔记-1999-消解中文三字长交集型分词歧义的算法
消解中文三字长交集型分词歧义的算法出处:清华大学学报(自然科学版)1999年第5期单位:清华大学作者:孙茂松三字,交搭歧义,词性,词概率,组合概率,分类词表概率主要内容:根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。1 词概率+ 词性Bigram法,原创 2012-11-06 17:38:07 · 575 阅读 · 0 评论 -
笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~
An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified FrameworkHai Zhao Chunyu Kit City University of Hong Kong2008年这篇文章是最之前无监督分词方法的一个比较主要比原创 2012-10-21 16:19:23 · 613 阅读 · 0 评论 -
笔记-2003-A Maximum Entropy Chinese Character-Based Parser
A Maximum Entropy Chinese Character-Based Parser作者:xiaoqiang Luo单位:IBM T.J. Watson Research Center 出处:Proceedings of the 2003 conference on Emprical Methods in Natural Language Processing ,pp.原创 2012-11-06 18:12:27 · 625 阅读 · 0 评论 -
笔记-2006-Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation
Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation作者: Ruiqiang Zhang,Genichiro Kikui ,Eiichiro SumitaNational Institute of Information and Communications Technology(国原创 2012-11-06 16:52:25 · 722 阅读 · 0 评论 -
Twitter-LDA (只是为了mark)
只是为了mark样例code用(java): https://github.com/minghui/Twitter-LDA stop word 很重要,把长尾的词加进来 alpha_g参数一般=50/ k, 其中k是你选择的topic数原创 2018-02-06 18:51:08 · 2170 阅读 · 1 评论