NLP_alicexc++的博客-CSDN博客

NLP

关注

关注数：文章数：25 文章阅读量：32540 文章收藏量：6

作者: alicexc++

这个作者很懒，什么都没留下…

展开

笔记-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New

Fast Online Training with Frequency-Adaptive Learning Rates for Chinese Word Segmentation and New Word Detection作者：香港理工大学，北京大学，Xu Sun , Houfeng Wang, Wenjie Li出处：Proceedings of the 50th Annual Mee

原创 2012-08-12 21:17:35 · 1060 阅读 · 0 评论
笔记-2004-基于无指导学习策略的无词表条件下的汉语自动分词

基于无指导学习策略的无词表条件下的汉语自动分词孙茂松，肖明，邹嘉彦清华大学、香港城市大学2004年6月计算机学报互信息、t-测试差、线性叠加、波峰波谷由于这个时候还没有SIGHAN2005，所以不好评说这个的效果，但是思想很好互信息，用于检查两个字的结合紧密程度，注意，互信息是二元的，多于二元的都不行。t-测试差的作用也是这样，但是公式不同，都是越大，结合越紧密

原创 2012-10-21 18:43:23 · 496 阅读 · 0 评论
笔记-2003-Chinese Word Segmentation as LMR Tagging

Chinese Word Segmentation as LMR Tagging作者：Nianwen Xue,LibinShen单位：Inst. for Research in Cognitive Science；UniversityofPennsylvania出处：Proceedings of the Second SIGHAN Workshop on Chinese Languag

原创 2012-11-06 17:50:40 · 891 阅读 · 0 评论
CRF++模型可视化输出的格式

我没有看源代码，但是今天分析的时候觉得格式应该是下面这样的Maxid=数，这个数是特征有多少个B，B2，B3，E，M，S是Tag的顺序U00，U01，……,B 是模板的顺序ID 模板号：特征26016 U00:细这个块是说明了每个特征在下面参数数组中的ID，ID的起始地址是0；每个特征在每个Tag上的拉姆达2.7613490877201383这一块就是参数数组

原创 2012-11-08 18:07:38 · 1047 阅读 · 0 评论
笔记-2010-2011 孙薇薇

语料宾州树库CTB1:2010Word Based and Character-Based Word Segmentation Models： Comparison and Combination就是简单的说明了一下字、词单位的区别。然后实验对比了一下。分词方法就是投票，找M个分词结果，多的胜出。投票boosting最高提高0.4个点2:2011A Stac

原创 2013-01-05 13:37:49 · 612 阅读 · 0 评论
SIGHAN评测回顾-1-(2003-2005)

这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述，不详细不精确，个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。国际中文自动分词评测（简称SIGHAN[1]评测）采用多个由不同机构提供的数据集合进行评测[2]。每个机构提供的数据集都包含训练语料、测试语料和标准答案，参评者可以自由选择一种或者多种参

原创 2013-06-21 10:45:24 · 5642 阅读 · 2 评论
SIGHAN评测回顾-2-(2006-2010)

这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述，不详细不精确，个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。表 1-3 2006年Bakeoff评测结果Table 1-3 Result of Bakeoff 2006任务最高分队伍最高分第一作者

原创 2013-06-21 10:53:28 · 4706 阅读 · 1 评论
形式语义学-chapter 3 Attribute Grammars

ATTRIBUTE GRAMMARS 属性文法前言：1968年被Donald Knuth 提出，当时的目的是为了对上下文无关的语义进行形式化。现在多用于类似：检查声明，检查变量or函数是否与声明一致，操作语义等。静态语义形式化描述最常采用的是属性文法（attributegrammars），它实际上是为产生式中的符号扩充属性。因此，也可以认为属性文法是对上下文无关文法的扩充，二者结合

原创 2012-08-17 10:55:06 · 616 阅读 · 0 评论
语言模型使用

最近同门在处理srilm，问我大规模怎么弄，真惭愧好久没用了这是以前写的#inputfile切成小文件放到outputfiledir目录下，文件名的前缀outputfie_prefixsplit -l 100 inputfile outputfiledir /outputfie_prefix#进入outputfiedir文件cd outfiledir#生成文件列表，file

原创 2012-11-26 10:35:42 · 1218 阅读 · 0 评论
形式语义学-chapter 1 specifying syntax

chapter 1 specifying syntax（这个怎么翻译？指定的语法？具体语法？）1.syntax ['sint?ks] 语法;句法refers to the ways symbols may be combined to create well-formed sentences(or programs) in the language.(ps:整本书中，大部分还是以编程语

原创 2011-11-24 15:19:03 · 715 阅读 · 0 评论
Tensorflow - 安装

我的机器Ubuntu 16.04参考：http://ju.outofmemory.cn/entry/270769 http://ju.outofmemory.cn/entry/328609 查看机器状态$ lspci | grep -i nvidia$ sudo dpkg --list | grep nvidia-*$ uname -m && c

原创 2018-02-06 18:36:29 · 262 阅读 · 0 评论
笔记-2004-Adaptive Chinese Word Segmentation

Adaptive Chinese Word Segmentation作者：Jianfeng Gao,Andi Wu,Mu Li,Chang-Ning Huang,Hongqiao Li,Xinsong Xia,Haowei Qin单位：Microsoft Research出处：ACL '04 Proceedings of the 42nd Annual Meeting on Ass

原创 2012-11-06 18:06:59 · 592 阅读 · 0 评论
笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging

2004-Chinese and Japanese Word Segmentation Using Word-Level and Character-Level Information作者：Tetsuji Nakagawa出处：Proceedings of COLING 2004，pages 466-4722007-A Hybrid Approach to Word Segmentat

原创 2012-11-07 13:33:29 · 806 阅读 · 0 评论
常用被引用文献 MIRA CRF

MIRA （Margin Infused Relaxed Algorithm ）一种超保守在线算法, 在分类、排序、预测等应用领域取得不错成绩理论Koby Crammer.2004. Online Learning of Com-plex Categorial Problems. Hebrew Univeristy of Jerusalem, PhD Thesis2005.

原创 2012-08-12 11:54:36 · 3451 阅读 · 1 评论
笔记-2012-Unsupervized Word Segmentation the case for Mandarin Chinese

Unsupervized Word Segmentation the case for Mandarin ChinesePierre Magistry ,Benoit Sagot法国的，2012在ACL上发表左右熵，差值，归一化这篇是针对北理工那篇文章写的，很佩服啊，人家法国人做中文分词，还发在顶级会议，哎。ESA那篇发在CL上，号称是目前无监督学习最好的方法了。这篇论文的

原创 2012-10-21 18:28:10 · 1267 阅读 · 2 评论
笔记-2002-Combining Classifiers for Chinese Word Segmentation

Combining Classifiers for Chinese Word Segmentation作者：Nianwen Xue,Susan P. Converse单位：Institute for Research in Cognitive Science ；University of Pennsylvania 出处：Proceeding SIGHAN '02 Proceedin

原创 2012-11-06 17:46:46 · 924 阅读 · 0 评论
笔记-2003-Chinese Word Segmentation as Character Tagging

Chinese Word Segmentation as Character Tagging不知道这篇是不是上一篇的扩写，发表在不同杂志上作者：Nianwen Xue单位：Inst. for Research in Cognitive Science出处：Computational Linguistics and Chinese Language Processing Vol.

原创 2012-11-06 17:54:31 · 1373 阅读 · 1 评论
笔记-2009-An Error-Driven Word-Character Hybrid Model for Joint CWS and POS Tagging

An Error-Driven Word-Character Hybrid Model for Joint Chinese Word Segmentation and POS Tagging作者：神户大学，Canasai Kruengkrai, and Kiyotaka Uchimoto, and Jun’ichi Kazama, Yiou Wang, and Kentaro Torisawa

原创 2012-08-12 16:47:35 · 1035 阅读 · 0 评论
笔记-2011-A New Unsupervised Approach to Word Segmentation

A New Unsupervised Approach to Word SegmenationHanshi Wang, Jian Zhu, Shiping Tang, XiaoZhong Fan北京理工大学，2011 发在CL上长度、频次、左右熵：无监督~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

原创 2012-10-21 18:08:11 · 707 阅读 · 0 评论
笔记-2007-基于有效子串标注的中文分词

基于有效子串标注的中文分词作者：赵海，接春雨单位：香港城市大学-出处：中文信息学报，2007年，21卷，5期，8-13页本文主要是确定什么做子串；特征6Tag:B,B2,B3,M,E,S；仅CRF结果评价数据：Sighan bakeoff 2005；CityU,MSRA,最好结果0.952,0.974。步骤：1 从训练语料中得到词典，高于某个频率的进入子串词典；

原创 2012-11-06 17:13:11 · 415 阅读 · 0 评论
笔记-1999-消解中文三字长交集型分词歧义的算法

消解中文三字长交集型分词歧义的算法出处：清华大学学报（自然科学版）1999年第5期单位：清华大学作者：孙茂松三字，交搭歧义，词性，词概率，组合概率，分类词表概率主要内容：根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。1 词概率+ 词性Bigram法,

原创 2012-11-06 17:38:07 · 575 阅读 · 0 评论
笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~

An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified FrameworkHai Zhao Chunyu Kit City University of Hong Kong2008年这篇文章是最之前无监督分词方法的一个比较主要比

原创 2012-10-21 16:19:23 · 613 阅读 · 0 评论
笔记-2003-A Maximum Entropy Chinese Character-Based Parser

A Maximum Entropy Chinese Character-Based Parser作者：xiaoqiang Luo单位：IBM T.J. Watson Research Center 出处：Proceedings of the 2003 conference on Emprical Methods in Natural Language Processing ,pp.

原创 2012-11-06 18:12:27 · 625 阅读 · 0 评论
笔记-2006-Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation

Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation作者： Ruiqiang Zhang，Genichiro Kikui ，Eiichiro SumitaNational Institute of Information and Communications Technology（国

原创 2012-11-06 16:52:25 · 722 阅读 · 0 评论
Twitter-LDA （只是为了mark）

只是为了mark样例code用（java）： https://github.com/minghui/Twitter-LDA stop word 很重要，把长尾的词加进来 alpha_g参数一般=50/ k, 其中k是你选择的topic数

原创 2018-02-06 18:51:08 · 2170 阅读 · 1 评论

NLP

作者: alicexc++

笔记-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New

笔记-2004-基于无指导学习策略的无词表条件下的汉语自动分词

笔记-2003-Chinese Word Segmentation as LMR Tagging

CRF++模型可视化输出的格式

笔记-2010-2011 孙薇薇

SIGHAN评测回顾-1-(2003-2005)

SIGHAN评测回顾-2-(2006-2010)

形式语义学-chapter 3 Attribute Grammars

语言模型使用

形式语义学-chapter 1 specifying syntax

Tensorflow - 安装

笔记-2004-Adaptive Chinese Word Segmentation

笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging

常用被引用文献 MIRA CRF

笔记-2012-Unsupervized Word Segmentation the case for Mandarin Chinese

笔记-2002-Combining Classifiers for Chinese Word Segmentation

笔记-2003-Chinese Word Segmentation as Character Tagging

笔记-2009-An Error-Driven Word-Character Hybrid Model for Joint CWS and POS Tagging

笔记-2011-A New Unsupervised Approach to Word Segmentation

笔记-2007-基于有效子串标注的中文分词

笔记-1999-消解中文三字长交集型分词歧义的算法

笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~

笔记-2003-A Maximum Entropy Chinese Character-Based Parser

笔记-2006-Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation

Twitter-LDA （只是为了mark）