NLP/IR
文章平均质量分 71
LarryNLPIR
专注NLP/IR/Machine Learning/Data Mining
展开
-
文本分类入门
最近要做文本分类相关的课程project,因此上网找了一下文本分类的资料,下面这个感觉比较通俗易懂,收录在这里。来源 http://www.blogjava.net/zhenandaci/category/31868.html?Show=All文本分类入 门(一)文本分类问题的定义文本分类系列文章,从文本分类问题的定义开始,主要讲解文本分类系统的构成,主流的统计学习方法以及较为优秀的转载 2012-03-04 02:08:57 · 9492 阅读 · 13 评论 -
概率语言模型及其变形系列(2)-LDA及Gibbs Sampling
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结第五篇:LDA Gibbs Sa原创 2012-12-17 13:08:30 · 69487 阅读 · 61 评论 -
概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结(bibliography)第五原创 2013-01-28 17:41:09 · 44296 阅读 · 104 评论 -
概率语言模型及其变形系列(1)-PLSA及EM算法
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结第五篇:LDA Gibbs Sa原创 2012-12-20 23:31:33 · 76359 阅读 · 40 评论 -
SIGIR 2016 Improving Language Estimation with the Paragraph Vector Model for Ad-hoc Retrieval
中文简介:本文对如何基于Paragraph Vector model改进Ad-hoc Retrieval task进行了分析,主要针对IR的场景提出了对PV model的三方面的改进。实验表明,改进后的模型进行检索的效果超过了基于topic model增强的LM的效果。论文出处:SIGIR'16英文摘要:Incorporating topic level estimation into原创 2016-10-30 04:44:32 · 1570 阅读 · 0 评论 -
ICTIR 2016 Analysis of the Paragraph Vector Model for Information Retrieval
中文简介:本文是对前面的SIGIR‘16工作的拓展, 主要是对PV model适用于IR的task时的三方面的问题进行了更加深入的分析,并且提出了针对这三个问题的相应改进。论文出处:ICTIR' 16英文摘要:Previous studies have shown that semantically meaningful representations of words and text can原创 2016-10-30 04:59:41 · 2416 阅读 · 0 评论 -
CIKM 2016 aNMM: Ranking Short Answer Texts with Attention-Based Neural Matching Model
中文简介:本文针对当前深度学习模型包括基于CNN或者LSTM的模型适用于Answer Sentence Selection这个task时必须额外combine 传统的text matching feature的问题,提出了一个attention based neural matching model。该模型提出使用value-shared weighting scheme以及基于attention原创 2016-10-30 05:12:17 · 4007 阅读 · 0 评论 -
深度文本匹配开源工具(MatchZoo)
博主导言:苦于Deep Learning的baseline太多实现困难?苦于没有好的基于深度学习处理NLP, IR, QA任务的开源工具?苦于没有发布自己研究的深度文本匹配模型的交流平台?强烈推荐MatchZoo,用深度学习做自然语言处理,信息检索,智能问答等任务的小伙伴看过来。MatchZoo提供了基准数据集(TREC MQ系列数据、WiKiQA数据等)进行开发与测试,整合了当前最流行的深度文本转载 2017-12-10 23:32:04 · 16345 阅读 · 5 评论 -
2012-2013年DM IR NLP ML相关top会议截稿日期
2012-2013年DM IR NLP ML相关top会议截稿日期,先收录到这里,方便随时查阅如果有遗漏的重要会议,欢迎网友补充,随时更新PAKDD 20132012-10-07 submission deadlineSDM20132012-10-08 submission deadlineECIR20132012-10-01 Abstract 2012-10-08 submission dead原创 2012-09-26 15:34:27 · 5146 阅读 · 0 评论 -
文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。1、最大似然估计MLE首先回顾一下贝原创 2012-12-15 11:15:36 · 41935 阅读 · 19 评论 -
Stanford概率图模型(Probabilistic Graphical Model)— 第一讲 贝叶斯网络基础
概率图模型(Probabilistic Graphical Model)系列来自Stanford公开课Probabilistic Graphical Model中Daphne Koller 老师的讲解。(https://class.coursera.org/pgm-2012-002/class/index)主要内容包括(转载请注明原始出处http://blog.csdn.net/yangliuy)原创 2012-10-13 14:00:32 · 56839 阅读 · 5 评论 -
Sentiment Classification调研
Sentiment Classification调研这是近期对Sentiment Classification重要论文的初步调研,只涉及了几篇论文,总结的都是比较基础通用的方法,主要是基于Pang Bo的相关研究工作总结,下面是自己总结的大纲,是英文版的。Baseline Algorithm• Produce a list of sentiment words byint原创 2012-09-28 10:25:14 · 5846 阅读 · 1 评论 -
Extraction of Entities and Relations调研
Extraction of Entities and Relations调研,后面将推出基于Stanford Parser 的具体实现Phrase Dependency Parsing• A lot of product features are phrases• Phrase dependency parsing extends traditional原创 2012-10-05 09:47:15 · 3559 阅读 · 2 评论 -
概率统计数学公式中经常出现的罗马字母及希腊字母的读法
最近看论文很多概率公式涉及大量罗马字母和希腊字母,搞清楚他们的读法和大小写关系很重要,在网上找了些罗马字母及希腊字母的读法知识,收录于此,方便随时查阅。罗马字母1 Α α alpha a:lf 阿尔法 角度;系数 2 Β β beta bet 贝塔 磁通系数;角度;系数 3 Γ γ gamma ga:m 伽马 电导系数(小写) 4 Δ δ delta原创 2012-10-10 10:37:54 · 17188 阅读 · 1 评论 -
基于Stanford Parser 及OpenNLP Shallow Parser构建句子语法解析树
最近做一个项目需要对给定的文本中的句子做Parse,根据POS tag及句子成分信息找出词语/短语之间的dependency,然后根据dependency构建句子的parse tree. 需要用到Stanford Parser和OpenNLP 中的Shallow Parser,这两个Parser都用JAVA实现,提供API方式调用,可以根据句子输出语法解析树。下面总结两类Parser的作用及JAV原创 2012-10-11 16:35:41 · 16611 阅读 · 14 评论 -
最近博客转型,focus到Topic Modeling及LDA概率模型 PRML研读,欢迎交流
暑假准备托福考试,一直没时间整理博客文章和回复评论,希望部分朋友见谅。9月开始,本博客开始focus到Topic Modeling及LDA概率模型,研读机器学习的经典著作PRML,这本书还没有中文翻译版,只能啃英文原版了,也好,原版质量更高将陆续推出Topic Modeling及LDA概率模型,PRML研读系列文章,欢迎有兴趣的朋友一起学习交流。Topic Modeling研究最近很热,S原创 2012-09-21 10:18:53 · 4038 阅读 · 5 评论 -
SVM算法入门
课程文本分类project SVM算法入门转自:http://www.blogjava.net/zhenandaci/category/31868.html(一)SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。转载 2012-03-04 02:13:36 · 33468 阅读 · 26 评论 -
Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子
1、问题描述做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及修饰该target的opinion短语,在opinion mining里面属于很重要的task,很多DM、NLP相关的paper在做这方面的工作。基本的思路是:(1)从sentence的parse tree(比如stanford parser)中选取候选target结点和候选opinion结点,然后对所有的候选tar原创 2012-11-06 13:03:06 · 11527 阅读 · 3 评论 -
Stanford概率图模型(Probabilistic Graphical Model)— 第二讲 Template Models and Structured CPDs
概率图模型(Probabilistic Graphical Model)系列来自Stanford公开课Probabilistic Graphical Model中Daphne Koller 老师的讲解。(https://class.coursera.org/pgm-2012-002/class/index)主要内容包括(转载请注明原始出处http://blog.csdn.net/yangliuy)原创 2012-10-19 22:47:20 · 17825 阅读 · 8 评论 -
论文发表-关于深度学习在问答系统和对话系统方面的应用研究-2018到2019年
作者导言:以下是我2018-2019年发表的关于深度学习在问答系统和对话系统的应用的paper,感兴趣的读者可以查阅。大家如果有关于这些paper的问题,欢迎发邮件到我的email (yangliuyx@gmail.com)咨询讨论,我会尽量回复。本来想对每一篇论文做细致的介绍,但是发现CSDN最近的博客编辑器不好用,所以先把近两年来发表的论文贴在这儿,以后有时间我会再更新,添加更多细节文字介绍。...原创 2019-06-08 01:32:19 · 2903 阅读 · 2 评论