Coding for Dreams

Algorithm, NLP/IR, Data Mining, Machine Learning, Math. 个人主页: https://yangliuy.github.io/

排序:
默认
按更新时间
按访问量

概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-L...

2013-01-28 17:41:09

阅读数:39529

评论数:102

概率语言模型及其变形系列(1)-PLSA及EM算法

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-L...

2012-12-20 23:31:33

阅读数:64546

评论数:41

概率语言模型及其变形系列(2)-LDA及Gibbs Sampling

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-L...

2012-12-17 13:08:30

阅读数:59249

评论数:62

文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数...

2012-12-15 11:15:36

阅读数:34028

评论数:18

深度文本匹配开源工具(MatchZoo)

博主导言:苦于Deep Learning的baseline太多实现困难?苦于没有好的基于深度学习处理NLP, IR, QA任务的开源工具?苦于没有发布自己研究的深度文本匹配模型的交流平台?强烈推荐MatchZoo,用深度学习做自然语言处理,信息检索,智能问答等任务的小伙伴看过来。MatchZoo提...

2017-12-10 23:32:04

阅读数:1579

评论数:1

SIGIR 2017 Paper Characterizing and Predicting Enterprise Email Reply Behavior

中文简介:本文对企业邮件系统中的用户行为进行了建模分析,首先分析了影响用户邮件回复行为的几类因素,然后基于分析结果建立了预测用户邮件回复行为和邮件回复时间的机器学习模型。基于Avocado邮件数据的实验结果表明,本文提出的特征和模型对于用户邮件回复行为的预测准确度大幅度超过了以往的基准方法。论文出...

2017-08-28 23:17:46

阅读数:997

评论数:0

Gradient Tree Boosting (GBM, GBRT, GBDT, MART)算法解析和基于XGBoost/Scikit-learn的实现

1. 概要 Gradient Tree Boosting (别名 GBM, GBRT, GBDT, MART)是一类很常用的集成学习算法,在KDD Cup, Kaggle组织的很多数据挖掘竞赛中多次表现出在分类和回归任务上面最好的performance。同时在2010年Yahoo Learning...

2017-03-16 12:57:49

阅读数:5894

评论数:0

CIKM 2016 aNMM: Ranking Short Answer Texts with Attention-Based Neural Matching Model

中文简介:本文针对当前深度学习模型包括基于CNN或者LSTM的模型适用于Answer Sentence Selection这个task时必须额外combine 传统的text matching feature的问题,提出了一个attention based neural matching mode...

2016-10-30 05:12:17

阅读数:2056

评论数:0

ICTIR 2016 Analysis of the Paragraph Vector Model for Information Retrieval

中文简介:本文是对前面的SIGIR‘16工作的拓展, 主要是对PV model适用于IR的task时的三方面的问题进行了更加深入的分析,并且提出了针对这三个问题的相应改进。论文出处:ICTIR' 16英文摘要:Previous studies have shown that semanticall...

2016-10-30 04:59:41

阅读数:1743

评论数:0

SIGIR 2016 Improving Language Estimation with the Paragraph Vector Model for Ad-hoc Retrieval

中文简介:本文对如何基于Paragraph Vector model改进Ad-hoc Retrieval task进行了分析,主要针对IR的场景提出了对PV model的三方面的改进。实验表明,改进后的模型进行检索的效果超过了基于topic model增强的LM的效果。论文出处:SIGIR'16英...

2016-10-30 04:44:32

阅读数:953

评论数:0

ICDM 2014 Paper ShellMiner Mining Organizational Phrases in Argumentative Texts in Social Media

中文简介: 本文提出了概率生成模型 Shell Topic Model (STM)对社交论坛文本中的组织性短语(Organizational Phrases)和主题词(topical contents)进行建模分析,主要的应用有组织性短语的挖掘和文档建模。论文出处:ICDM‘14.英文摘要:Thr...

2016-07-03 07:18:49

阅读数:4874

评论数:0

ECIR 2016 Paper Modelling User Interest for Zero-query Ranking

中文简介:本文对智能个人助理(如Google Now,Microsoft Cortana)中的信息卡片排序进行了研究,从user modeling的角度提出了三组排序特征:implicit feedback features, entity based user interests feature...

2016-07-03 07:05:48

阅读数:4521

评论数:0

ECIR 2016 Paper Beyond Factoid QA: Effective Methods for Non-factoid Answer Sentence Retrieval

中文简介:本文对non-factoid 问题的答案句子检索进行了研究,基于learning to ranking的框架,在传统文本匹配特征的基础上提出了给予语义匹配和上下文信息的特征,并且证明了这些特征对于答案句子检索的有效性。本文使用TREC GOV2数据集,并且开源了code和标注数据集,下载...

2016-07-03 06:56:46

阅读数:4162

评论数:0

CIKM 2013 Paper Modeling interaction features for debate side clustering

中文简介:本文对如何对网上论坛讨论中用户交互关系进行统计建模分析进行了研究。论文出处:CIKM‘13.英文摘要: Online discussion forums are popular social media platforms for users to express their opini...

2015-12-23 23:19:03

阅读数:2932

评论数:0

NAACL 2013 Paper Mining User Relations from Online Discussions using Sentiment Analysis and PMF

中文简介:本文对如何基于情感分析和概率矩阵分解从网络论坛讨论中挖掘用户关系进行了深入研究。论文出处:NAACL'13.英文摘要: Advances in sentiment analysis have enabled extraction of user relations implied in ...

2015-12-23 23:12:47

阅读数:2578

评论数:0

COLING 2014 Paper Generating Supplementary Travel Guides from Social Media

中文简介:想知道如何基于雅虎问答社区帖生成旅行指南吗?本文介绍了相关统计模型和技术。论文出处:COLING’14英文摘要: In this paper we study how to summarize travel-related information in forum threads to ...

2015-12-23 22:55:13

阅读数:2640

评论数:0

CIKM 2013 Paper CQARank: Jointly Model Topics and Expertise in Community Question Answering

中文简介: 本文对如何在问答社区对用户主题兴趣及专业度建模分析进行了研究,并且提出了针对此问题的统计图模型Topics Expertise Model.论文出处:CIKM‘13.英文摘要: Community Question Answering (CQA) websites, where peo...

2015-12-23 22:48:04

阅读数:2975

评论数:0

LeetCode Unique Binary Search Trees

Given n, how many structurally unique BST's (binary search trees) that store values 1...n?For example,Given n = 3, there are a total of 5 unique BST'...

2015-08-31 12:42:57

阅读数:2425

评论数:0

LeetCode Implement Stack using Queues

Implement the following operations of a stack using queues.push(x) -- Push element x onto stack.pop() -- Removes the element on top of the stack.top(...

2015-07-27 16:38:42

阅读数:2662

评论数:0

LeetCode Find Minimum in Rotated Sorted Array II

Follow up for "Find Minimum in Rotated Sorted Array":What if duplicates are allowed?Would this affect the run-time complexity? How and why?...

2015-07-27 16:25:57

阅读数:2396

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭