机器学习
文章平均质量分 56
LarryNLPIR
专注NLP/IR/Machine Learning/Data Mining
展开
-
数据挖掘-基于机器学习的SNS隐私策略推荐向导分类器的C++及WEKA实现与评估
本文接《基于机器学习的SNS隐私保护策略推荐向导的设计与实现》,详细解析基于机器学习的SNS隐私策略推荐向导分类器的C++及WEKA实现与评估结果,本文完整C++程序及JAVA工程下载链接见点击打开链接,对数据挖掘和SNS感兴趣的朋友可以下载跑一下,有任何问题欢迎交流:)基于机器学习的SNS隐私策略推荐向导分类器的C++及WEKA实现与评估1 SNS朋友数据预处理与统计要实现对朋友访问原创 2012-06-03 22:45:25 · 5625 阅读 · 6 评论 -
COLING 2014 Paper Generating Supplementary Travel Guides from Social Media
中文简介:想知道如何基于雅虎问答社区帖生成旅行指南吗?本文介绍了相关统计模型和技术。论文出处:COLING’14英文摘要: In this paper we study how to summarize travel-related information in forum threads to generate supplementary travel guides. Such summarie原创 2015-12-23 22:55:13 · 3133 阅读 · 0 评论 -
Gradient Tree Boosting (GBM, GBRT, GBDT, MART)算法解析和基于XGBoost/Scikit-learn的实现
1. 概要Gradient Tree Boosting (别名 GBM, GBRT, GBDT, MART)是一类很常用的集成学习算法,在KDD Cup, Kaggle组织的很多数据挖掘竞赛中多次表现出在分类和回归任务上面最好的performance。同时在2010年Yahoo Learning to Rank Challenge中, 夺得冠军的LambdaMART算法也属于这一类算法。因此Tree Boosting算法和深度学习算法DNN/CNN/RNN等等一样在工业界和学术界中得到了非常广泛的应用。原创 2017-03-16 12:57:49 · 17375 阅读 · 3 评论 -
CIKM 2013 Paper CQARank: Jointly Model Topics and Expertise in Community Question Answering
中文简介: 本文对如何在问答社区对用户主题兴趣及专业度建模分析进行了研究,并且提出了针对此问题的统计图模型Topics Expertise Model.论文出处:CIKM‘13.英文摘要: Community Question Answering (CQA) websites, where people share expertise on open platforms, have become原创 2015-12-23 22:48:04 · 4113 阅读 · 0 评论 -
CIKM 2013 Paper Modeling interaction features for debate side clustering
中文简介:本文对如何对网上论坛讨论中用户交互关系进行统计建模分析进行了研究。论文出处:CIKM‘13.英文摘要: Online discussion forums are popular social media platforms for users to express their opinions and discuss controversial issues with each othe原创 2015-12-23 23:19:03 · 4057 阅读 · 0 评论 -
ECIR 2016 Paper Beyond Factoid QA: Effective Methods for Non-factoid Answer Sentence Retrieval
中文简介:本文对non-factoid 问题的答案句子检索进行了研究,基于learning to ranking的框架,在传统文本匹配特征的基础上提出了给予语义匹配和上下文信息的特征,并且证明了这些特征对于答案句子检索的有效性。本文使用TREC GOV2数据集,并且开源了code和标注数据集,下载链接参见论文脚注。论文出处:ECIR'16.英文摘要: Retrieving finer graine原创 2016-07-03 06:56:46 · 5158 阅读 · 0 评论 -
ICDM 2014 Paper ShellMiner Mining Organizational Phrases in Argumentative Texts in Social Media
中文简介: 本文提出了概率生成模型 Shell Topic Model (STM)对社交论坛文本中的组织性短语(Organizational Phrases)和主题词(topical contents)进行建模分析,主要的应用有组织性短语的挖掘和文档建模。论文出处:ICDM‘14.英文摘要:Threaded debate forums have become one of the major so原创 2016-07-03 07:18:49 · 5673 阅读 · 0 评论 -
SIGIR 2017 Paper Characterizing and Predicting Enterprise Email Reply Behavior
中文简介:本文对企业邮件系统中的用户行为进行了建模分析,首先分析了影响用户邮件回复行为的几类因素,然后基于分析结果建立了预测用户邮件回复行为和邮件回复时间的机器学习模型。基于Avocado邮件数据的实验结果表明,本文提出的特征和模型对于用户邮件回复行为的预测准确度大幅度超过了以往的基准方法。论文出处:SIGIR'17英文摘要:Email is still among the most popula原创 2017-08-28 23:17:46 · 2276 阅读 · 0 评论 -
深度文本匹配开源工具(MatchZoo)
博主导言:苦于Deep Learning的baseline太多实现困难?苦于没有好的基于深度学习处理NLP, IR, QA任务的开源工具?苦于没有发布自己研究的深度文本匹配模型的交流平台?强烈推荐MatchZoo,用深度学习做自然语言处理,信息检索,智能问答等任务的小伙伴看过来。MatchZoo提供了基准数据集(TREC MQ系列数据、WiKiQA数据等)进行开发与测试,整合了当前最流行的深度文本转载 2017-12-10 23:32:04 · 16393 阅读 · 5 评论 -
NAACL 2013 Paper Mining User Relations from Online Discussions using Sentiment Analysis and PMF
中文简介:本文对如何基于情感分析和概率矩阵分解从网络论坛讨论中挖掘用户关系进行了深入研究。论文出处:NAACL'13.英文摘要: Advances in sentiment analysis have enabled extraction of user relations implied in online textual exchanges such as forum posts. Howev原创 2015-12-23 23:12:47 · 3099 阅读 · 0 评论 -
ECIR 2016 Paper Modelling User Interest for Zero-query Ranking
中文简介:本文对智能个人助理(如Google Now,Microsoft Cortana)中的信息卡片排序进行了研究,从user modeling的角度提出了三组排序特征:implicit feedback features, entity based user interests features以及user demographic features. 其中entity features的提取用原创 2016-07-03 07:05:48 · 5161 阅读 · 0 评论 -
Newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ
Newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现系列5篇博文自发表半年多来,累计浏览量近万次,Eclipse工程下载累计近千次,受到了很多朋友的关注,如果能给各位数据挖掘入门学习带来一些帮助本人感到很高兴。有很多朋友阅读代码成功运行工程输出了博文中展示的文本分类及聚类结果,但是有的朋友遇到编译失败或者配置路径错误等问题,半年来我也收到很多站内信和评论询问这原创 2012-12-28 16:57:05 · 22398 阅读 · 4 评论 -
基于机器学习的SNS隐私保护策略推荐向导的设计与实现
引言:这篇论文是我最近读到的将机器学习/数据挖掘算法引入到SNS网络隐私保护领域中的一篇经典论文,感觉模型比较有新意,实现了自动化的用户隐私设置分析,用户只需要对很少朋友根据自己的隐私偏好打上访问控制标签,分类器就可以对其他大部分朋友的访问权限做自动分类,并且达到了很高的准确率,大大减轻了SNS用户手动隐私设置的负担。该论文发表于WWW10'及CCS10‘,我将全文翻译并加入了自己的理解性注释,发翻译 2012-06-03 22:09:11 · 5371 阅读 · 0 评论 -
2012-2013年DM IR NLP ML相关top会议截稿日期
2012-2013年DM IR NLP ML相关top会议截稿日期,先收录到这里,方便随时查阅如果有遗漏的重要会议,欢迎网友补充,随时更新PAKDD 20132012-10-07 submission deadlineSDM20132012-10-08 submission deadlineECIR20132012-10-01 Abstract 2012-10-08 submission dead原创 2012-09-26 15:34:27 · 5164 阅读 · 0 评论 -
概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结(bibliography)第五原创 2013-01-28 17:41:09 · 44326 阅读 · 104 评论 -
机器学习-Matlab 编程常用命令速览(Ng-ML-class Octave/Matlab Tutorial)
机器学习- Matlab 编程常用命令速览--总结自Ng-ML-class Octave/Matlab Tutorial CourseraA、Basic operations and Moving data around1 在命令行模式用shift + 回车即可附加下一行输出2 length命令apply到矩阵时返回较高的一维的dimension3 help + 命令是显示命令的简要帮助信息原创 2013-05-27 14:41:25 · 9206 阅读 · 1 评论 -
机器学习类技术博客的典型内容总结
浏览了一些大牛的机器学习类技术博客,总结下典型的内容如下:1、书籍阅读笔记2、paper阅读笔记及分类调研总结3、 technical note及tutorial 阅读笔记4、典型疑难问题学习心得总结5、研究计划及学习记录(每日更新)6、月份总结及学期总结7、Coursera网络课程学习笔记8、经典学习资料总结9、出国开会记录及生活随感博客对于知识学习、技术积累和交流探讨都很重要,以后还是要经常更原创 2013-06-04 15:59:20 · 5249 阅读 · 3 评论 -
概率图模型(PGM)综述-by MIT 林达华博士
本文转载自http://www.sigvc.org/bbs/thread-728-1-1.html,个人感觉是很好的PGM理论综述,高屋建瓴的总结了PGM的主要分支和发展趋势,特收藏于此。“概率模型与计算机视觉”林达华美国麻省理工学院(MIT)博士 上世纪60年代, Marvin Minsky 在MIT让他的本科学生 Gerald Jay Sussman用一个暑假的时间完成一个有趣的Pr转载 2013-07-15 19:44:58 · 25895 阅读 · 0 评论 -
概率语言模型及其变形系列(1)-PLSA及EM算法
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结第五篇:LDA Gibbs Sa原创 2012-12-20 23:31:33 · 76416 阅读 · 40 评论 -
Ng机器学习课程Notes学习及编程实战系列-Part 1 Linear Regression
编者按:本系列系统总结Ng机器学习课程(http://cs229.stanford.edu/materials.html) Notes理论要点,并且给出所有课程exercise的作业code和实验结果分析。”游泳是游会的“,希望通过这个系列可以深刻理解机器学习算法,并且自己动手写出work高效的机器学习算法code应用到真实数据集做实验,理论和实战兼备。Part 1 Linear Regression原创 2014-01-19 15:59:08 · 14367 阅读 · 4 评论 -
Ng机器学习课程Notes学习及编程实战系列-Part 2 Logistic Regression
编者按:本系列系统总结Ng机器学习课程(http://cs229.stanford.edu/materials.html) Notes理论要点,并且给出所有课程exercise的作业code和实验结果分析。”游泳是游会的“,希望通过这个系列可以深刻理解机器学习算法,并且自己动手写出work高效的机器学习算法code应用到真实数据集做实验,理论和实战兼备。Part 2 Logistic Regres原创 2014-01-20 22:28:15 · 12425 阅读 · 6 评论 -
论文发表-关于深度学习在问答系统和对话系统方面的应用研究-2018到2019年
作者导言:以下是我2018-2019年发表的关于深度学习在问答系统和对话系统的应用的paper,感兴趣的读者可以查阅。大家如果有关于这些paper的问题,欢迎发邮件到我的email (yangliuyx@gmail.com)咨询讨论,我会尽量回复。本来想对每一篇论文做细致的介绍,但是发现CSDN最近的博客编辑器不好用,所以先把近两年来发表的论文贴在这儿,以后有时间我会再更新,添加更多细节文字介绍。...原创 2019-06-08 01:32:19 · 2931 阅读 · 2 评论