自然语言处理
赵志雄
这个作者很懒,什么都没留下…
展开
-
自然语言处理怎么最快入门
作者:微软亚洲研究院链接:https://www.zhihu.com/question/19895141/answer/149475410来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语转载 2017-05-30 06:30:36 · 4150 阅读 · 0 评论 -
关于关键词抽取的一些思考
问1:关键词提取是怎么做的?答1:1)topic主题词抽取(lda)、词位置信息的关键词抽取(KE)、标题中的词(title)、停用词2)按照策略选择5个候选关键词:主题词+标题中的词;KE+标题中的词;主题词+KE;主题词3)topic关键词抽取:分词、特征选择、主题词抽取4)分词:直接使用微博的分词工具,调用接口5)特征选择:卡方、互信息、特征停用词过滤问2:关原创 2017-06-21 10:46:50 · 493 阅读 · 0 评论 -
关于LDA的一些思考
问1:LDA生成一个文档的过程是什么样的?答1:1)根据预料级参数α,生成文档d的主题分布Θ_d~p(Θ|α)2)对于文档d中每个位置i对应的单词,按如下方式生成2.1)根据主题分布Θ_d,按概率生成该位置i的主题z_i~p(z|Θ_d)2.2)根据主题z_i和语料级参数β,按概率生成该位置i的词w_i~p(z|z_i,β)3)生成一篇文档联合概率为:p(Θ,Z,W|α,β)=原创 2017-06-07 20:48:02 · 448 阅读 · 0 评论 -
特征选择-卡方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类转载 2017-06-03 16:35:41 · 467 阅读 · 0 评论 -
特征抽取-信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带转载 2017-06-03 16:33:44 · 881 阅读 · 1 评论 -
文本特征选择-互信息
在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法:互信息 一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给类别c带来的信息量,互信息的基本定义如下: 应用到文本特征选择:转载 2017-06-03 16:30:59 · 1962 阅读 · 0 评论 -
自然语言处理如何入门
作者:陈见耸链接:https://www.zhihu.com/question/19895141/answer/167512928来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。大家回答的都挺不错了,只好来强答。一、独立实现一个小型的自然语言处理项目。要找一个合适的的自然语言处理相关的开源项目。这个项目可以是与自己工作相关的,也可以是自转载 2017-06-03 16:16:16 · 2370 阅读 · 0 评论 -
初学者如何查阅自然语言处理(NLP)领域学术资料
昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,转载 2017-06-03 11:43:25 · 386 阅读 · 0 评论 -
lda的吉布斯采样求解
转载 2017-06-01 20:43:45 · 740 阅读 · 0 评论 -
主题模型-LDA浅析
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有转载 2017-06-01 20:40:55 · 349 阅读 · 0 评论 -
TF-IDF及其算法
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作转载 2017-06-01 20:38:55 · 403 阅读 · 0 评论 -
自然语言处理相关网站
我爱自然语言处理 http://www.52nlp.cn/原创 2017-05-30 10:13:32 · 614 阅读 · 0 评论 -
自然语言处理相关书籍
这里推荐一批学习自然语言处理相关的书籍,当然,不止是自然语言处理,国内的书籍相对比较便宜,值得购买。1、《自然语言处理综论》,当年的入门书,不过翻译的是第一版,英文名《Speech and Language Processing>, 第三版据说很快就要出版(2016年),有条件的同学建议直接看英文版第二版。2、《统计自然语言处理基础》,另一本入门书籍,这本书的英文版貌似没有更新转载 2017-05-30 18:37:54 · 2139 阅读 · 0 评论 -
文本特征选择
在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法:互信息 一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给类别c带来的信息量,互信息的基本定义如下: 应用到文本特征选择:转载 2017-07-11 18:53:18 · 454 阅读 · 0 评论