NLP
打怪的蚂蚁
这个作者很懒,什么都没留下…
展开
-
遗忘算法:算法概述
一、遗忘算法原理能够从未知的事物中发现关联、提炼规律才是真正智能的标志,而遗忘正是使用智能生物具备这一能力的工具,也是适应变化的利器,“遗忘”这一颇具负能量特征的家伙是如何实现发现这么个神奇魔法的呢?让我们从巴甫洛夫的狗说起:狗听到了铃声就知道开饭了。铃声和开饭之间并不存在必然的联系,我们知道之所以狗会将两者联系在一起,是因为巴甫洛夫有意的将两者一次次在狗那转载 2016-08-12 16:38:44 · 2721 阅读 · 1 评论 -
从机器学习谈起
一篇谈机器学习的文章,感觉很不错,mark一下!!!http://www.cnblogs.com/subconscious/p/4107357.html转载 2016-09-05 20:12:04 · 398 阅读 · 0 评论 -
基于大规模语料的新词发现算法
对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢? 这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西——未登 录词。中转载 2016-08-12 16:51:57 · 2724 阅读 · 0 评论 -
浅谈知识图谱数据管理
近年来随着“人工智能”概念的再度活跃,除了“深度学习”这个炙手可热的名词以外,“知识图谱”无疑也是研究者、工业界和投资人心目中的又一颗“银弹”。简单地说,“知识图谱”就是以图形(Graph)的方式来展现“实体”、实体“属性”,以及实体之间的“关系”。下图是截取的Google的知识图谱介绍网页中的一个例子。在例子中有4个实体,分别是“达芬奇”,“意大利”,“蒙拉丽莎”和“米可朗基罗”。这个图明确地展转载 2017-03-10 14:52:07 · 4455 阅读 · 0 评论 -
TF-IDF与余弦相似性文本处理:自动提取关键词、找出相似文章
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,转载 2017-03-10 15:33:20 · 1353 阅读 · 0 评论 -
自然语言处理(NLP)入门指南资料
作者:Melanie Tosik 翻译:闵黎 校对:丁楠雅Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线。回顾她的学习历程,她为期望入门自然语言处理的初学者列出了一份学习资源清单。displaCy网站上的可视化依赖解析树https://demos.explosion.ai/d转载 2017-08-14 10:33:22 · 1872 阅读 · 0 评论 -
实现文本相似度算法(余弦定理)
最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅。 于是我决定把它用到项目中,来判断两个文本的相似度。但后来实际操作发现有一些问题:直接说就是查询一本书中的相似章节花了我7、8分钟;这是我不能接受…… 于是停下来仔细分析发现转载 2017-09-18 20:15:07 · 2344 阅读 · 2 评论 -
理解和实现自然语言处理终极指南
根据行情,只有21%的数据目前是结构化的。谈话、发推文、在 WhatsApp上发信息以及其他各种各样的活动,都在持续不断的产生数据。而大多数这种数据都是以非结构化的文本形式存在的。最著名的例子有:社交媒体上的推文/帖子、用户到用户的聊天记录、新闻、博客、文章、产品或服务测评和医疗行业的病人记录。最近的例子有聊天机器人和其他声音驱动的机器人。尽管我们有高维数据转载 2017-12-20 11:18:06 · 945 阅读 · 0 评论