自然语言处理
文章平均质量分 52
UMaker
算法工程师,从事数据挖掘、自然语言处理方面的工作。
展开
-
word2vec使用指导
word2vec使用指导word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。一、理论概述1.词向量是什么自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP 中最直观,也是到目前为止最常用的词表示方法是 O转载 2016-09-05 19:51:42 · 583 阅读 · 0 评论 -
数据标注问题
文章商品分类之数据标注前言之前有些过一篇文本分类的文章,从技术层面来描述了包括传统NLP技术、深度学习相关的文本分类技术,很有幸做了一个关于文本分类的项目,对这块有进一步的认识。 项目的基本需求是对资讯文章按照语义进行分类。例如http://www.ifanr.com/906951中描述的描述的小米手机相关的新闻,需要将文章分类为手机-手机通讯,然后结合文章相关tag词转载 2018-01-25 17:56:05 · 14777 阅读 · 2 评论 -
spacy库安装
SpaCy有三种方法安装spacy库,推荐第二种。Solution 1: Installing Visual Studio Express 2015 (https://www.visualstudio.com/vs/visual-studio-express, free but takes 12 GB of space on the hard drive), then run:原创 2017-11-14 09:39:10 · 20873 阅读 · 12 评论 -
语义分析的一些方法(下篇)
3 图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。基于深度学习的图片分类传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例如SVM等)。图23. 传统图片分类流程图传统方法里,人工特征提取是一个巨大的消耗性工转载 2017-09-23 13:07:54 · 668 阅读 · 0 评论 -
语义分析的一些方法(中篇)
2 文本语义分析前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业界最常用的主题模型,已经有相当多的介绍了,譬如文献[60,64]。在这里,主要想聊一下主题模型的应用以及最转载 2017-09-23 13:03:43 · 25020 阅读 · 0 评论 -
语义分析的一些方法(上篇)
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or imag转载 2017-09-23 13:00:31 · 16193 阅读 · 1 评论 -
基于TextRank的关键词提取算法
基于TextRank的关键词提取算法前沿TextRank是一种文本排序算法,是基于著名的网页排序算法PageRank改动而来。在介绍TextRank前,我们先简单介绍下什么是PageRank。另外TextRank不仅能进行关键词提取,也能做自动文摘,这边文章以关键词提取为主,自动文摘部分后续补充。一、PageRank原理PageRank是用来计算网页重要性的,将每一原创 2017-09-04 21:00:11 · 12953 阅读 · 0 评论 -
自然语言处理技术(NLP)在推荐系统中的应用
概述个性化推荐是大数据时代不可或缺的技术,在电商、信息分发、计算广告、互联网金融等领域都起着重要的作用。具体来讲,个性化推荐在流量高效利用、信息高效分发、提升用户体验、长尾物品挖掘等方面均起着核心作用。在推荐系统中经常需要处理各种文本类数据,例如商品描述、新闻资讯、用户留言等等。具体来讲,我们需要使用文本数据完成以下任务:候选商品召回。候选商品召回是推荐流程的第一步,用来生成待推荐转载 2017-07-11 15:04:37 · 1835 阅读 · 0 评论 -
深度学习概览之自然语言处理:从基本概念到前沿研究
现在,尽管这是一个了不起的起点,但我们注意到每个词的维数将随着语料库的大小线性增加。如果我们有一个百万词(在 NLP 标准中并不是很多),我们将有一个一百万乘一百万尺寸的矩阵,它将会非常稀疏(大量的 0)。从存储效率上讲这绝对不是最好的。在寻找表示这些词向量的最优方法方面已经有许多进步。其中最著名的是 Word2Vec。Word2Vec词向量初始化技术背后的基本思想是,我们要在转载 2017-02-22 14:37:24 · 1371 阅读 · 0 评论 -
通俗理解LDA主题模型
0 前言 印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档的前序铺垫太长(现在才意识到这些“铺垫”都是深刻理解LDA 的基础,但如果没有人帮助初学者提纲挈领、把握主次、理清思路,则很容易陷入LDA的细枝末节之中),还是因为其中的数学推导细节太多,导致一直没有完整看转载 2017-02-21 22:24:17 · 840 阅读 · 0 评论 -
文本的特征属性选择
今天,来学习文本的特征属性选择,在机器学习中,特征属性的选择通常关系到训练结果的可靠性,一个好的特征属性通常能起到满意的分类效果。凡是特征选择,总是在将特征的重要程度量化后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。接下来就介绍如何有效地进行文本的特征属性选择。 Contents 1. TF-IDF与特征属性选择转载 2016-12-27 15:44:17 · 1906 阅读 · 0 评论 -
Word2Vec中文语料实战
目录(?)[-]Word2Vec中文语料实战Word2Vec中文语料实战 虽然Word2Vec在NLP领域很火,但网上关于Word2Vec中文语料训练的入门级资料比较少,所以本人整理了一份,希望对感兴趣的朋友有所帮助!本文使用的语料由作者亲自收集,代码由作者亲自编写,亲测有效! 如有问题可联系作者:QQ:771转载 2017-01-04 14:14:52 · 2931 阅读 · 1 评论 -
fastText
目录(?)[-]一简介二FastText原理1 模型架构2 层次SoftMax3 N-gram特征三 基于fastText实现文本分类1 fastText有监督学习分类2 fastText有监督学习分类三总结1 fastText和word2vec的区别2 小结一简介二FastText原理1 模型架构转载 2018-03-28 15:53:40 · 784 阅读 · 0 评论