word2vec
叶过无痕
这个作者很懒,什么都没留下…
展开
-
word2vec使用指导
word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 一、理论概述 (主要来源于http://licstar.net/archives/328这篇博客) 1.词向量是什么 自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP 中最直观,也是到目前转载 2015-11-04 10:01:56 · 3031 阅读 · 0 评论 -
利用word2vec对关键词进行聚类
继上次提取关键词之后,项目组长又要求我对关键词进行聚类。说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了。 按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推荐系统里面用用户访问类别向量来表示用户一样,然后就可以用kmeans的方法进行聚类了。不过对于新闻来说存在一个问题,那就量太大,如果给你十万篇新闻,那每一个关键词将需要十万维的向量表示,随着新闻转载 2015-11-04 10:00:10 · 1063 阅读 · 0 评论 -
基于k-means和tfidf的文本聚类代码简单实现
俗话说“外行看热闹,内行看门道“,作为一个机器学习的门外汉,刚研究python机器学习scikit-learn两周时间,虽然下面这段程序可能对于那些专研算法或机器学习的人来说非常简单,但对于一些入门的同学和我自己还是非常有帮助的。如果文章中有错误或不足之处,还请你微微一笑,原谅之;当然也非常欢迎你提出建议或指正~ 基本步骤包括: 1.使用python+selenium分析d转载 2017-08-16 16:48:10 · 18360 阅读 · 3 评论