自然语言处理
文章平均质量分 71
yyxyyx10
研究方向:机器学习数据挖掘
展开
-
python的中文文本挖掘库snownlp进行购物评论文本情感分析实例
昨晚上发现了snownlp这个库,欣喜若狂。先说说我这么开心的原因。我本科毕业设计做的是文本挖掘,用R语言做的,发现R语言对文本处理特别不友好,没有很多强大的库,特别是针对中文文本的,加上那时候还没有学机器学习算法。所以很头疼,后来不得已用了一个可视化的软件RostCM,但是一般可视化软件最大的缺点是无法调参,很死板,准确率并不高。现在研一,机器学习算法学完以后,又想起来要继续学习文本挖掘了。所以原创 2017-03-16 17:11:01 · 57875 阅读 · 20 评论 -
转载: Python--详解Python中re.sub 作者:Mrzhoug
给出定义:re.sub(pattern, repl, string, count=0, flags=0)Return the string obtained by replacing the leftmost non-overlapping occurrences of pattern in string by the replacement repl. If the pattern isn’t f转载 2017-03-19 11:11:53 · 359 阅读 · 0 评论 -
转发: python进行中文文本聚类(切词以及Kmeans聚类)
中文文本聚类(切词以及Kmeans聚类) <div class="article_manage clearfix"> <div class="article_l"> <span class="link_categories"> 标签: <a href="http://www.csd转载 2017-03-19 16:06:26 · 14756 阅读 · 3 评论 -
python进行中文分词、词性标注、词频统计
df的部分数据如下: A B 0 乐视招聘自动化测试工程师负责超级电视设备的自动化方案设计自动化测试与工具开发根据项目特点研究… 转正后全员持股年底奖金各种补助等 1 负责端产品网页以及的交互设计并对产品最终的用户体验负责参与用户研究及产品需求制定的整个过程提…原创 2017-03-24 11:51:27 · 12085 阅读 · 1 评论 -
python进行中文文本聚类实例(TFIDF计算、词袋构建)
花了好几天时间学习了文本聚类,以下记录一下这次的学习,也整理了一些这方面的资料,和大家分享一下,一起交流学习,进步在于不断总结和分享以及相互交流。文本聚类就是把相似的文档聚集成一簇,通过把文本转换成数值进行聚类,主要分为两个部分,第一个是构建词袋,也就是TF-IDF矩阵,也叫作文档词频矩阵,这个矩阵的每行是一篇文档,每列是一个词,矩阵的某个值代表该词在某篇文档的TF-IDF权重,就是把文档中的每个原创 2017-03-25 22:48:45 · 23332 阅读 · 9 评论