NLP
Yan456jie
这个作者很懒,什么都没留下…
展开
-
LDA(Latent Dirichlet Allocation)主题模型算法
原文LDA整体流程先定义一些字母的含义:文档集合D,topic集合TD中每个文档d看作一个单词序列,wi表示第i个单词,设d有n个单词。(LDA里面称之为word bag,实际上每个单词的出现位置对LDA算法无影响)D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)LDA以文档集合D作为输入(会有切词,去停用词,取词干等常见的预处理,略去不表),希望转载 2015-06-19 11:16:04 · 624 阅读 · 0 评论 -
基于互信息和左右信息熵的短语提取识别
原文地址在中文语言处理领域,一项重要的任务就是提取中文短语,也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,新词识别等领域。本文主要实现了从陌生文本中自动发现固定短语,并给出原理和步骤。开源项目本文代码已集成到HanLP中开源:http://www.hankcs.com/nlp/hanlp.html测试数据算法工程师算法(Al转载 2017-01-11 19:49:24 · 1405 阅读 · 0 评论 -
计算句子相似度
1、使用vsm向量空间模型2、将词使用word2vec将词转换成向量,计算两个句子向量分布距离,使用kl散度原创 2017-01-11 20:50:14 · 1606 阅读 · 0 评论 -
语义分析工具
中科院http://ictclas.nlpir.org/nlpir/哈工大http://www.ltp-cloud.com/原创 2017-01-12 09:53:20 · 6040 阅读 · 0 评论 -
python读文件或文件夹计算idf
#-*- encoding:utf-8 -*-import osimport jiebaimport jieba.analyseimport jsonimport codecsimport mathimport sysreload(sys)sys.setdefaultencoding('utf8')'''''读取文件,文件每行是一个文档计算得到idf文件求idf得步骤:原创 2017-01-17 16:38:43 · 1024 阅读 · 0 评论 -
UndefinedMetricWarning: Precision is ill-defined and being set to 0.0 due to no predicted samples.
# -*- coding: utf-8 -*-import jieba, osimport codecsfrom gensim import corpora, models, similaritiesfrom pprint import pprintfrom collections import defaultdictimport sysimport picklefrom src.原创 2017-03-08 22:27:38 · 21451 阅读 · 7 评论 -
python使用gensim训练搜狗语料的LDA
# -*- coding: utf-8 -*-import jieba, osimport codecsfrom gensim import corpora, models, similaritiesfrom pprint import pprintfrom collections import defaultdictimport sysreload(sys)sys.setdefa原创 2016-08-18 16:07:32 · 5716 阅读 · 2 评论 -
python27使用jieba分词,去除停用词
# -*- coding: utf-8 -*-import jiebaimport jieba.analyseimport sysimport codecsreload(sys)sys.setdefaultencoding('utf-8')#使用其他编码读取停用词表#stoplist = codecs.open('../../file/stopword.txt','r',enco原创 2017-03-05 20:55:56 · 17535 阅读 · 0 评论 -
gensim学习之Dictionary
def test3(): ''' gensim学习之Dictionary ''' a = [['一','一','二'],['一','二','三']] b = ['一','一','三','四','四'] dictionary = corpora.Dictionary(a) print "########dictionary信息#########原创 2016-08-04 17:06:24 · 5423 阅读 · 0 评论 -
gensim计算词相似度报错
Traceback (most recent call last): File "D:/dev_src/python/image_classifiy/text/similarity.py", line 34, in run() File "D:/dev_src/python/image_classifiy/text/similarity.py", line 16, in r原创 2017-01-05 17:18:10 · 1893 阅读 · 0 评论 -
java去除首尾空白字符(带全角)
@org.junit.Test public void test3() throws IOException { String strCom=" 以禁止女兵穿低腰裤 "; //定义字符串,带全角的空格 String str= StringTool.trim(strCom); //去除字符串前后的空格 Syst原创 2017-03-14 21:15:32 · 9275 阅读 · 1 评论 -
jcseg分词
https://github.com/lionsoul2014/jcseg原创 2017-09-06 16:09:31 · 504 阅读 · 0 评论 -
java实现正向最大匹配分词
1、下载mmseg4j-1.8.5分词器,取其中words.dic词典 下载地址package com.yj.nlp_common.seg.MyMMSeg;import java.util.HashMap;/** * 构建内存词典的Trie树结点 * */public class TrieNode { /** 结点关键字,其值为中文词中的一个字 */ publi原创 2017-03-05 17:38:52 · 2330 阅读 · 0 评论 -
python正向最大匹配分词和逆向最大匹配分词
正向最大匹配# -*- coding:utf-8 -*-CODEC='utf-8'def u(s, encoding): 'converted other encoding to unicode encoding' if isinstance(s, unicode): return s else: return unicode(s原创 2017-12-13 10:13:47 · 2960 阅读 · 0 评论 -
最大熵模型
原文地址 https://www.cnblogs.com/ooon/p/5677098.html最大熵模型 Maximum Entropy Model熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 Information Theory 。今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:...转载 2018-03-27 18:07:51 · 491 阅读 · 0 评论 -
语义分析的一些方法(三)
原文地址3 图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。基于深度学习的图片分类传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例如SVM等)。图23. 传统图片分类流程图传统方法里,人工特征提取转载 2016-08-26 19:52:13 · 1144 阅读 · 0 评论 -
语义分析的一些方法(二)
原文地址2 文本语义分析前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业界最常用的主题模型,已经有相当多的介绍了,譬如文献[60,64]。在这里,主要想聊一下主题模型转载 2016-08-26 19:51:02 · 1009 阅读 · 0 评论 -
语义分析的一些方法(一)
原文地址语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents转载 2016-08-26 19:49:12 · 1610 阅读 · 0 评论 -
python3使用ltp语言云
text="我爱自然语言处理。"text=str(text)#text=urllib.quote(text)text=urllib.parse.quote(text)def test1():pattern = 'ws'url = 'http://ltpapi.voicecloud.cn/analysis/?' \'api_key=youkey'原创 2015-08-08 16:27:54 · 2181 阅读 · 2 评论 -
LDA的python实现之模型参数训练
原文地址 http://blog.csdn.net/u010551621/article/details/45258573最近看了不少关于主题模型的东西,要说起主题模型,现在最火的当然是LDA, LDA全称是Latent Dirichlet Allocation(隐狄利克雷分布), 而不是Linear Discriminant Analysis, 相信大家很多都对lda的理解感到痛苦不转载 2016-07-30 17:05:17 · 5509 阅读 · 1 评论 -
KD-tree的原理以及构建与查询操作的python实现
原文地址http://blog.csdn.net/u010551621/article/details/44813299#comments前几天小组讨论会上展示了kd-tree(k-dimension tree),感觉这玩意儿还挺有用的,所以学习了一下它的原理,然后把其中的构建kd-tree以及对应的查询操作实现了一下,现在跟大家分享一下首先说一下什么是kd-tree把转载 2016-07-30 18:01:47 · 8283 阅读 · 6 评论 -
一个集合去掉另一个集合中的内容,可以用来去停用词
#-*- encoding:utf-8 -*-a = ['北京','附近','的','租房']b = ['附近','的']print ",".join(a)print ",".join(b)print ",".join(set(a)-set(b))分词去停用词#-*- encoding:utf-8 -*-import jiebaimport jieba.analy原创 2016-07-30 21:40:11 · 2749 阅读 · 0 评论 -
python计算idf
#-*- encoding:utf-8 -*-import jiebaimport jieba.analyseimport jsonimport codecsimport math'''计算得到idf文件求idf得步骤:1、对所有文档进行分词,去停用词,结果放入二维list,其中每个元素是set1、得到文档数目;生成所有词的set2、对每个词计算idf:idf = log(原创 2016-07-31 13:50:37 · 5226 阅读 · 3 评论 -
python nltk自然语言处理学习笔记1
1、搭建环境下载anaconda并安装,其自带python2.7和一些常用包,第一次启动使用spyder2、下载nltkimport nltknltk.download()在打开的界面上选择book并下载(注意存储路径,我设的 C:\nltk_data )我下载的大概370M3、现在可以开始学习python自然语言处理了原创 2015-06-25 10:43:58 · 878 阅读 · 0 评论 -
python nltk自然语言处理学习笔记2
基础语法搜索文本----词语索引使我们看到词的上下text1.concordance("monstrous")词出现在相似的上下文中text1.similar("monstrous")函数common_contexts允许我们研究两个或两个以上的词共同的上下文text2.common_contexts(["monstrous", "very"])以判原创 2015-06-25 15:24:02 · 721 阅读 · 0 评论 -
中文维基百科上的word2vec实验,python及java版本
原文地址 http://www.cnblogs.com/helloever/p/5280891.html最近一直把以前放下的NLP收拾起来,刚准备做关系抽取,然后把词变成向量的时候看到了Word2Vec这个神器,然后就开始了折腾之路1.java版的 目前Word2Vec有很多版本,这次主要实验的是python版本,但开始为了省心(就在当前项目内)就先用java版的试转载 2016-08-03 11:57:22 · 1036 阅读 · 0 评论 -
pagerank和textrank
原创 2016-08-29 10:51:43 · 910 阅读 · 0 评论 -
界 | Facebook人工智能实验室开源文本分类专用工具fastText
原文地址选自Facebook作者:Armand Joulin、Edouard Grave、PiotrBojanowski、Tomas Mikolov机器之心编译参与:黄清纬、李亚洲fastText是 Facebook 开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快(学界 |原创 2016-08-19 22:38:59 · 1381 阅读 · 0 评论 -
使用python+机器学习方法进行情感分析(详细步骤)
原文地址不是有词典匹配的方法了吗?怎么还搞多个机器学习方法。因为词典方法和机器学习方法各有千秋。机器学习的方法精确度更高,因为词典匹配会由于语义表达的丰富性而出现很大误差,而机器学习方法不会。而且它可使用的场景更多样。无论是主客观分类还是正负面情感分类,机器学习都可以完成任务。而无需像词典匹配那样要深入到词语、句子、语法这些层面。回复此公众号转载 2016-08-18 17:09:01 · 66958 阅读 · 379 评论 -
NLTK学习笔记
原文地址学习参考书: http://nltk.googlecode.com/svn/trunk/doc/book/1. 使用代理下载数据nltk.set_proxy("**.com:80")nltk.download()2. 使用sents(fileid)函数时候出现:Resource 'tokenizers/punkt/engl转载 2016-08-18 13:10:19 · 1058 阅读 · 0 评论 -
python计算tfidf
本例来自mining social webfrom math import log# XXX: Enter in a query term from the corpus variableQUERY_TERMS = ['mr.', 'green']def tf(term, doc, normalize=True): doc = doc.lower().split()转载 2016-08-16 21:28:43 · 1974 阅读 · 0 评论 -
信息熵
原文地址“熵”是信息的不确定性度量“信息熵”是一个非常神奇的概念,它能够反映一个事件的结果平均会给你带来 多大的信息量。如果某个结果的发生概率为p,当你知道它确实发生了,你得到的信息量就被定义为-log(p)。p越小,你得到的信息量就越大。如果一颗骰 子的六个面分别是1、1、1、2、2、3,那么你知道了投掷的结果是1时可能并不会那么吃惊,它给你带来的信息量是-log(1/2),约为0.69转载 2016-09-02 20:57:36 · 975 阅读 · 0 评论 -
基于大规模语料的新词发现算法
原文地址文 / 顾森 对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢? 这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个转载 2016-09-02 21:00:57 · 1650 阅读 · 0 评论 -
sabnf文件注释
;********************************************************************; APG - an ABNF Parser Generator; Copyright (C) 2011 Lowell D. Thomas, all rights reserved;; author: Lowell D. Thomas; ...原创 2018-04-16 16:01:31 · 504 阅读 · 0 评论