2015年08月_Mr_Hagrid

11月 10月 09月 08月

原创 sklearn、nltk、gensim语料输入对比之nltk

nltk的数据集中每条记录的特征是通过自定义的特征提取方法获得的。每条记录的特征是一个字典对象，每个字典对象元由特征名称和对应的值组成。例如def gender_features(word): return {'last_letter':word[-1]}nltk的数据集是元素为元组的列表，或者可迭代对象，每一元组的第一元素是特征字典可由gender_features生成，第二元素是一个类

2015-08-24 19:20:08 3341

原创 sklearn、nltk、gensim语料输入对比之sklearn

sklearn 语料处理：sklearn的sklearn.datasets.load_files方法支持从目录读取所有分类好的文本。不过目录必须按照一个文件夹一个标签名的规则放好。比如本文使用的数据集共有2个标签，一个为“net”，一个为“pos”，每个目录下面有6个文本文件。目录如下所示： neg 1.txt 2.txt ……pos 1.txt

2015-08-24 13:21:50 3383

原创大论文实验参考资料笔记

matplot http://liam0205.me/2014/09/11/matplotlib-tutorial-zh-cn/ Ipython http://kochiya.me/www/posts/Ipython!.html numpy http://blog.csdn.net/ikerpeng/article/details/20077439 python3.0 http://w

2015-08-21 17:59:25 546

原创 Gensim学习笔记-3--理解Topics和Transformation

经过前两次笔记的学习，我们掌握了如何由 raw strings 到 sparse vectors

2015-08-21 10:26:36 723

原创 scikit-learn 学习笔记-1-加载文本语料库

先上官方文档： http://scikit-learn.org/stable/user_guide.html API： http://scikit-learn.org/stable/modules/classes.html加载文本语料的方法doc文档为 http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load

2015-08-19 18:18:19 802

原创决战2016校招

网易 http://www.dajie.com/corp/1001989/applyanalysis/apply/56557 岗位描述 1.面向互联网的用户行为应用的调研和研究； 2.面向具体挖掘方向的算法的研究和设计； 3.海量数据处理的优化算法的研究和设计； 4.自然语言处理，分类，聚类和关联关系挖掘，语义关系挖掘。岗位要求 1.诚信、正直、

2015-08-19 09:38:06 496

原创分词器之NLPIR加密文件在哪

官方网站 http://ictclas.nlpir.org/newsdownloads?DocId=389 既然官方承诺对个人用户永久免费，那拿来做科研还是可以的。只不过每次过期失效之后都要下载最新版本，找到其中的Data/NLPIR.user文件, 这是一个加密文件, 相当于软件可以用的证书。替换旧版本的Data/NLPIR.user文件，其他不变即可继续使用很长时间了。python包装之后

2015-08-18 20:10:28 851

原创 Solr5.2.1学习笔记-3-分词配置

先上官方文档：http://www.solr-start.com/info/analyzers/ 为啥要自定义分词器？ Index建立时是按分词器的分词结果得到的词进行索引的。Solr默认无中文分词器，因此要自定义分词器。在server\solr-webapp\webapp\WEB-INF\lib下存放了运行时Lib包，分词器中引用的jar包应放在此目录下。以配置smart分词器为例： 1 将

2015-08-18 13:36:37 1053

原创 Solr5.2.1学习笔记-2-深入理解schema.xml

solr 5.2.1的schema.xml在哪？怎么配置solr 5.2.1的schema.xml？

2015-08-18 10:45:20 1397

原创 Python解析XML的minidom

官方文档： https://wiki.python.org/moin/MiniDom注意事项：在解析或生成Dom结构的过程中，其对象的内部编码是Unicode类型的，当要写入文件时，需要先编码为 utf-8示例代码，filmlist是一个字典列表，本函数的结果可作为Solr的入库XMLdef gen_xml(filmlist): root = ET.Element("add") f

2015-08-17 22:17:54 703

原创 Gensim学习笔记-2-理解Gensim中的Corpus对象

所有corpora.xxxcorpus中的对象均继承接口 gensim.interfaces.CorpusABC一个语料库对象（corpus）是一个可迭代的对象，每次迭代得到一篇文档（document）一个document对象又是一个2元组的（fieldId,fueldValue）序列不同的corpus有不同的格式和相应的处理方法，但都有继承于CorpusABC的 1 classme

2015-08-17 14:27:58 6019

原创 Gensim学习笔记-1--理解corpora.Dictionary

gensim使用python标准的logging包，引入方式为： import logging logging.basicConfig(format=’%(asctime)s : %(levelname)s : %(message)s’, level=logging.INFO)学习任何开源项目首先都要理解其中的专业术语。 gensim中的必须理解的概念有： 1 raw strings

2015-08-17 09:10:30 21878 1

原创 Solr5.2.1学习笔记-1-入门

2015年8月16日10:02:46 今天开始学习Solr，学习任何一个开源软件都要先了解其基本概念和用途。 Solr简介： Solr是Apache Lucene的一个子项目。Lucene为全文搜索功能提供了完备的API，但它只作为一个API库存在，而不能直接用于搜索。因此，Solr基于Lucene构建了一个完整的搜索引擎，它可以为搜索引擎添加文档，对文档内容进行分析，并为用户提供搜索功能，在

2015-08-16 10:29:21 1097

lucene-analyzers-smartcn-5.2.1.jar Smart Jar包

lucene-analyzers-smartcn-5.2.1.jar Smart Jar包，在Solr中的使用参考http://blog.csdn.net/xuxiuning/article/details/47750701

2015-08-18

maya2008 32位 virtools插件 maya导出nmo格式用

2011-12-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人