自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (3)
  • 收藏
  • 关注

原创 sklearn、nltk、gensim语料输入对比之nltk

nltk的数据集中每条记录的特征是通过自定义的特征提取方法获得的。每条记录的特征是一个字典对象,每个字典对象元由特征名称和对应的值组成。例如def gender_features(word): return {'last_letter':word[-1]}nltk的数据集是 元素为元组的列表,或者可迭代对象,每一元组的第一元素是特征字典可由gender_features生成,第二元素是一个类

2015-08-24 19:20:08 3341

原创 sklearn、nltk、gensim语料输入对比之sklearn

sklearn 语料处理:sklearn的sklearn.datasets.load_files方法支持从目录读取所有分类好的文本。不过目录必须按照一个文件夹一个标签名的规则放好。比如本文使用的数据集共有2个标签,一个为“net”,一个为“pos”,每个目录下面有6个文本文件。目录如下所示: neg 1.txt 2.txt ……pos 1.txt

2015-08-24 13:21:50 3383

原创 大论文实验参考资料笔记

matplot http://liam0205.me/2014/09/11/matplotlib-tutorial-zh-cn/ Ipython http://kochiya.me/www/posts/Ipython!.html numpy http://blog.csdn.net/ikerpeng/article/details/20077439 python3.0 http://w

2015-08-21 17:59:25 546

原创 Gensim学习笔记-3--理解Topics和Transformation

经过前两次笔记的学习,我们掌握了如何由 raw strings 到 sparse vectors

2015-08-21 10:26:36 723

原创 scikit-learn 学习笔记-1-加载文本语料库

先上官方文档: http://scikit-learn.org/stable/user_guide.html API: http://scikit-learn.org/stable/modules/classes.html加载文本语料的方法doc文档为 http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load

2015-08-19 18:18:19 802

原创 决战2016校招

网易 http://www.dajie.com/corp/1001989/applyanalysis/apply/56557 岗位描述 1.面向互联网的用户行为应用的调研和研究; 2.面向具体挖掘方向的算法的研究和设计; 3.海量数据处理的优化算法的研究和设计; 4.自然语言处理,分类,聚类和关联关系挖掘,语义关系挖掘。 岗位要求 1.诚信、正直、

2015-08-19 09:38:06 496

原创 分词器之NLPIR加密文件在哪

官方网站 http://ictclas.nlpir.org/newsdownloads?DocId=389 既然官方承诺对个人用户永久免费,那拿来做科研还是可以的。只不过每次过期失效之后都要下载最新版本,找到其中的Data/NLPIR.user文件, 这是一个加密文件, 相当于软件可以用的证书。 替换旧版本的Data/NLPIR.user文件,其他不变即可继续使用很长时间了。python包装之后

2015-08-18 20:10:28 851

原创 Solr5.2.1学习笔记-3-分词配置

先上官方文档:http://www.solr-start.com/info/analyzers/ 为啥要自定义分词器? Index建立时是按分词器的分词结果得到的词进行索引的。Solr默认无中文分词器,因此要自定义分词器。在server\solr-webapp\webapp\WEB-INF\lib下存放了运行时Lib包,分词器中引用的jar包应放在此目录下。以配置smart分词器为例: 1 将

2015-08-18 13:36:37 1053

原创 Solr5.2.1学习笔记-2-深入理解schema.xml

solr 5.2.1的schema.xml在哪?怎么配置solr 5.2.1的schema.xml?

2015-08-18 10:45:20 1397

原创 Python解析XML的minidom

官方文档 : https://wiki.python.org/moin/MiniDom注意事项:在解析或生成Dom结构的过程中,其对象的内部编码是Unicode类型的,当要写入文件时,需要先编码为 utf-8示例代码,filmlist是一个字典列表,本函数的结果可作为Solr的入库XMLdef gen_xml(filmlist): root = ET.Element("add") f

2015-08-17 22:17:54 703

原创 Gensim学习笔记-2-理解Gensim中的Corpus对象

所有corpora.xxxcorpus中的对象均继承接口 gensim.interfaces.CorpusABC一个语料库对象(corpus)是一个可迭代的对象,每次迭代得到一篇文档(document) 一个document对象又是一个2元组的(fieldId,fueldValue)序列 不同的corpus有不同的格式和相应的处理方法,但都有继承于CorpusABC的 1 classme

2015-08-17 14:27:58 6019

原创 Gensim学习笔记-1--理解corpora.Dictionary

gensim使用python标准的logging包,引入方式为: import logging logging.basicConfig(format=’%(asctime)s : %(levelname)s : %(message)s’, level=logging.INFO)学习任何开源项目首先都要理解其中的专业术语。 gensim中的必须理解的概念有: 1 raw strings

2015-08-17 09:10:30 21878 1

原创 Solr5.2.1学习笔记-1-入门

2015年8月16日10:02:46 今天开始学习Solr,学习任何一个开源软件都要先了解其基本概念和用途。 Solr简介: Solr是Apache Lucene的一个子项目。Lucene为全文搜索功能提供了完备的API,但它只作为一个API库存在,而不能直接用于搜索。因此,Solr基于Lucene构建了一个完整的搜索引擎,它可以为搜索引擎添加文档,对文档内容进行分析,并为用户提供搜索功能,在

2015-08-16 10:29:21 1097

lucene-analyzers-smartcn-5.2.1.jar Smart Jar包

lucene-analyzers-smartcn-5.2.1.jar Smart Jar包,在Solr中的使用参考http://blog.csdn.net/xuxiuning/article/details/47750701

2015-08-18

maya2008 32位 virtools插件 maya导出nmo格式用

maya2008 32位 virtools插件 maya导出nmo格式用

2011-12-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除