自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (7)
  • 问答 (4)
  • 收藏
  • 关注

原创 部署jar到spark上运行

【自己总结,防止自己再次犯错】初次接触spark,还没有入门,能够成功将jar部署到spark平台上并且运行,必须感谢博主Fang201602141.环境及工具系统:ubuntu14.04 spark:2.1.0 (单机环境) scala: 2.12.1 开发工具:IntelliJ IDEA Community 构建工具:sbt

2017-03-16 10:47:13 3227 1

原创 sbt安装

系统:ubuntu14.04 官网地址:http://www.scala-sbt.org/download.html

2017-03-14 19:55:16 1201

原创 ArrayList与HashSet

分词步骤,在使用基于词典的正向最大匹配方法,需要判断一个词语是否在词典中,最开始是使用的ArrayList的contains方法,速度太慢了!我的词典数量是大约4万。后来使用HashSet的contains方法,速度提升很快!

2017-03-14 16:06:54 596

原创 linux命令--nohup与screen

当在远程服务器上面进行一些操作时候,经常会需要使用ssh命令,但是用ssh登录之后,假设长时间没有操作,那么ssh则会自动断开连接。因为ssh的断开,一些耗时长的操作也会因此中断,最终前功尽弃。因此可以使用nohup或者screen命令,让这些任务可以不受ssh的影响

2017-03-13 22:45:06 1369

原创 正则表达式

自己的备忘。常用到的正则表达式,快速处理。

2017-03-10 16:55:57 409

原创 eclipse 中使用maven

ubuntu14.04环境下,在eclipse中使用maven

2017-03-09 18:59:30 255

原创 workbench设置

使用workbench写sql查询语句,当数据量很大时候,查询的结果会被限定在1000条以内,如果要一次看到全部结果,就需要修改workbench的默认设置。 菜单edit——preferences——SQL Queries,取消1000的限定“Limit Rows”

2017-03-07 19:29:04 2751

原创 java的class文件反编译

工具:jd-gui 下载网址:http://jd.benow.ca/     对Windows,Linux,mac等系统环境,均提供了对应的安装包,也提供了jar包,可以直接使用命令行程序运行。不仅如此,还对Eclipse,IntelliJ开发IDE提供了插件。

2017-03-02 10:48:10 1081

维基百科中文语料word2vec训练后结果

中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。由于文件上传的大小限制是60MB,而训练后的所有文件大小有1G以上,所以这里只提供了下载链接,地址在网盘中。使用python中的gensim包进行训练得到的,运行时间较长,纯粹的维基百科中文语料训练后的结果,拿去可以直接使用。

2017-06-03

Stanford typed dependencies manual

Revised for the Stanford Parser v. 3.7.0 in September 2016 Stanford parser的类型依赖说明

2017-02-27

Natural Language Processing with Python

This book offers a highly accessible introduction to Natural Language Processing, the field that underpins a variety of language technologies, ranging from predictive text and email filtering to automatic summarization and translation. With Natural Language Processing with Python, you'll learn how to write Python programs to work with large collections of unstructured text. You'll access richly-annotated datasets using a comprehensive range of linguistic data structures. And you'll understand the main algorithms for analyzing the content and structure of written communication., Packed with examples and exercises, Natural Language Processing with Python will help you:, * Extract information from unstructured text, to guess the topic or identify 'named entities', * Analyze linguistic structure in text, including parsing and semantic analysis, * Access popular linguistic databases, including WordNet and treebanks, * Integrate techniques drawn from fields as diverse as linguistics and artificial intelligence, Perfect for individual study, or as a classroom and workshop textbook, this book will help you gain practical skills in Natural Language Processing using the Python programming language and the Natural Language Toolkit (NLTK) open source library., If you're interested in developing Web applications, analyzing multilingual news sources, documenting endangered languages, or if you are simply curious to have a programmer's perspective on how human language works, you will find Natural Language Processing with Python both fascinating and immensely useful.

2017-02-26

python自然语言处理

python自然语言处理,中文文字版pdf,此书仅供学习参考使用,下载后请尽快删除,为支持正版请购买原版书籍

2017-02-26

java自然语言处理英文

使用java进行自然语言处理,电子书。pdf文字版,不是扫描版。

2017-02-26

wiki.zh.text.model

中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。由于文件上传的大小限制是60MB,我这里的压缩包中有model,然后对向量提供了下载链接。使用python中的gensim包进行训练得到的,运行时间较长,希望对你们有帮助。

2017-02-23

phantomjs-2.1.1-linux-x86_64.tar.bz2

ubuntu(或者linux)平台上安装phantomjs。这是从官网上下载的。

2017-01-03

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除