自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 paoding自定义词典研究1

这几天研究paoding分词器的使用,遇到一个很棘手的问题在使用庖丁自定义词典的时候,按照网上查的资料,1.首先自定义一个XXX.dic的文件,以utf-8保存;2.将自定义词添加到dic\locale下的XXX.dic中;3.删除.compile文件夹用如下代码测试分词效果:               String keyword = “中国科技大学”;

2012-10-13 16:35:35 2507

原创 paoding(庖丁)分词器配置安装

1.首先从网上下载庖丁分词器的包:http://code.google.com/p/paoding/downloads/list2.解压到本地磁盘,例如我的存放路径:C:\lucene\paoding3.创建环境变量PAODING_DIC_HOME,值为:C:\lucene\paoding\dic,即庖丁包的解压路径,到dic文件经过上述3步,我们已经配置好了庖丁分词器,只需要在工程项

2012-10-13 16:22:00 2873

原创 lucene学习笔记2--检索

对已经创建好的索引库进行检索/*** 利用关键词对索引进行查询* * @param keyword  搜索条件* @param indexPath 索引路径* @throws IOException * @throws ParseException * @see [类、类#方法、类#成员]*/public void search(String keyword

2012-10-13 16:13:39 533

原创 lucene学习笔记1--索引创建

创建索引代码:public void createIndex(String indexPath, String dataDir) throws IOException{//获取数据源文件列表File[] files = new File(dataDir).listFiles();//创建索引目錄Directory directory = FSDirector

2012-10-13 16:11:27 457

原创 机器学习之K-means聚类算法

k均值算法的计算过程非常直观:      1、从D中随机取k个元素,作为k个簇的各自的中心。      2、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇。      3、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。      4、将D中全部元素按照新的中心重新聚类。      5、重复第

2017-09-14 19:36:15 325

原创 机器学习-分类算法之朴素贝叶斯

条件概率公式:P(A|B) = P(AB)/P(B)贝叶斯定理:P(A|B) = P(B|A)P(A)/P(B)朴素贝叶斯算法思想:给定一个待分类的数据 X={a1,a2,……,aN},即N个特征项,目标分类集合Y={y1,y2,……,yK},即有K个分类通过计算P(yi|X),分别计算K个分类的条件概率,然后取概率最大条件,假如为P(yj|X),那么X就被分到了yj这个类别里

2017-09-13 18:44:23 279

原创 common-pool1.6连接池源码分析流程图

2017-05-24 09:07:00 541

原创 javaJDK并发包类图

类图

2017-04-09 18:07:41 1674

原创 java容器UML图

UML 图

2017-04-09 16:24:21 815

原创 如何实现高效的并发编程

1.无锁并发编程   锁竞争会引起上下文切换,所以避免使用锁是一种办法:例如将数据进行hash,进行分段,不同线程处理不同的段上的数据。2.CAS算法   java的Atomic包使用CAS算法来更新数据,而不需要加锁3.使用最少线程   避免创建不需要的线程,例如任务很少,却创建了大量线程,造成大量线程处于等待状态4.协程  在单线程里实现多任

2016-06-05 09:25:52 1139

原创 【搜索系列】检索模型

1.向量空间模型2.布尔模型3.概率检索模型

2016-01-30 13:16:12 539

转载 Elasticsearch权威指南(中文版)

http://es.xiaoleilu.com/010_Intro/10_Installing_ES.html

2015-08-30 13:59:01 2143

原创 solr源码下载地址

http://archive.apache.org/dist/lucene/solr

2015-06-15 10:04:46 2284

转载 zookeeper 安装

转载http://www.cnblogs.com/sunddenly/p/4018459.html

2015-05-31 21:31:07 443

转载 solrCloud部署

转载http://blog.javachen.com/2014/03/10/how-to-install-solrcloud.html

2015-05-31 11:02:11 453

转载 rabbitmq开发入门指南

官网的开发指南 http://www.rabbitmq.com/getstarted.html按照教程中得6个范例学习,基本能理解消息中间件的原理与应用场景

2015-04-12 09:47:16 760

原创 rabbitmq环境搭建--安装

操作系统mac OS X 10.10安装步骤1.下载 erlang包从Erlang的官网 http://www.erlang.org/download.html 下载最新的erlang安装包,Linux和MacOSX下载的版本是 R15B01 Source File(72.0 MB)   解压下载的gz包  tar zxcf  *.tar.gzcd 进入解压出来的文

2015-04-11 20:08:58 3600

转载 使用nohup让程序在远程主机后台运行

http://www.williamlong.info/archives/482.html

2015-03-27 13:38:12 608

转载 supervise系统进程监控

http://lehsyh.iteye.com/blog/745683

2015-03-27 13:28:28 846

转载 linux下使用supervisor监控应用程序

http://blog.csdn.net/heyjackie/article/details/12995187

2015-03-27 11:32:42 794

转载 使用Apache Solr对数据库建立索引(包括处理CLOB、CLOB)

http://blog.csdn.net/xzknet/article/details/6710753

2015-03-13 11:17:46 527

原创 solr删除索引

http方式删除某个core下的所有索引其中collection_test是这个core的名称http://127.0.0.1:8983/solr/collection_test/update/?stream.body=*:*&stream.contentType=text/xml;charset=utf-8&commit=true

2015-03-12 17:54:55 1737

转载 solr配置中文分词

http://blog.csdn.net/menghuannvxia/article/details/41984445Apache solr 4.9 下载地址:http://archive.apache.org/dist/lucene/solr/4.9.0/IKAnalyzer 下载地址:https://code.google.com/p/ik-analyzer/如

2015-03-12 17:05:50 637

转载 IDEA for mac 快捷键

下一步: fn+f8跳到下一个断点:fn+f9

2015-02-09 14:28:42 57426 7

原创 jetty文档与下载地址

文档地址:http://www.open-open.com/doc/view/a97bb4f6f9f440b8baba77cea05d6612

2015-02-08 10:09:41 1000

转载 Mac下git命令自动补全

转载自:http://www.haodaima.net/art/2597876直接进入正题:$ brew list查看你是否已经安装了"bash-completion",如果没有,继续往下看:$ brew install bash-completion#####安装完成之后######$ brew info bash-completion  ####

2015-02-07 21:57:34 14757

原创 maven工程pom.xml的依赖查找网站

可以在这个网站去搜你所查找的包的dependencyhttp://www.mvnrepository.com

2015-02-07 18:10:30 7199

原创 Maven2集成Idea创建多模块项目

转载自:http://sauron.blog.51cto.com/5231038/1269636创建项目选择Maven Module,新建一个Maven项目选择maven-archetype-quickstart选项,点击下一步顶级项目就创建好啦,把顶级项目里边所有Src源文件将其删除删除之后,留下pom.

2015-02-07 15:57:31 9664

转载 图文介绍IntelliJ IDEA 创建基于Maven构建的Web项目

转载自:http://www.micmiu.com/software/common/intellij-idea-create-maven-web/本文主要是图文详细介绍如何使用IntelliJ IDEA 创建基于Maven构建的Web项目的过程。环境配置:IntelliJ IDEA 12.1.4JDK 1.6.0_51Maven 3.0.4详

2015-02-07 10:29:34 1348

转载 深度学习简介

转载自:http://www.analyticsvidhya.com/blog/2014/06/deep-learning-attention/What is deep learning and why is it getting so much attention?BIG DATA BUSINESS ANALYTICSSHARE     KUN

2015-02-04 09:13:28 1370

原创 google-python课程

https://developers.google.com/edu/python/

2015-02-04 09:03:43 2373

转载 linux磁盘查看命令df详解

转载自:http://linux.cn/article-4788-weibo.html问题: 我知道在Linux上我可以用df命令来查看磁盘使用空间。你能告诉我df命令的实际例子使我可以最大限度得利用它吗?对于磁盘存储方面,有很多命令行或基于GUI的工具,它可以告诉你关于当前磁盘空间的使用情况。这些工具用各种人们可读的格式展示磁盘利用率的详细信息,比

2015-02-03 18:39:22 15101

转载 intellij IDEA 12 指南

转载自:http://blog.csdn.net/nestingchina/article/details/8946054创建和运行第一个Java应用程序为了获取Intellij Idea怎样帮助你开发和运行Java应用程序的印象,我们建议你从创建,构建和运行古老的”Hello,Wolrd”例子开始.·      开始之前·      创

2015-01-30 12:44:45 3439

转载 字符编码总结:ASCII,Unicode和UTF-8

转载自:http://www.cnblogs.com/chenwenbiao/archive/2011/08/11/2134503.html今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料。结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚。下面就是我的笔记,主要用来整理自己的思路。但是

2015-01-29 18:31:24 579

原创 java访问 HDFS文件资源

1.工程中引入的依赖 org.apache.hadoop hadoop-client 2.6.0 2.两种实现机制实现1:static{ URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory()); } public static void ma

2015-01-27 15:57:21 683

原创 google大数据三大论文-中文版-英文版

Google-Bigtable中文版 下载地址: http://pan.baidu.com/s/1eQxmrVcGoogle-MapReduce中文版_1.0下载地址: http://pan.baidu.com/s/1hq7XBI8Google-File-System中文版_1.0下载地址: http://pan.baidu.com/s/1i

2015-01-26 15:19:25 22072 6

原创 java并发中的协同工具类介绍-CountDownLatch-CyclicBarrier-Semphone-Exchanger

Exchanger---两个线程间数据交换从名字上就可以看出,这个工具类用于线程间数据的交换,线程会阻塞在Exchanger的exchange方法上,直到另外一个线程也执行到同一个Exchanger的exchange方法,二者进行数据的交换,然后彼此各自执行各自的任务,看如下代码:public static

2015-01-11 18:38:27 840

原创 python3抓取代理服务器ip

在使用python3爬取网页,解析网页,然后结果入文件,入数据库解析网页用到了BeautifulSoup,入库用到了pymsql当然了这两个都是第三方的库,需要安装具体代码如下:#!/usr/bin/pythonimport urllib.requestimport pymysqlfrom bs4 import BeautifulSoupurl="http://proxy.

2015-01-09 11:02:25 3204

原创 python刷票

这两天帮助小侄女刷票写了个脚本,如下:#!/usr/bin/pythonimport http.cookiejar, urllibfrom urllib.error import URLError, HTTPErrorimport json,time#投票页面urlindexUrl="http://show.lilyenglish.com/index.php/content?s

2015-01-07 18:45:20 9894 3

原创 python 利用smtp发送文本邮件

废话不多说,直接贴代码#!/usr/bin/pythonimport smtplibfrom email.mime.text import MIMETextfrom email.header import Headersender = 'xxxx@yyy.com'receiver = 'zzzzz@qq.com'username = 'login_user'password =

2015-01-07 18:37:38 1065

提示
确定要删除当前文章?
取消 删除