自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 jpa实体映射错误修改

[code="java"]org.springframework.dao.InvalidDataAccessApiUsageException: org.hibernate.hql.ast.QuerySyntaxException: Article is not mapped [Select count(article.id) from Article article]; nested exc...

2014-06-19 17:06:29 498

原创 jpa中查询语句语法

(转:http://www.toceansoft.com/java/836.jhtml)JPQL:Java持久化查询语言,以面向对象的查询语法构造查询语句。JPA使用javax.persistence.Query接口代表一个查询实例,Query实例由EntityManager通过指定查询语句构建。以下程序中的em是EntityManager的一个实例,使用注入或通过 EntityM...

2014-06-17 15:55:16 481

原创 JAVA 开发中处理乱码

在用COMMON-NET处理FTP时,遇到中文出现了乱码问题,乱码问题早先在做信息抽取的时候也遇到过,当时记得用第三方的词典,但是其是GBK编码,而我系统为UTF-8。 这次也一样,工程为UTF-8,但是用COMMON-NET从FTP上下载文件的时候,中文乱码。无奈,上网搜,结果各种尝试,各种不行。 靠人不如靠己,查看FTP这个类,发现:[code="java"...

2013-03-21 18:31:14 110

原创 UML 部分图示 (Association、Aggregation、Composition、Generalization、Realization...)

UML 中常用的图示1、关联图示[img]http://dl.iteye.com/upload/attachment/0080/3811/0f40c955-ab42-3e1a-82d8-88833b0b248a.jpg[/img]2、聚合图示[img]http://dl.iteye.com/upload/attachment/0080/3813/a34cb784-964...

2013-02-07 15:24:44 472

原创 Java jxl中 importSheet的例子

[code="java"]package test;import java.io.File;import java.io.IOException;import jxl.*;import jxl.read.biff.BiffException;import jxl.write.WritableWorkbook;import jxl.write.WriteExcepti...

2013-01-29 22:01:06 588

原创 protobuf简单写入和读入例子

[code="java"]package protobuf.proto;option java_outer_classname = "HtmlThemeProtos";message HtmlTheme { required int32 id = 1; optional string title = 2; optional string data = 3;}...

2012-09-27 20:12:44 903

原创 JMS 基础概念(二)

本节讲述:The JMS API Programming Model[img]http://dl.iteye.com/upload/attachment/0072/5350/955c4373-0c71-3d60-a682-0f724410a601.gif[/img]上图为JMS Programming Model 的框架图一、首先阐述上一篇文档的遗留问题:Adminis...

2012-08-19 15:18:43 130

原创 JMS 基础概念(一)

[b][size=x-large]A JMS application is composed of the following parts.[/size][/b] 1) A JMS provider is a messaging system that implements the JMS interfaces and provides administrative and co...

2012-08-18 11:49:35 198

原创 tomcat org.apache.catalina.LifecycleException 和APR错误信息解决

[size=large] 一直在写c/s开发的东西,从没有尝试写web方面的工程,闲暇时写了一个,参照视频教程。 我的环境:windows xp x86 32bit tomcat 7.0 jre/jdk 1.6很快参照视频新建立了一个web工程,可是运行的时候出现如下错误:[color=red]...

2012-08-05 11:52:34 2666

原创 Java中getResourceAsStream的用法 (转)

首先,Java中的getResourceAsStream有以下几种: 1. Class.getResourceAsStream(String path) : path 不以’/'开头时默认是从此类所在的包下取资源,以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径,最终还是由ClassLoader获取资源。 2. Class.getClassLoader....

2012-07-17 17:12:54 72

原创 nodejs 事件驱动编程例子

相信nodejs会越来越成功在学习Nodejs强大有两处: Event-driven, Asynchronous I/O callback.Nodejs服务器发的 程序是单线程方式,这就要求其对于block 类型的I/O要异步处理,而对于计算密集型的代码,也要进行对线程编程,这里简单的写个nodejs Event-driven的小例子.[code="java"]var ev...

2012-06-14 15:22:54 192

原创 Building and Installing the Basic Demo

想运行一下Lucene官网上的小程序,配置好Classpath可是还是不能运行。原文信息如下:[color=blue]Once you've gotten this far you're probably itching to go. Let's build an index! Assuming you've set your CLASSPATH correctly, just type:...

2012-06-01 15:35:26 100

原创 lucene 小知识

以前对全文检索望而却步,认为很难玩,最近玩了下Lucene ,发现挺容易上手的。废话不多说,记下小体会。 luncen索引用的是倒排索引技术,倒排索引和书后面的索引基本类似。其结构如下图所示:[img]http://dl.iteye.com/upload/attachment/0068/9753/d9933c9e-6ce0-3ab7-96ad-82f82246ed...

2012-06-01 14:26:54 93

原创 java 中文字符编码的思维定式

在JAVA代码中,总想写下面的代码:[code="java"]myString.getCharsetName()[/code],也就是想获取字符串的当前编码,可是根本没有这样的方法。 在写代码时,很有可能遇到这样的情况:读取一个文件(假设文件的编码是GBK),本地环境为UTF-8,按照默认的方式读取后发现出现了乱码,于是想把读入的字符串编码格式转换成UTF-8,在调用如下的方法:[...

2012-05-16 16:56:28 1124

原创 IKAnalyzer 分词如何消歧

个人认为分词最根本的有三个步骤:字典加载,根据一定策略分词,消歧。稍微介绍过分词程序的基本词典数据结构,接着看看如何进行消歧。分词不用多说,比较简单。 拿IKAnalyzer分词器为例,IKAnalyzer的切分方式是细粒度切分,当不需要智能处理时,其就把切出的所有词输出,但若启动了智能处理,那么接下来就是要进行消歧工作。 细粒度切出的词比较杂,但是经过智...

2012-05-11 15:36:07 361

原创 隐马尔可夫模型

一、introduction Often we are interested in finding patterns which appear over a space of time. These patterns occur in many areas; the pattern of commands someone uses in instructing a computer,...

2012-05-09 17:20:27 104

原创 paoding基于词典如何分词

上次介绍了Paoding的字典数据结构,这次介绍下paoding是如何对待分词文本依据词典分词的。paoding在查找字典时依据两个类: BinaryDictionary 和 HashBinaryDictionary。上次也已经介绍过这两个数据结构,这里不再重复。 HashBinaryDictionary其实就是把大块数据词典切分成小块的词典,并用BinaryDictiona...

2012-05-03 17:29:59 101

原创 paoding分词工具的字典如何构建

分词工具不管如何变,其肯定会包含字典管理模块(当然,这是针对按字符串匹配分词),就算是基于语义分词也得有语义字典,基于统计需要词频字典等等。 在调研了mmseg4j,ictclas4j(imdict和ictclas4j属于一类,只不过其为了效率去掉了ictclas4j的命名实体识别部分),IKAnalyzer,paoding 等分词器后,发现他们的字典管理基本大同小异。一下以...

2012-05-02 16:58:42 197

原创 基于本体语义标注

本体是哲学中的概念,主要是描述实体,以及实体与实体之间的关系。本文包含三部分,首先介绍下本体在哲学中是啥(根据自己的理解,精确性还有待考核),接着说下本体和文本分类的关系,最后说下基于本体进行语义标注。 人是如何产生概念? 最先是根据純直观接受外部事物,这部分是感性的,而感性元素又是如何变成理性概念呢?通过思维,人又是如何思维才能由感性过度到理性?因为凭空的思维还是...

2012-04-20 16:56:47 927

原创 mmseg4j的字典数据结构(版本1.8.5)

最近在做分词,在网上发现了MMSEG,论文简单入理。在code.google.com上搜到了java的实现版本,非常感谢chenlb开源自己的代码。 在学习mmseg4j对字典的结构比较困惑,做了些调研,写下自己的感受。 mmseg4j采用 key-tree的形式存储字典数据结构,这有点类似中科院的ictclas4j的字典结构,ictclas4j的字典结构含有676...

2012-04-12 18:03:41 97

原创 中科院分词系统的大致流程

注:本文只是个人阅读ictclas4j的一些总结,如有不正确的地方欢迎指出 ictalas4j用到的字典主要是下面的三个:coreDict、biGramDict、nr。coreDict记录了6768个词块,里面有对应的词频和句柄(用于词性标注);biGramDict里面记录的是词和词之间的关系,也就是相邻两个词一起出现的频率;nr记录的是中文人名角色标注,该标注来自对人民...

2012-03-26 15:46:19 230

原创 解决out of momery 问题

程序员开发难免会遇到头疼的 out of momery 异常,该异常关键是不可捕获,哪个线程抛出该异常,那么该线程除了最后访问finally代码块外,只有退出。 可是退出一般不是程序员所看到的,也就是抛出该异常之后如何处理结下来的工作,并不仅仅就是退出完事了,当然可以把代码写到finally里,但finally 一般都是清理资源。 经测试发现抛出OOM异常之后,其...

2012-03-09 17:16:42 269

原创 线程池的框架

最近在网上看到一篇好文,里面有关于线程池的框架,感觉很是不错,先把代码贴出:[code="java"]import java.util.LinkedList;public class WorkQueue { private final int nThreads; private final PoolWorker[] threads; private final L...

2012-03-08 17:37:21 73

原创 datebase解决OOM

JDBC在默认的情况下,执行一次查询操作,会把结果集全部倒入到内存中,小量的数据还可以承受,不会出现问题,可是要是处理大量数据,就会报 out of momery 错误,直接把内存给你压爆掉。 这就需要考虑如何程序优化的问题了,还好JDBC使我们很方便的处理这一类的问题。加入下面的代码。[code="java"]preStmt = conn.createStatement(R...

2012-01-03 00:47:39 91

原创 递归算法

递归:设计程序的时,首先要明白递归函数要返回的是什么(可以返回空值),这样为以后的整个流程的设计做好铺垫。确定好函数的返回值类型后,就开始整个过程。把递归函数就当成一般的函数对待,给该函数(递归)参数,经函数加工后返回一个需要的对象,后续的流程接着加工返回的对象。这个就是简单的递归程序的设计,没有返回值的递归函数更简单。递归的时候程序自动会把大的问题逐步简化为小的问题至最后不满足递归条...

2011-12-19 22:41:17 64

原创 xml Node 和 Element 的关系

在XML中Node是Element的父类,因此Element类型的节点可以转换成Node(面向对象中的向上转换)。但是看到文章中有人说Element是Node的部分,很费解。纠正下。下面是一段测试代码:(向下转型)[code="java"]import java.io.File;import java.io.IOException;import javax.xml.pars...

2011-12-15 21:41:54 242

原创 xml 小缺陷

最近在处理web信息,打算选用工具htmlparser,但是其有内在的bug,回调到javascript的标签内,这样得到的结果会完全不着边际。于是打算采用jtidy和java本身的xml工具来处理web,先用Jtidy将html格式的文件转成xml的形式,然后处理就可以了。 可是在处理xml时得到的结果跟想象的一点都不一样,这很差解,根节点下有两个孩子节点,遍历的时候却无缘无故的多...

2011-12-14 22:46:28 106

原创 程序员的修养

在做IE正方面的东西,用的是GATE框架,处理中文文本,中文处理不同于英文,因为中文最大的特点就是每个字之间没有间隔,而英文每个词之间都有间隔,GATE是谢菲尔德大学开发的开源框架,老外麽,主要处理人家的英文,因而用到中文就要首先进行分词。 不谈分词和GATE如何处理文本,谈一下经过GATE处理完后的文本的处理,由于是分割过的文本,因而有必要进行把分割后的文本进行合并,也就是去掉...

2011-11-01 22:28:32 58

eclipse 确实是好工具

工欲善其事,必先利其器。 最近做eclipse插件开发,在师父的带领下了解了eclipse的一些知识,用了一段eclipse,才发现其功能的强大。 首先eclipse视一切都是插件,原来平时用的debug,java 编辑器,等等都是一个个的插件,程序员在进行开发时扩展相应的extentions , 在dependens中加入依赖的包,就可以进行简单的开发了,比如扩展ed...

2011-10-31 22:38:30 136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除