- 博客(2)
- 资源 (12)
- 收藏
- 关注
转载 中文分词技术
一、 为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。 二、
2015-12-21 23:23:34 968
转载 linux sed命令详解
1.简介 sed是非交互式的编辑器。它不会修改文件,除非使用shell重定向来保存结果。默认情况下,所有的输出行都被打印到屏幕上。 sed编辑器逐行处理文件(或输入),并将结果发送到屏幕。具体过程如下:首先sed把当前正在处理的行保存在一个临时缓存区中(也称为模式空间),然后处理临时缓冲区中的行,完成后把该行发送到屏幕上。sed每处理完一行就将其从临时缓冲区删除,然后将下一行读入,进行
2015-12-21 22:35:50 671
USTC中科大机器学习与知识发现小作业之classfication_SC12011034
2013-09-19
USTC中科大机器学习与知识发现project之推荐系统
2013-09-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人