![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
科研
文章平均质量分 59
xiaochenchenhebobo
这个作者很懒,什么都没留下…
展开
-
复旦大学中文语料库的一些统计信息
复旦大学中文语料库的一些统计信息复旦大学的中文语料库分为训练集和验证集两部分,两部分的文档数量基本相等,但现在做测评一般都不采用这种预先划分的方法,而多用交叉验证,因此在将训练集与验证集合并之后,得到该语料库的一些基本信息如下: 类别总数量:20 文档总数量:19637 类别名称(类别代码):文档数量 Agriculture(C32):2043转载 2010-02-25 14:10:00 · 2820 阅读 · 3 评论 -
中文分词工具
最近从头开始对复旦大学以及搜狗的数据进行分词。关于分词工具,下载地址总结如下1 ictcas 包括Java,LinuxC, WindowsC 的版本均在 http://www.ictclas.org/index.html 有下载。2 imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,作者高小平,算法基于隐马尔科夫模型(Hidden Mar原创 2010-02-26 11:14:00 · 1006 阅读 · 0 评论