复旦大学中文语料库的一些统计信息

复旦大学中文语料库的一些统计信息

复旦大学的中文语料库分为训练集和验证集两部分,两部分的文档数量基本相等,但现在做测评一般都不采用这种预先划分的方法,而多用交叉验证,因此在将训练集与验证集合并之后,得到该语料库的一些基本信息如下:

 

类别总数量:20

 

 

文档总数量:19637

 

 


类别名称(类别代码):文档数量

 

 


Agriculture(C32):2043篇

 

 


Art(C3):1482篇

 

 


Communication(C17):52篇

 

 


Computer(C19):2715篇

 

 


Economy(C34):3201篇

 

 


Education(C5):120篇

 

 


Electronics(C16):55篇

 

 


Energy(C15):65篇

 

 


Enviornment(C31):2435篇

 

 


History(C7):934篇

 

 


Law(C35):103篇

 

 


Literature(C4):67篇

 

 


Medical(C36):104篇

 

 


Military(C37):150篇

 

 


Mine(C23):67篇

 

 


Philosophy(C6):89篇

 

 


Politics(C38):2050篇

 

 


Space(C11):1282篇

 

 


Sports(C39):2507篇

 

 

Transport(C29):116篇

 

同时,在使用ictclas4j分词包对其进行的过程中,发现复旦语料库中存在一些文章会使得ictclas4j报错,其中因为分词包本身字库缺少某些文字,以及一些神秘的字符组合(确实很神秘)会导致分词过程出错,因此能够被成功分词而供后续使用的文档数并不如上面所列这么多,再后续的文章里,我会提供这些能够被分词的文档的相关数据,同时也会提供ictclas4j的一些小bug及解决方法的提示,可能的话,还会提供经过分词的可以直接使用的复旦语料库。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值