NLTK与DataWiki

最近在做机器翻译的作业,学习一个自然语言工具包NLTK(http://www.nltk.org/),用python做的一个项目,虽然是以教学为目的的项目,但看过去做得很大很全,据说有十万行代码,而且是python代码,我对大型项目的规模没有一个定量的概念,但至少这代码行数于我而言就已经算是巨大了。

文档更是非常清楚和详尽,从安装到代码和数据下载,到python的基本知识和调用语法到自然语言分析处理,或许是由于它原本就是为了教学的吧。我根据教程简单调用了它的几个功能(比如双语互翻、词频统计),也觉得很好用。

这让我想到另一个项目,是前不久老师让我们去了解的一个Google的项目DataWiki,是一个能够让用户自定义数据格式并上传格式化数据的平台,通过实验室同学做的那个报告,我感觉这个项目做得并不完善,许多很容易想到的功能都没有,据同学说那个项目本身就简单,就几个java文件实现的,没有什么东西。

这两个不同领域的项目相比较,从实现的全面性和功能的易用性来讲,显然前者有着明显的优势,但也并不是说后者就没有意义。我想,DataWiki的亮点,就在于它提出了用户自定义数据格式并提供了这样一个创建并上传格式化数据的平台,为格式化数据的增加提供了一种途径,而我们所能简单看到的一些功能上的缺陷只是一些用户体验和易用性上的问题,或许是几个页面几行代码就能解决的简单问题,在这一方面上的改进是永远没有尽头的也永远只是核心功能上的点缀,但是核心思想上的创新才是这一项目的存在价值。NLTK与之不同,自然语言处理这一理念已经被关注和研究多年,并且有了许多经典的理论成果和实现算法,NLTK所做的,是一个教科书式的工作,也就是将零散在各处的理念、算法整合并加以实现,它的存在价值,是全面、易用。两个项目的不同侧重点让我看到,一个项目,如果没有创新亮点,就应该尽量做到功能上的全面和易用;有了创新亮点,就应该更突出核心思想,当然一些用户体验上的功能性的东西也是要慢慢加上去的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值