数据处理
文章平均质量分 75
whuslei
这个作者很懒,什么都没留下…
展开
-
DBLP数据结构浅析(一)
除标签外的一级标签有: article inproceedings proceedings book incollection phdthesis mastersthesis www 一般分类如下: “phd”: phdthesis eg. . "phd/Mumick91" “ms”: mastersthesis eg.. "ms/Vollmer2006" “www”: www e原创 2011-03-18 23:40:00 · 4563 阅读 · 0 评论 -
DBLP数据构成浅析(二)
五、incolletion 有两种形式 01、 或者 02、 一般incollection这种paper是放在book(书)里面的。两种形式的区别是: 01这种,是放在journal下,如果想找到包含该paper的书,则优先选择中的内容来进行寻找。而02这种,没有提供对book的链接,因此只能依据来引用。 存在的关系: Author---->write)------Book Paper(incollection)--------查找的。也就是说解析book时需要保存中的内容(如果有的话),原创 2011-03-18 23:50:00 · 5612 阅读 · 4 评论 -
DBLP中各类关系的UML图
改进后: 最后改进为:原创 2011-03-18 23:56:00 · 1825 阅读 · 2 评论 -
英文分词算法(Porter stemmer)
题记最近需要对英文进行分词处理,希望能够实现还原英文单词原型,比如 boys 变为 boy 等。简介发现一个不错的工具Porter stemmer,主页是http://tartarus.org/~martin/PorterStemmer/。它被实现为N多版本,C、Java、Perl等。下面是它的简单介绍:Stemming, in the parlance of se原创 2012-03-27 13:15:52 · 42295 阅读 · 8 评论 -
dblp数据源中的crossref标签
dblp中有个标签叫"crossref"。它代表一种链接关系,具体表现为"一篇paper属于哪个journal/conf,或者说通过crossref标签内的值可以找到它对应的journal/conf"。 在inproceedings和article中,有的地方有"crossref"标签,而有的地方却没有!why?我试图来回答这个问题。 在此之前,key值的含义没有完全挖掘,原创 2011-03-25 09:49:00 · 3411 阅读 · 0 评论