封闭开发工作计划
目前要做的工作大概分成以下几个部分:
1. 目前我们的图系统在效率方面已经做到同类中的最好,但是它只是一个图系统,需要用户熟悉相关知识来自己编写代码实现想要的功能(以点为中心的编程模型),而到这里之后才了解到这里的需求,可能要把它改成图数据库,支持增删改查的功能,比较侧重的是查询,鉴于实验室之前的积累,现在比较明确的就是对于查询方面,在该系统上之前有实现过RDF查询(Sparql查询),由于之前没有接触过类似的知识,而且我们的系统是由学姐在Giraph的基础上做了很大的改动所做出来的,所以我会在短时间内补充相关的基础知识,并且拓展系统实现Sparql查询的一些功能,至于增删改的功能,可能要看Sparql所完成的情况来定
2. 第二个要做的工作是代码对接,对于这方面我所知道和了解的信息并不是很多,只是大概知道要更新升级对应的Hadoop版本,这个也是一点经验都没有,而且之前问过实验室的师姐(已经毕业工作了,所以以后不是很方便一直打扰她)她也不是很了解,目前我们的系统可以支持的Hadoop版本大概有下面几个:
Hadoop 1.0.2
Hadoop 0.23.1
Hadoop 3.0.0-SNAPSHOT
Hadoop 0.20.1, 0.20.2, 0.20.3
来到这里之后听说有很多学长学姐和老师对Hadoop比较熟悉,希望能够给我一些帮助,以及要处理的数据结构BOM我也不太熟悉,有待于进一步了解才方便处理,最坏的情况是自己写个代码把BOM处理成我所需要的格式,关于代码对接目前所能想到的大概就是这么多
3. 代码测试,之前跟人大的同学联系过,他们这次没有过来会测试图的同学,与人大的老师也沟通过,人大的老师表示会和我们高老师进行相关的沟通,目前还没有收到相关的回复。
4. 关于数据,这个是在后期想做的事情,之前我们的系统跑过很多大图,不过工业相关的数据没有在上面测试过,其实很想测试一下,看看效果如何,此外现在很缺少平台(之前的集群现在不能用了,我进组后也从来没有在集群上测试过),希望如果有机会可以在这里测试一下,这样一些数据分析,测试的工作可以由我来完成,最后如果人大抽不出相关人手的话,可以把测试结果给他们,让他们整理一下就好了
任务安排:
第一周,了解RDF查询,熟悉系统关于该部分的相关代码,测试完善之前所写的相关代码SPARQL查询,这部分其实工作量很大,因为相关部分的代码比较多,而且没有注释较难理解,而且为了提高速度,SPARQL查询的实现方式与正常的操作不同,是实验室之前所提出的一个图上游走的算法的改动(我还没有看过该论文)
第二周,第一周的工作难度比较大,可以视情况放到第二周一部分,之后,改写完善关于查询功能的代码,了解如何升级对应的Hadoop的版本,完成关于对接代码工作的调研和设计
第三周,开始进行代码对接工作,并且测试不同格式的工业数据??
第四周,查缺补漏,工作总结,完成相应文档和说明,在自己的能力范围内给出测评报告。