开源实践第 3 次作业:提出你的开源实践项目计划

作业和课程的关系

https://bbs.csdn.net/topics/608463896

一、项目题目

Project 4-1: 开源项目数据爬虫
前端仓库地址
后端仓库地址
暂时还没有开始进行开发,因此项目仓库为空

二、项目组成员

杨逸卓 20373419
王景伟 20373409
陈锦豪 20373406

三、项目任务

从GitHub上爬取指定项目的开源数据,包括代码库、issue、Pull request等信息,实现按项目名称、主要语言为关键词的存储和检索,能够实现增量式爬取,并完成20个100 星以上的开源项目数据的自动爬取。

四、初步方案

4.1 后端方案

项目后端使用django进行主要框架开发,选择mysql作为数据库。django框架遵循MVC设计模式,能够简便、快速的开发数据库驱动的网站。mysql是目前最主流的数据库之一,体积小、速度快,能够很好的满足本项目的数据需求。

4.1.1 数据爬取

在github等网站,前端页面通过请求发送到后端所在服务器并得到返回结果,进行相应展示,数据爬取就是模拟这样一个过程,爬取向后端所在服务器发送与前端相同的一个请求,这样就能够得到数据库中存储的数据,对得到的数据进行解析,就能够获得网页内的信息。

4.1.2 数据存储

我们选择使用mysql数据库存储爬取得到的相关信息,该数据库体积小速度快,并支持一系列数据库相关操作。能够稳定存储爬取得到的信息。

4.1.3 数据分类

对于数据不完整或开源成果过少的相应数据进行清洗,并根据项目类型、主要语言等指标对数据库中存储的数据进行分类以便后续分析与检索。

4.1.4 数据检索

为前端提供项目名称、主要语言等检索与筛选接口,实现数据可视化。

4.2 前端方案

项目前端使用vue框架进行页面的搭建与开发。vue框架遵循MVVM设计模式,具有易用、高效、良好的特点,且vue框架能够很好地与django框架兼容,实现前后端接口的交互。

4.2.1 数据检索

前端提供数据检索接口,项目用户可通过项目名称关键词检索项目,并可以选择项目主要语言来筛选项目。

4.2.2 数据展示

检索项目后,前端会展示符合条件的项目列表,点击项目可查看具体的信息,包括代码库信息,issue信息,pull request信息,Contributors信息。

4.2.3 数据下载

项目具体信息界面提供代码库下载接口,可下载整个项目的代码到本地。

4.3 开源管理

项目开发全过程基于GitHub平台完成,通过git管理项目,根据issue、pull request反馈调整完善项目。

五、任务分工

后端开发人员:杨逸卓,陈锦豪。
前端开发人员:王景伟。
测试人员:杨逸卓,陈锦豪,王景伟。

六、时间规划

6.1 初期规划

10.30 - 11.5:项目初期准备,了解爬虫技术、数据存储与检索相关技术栈。

6.2 中期规划

11.6 - 11.30:完成项目基本功能编写,前后端同步开发,后端实现爬取数据并存储到本地,前端提供接口实现对数据的检索。完成项目初步测试。

6.3 项目拓展

12.1 - 12. 7:根据开源社区的反馈对项目内容进行完善,完成文档编写等工作,将项目进行部署。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值