《开源软件开发导论》——开源软件供应链安全风险分析实现文档

文档版本变更:

版本日期修改记录
v0.0.12022/12/11确定实现文档框架
v1.0.02022/12/13完成撰写

一、整体架构

整体架构遵循了数据层-服务层-应用层的框架。

数据层

在数据获取方面,npm相关包的信息储存在CouchDB数据库中,利用python的request包来进行爬取,因为数据量较大,每次爬取消耗时间较长,因此采用Mysql数据库进行存储,并在数据清洗阶段剔除无用的数据。

服务层

后端使用flask框架来进行轻量级开发,与前端使用json格式进行数据通信,在不影响后端使用的同时尽量减轻框架本身复杂程度带来的冗杂问题。

应用层

前端使用vue框架进行搭建,ui库使用element-ui,图表库使用echarts。

二、具体实现

数据层

使用分布式爬虫框架scrapy爬取数据,定义pipeline将数据写入mysql数据库中。考虑到服务器性能设置并发爬取量为16,请求延迟为0.25s。

实际应用中发现单纯使用pymysql进行数据库操作写入速度要远低于爬取速度,容易造成管道阻塞。于是后来使用twisted异步IO框架中的adbapi建立数据库连接池,分多个线程异步写入数据。

    @classmethod
    def from_crawler(cls, crawler):
        depool = adbapi.ConnectionPool('pymysql', host=settings.MYSQL_HOST, user=settings.MYSQL_USER,
                         password=settings.MYSQL_PASS, database=settings.MYSQL_DBNAME)
        return cls(depool)
    def process_item(self, item, spider):
        query = self.depool.runInteraction(self.do_insert, item)

同时开启scrapy的AUTOTHROTTLE_ENABLED限制爬取速度,避免pipeline堵塞占用内存导致程序崩溃。

服务层

本系统的后端基本只涉及数据的查询以及前后端交互,不需要很多复杂的功能,因此我们选择了flask框架来提高开发效率。和django相比,flask只需要定义一个app就可以开始实现接口。

实际开发中遇到的问题主要在于flask中的数据库操作插件sqlalchemy的查询效率较低,而且数据库中的数据量又很大。考虑到本项目的后端没有对数据库的增删改操作,我们将计算结果缓存到服务器上,对于部分计算量较大的请求,每次读取的实际上是缓存中的数据而非真正操作数据库。

应用层

本项目前端的技术栈为vue+elementui+echarts,遵循组件化开发的原则,在App.vue中完成主页面的布局,然后分别实现软件包基本信息、软件包风险信息、维护者信息和图表四个组件,并尽量保证图表组件的可复用性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值