《开源软件开发导论》——开源软件供应链安全风险分析实现文档-CSDN博客

本文链接：https://blog.csdn.net/weixin_47231648/article/details/128306848

文档版本变更：

版本	日期	修改记录
v0.0.1	2022/12/11	确定实现文档框架
v1.0.0	2022/12/13	完成撰写

一、整体架构

整体架构遵循了数据层-服务层-应用层的框架。

数据层

在数据获取方面，npm相关包的信息储存在CouchDB数据库中，利用python的request包来进行爬取，因为数据量较大，每次爬取消耗时间较长，因此采用Mysql数据库进行存储，并在数据清洗阶段剔除无用的数据。

服务层

后端使用flask框架来进行轻量级开发，与前端使用json格式进行数据通信，在不影响后端使用的同时尽量减轻框架本身复杂程度带来的冗杂问题。

应用层

前端使用vue框架进行搭建，ui库使用element-ui，图表库使用echarts。

二、具体实现

数据层

使用分布式爬虫框架scrapy爬取数据，定义pipeline将数据写入mysql数据库中。考虑到服务器性能设置并发爬取量为16，请求延迟为0.25s。

实际应用中发现单纯使用pymysql进行数据库操作写入速度要远低于爬取速度，容易造成管道阻塞。于是后来使用twisted异步IO框架中的adbapi建立数据库连接池，分多个线程异步写入数据。

    @classmethod
    def from_crawler(cls, crawler):
        depool = adbapi.ConnectionPool('pymysql', host=settings.MYSQL_HOST, user=settings.MYSQL_USER,
                         password=settings.MYSQL_PASS, database=settings.MYSQL_DBNAME)
        return cls(depool)
    def process_item(self, item, spider):
        query = self.depool.runInteraction(self.do_insert, item)