第一次个人编程作业

这个作业属于哪个课程https://bbs.csdn.net/forums/qq_40085543
这个作业要求https://bbs.csdn.net/topics/613858565
这个作业的目标1.学习PSP表格的制作
2.编码完成论文查重算法的需求
3.学习对工程文件的性能分析、内存分析、单元测试
参考

jieba分词-强大的Python 中文分词库 - 知乎

TF-IDF与余弦相似性的应用(二):找出相似文章 - 阮一峰的网络日志


Python+gensim-文本相似度分析(小白进)_小基基o_O的博客-CSDN博客

仓库楓124 / 3121005274 · GitCode

目录

PSP表格

设计与实现过程

模块接口部分的性能改进

 模块部分异常处理说明

 模块部分单元测试展示

代码覆盖率


PSP表格

Personal Software Process Stages预计耗时(分钟)实际耗时(分钟)
计划6060
估计这个任务需要多少时间6030
开发1200600
需求分析 (包括学习新技术)300100
生成设计文档6060
设计复审4040
代码规范 (为目前的开发制定合适的规范)4040
具体设计6040
具体编码300400
代码复审4020
测试(自我测试,修改代码,提交修改)100100
报告3030
计算工作量3010
事后总结, 并提出过程改进计划4040
合计

2360

1570

设计与实现过程

jieba接口,re库的正则表达式

# 获取原文件的内容并转为字符串  def get_content(path):

逐行读取原文件的内容并转化成字符串
# 将读取的文件先进行jieba分词,再将标点符号等特殊字符过滤  def filter(str):

通过正则表达式获得文字,减少了处理特殊字符等不必要的麻烦
# 传入过滤之后的数据,通过调用gensim.similarities.Similarity计算余弦相似度  def calc_similarity(text1,text2):

模块接口部分的性能改进

通过python自带的函数进行性能分析,消耗最大的为:def calc_similarity(text1,text2)模块

 

 模块部分异常处理说明

针对路径输入错误,不存在的情况强行终止程序

 模块部分单元测试展示

 这里需要用到python的unittest单元测试框架

新建单元测试文件unit_test.py:

代码覆盖率

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值