自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 暑期实训过程记录(12)

有关小组需求变动   经过和其他小组讨论,对有关使用场景(即输入数据)进行改动,模拟用户使用场景是用户对程序输入文本或者文件,自行选择或者默认选择算法。所以对算法进行改动,加入识别输入是文件还是文本,且对小组实现的所有关键词提取算法进行整合,用以用户使用 ...

2021-07-29 16:45:31 53

原创 暑期实训过程记录(11)

前期遇到的问题记录   前期使用python遇到的最大问题其实是数据类型问题,由于python定义变量都是缺省只定义变量名,所以在前期就遇到过这样的bug。即,算法前期处理后的数据一般都用字典类型存放,由于需要保存就会发现写入和读出时会出现问题,这个问题就是因为字典类型写入文件会自动给数据加上引号作为str类型,而读出也是按照str类型读出,这个问题其实很好解决就是使用eval()函数。 ...

2021-07-29 16:18:53 42

原创 暑期实训过程记录(10)

#具体内容正在总结稍后补充

2021-07-25 20:50:22 106

原创 暑期实训过程记录(9)

有关算法数据处理 具体算法等后续总结后补充

2021-07-18 21:22:04 70

原创 暑期实训过程记录(8)

有关分词问题   在算法我之前用的分词手段是HanLP.newSegment(“perceptron”).seg(sentence),但是对于文本的分词效果不太好,所以还是用了比较熟悉的jieba分词,我用的是结巴的lcut方法,分词效果挺满意 ...

2021-07-09 15:54:51 55

原创 暑期实训过程记录(7)

有关前期准备遇到的问题   算法使用了gensim来训练模型,但是在导入时一直报没有c++14,经过查询发现他有c++代码,必须要有c++基本处理工具,这个问题是在通过visual studio下载c++模块才解决   导入问题还发生在转移代码中,在我们组在将代码整合时,一直报科学计算库的问题,但是重装也没解决,这个问题与第三方库版本问题有关 ...

2021-07-09 09:58:06 56

原创 项目实训过程记录(6)

有关程序效率问题   之前运行程序时,发现程序运行过于缓慢,跑了2个小时都没有结果,之后对代码进行分析,发现是代码设计时的问题,之前为了规范,将每个功能都封装为函数,其中有一个功能是获得停用词表,用于后面剔除,因为涉及到打开文件操作,所以防止内存泄露每次对文件操作都涉及关闭,但是在文本处理的函数中,我写的代码是循环的对文本以行位单位进行分词和剔除并形成列表,就造成了文本处理阶段,无用操作冗余,这也是造成代码运行缓慢的最大原因,所以对代码进行改进,将上述两个函数整合,并减少对文件的操作,这

2021-07-07 10:27:27 120

原创 暑期实训过程记录(5)

遇到的问题   LDA主题模型代码基本实现,代码实现时候会总结发布在后续博客上。不过在进行测试的时候发现遇到了很多问题,诸如对文本的洗词操作过于耗时,这个问题的原因是提供的语料库过于‘片段’,为了提高效率,牺牲了一点了正确率。对语料库进行合并,之后再进行洗词。   还有一个问题是对文本切片‘正确率’不够高,之后代码的改进集中在对文本的切片方式上的选择 ...

2021-07-03 20:34:04 43

原创 暑期实训过程记录-LDA算法学习(4)

LDA算法的学习LDA算法的基本思想 LDA算法的基本思想

2021-07-02 15:38:33 104

原创 暑期实训过程记录(1-3)

项目简介     人工智能技术研究中,人机交互系统是服务机器人、虚拟人等终端设备的关键系统,它需要对用户输入的问题进行解析理解,然后匹配到知识库中的某个答案,整个交互过程是否流畅、回答是否准确直接影响到用户的体验。而基于关键词的语义泛化系统就是用户问题解析理解的一种技术,十分重要。 在这个系统中,主要包括提取关键词、关键词语义泛化、语义泛化过程服务化三个部分。通过这个系统,可以大大较小人工进行泛化的工作,提高效率。 项目分组与分工     我分为了关键词提取小组,具体

2021-07-02 14:50:59 85

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除