项目实训工作记录(一)赵乐乐 201800301115
基于关键词的语义泛化系统
项目分工
项目小组共11人,按照系统功能要求分为三个小组
- 关键词提取系统 ,给定一些文档,比如医疗、税务等的问答对数据,设计一种算法能自动挖掘并提取出给定文档中所包含的关键词。同时需要保证提取出的关键词意义明确;
- 关键词语义泛化系统 ,给定一些关键词,设计一种算法可以自动批量生成同义词。要求同义词意义明确,且确实与关键词意思一致;
- 语义泛化服务 ,搭建服务,完成接收关键词,调用关键词语义泛化系统形成的函数接口或者类,形成同义词,然后返回;
基于对算法以及机器学习等领域的兴趣,以及确实在之前的方向限选中通过学习积累了算法和机器学习的相关知识,并做了一些课设实验,我在本次分工中选择了关键词语义泛化系统,希望能够在实践工作中体会实际生产过程中项目的进行情况以及实践学到的知识,积累项目经验。
需求分析——项目要求
查找、计算关键词的同义词。要求:
1)最基础的利用腾讯800万词向量计算同义词,最好再实现至少其他一种方法。
2)小组输出:将该模块功能封装为一个函数。输入:关键词,输出:同义词
环境准备与搭建
- Python语言环境搭建 ,建立编程环境
- Github仓库建立,建立小组代码共同开发环境
- 数据库建立 ,建立词向量数据库
词向量的学习与下载
-
词向量概念的学习
链接:link -
腾讯800万词向量的下载