阶段性成果总结（5月23日）

最新推荐文章于 2021-05-31 16:41:27 发布

sdu2018lzq

最新推荐文章于 2021-05-31 16:41:27 发布

阅读量108

点赞数

分类专栏：项目实训团队博客

本文链接：https://blog.csdn.net/weixin_46287795/article/details/117196518

版权

项目实训团队博客专栏收录该内容

8 篇文章 2 订阅

订阅专栏

5月23日

成果总结：

在此阶段的项目实训工作中，我们主要在进行项目中核心功能模块的实现。小组成员分成两个部分进行工作：一部分成员基于数据集中的内容，使用多种深度模型进行尝试，不断通过调整数据的处理方式，尝试了几类匹配推荐算法的实现方式获得模型推荐结果；另一部分成员基于实际将要运用的数据，与数据集中数据的结构对应起来，进行深度学习的处理并获得权重结果。我们通过对各个深度模型的学习、认识与比较，使用了在上个阶段设计并处理完成的数据集，进行了匹配推荐算法的尝试与优化，初步实现了针对数据集的推荐模块处理方法，并完成了各个列对于匹配推荐结果的权重生成。此外，我们设计了web项目中前端的样式，并开始进行了初步的制作。

已完成的工作内容：

推荐模型的尝试与优化：
我们尝试了决策树等机器学习模型，先对于简历数据集和岗位数据集的文字进行自然语言处理，取出其中的关键词，然后利用action表中的两者是否投递、是否成功就职这些信息数据进行计算，计算出每个关键词的权重进行排序。由于考虑到一些具体情况，发现在实际的简历与岗位匹配的实现中，通过直接使用决策树的方式在一些情况下难以给出现实中较符合常理的推荐，而贪心方法则可能导致局部最优解偏差太大，影响最后的排序及推荐。再经过各方面的研究推定，我们采用神经网络的解决方式，最后定于二分类方法。以现实情况作为辅助，将简历表、岗位表、行为表连接，只提取HR浏览过的有效数据，再从简历表和岗位表中提取各自的城市、学历、工资字段，根据我们设定的规则转换成数字，并进行相减，表示各自的偏离程度，然后计算每个简历-岗位连接关键词的总体相关程度。将提取的这四个因素作为我们的特征变量，与是否浏览、是否匹配字段一起输入到我们将要使用的二分类方法中，将推荐权重的计算过程隐藏在神经网络中，在不断调试的过程中获取到了合适的推荐模型。
列特征权重的生成：
在针对已爬取实际数据的运用方面中，需要通过数据集的学习，构建简历与岗位匹配推荐值相应的列特征权重。我们通过深度模型中数据结构的设计、数据的载入与处理，实现了各列特征权重结果的生成与排序。对于每一列的数据，需要进行初步分类的预处理，定义每个列相应的分类区间，以key-value的形式保存，并在数据载入的时候进行处理。接着，将user表、jd表、action表与训练集和测试集的对应关系载入进pandas包中相应的结构里面，统一管理多行数据，进行数据中去除停用词的处理，计算各个项中tf与idf的值。然后，提取出各个列的列名，在运行过程中标记各个列中的特征情况进行存储，用于传入至深度学习的函数中获取权重。最后，构建深度模型，传入各个列及其特征情况，调整合适的初始化参数以及隐藏层函数。经过深度学习获取到了各个列特征的权重，生成的结果与现实中实际的情况基本上相吻合。
web前端样式的设计与制作：
小组成员学习web前端的相关知识，选用一些较流行易用的前端技术与实现的框架。选取统一的界面风格，将网站中的各个模块设计出了相应的界面样式，再绘制一些需要使用到的图片，选用并记录一些动态效果的实现方式。项目注重前后端分离，在代码实现的过程中以可扩展性、可维护性为设计目标，经过排版与构图的调试，逐步搭建web项目的前端模块。

下个阶段的工作内容：

经过此阶段的代码编写与实现，我们不断尝试并优化了推荐模型与列权重生成，已经获取到了相对合适的成果。接下来在核心功能的模块中，仍然需要进行实际运用的数据与数据集中数据的结合。我们将再次通过数据的处理，结合已完成的功能模块，完善整个对于现爬取的实际数据集的匹配推荐算法，实现对输入简历的岗位推荐功能。
我们将继续完善web项目前端模块的构建，并开始定义网站系统中的各个功能模块，确定后端的各类需求，设计项目中的数据库表、实体类、数据接口、业务逻辑处理方案。针对后端需求的定义，实现在网站系统中数据的处理，再结合项目中实现的核心功能，逐步搭建网站的服务器端。