阶段性成果总结(4月14日)

成果总结:

在近期的项目实训阶段中,我们小组主要完成的工作是对大量数据的处理,以及项目核心功能块所用技术的学习。通过深度学习的相关书籍以及技术文献的学习,我们已经确定好了项目中使用的深度神经网络模型。此外,我们在小组会议中讨论好了项目的整体系统流程与核心功能需求,以神经网络模型所需要的结构需求,定义了数据的存储结构。在系统的爬虫模块方面,我们已经通过爬取51job网站获得了推荐集的数据,并且对已有数据完成了数据清洗以及存储格式设计的工作。对于训练集的数据,我们根据之前实现的关键词提取,完成了简历的解析功能,并进行了更深一步的数据处理,根据神经网络模型所需要的结构需求,将各项数据整理成在项目中需要直接用到的内容。

已完成的工作内容:

  • 爬虫模块中完整数据集的获取:
    根据Scrapy框架的配置与爬虫文件的编写,进行了51job招聘网站的爬取,实现了招聘信息爬取的功能。我们通过解析目标网页的内容,确定好需要获取的字段,定义了结构化数据字段。然后深入解析网页源代码,使用Scrapy css选择器的方式提取网页代码中的各项数据,完成对网页数据的解析与提取。最后,使用scrapy.http中的Request函数进行http请求的调用,根据网页的整体规律进行一级网页的循环调用,并编写提取二级网页信息的函数并通过一级网页进行调用,实现多个页面数据的循环获取。通过爬取功能的实现,我们从单一类型的岗位信息、大致地区范围的数据获取,到涵盖各类的岗位信息、以具体地区范围的数据获取,但岗位信息都是面向在校生/应届生,最终完成了爬虫模块获取岗位推荐集的任务。

  • 推荐集数据的清洗与存储:
    实现了招聘信息的爬取功能之后,我们需要把爬取到的推荐集数据进行数据清洗与数据库存储。首先,整理获得的数据,通过在存储数据之前进行的判断,确定数据的有效项目数是否齐全,跳过无效或是错误数据的存储;其次,分析各个网页中数据的表现形式,对每一列数据所呈现的信息进行优化处理,将不同格式的数据处理成统一的形式,保证数据的一致性;然后,设计数据库表的存储形式,根据相应字段在数据库中创建数据库表;最后,通过Scrapy框架的数据管道连接数据库,在通过数据有效性的判断之后,再调用存储语句,将处理好后的数据存储至数据库中。通过对推荐集数据的清洗与存储,去除了不规整的无效信息,并为各项数据提供更好的表现形式,供推荐系统完成更高效的比较与筛选的调用。

  • 简历解析的实现:
    根据之前实现的TFIDF算法,我们完成了简历的解析功能,对于一份输入的简历,可以将简历中的各项基本信息解析成格式化的数据,重点在于处理简历的个人性格部分和个人技能部分。首先,预设一个较为规范的简历文件,我们选用了拉钩招聘网的一份模拟简历,判断简历的文件格式,根据不同的格式进行不同的转换方式,最终整理成String类型的数据;其次,读取简历的关键信息,并进行分类;最后,调用TFIDF算法,处理个人性格和技能部分的代表性权重TFIDF,将结果整理并输出。通过简历的解析以及初步的信息处理,我们能够比较准确地解析一份简历并计算重点部分的关键词权重,为后续完善简历结构灵活性的适配工作和对提取准确度的提高工作提供了作为分析与优化的基础。

  • 技术的确定与数据存储格式的定义:
    在这个阶段中,我们学习了一些深度神经网络模型,通过不同网络结构的分析和对项目中具体情况的结合思考,我们确定了在项目中可以有效使用的合适模型。小组成员通过会议,讨论了项目的整体系统流程与核心功能需求,根据该功能模块在系统中所承担的任务以及模型的处理方式,分析出模型中需要的输入与输出。以具体输入与输出所需要的结构需求,定义了数据的存储结构,将训练集的数据进行了更深一步的处理,整理成在模型中需要直接用到的内容,为下一步生成较合适的各个关键词对于各项职业的权重提供了直接的数据。

下个阶段的工作内容:

  • 在充分学习了项目核心功能块的知识、处理好了深度模型需要直接使用的数据之后,下个阶段我们将进行项目中核心功能模块的实现,即生成较合适的各个关键词对于各项职业的权重。我们将试着通过深度模型编写代码实现,获得初步的权重结果,然后需要通过对结果的分析,不断地优化模型的实现方式,提高匹配的准确度。
  • 在web项目的模块构建中,我们将开始设计前端的样式,进行代码的实现。同时,我们需要学习爬虫服务器的搭建方式,实现定期自动将获取到的数据存储至数据库的功能,完成推荐集的按时更新。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值