- 博客(21)
- 收藏
- 关注
原创 匹配推荐算法的尝试与优化
我们团队关于如何实现岗位推荐的核心算法部分,不断地通过模型的学习与比较、代码编写的尝试、运行结果的调优,在多种深度学习模型的摸索中,尝试了几类匹配推荐算法的实现方式,经历了不小的思路转变过程。最终我们的算法实现在不断地优化,实现的人岗匹配模型更精确、更贴合实际。初始思路与尝试:一开始,我们的思路是对于简历数据集和岗位数据集的文字进行自然语言处理后,取出其中的关键词,再利用action表中的两者是否投递、是否成功就职这些信息数据进行计算,计算出每个关键词的权重进行排序。但是后来我们又发现了一个实际情况中可
2021-04-21 16:34:05 1603
原创 阶段性成果总结(4月14日)
成果总结:在近期的项目实训阶段中,我们小组主要完成的工作是对大量数据的处理,以及项目核心功能块所用技术的学习。通过深度学习的相关书籍以及技术文献的学习,我们已经确定好了项目中使用的深度神经网络为LSTM。此外,我们在小组会议中讨论好了项目的整体系统流程与核心功能需求,以LSTM网络所需要的结构需求,定义了数据的存储结构。在系统的爬虫模块方面,我们已经通过爬取51job网站获得了推荐集的数据,并且对已有数据完成了数据清洗以及存储格式设计的工作。对于训练集的数据,我们通过之前实现的关键词提取,完成了简历的解析
2021-04-14 21:26:05 199
原创 已爬取数据的清洗与存储
4月12日实现了招聘信息的爬取功能之后,我们需要把爬取到的数据进行数据清洗与数据库存储。首先,整理获得的数据,将少数不规整的无效信息去除;其次,优化数据的表现形式,将不同格式的数据处理成统一的形式;然后,设计数据库表的存储形式,并在数据库中建立表;最后,通过scrapy框架的数据管道连接数据库,将处理好后的数据存储至数据库中。数据清洗:数据清洗指的是通过程序将数据文件中可识别的错误发现并纠正,检查数据一致性,处理无效值和缺失值,并提供数据一致性。对于此次项目中从招聘网站获取的信息,需要去除不规整的无效
2021-04-12 21:41:37 3046
原创 项目中神经网络与推荐算法的学习
近期,小组成员为解决项目中的功能需求,查找了深度学习的相关书籍以及技术文献,并学习了神经网络与推荐算法的相关知识技术,为生成各个关键词对于各项职业的权重确定技术方向。神经网络:基本模块——神经元:每一个连接都有各自的权重,如何对人工神经网络的权重进行初始化是一个非常重要的话题,这将会直接影响到之后的训练过程,以及最终整个模型的性能。连接的权重通常情况下是一些随机值,可以是负值,正值,非常小,或者非常大,也可以是零。和这个神经元连接的所有神经元的值都会乘以各自对应的权重,然后再把这些值都求和。在这个
2021-04-08 12:04:47 603
原创 招聘信息爬取的实现
4月1日经过了对爬虫框架各部分组件的学习与分析,我明白了爬虫框架Scrapy的使用,并进行了网站爬取的尝试,实现了招聘信息爬取的功能。爬虫文件的配置:首先,在spiders目录下创建并编写51job.py的爬虫文件,并配置基本的信息,包括爬虫文件名name、过滤爬取的域名allowed_domains、爬取的当前页号current_page、总页数max_page、起始地址start_urls。我们首先选择了51job招聘网站,先以全国范围、关键字搜索为Java、面向在校生/应届生的信息来进行岗位搜索
2021-04-01 17:38:22 565
原创 爬虫架构Scrapy的构建
项目系统需要构建爬虫模块,使用爬虫技术从网络上获取到本年度的校招岗位信息,并作为项目中推荐系统的数据集,实现对项目结果的真实场景运用。此项目中的爬虫模块主要运用Scrapy架构,基于Python语言实现。近期我学习了Scrapy框架的相关知识,并且在本机上搭建好了系统的爬虫架构,在此有一些体会与收获。Scrapy架构的学习:系统架构图(图源:Scrapy官方文档):通过我对相关资料的搜索与总结,认识到Scrapy中7大架构的具体功能如下:Scrapy Engine引擎负责控制数据流在系统所有
2021-03-27 17:07:11 164
原创 设计数据库表并导入数据集
设计数据库表并导入数据集数据集的解析数据库表的设计数据内容的导入数据集作为人岗智能匹配系统进行词向量权重学习的重要依据,是项目实现可靠性、准确性较高的智能匹配推荐算法的基础。我们在项目的准备过程中通过查找相关资料,获取了由阿里巴巴官方平台提供的相关数据集,包含往年应届生简历描述、往年校招岗位信息和往年录取情况。数据集的解析获取到的数据集包含应届生简历描述表 table1_user,校招岗位信息表 table2_jd,录取情况表 table3_action。应届生简历描述表字段如下:字段
2021-03-27 17:03:49 405
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人