sdu2018lzq-CSDN博客

我们团队关于如何实现岗位推荐的核心算法部分，不断地通过模型的学习与比较、代码编写的尝试、运行结果的调优，在多种深度学习模型的摸索中，尝试了几类匹配推荐算法的实现方式，经历了不小的思路转变过程。最终我们的算法实现在不断地优化，实现的人岗匹配模型更精确、更贴合实际。初始思路与尝试：一开始，我们的思路是对于简历数据集和岗位数据集的文字进行自然语言处理后，取出其中的关键词，再利用action表中的两者是否投递、是否成功就职这些信息数据进行计算，计算出每个关键词的权重进行排序。但是后来我们又发现了一个实际情况中可

2021-04-21 16:34:05 1603

原创阶段性成果总结（4月14日）

成果总结：在近期的项目实训阶段中，我们小组主要完成的工作是对大量数据的处理，以及项目核心功能块所用技术的学习。通过深度学习的相关书籍以及技术文献的学习，我们已经确定好了项目中使用的深度神经网络为LSTM。此外，我们在小组会议中讨论好了项目的整体系统流程与核心功能需求，以LSTM网络所需要的结构需求，定义了数据的存储结构。在系统的爬虫模块方面，我们已经通过爬取51job网站获得了推荐集的数据，并且对已有数据完成了数据清洗以及存储格式设计的工作。对于训练集的数据，我们通过之前实现的关键词提取，完成了简历的解析

2021-04-14 21:26:05 199

原创已爬取数据的清洗与存储

4月12日实现了招聘信息的爬取功能之后，我们需要把爬取到的数据进行数据清洗与数据库存储。首先，整理获得的数据，将少数不规整的无效信息去除；其次，优化数据的表现形式，将不同格式的数据处理成统一的形式；然后，设计数据库表的存储形式，并在数据库中建立表；最后，通过scrapy框架的数据管道连接数据库，将处理好后的数据存储至数据库中。数据清洗：数据清洗指的是通过程序将数据文件中可识别的错误发现并纠正，检查数据一致性，处理无效值和缺失值，并提供数据一致性。对于此次项目中从招聘网站获取的信息，需要去除不规整的无效

2021-04-12 21:41:37 3046

原创项目中神经网络与推荐算法的学习

近期，小组成员为解决项目中的功能需求，查找了深度学习的相关书籍以及技术文献，并学习了神经网络与推荐算法的相关知识技术，为生成各个关键词对于各项职业的权重确定技术方向。神经网络：基本模块——神经元：每一个连接都有各自的权重，如何对人工神经网络的权重进行初始化是一个非常重要的话题，这将会直接影响到之后的训练过程，以及最终整个模型的性能。连接的权重通常情况下是一些随机值，可以是负值，正值，非常小，或者非常大，也可以是零。和这个神经元连接的所有神经元的值都会乘以各自对应的权重，然后再把这些值都求和。在这个

2021-04-08 12:04:47 603

原创招聘信息爬取的实现

4月1日经过了对爬虫框架各部分组件的学习与分析，我明白了爬虫框架Scrapy的使用，并进行了网站爬取的尝试，实现了招聘信息爬取的功能。爬虫文件的配置：首先，在spiders目录下创建并编写51job.py的爬虫文件，并配置基本的信息，包括爬虫文件名name、过滤爬取的域名allowed_domains、爬取的当前页号current_page、总页数max_page、起始地址start_urls。我们首先选择了51job招聘网站，先以全国范围、关键字搜索为Java、面向在校生/应届生的信息来进行岗位搜索

2021-04-01 17:38:22 565

weixin_46287795的博客

原创网站项目的搭建以及项目总结

原创系统的测试以及出现问题的解决

原创前端实现的优化以及与后端的对接

原创阶段性成果总结（5月31日）

原创行业分析功能的前后端实现

原创 Web前端视图层的设计与实现

原创阶段性成果总结（5月23日）

原创项目网站中个人工作环境的搭建

原创推荐算法的模型优化与最终实现

原创爬虫模块的优化与最终实现

原创基于数据集的匹配推荐算法实现

原创阶段性成果总结（4月29日）

原创列特征权重的生成

原创匹配推荐算法的尝试与优化

原创阶段性成果总结（4月14日）

原创已爬取数据的清洗与存储

原创项目中神经网络与推荐算法的学习

原创招聘信息爬取的实现

原创初期成果总结（3月27日）

原创爬虫架构Scrapy的构建

原创设计数据库表并导入数据集

空空如也

空空如也