项目实训个人博客
文章平均质量分 77
sdu2018lzq
这个作者很懒,什么都没留下…
展开
-
系统的测试以及出现问题的解决
6月4日原创 2021-06-05 00:26:27 · 5082 阅读 · 0 评论 -
前端实现的优化以及与后端的对接
6月1日原创 2021-06-01 22:35:27 · 407 阅读 · 0 评论 -
行业分析功能的前后端实现
5月28日原创 2021-05-28 21:45:54 · 207 阅读 · 1 评论 -
Web前端视图层的设计与实现
5月24日原创 2021-05-24 20:00:15 · 1539 阅读 · 0 评论 -
项目网站中个人工作环境的搭建
5月16日原创 2021-05-16 21:51:51 · 86 阅读 · 0 评论 -
爬虫模块的优化与最终实现
5月13日原创 2021-05-13 17:03:41 · 134 阅读 · 0 评论 -
基于数据集的匹配推荐算法实现
4月30日原创 2021-04-30 22:18:13 · 1069 阅读 · 1 评论 -
列特征权重的生成
4月27日原创 2021-04-27 17:47:31 · 430 阅读 · 0 评论 -
已爬取数据的清洗与存储
4月12日实现了招聘信息的爬取功能之后,我们需要把爬取到的数据进行数据清洗与数据库存储。首先,整理获得的数据,将少数不规整的无效信息去除;其次,优化数据的表现形式,将不同格式的数据处理成统一的形式;然后,设计数据库表的存储形式,并在数据库中建立表;最后,通过scrapy框架的数据管道连接数据库,将处理好后的数据存储至数据库中。数据清洗:数据清洗指的是通过程序将数据文件中可识别的错误发现并纠正,检查数据一致性,处理无效值和缺失值,并提供数据一致性。对于此次项目中从招聘网站获取的信息,需要去除不规整的无效原创 2021-04-12 21:41:37 · 3032 阅读 · 0 评论 -
招聘信息爬取的实现
4月1日经过了对爬虫框架各部分组件的学习与分析,我明白了爬虫框架Scrapy的使用,并进行了网站爬取的尝试,实现了招聘信息爬取的功能。爬虫文件的配置:首先,在spiders目录下创建并编写51job.py的爬虫文件,并配置基本的信息,包括爬虫文件名name、过滤爬取的域名allowed_domains、爬取的当前页号current_page、总页数max_page、起始地址start_urls。我们首先选择了51job招聘网站,先以全国范围、关键字搜索为Java、面向在校生/应届生的信息来进行岗位搜索原创 2021-04-01 17:38:22 · 559 阅读 · 0 评论 -
爬虫架构Scrapy的构建
项目系统需要构建爬虫模块,使用爬虫技术从网络上获取到本年度的校招岗位信息,并作为项目中推荐系统的数据集,实现对项目结果的真实场景运用。此项目中的爬虫模块主要运用Scrapy架构,基于Python语言实现。近期我学习了Scrapy框架的相关知识,并且在本机上搭建好了系统的爬虫架构,在此有一些体会与收获。Scrapy架构的学习:系统架构图(图源:Scrapy官方文档):通过我对相关资料的搜索与总结,认识到Scrapy中7大架构的具体功能如下:Scrapy Engine引擎负责控制数据流在系统所有原创 2021-03-27 17:07:11 · 158 阅读 · 0 评论 -
设计数据库表并导入数据集
设计数据库表并导入数据集数据集的解析数据库表的设计数据内容的导入数据集作为人岗智能匹配系统进行词向量权重学习的重要依据,是项目实现可靠性、准确性较高的智能匹配推荐算法的基础。我们在项目的准备过程中通过查找相关资料,获取了由阿里巴巴官方平台提供的相关数据集,包含往年应届生简历描述、往年校招岗位信息和往年录取情况。数据集的解析获取到的数据集包含应届生简历描述表 table1_user,校招岗位信息表 table2_jd,录取情况表 table3_action。应届生简历描述表字段如下:字段原创 2021-03-27 17:03:49 · 401 阅读 · 0 评论