初期成果总结(3月27日)

成果总结:

经过两周的项目实训准备阶段,项目团队成员通过查找资料、数据集、相关技术文献,对项目中的相关技术有所学习与认识,已经确定并学习相关算法以及技术,初步完成了项目大体框架的设计,并实现了项目中的部分核心功能。其中获取到了用于词向量权重学习的数据集,搭建了存储数据集的数据库表以及爬虫模块的架构Scrapy,完成了文本处理中关键词提取的实现。

已完成的工作内容:

  • 数据集的预处理以及数据库表的设计:
    小组找到数据集,包含应届生简历描述表、校招岗位信息表、录取情况表。首先,我们将表中的内容进行解析,在本地数据库中创建了自己的user表、jd表、action表,表中主要的列名与数据集中的字段声明一致,再将各种不同的数据形式按照合适的数据类型以及存储空间大小进行存储。其次,设计数据表索引,在user表、jd表、action表中的主键分别为user_id、jd_no、(user_id,jd_no),以主键为索引项创建InnoDB索引。最后,解析数据集文件中的数据,构造一个BufferedReader类来读取数据集的内容文件,并通过列数的判断、字段内容的对应匹配,将文件内容按照制表符的分隔解析为各项数据,再向数据库中导入数据。成功导入user表有效数据共4465行,jd表有效数据共269440行,action表有效数据共700938行。

  • 爬虫框架的搭建:
    小组成员在此阶段中学习了爬虫模块Scrapy框架的相关知识,并且在本机上搭建好了系统的爬虫架构。根据Scrapy系统架构图的七大部分,查找相关资料并进行学习总结,理解Scrapy爬虫框架的原理与使用。然后,在本机上安装Scrapy,并创建Scrapy的爬虫项目JobSpider。在创建完系统的爬虫项目之后,我们解析并学习了项目的文件结构,阅读相关框架文件的代码以及一些爬虫功能实现的样例,尝试写了一些爬虫的测试文件,结果成功地实现了爬虫框架对测试内容的爬取,完成了爬虫框架的搭建。

  • 关键词的提取:
    小组成员查找了大量与自然语言处理相关的技术资料,学习关键词提取相关的tfidf算法,根据技术资料中tfidf的处理方式,逐渐学习并运用到项目中,完成了文本处理中关键词提取的实现。首先,使用tfidf算法对词进行计算,将一段文本化为一系列的词语;其次,计算文本每个词的词频,并将词语及对应的词频存入HashMap中;然后,编写算法计算出每个词的逆文档频率;最后,将tf与idf相乘,可以得到最终的值,即获得了文本中每个词的关键词权重。在实现了tfidf算法进行文本处理中的关键词提取之后,我们将示例输入的文本内容进行解析,结果计算出各项的值,成功得到每个词在文章中的权重,达到了预期结果。

下个阶段的工作内容:

  • 在实现了数据集的预处理与关键词提取的功能之后,我们将进行数据集的文本解析,为各项数据集生成在项目中需要直接用到的数据内容。此外,我们正在查找深度学习的相关书籍以及技术文献,在数据集的处理完成之后将进行深度模型的尝试。
  • 在项目的爬虫模块中,我们将继续基于已建立的爬虫框架,实现对招聘网站中本年度校招信息的爬取,并进行解析与存储,通过多个平台的信息爬取与收集,逐步完善爬虫模块。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值