读取文章数据获取停用词表
合并2018-2019 和2020-2021的两张表
去除停用词和一些数字,英文 空格
有对文章的大意重要的关键词就相关,至于取前几关键词可依次分析
最终结果如下
写的代码过于丑陋就不发完整了,以上是本人一些第一题思路,也希望大家能在泰迪杯上取得好成绩。
读取文章数据获取停用词表
合并2018-2019 和2020-2021的两张表
去除停用词和一些数字,英文 空格
有对文章的大意重要的关键词就相关,至于取前几关键词可依次分析
最终结果如下
写的代码过于丑陋就不发完整了,以上是本人一些第一题思路,也希望大家能在泰迪杯上取得好成绩。