学术前沿趋势分析Task4：论文种类分类

最新推荐文章于 2024-10-18 00:00:00 发布

木得脑袋

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量427

点赞数

分类专栏：学术前沿趋势分析文章标签： python

本文链接：https://blog.csdn.net/weixin_44182611/article/details/113005216

版权

该博客旨在通过论文标题和摘要预测其所属分类，使用arXiv数据集，并介绍了四种不同的分类方法：TF-IDF + 机器学习、FastText、WordVec + 深度学习及Bert词向量。

摘要由CSDN通过智能技术生成

论文种类分类

1. 研究目的
2. 主要内容

DataWhale数据分析打卡营
开源内容

1. 研究目的

通过论文的标题+摘要，预测论文所属分类。
论文数据来自arXiv。

在本系列第一篇博客中已经详细介绍过arXiv数据集↓

Kaggle上的一个数据集，可以理解为计算机领域论文信息库。

是一个有很多行的表，每一行代表一篇论文，记录每一篇论文的作者、标签、发表年份等信息。

2. 主要内容

代码来自Datawhale开源内容，只做了重新编排，非原创…

（1）读取数据

def readArxivFile(path, columns=['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi',
       'report-no', 'categories', 'license', 'abstract', 'versions',
       'update_date', 'authors_parsed'], count=None):
    '''
    定义读取文件的函数
        path: 文件路径
        columns: 需要选择的列
        count: 读取行数
    '''
    
    data  = []
    with open(path, 'r') as f: 
        for idx, line in enumerate(f): 
            if idx == count:
                break
                
            d = json.loads(line)
            d = {
   col : d[col] for col in columns}
            data.append(d)

    data = pd.DataFrame(data)
    return data

data = readArxivFile('arxiv-metadata-oai-snapshot.json', ['id'