SDU创新实训 9.创建各类文件数据汇总整理

最新推荐文章于 2024-05-31 11:17:04 发布

sssssssssad

最新推荐文章于 2024-05-31 11:17:04 发布

阅读量151

点赞数

分类专栏：创新实训

本文链接：https://blog.csdn.net/weixin_43756517/article/details/117424769

版权

13 篇文章 2 订阅

订阅专栏

小组成员马龙飞根据爬虫爬取10w条数据，我对其进行数据分析，分解成三个文件，用于图数据库数据的插入。

关键词节点的属性文件

作者节点的属性文件

,title,author,keyword,srcDatabase,source,download,quote,year,url

文章节点的属性文件

作者共现网络

,name,name2
0,闫志明,唐夏夏
1,闫志明,秦旋

,name,name2
0,人工智能,产业结构转型
1,人工智能,劳动收入份额

文章与作者的关系

文章与关键词关系

,name,relation,name2
0,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,人工智能
1,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,产业结构转型
2,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,劳动收入份额

问答分类模板

1:nnt 作者作品
2:nnt 关键词找文章

问答问题库训练集

用于词性标注，命名实体识别

工程训练中心 15 ngg
pan-sharpening 15 ngg
四面体坐标系 15 ngg
视频营销 15 ngg

三个全都是用来构建搜索引擎，分别是

  inverted = {}  # 记录词所在文档及词频
    idf = {}  # 词的逆文档频率
    id_doc = {}  # 文档与词的对应关系py

朴素贝叶斯分类器模型

TF-IDF模型

关注

专栏目录