1.图数据库插入数据
小组成员马龙飞根据爬虫爬取10w条数据,我对其进行数据分析,分解成三个文件,用于图数据库数据的插入。
- keyword_node.csv
关键词节点的属性文件
- author_node.csv
作者节点的属性文件
- paper_node.csv
,title,author,keyword,srcDatabase,source,download,quote,year,url
文章节点的属性文件
- authorNet.csv
作者共现网络
,name,name2
0,闫志明,唐夏夏
1,闫志明,秦旋
-
keywordNet.csv
关键词共现网络
,name,name2
0,人工智能,产业结构转型
1,人工智能,劳动收入份额
- paper_author_relation.csv
文章与作者的关系
- paper_keyword_relation.csv
文章与关键词关系
,name,relation,name2
0,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,人工智能
1,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,产业结构转型
2,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,劳动收入份额
2.知识问答文件
- question_classification.txt
问答分类模板
1:nnt 作者作品
2:nnt 关键词找文章
- label.txt
问答问题库训练集
3.项目自定义字典
用于词性标注,命名实体识别
- userdict.txt
工程训练中心 15 ngg
pan-sharpening 15 ngg
四面体坐标系 15 ngg
视频营销 15 ngg
4.训练模型
- id_doc.json
- idf.json
- inverted.json
三个全都是用来构建搜索引擎,分别是
inverted = {} # 记录词所在文档及词频
idf = {} # 词的逆文档频率
id_doc = {} # 文档与词的对应关系py
- clf.pickle
朴素贝叶斯分类器模型
- tv.pickle
TF-IDF模型