创新实训
文章平均质量分 55
sssssssssad
这个作者很懒,什么都没留下…
展开
-
SDU创新实训 12.使用TextCNN对短文本进行分类(Pytorch实现)
知识问答模块,增加问题数量和种类,原先的朴素贝叶斯分类感觉效果不好,遂利用TextCNN进行深度学习训练,效果较好原创 2021-06-04 09:51:59 · 302 阅读 · 1 评论 -
SDU创新实训 11.利用TranSE算法对知识图谱实体进行embedding
利用知识图谱三元组关系将知识图谱的实体映射成了30维的向量,对实体对应向量进行余弦相似度的比较可以求出实体间的紧密联系程度。原创 2021-06-04 09:49:54 · 709 阅读 · 0 评论 -
SDU创新实训 10.进行图网络分析
s原创 2021-06-01 16:49:32 · 173 阅读 · 0 评论 -
SDU创新实训 9.创建各类文件数据汇总整理
1.图数据库插入数据小组成员马龙飞根据爬虫爬取10w条数据,我对其进行数据分析,分解成三个文件,用于图数据库数据的插入。keyword_node.csv关键词节点的属性文件author_node.csv作者节点的属性文件paper_node.csv,title,author,keyword,srcDatabase,source,download,quote,year,url文章节点的属性文件authorNet.csv作者共现网络,name,name20,闫志明,唐夏原创 2021-05-31 18:44:56 · 146 阅读 · 0 评论 -
SDU创新实训 8.对文献摘要进行命名实体识别提取关键词
是原创 2021-05-28 16:43:10 · 271 阅读 · 0 评论 -
SDU创新实训 7.利用tf-idf构建搜索引擎
继续占坑原创 2021-05-19 08:27:17 · 108 阅读 · 0 评论 -
SDU创新实训 6.实现中文拼音模糊匹配
占坑原创 2021-05-10 21:31:47 · 364 阅读 · 1 评论 -
SDU创新实训5. 数据库操作功能模块实现(CQL语句配合py2neo)
占个坑,暂时只完成一部分功能,最后再写上原创 2021-04-22 10:26:13 · 309 阅读 · 0 评论 -
SDU创新实训4 基于科研知识图谱的知识问答系统
功能实现jieba_userdict.py读取本地数据集,获取作者和关键词,存储到本地userdict.txt文件中,用于后面jieba.load_userdict("…/data/userdict.txt"),可以从问句中提取出语料库里含有的关键词和作者名字,并赋予相应的词性,用于后面的模板匹配并且防止分词出错process_question.py.py处理问题的文件主要功能:初始化相关设置:读取词汇表,训练分类器,连接数据库接收原始问题,对原始问题进行分词、词性标注等处理,对问题进行抽象原创 2021-04-17 16:54:15 · 256 阅读 · 2 评论 -
SDU创新实训 3.neo4j使用loadcsv批量插入数据及查询速率的优化更新
插入数据更新原来数据插入:对数据进行预处理,分别创建实体节点和节点的联系,使用cql语句,例:paper = Node(self.Paper, title=line[0],author=line[1],organ=line[2],keyword=line[3])self.graph.create(paper)更新:在之前的基础上,将实体节点和节点之前的联系创建csv文件,使用neo4j,load csv导入数据。查询速率优化建立模式索引需要使用Cypher语句:CREATE INDEX ON原创 2021-04-17 12:39:26 · 552 阅读 · 0 评论 -
山大创新实训 2[知识问答]对问题利用向量空间模型和朴素贝叶斯进行文本分类
预处理问题分类没有现成的数据集,团队成员集体构造可能出现的问题并进行人工标注类别train_corpus保存了训练集语料库,其下每一个文档都代表了一个问题分类,问题分类里txt文件保存数据集。例如:作者的作品 问题数据集中文分词 for mydir in catelist: ''' ''' class_path = corpus_path + mydir + "/" # 拼出分类子目录的路径如:train_corpus/xx/原创 2021-04-11 10:45:08 · 182 阅读 · 0 评论 -
SDU创新实训1.1 [知识存储]python读取excel文件并存储到neo4j数据库
大体思路对科研文献进行知识存储。数据结构如图实体节点分为四类: self.Paper = '文章' self.Author = '作者' self.Organ = '来源单位' self.Keyword = '关键词'关系分为三类:self.lists={'Author':'作者','Organ':'来源单位','Keyword':'关键词'}知识存储需要对数据进行处理,读取数据之间的关系并存入neo4j数据库分为两个功能模块:第一个模原创 2021-04-06 16:07:01 · 620 阅读 · 3 评论 -
neo4j基础知识及用python(py2neo)交互
Neo4j的数据的插入,查询操作很直观,不用再像之前要考虑各个表之间的关系。提供的图搜索和图遍历方法很方便,速度也是比较快的。但是数据插入较慢综上,Neo4j适合存储”修改较少,查询较多,没有超大节点“的图数据。适合应用于创新实训:科研知识图谱助手的知识存储部分。Neo4j基本概念Neo4j 的数据由下面几部分构成:节点边属性在Neo4j中,节点以及边都能够包含保存值的属性,此外:可以为节点设置零或多个标签每个关系都对应一种类型(例如 WROTE 或 FRIEND_OF)关系总是原创 2021-04-03 18:15:49 · 692 阅读 · 0 评论