自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 推荐系统复习

文章目录第一讲 推荐系统一、推荐系统简介1.1 搜索与推荐1.2 推荐系统的任务二、推荐系统模型三个重要模块及使用2.1用户建模2.2. 推荐对象item的建模2.3 推荐算法三、推荐系统评测3.1 推荐系统实验方法3.2评测指标3.2.1 满意度3.2.2 预测准确度(三个角度)3.2.3 覆盖率3.2. 7. 信任度3.2.8 实时性3.2.9. 健壮性3.3评测维度**四、推荐系统的挑战**第二讲 推荐算法一、推荐系统(算法)的本质**二、**推荐算法的输入数据2.1推荐系统附加信息2.2用户行为数

2021-06-25 09:57:30 2011

原创 SDU创新实训 12.使用TextCNN对短文本进行分类(Pytorch实现)

知识问答模块,增加问题数量和种类,原先的朴素贝叶斯分类感觉效果不好,遂利用TextCNN进行深度学习训练,效果较好

2021-06-04 09:51:59 305 1

原创 SDU创新实训 11.利用TranSE算法对知识图谱实体进行embedding

利用知识图谱三元组关系将知识图谱的实体映射成了30维的向量,对实体对应向量进行余弦相似度的比较可以求出实体间的紧密联系程度。

2021-06-04 09:49:54 721

原创 SDU创新实训 10.进行图网络分析

s

2021-06-01 16:49:32 176

原创 SDU创新实训 9.创建各类文件数据汇总整理

1.图数据库插入数据小组成员马龙飞根据爬虫爬取10w条数据,我对其进行数据分析,分解成三个文件,用于图数据库数据的插入。keyword_node.csv关键词节点的属性文件author_node.csv作者节点的属性文件paper_node.csv,title,author,keyword,srcDatabase,source,download,quote,year,url文章节点的属性文件authorNet.csv作者共现网络,name,name20,闫志明,唐夏

2021-05-31 18:44:56 151

原创 surprise开源推荐系统库使用

surprise库使用这个库的安装就安装了四个小时,他会报错,说什么``Microsoft Visual C++ 14.0 is required`,找了很多资料和博客,但是那些博客的方案都没有作用,最后终于解决:直接下载Microsoft Build Tools for Visual Studio 2019.Build Tools中选择C++桌面开发,右边只选MSVC v142 和 Windows 10 SDK(前两项),即可解决surprise官方文档:https://surprise.read

2021-05-30 11:30:06 614

原创 SDU创新实训 8.对文献摘要进行命名实体识别提取关键词

2021-05-28 16:43:10 274

原创 SDU创新实训 7.利用tf-idf构建搜索引擎

继续占坑

2021-05-19 08:27:17 109

原创 SDU创新实训 6.实现中文拼音模糊匹配

占坑

2021-05-10 21:31:47 369 1

原创 SDU创新实训5. 数据库操作功能模块实现(CQL语句配合py2neo)

占个坑,暂时只完成一部分功能,最后再写上

2021-04-22 10:26:13 313

原创 SDU创新实训4 基于科研知识图谱的知识问答系统

功能实现jieba_userdict.py读取本地数据集,获取作者和关键词,存储到本地userdict.txt文件中,用于后面jieba.load_userdict("…/data/userdict.txt"),可以从问句中提取出语料库里含有的关键词和作者名字,并赋予相应的词性,用于后面的模板匹配并且防止分词出错process_question.py.py处理问题的文件主要功能:初始化相关设置:读取词汇表,训练分类器,连接数据库接收原始问题,对原始问题进行分词、词性标注等处理,对问题进行抽象

2021-04-17 16:54:15 262 2

原创 SDU创新实训 3.neo4j使用loadcsv批量插入数据及查询速率的优化更新

插入数据更新原来数据插入:对数据进行预处理,分别创建实体节点和节点的联系,使用cql语句,例:paper = Node(self.Paper, title=line[0],author=line[1],organ=line[2],keyword=line[3])self.graph.create(paper)更新:在之前的基础上,将实体节点和节点之前的联系创建csv文件,使用neo4j,load csv导入数据。查询速率优化建立模式索引需要使用Cypher语句:CREATE INDEX ON

2021-04-17 12:39:26 555

原创 山大创新实训 2[知识问答]对问题利用向量空间模型和朴素贝叶斯进行文本分类

预处理问题分类没有现成的数据集,团队成员集体构造可能出现的问题并进行人工标注类别train_corpus保存了训练集语料库,其下每一个文档都代表了一个问题分类,问题分类里txt文件保存数据集。例如:作者的作品 问题数据集中文分词 for mydir in catelist: ''' ''' class_path = corpus_path + mydir + "/" # 拼出分类子目录的路径如:train_corpus/xx/

2021-04-11 10:45:08 184

原创 SDU创新实训1.1 [知识存储]python读取excel文件并存储到neo4j数据库

大体思路对科研文献进行知识存储。数据结构如图实体节点分为四类: self.Paper = '文章' self.Author = '作者' self.Organ = '来源单位' self.Keyword = '关键词'关系分为三类:self.lists={'Author':'作者','Organ':'来源单位','Keyword':'关键词'}知识存储需要对数据进行处理,读取数据之间的关系并存入neo4j数据库分为两个功能模块:第一个模

2021-04-06 16:07:01 630 3

原创 neo4j基础知识及用python(py2neo)交互

Neo4j的数据的插入,查询操作很直观,不用再像之前要考虑各个表之间的关系。提供的图搜索和图遍历方法很方便,速度也是比较快的。但是数据插入较慢综上,Neo4j适合存储”修改较少,查询较多,没有超大节点“的图数据。适合应用于创新实训:科研知识图谱助手的知识存储部分。Neo4j基本概念Neo4j 的数据由下面几部分构成:节点边属性在Neo4j中,节点以及边都能够包含保存值的属性,此外:可以为节点设置零或多个标签每个关系都对应一种类型(例如 WROTE 或 FRIEND_OF)关系总是

2021-04-03 18:15:49 709

原创 信息检索复习笔记

信息检索复习第一讲 搜索IR(信息检索是什么样的学科):实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科为什么要进行信息检索?信息过载搜索搜索的过程从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程信息检索的本质确定文档和查询之间的相关度是IR的核心问题IR作为一门学科,是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organizatio

2020-12-17 17:14:46 61946

原创 深入理解计算机系统CSAPP复习

文章目录第一章 计算机系统漫游基本概念1.2 编译系统1.4.2 运行hello程序1.6 存储设备层次结构1.7.3 虚拟内存1.9.1 Amdahl定律第二章 信息表示和处理基本概念2.1.3 大端小端2.2 整数表示2.4 浮点数小数转二进制浮点表示第三章 程序的机器级表示数据格式通用目的寄存器操作数指示符mov栈加载有效地址一元和二元操作数移位128位算术操作条件码访问条件码跳转条件控制循环3.7 过程3.7.1 运行时栈3.7.2 转移控制3.7.3 数据传送3.7.4 栈上的局部存储3

2020-12-16 16:15:39 6357 3

原创 灭龙奥义•红莲爆炎刃

稠密子图发现算法综述研究背景理论基础图论基础知识边密度相对密度和绝对密度相似度度量模块性研究背景    图作为计算机科学中的一种数据结构,许多自然科学和社会学问题都可以抽象为图的问题,具有以往传统关系数据所不具备的优势,因此近年来在生物及社交网络等领域中大量采用图结构作为建模和表示的数据,而挖掘这种结构中的有价值数据称为图挖掘,由于知识图谱、社交网络在近年来的飞速发展,图挖掘也成为了一个重要的研究方向。在大规模的图数据中,图的密集部分往往是图数据中的重要部分,因此,发现大规模图数据中的稠密子图成为目前研

2020-11-28 15:10:18 1133

原创 计算机视觉基础知识复习

计算机视觉CV01-introduction取样和量化图像表达像素基本关系m邻接定义:CV03-image preprocessing代数运算加法:减法:逻辑运算几何运算空间变换灰度插值灰度映射基本灰度变换函数直方图修正直方图均衡化直方图规定化局部增强CV01-introduction取样和量化取样,对坐标数字化,决定像素多少量化,对幅度数字化,决定像素灰度值等级 eg:量化为256级图像有8bit灰度分辨率图像表达矢量表示 仅描述相对高级的图形结构,例如直线,圆弧,圆形等;显然,位图不适合正

2020-11-28 15:07:47 5424 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除