PKUMOD-CSDN博客

原创图谱动态240709

不幸的是，现有解决方案未能满足这些要求。作者的广泛实证评估表明，在类似TPC-DS的查询上，GEqO带来了显著的性能提升——比自动验证器快多达200倍，并且发现的等价性比优化器和基于签名的等价性方法多出2倍。本周推荐的SIGMOD 2024上的论文：GEqO: ML-Accelerated Semantic Equivalence Detection，该文提出了一个名为GEqO的基于机器学习的框架，能够在大规模分析引擎中高效检测语义等价计算，从而提高集群资源利用率和减少作业执行时间。

2024-07-11 15:51:23 523

原创喜报 | 邹磊老师指导博士生苟向阳入选首届 “中国计算机学会数据库专委会优秀博士学位论文激励计划”

中国计算机学会数据库专委会优秀博士学位论文激励计划” 由中国计算机学会数据库专委会按照《中国计算机学会数据库专委会优秀博士学位论文激励计划遴选办法》的文件要求启动和评选，目的在于积极贯彻落实国家科技强国、人才强国战略，发挥中国计算机学会数据库专委会在发现人才、培养人才、举荐人才方面的作用，推动计算机数据库领域的技术进步与创新。该论文从图流的近似存储算法入手，首先研究了支持简单的数据项查询的数据流摘要算法，之后又进一步研究了支持复杂的图结构查询的图流摘要算法。本篇论文围绕图流近似处理展开研究。

2024-07-11 15:48:27 326

原创欢迎报名 | CCKS-IJCKG 2024 技术评测任务六“基于图数据库的自定义图分析算法评测”

知识图谱本质是基于图的语义网络，而图数据库又是以图模式存储管理数据，因此图数据库用于存储知识图谱数据具有得天独厚的优势。通过在知识图谱上进行查询、分析、推理是实现知识图谱应用的关键核心技术，而反映到图数据库上则是基于图数据库上的图查询与图分析。BFS和DFS是图数据库最核心的算法之一，基于此之上，众多学者针对不同需求设计了衍一系列的图查询与图分析算法，如Jaccard相似度算法、Louvain算法、直径估计算法等，且设计了不同变种算法。

2024-07-11 15:44:54 1009

原创论文导读 | knowledge-based VQA

传统的视觉问答（Visual Question Answering, VQA）基准测试主要集中在简单计数、视觉属性和物体检测等问题上，这些问题不需要超出图像内容的推理或知识。然而，在knowledge-based VQA中，仅靠图像无法回答给定的问题，还需要有效利用外部知识资源。经典的知识基础VQA数据集包括OK-VQA和A-OKVQA。OK-VQA包含约14K个样本，分为9K/5K用于训练和测试，涵盖以下类别：车辆和交通；品牌、公司和产品；物品、材料和服装；体育和娱乐；烹饪和食品；

2024-07-04 16:28:27 821

原创 PKUMOD同学又双叒获奖啦~

李彦增，北京大学智能学院2021级博士研究生，师从王选计算机研究所邹磊教授，主要研究方向包括知识图谱构建管理及应用等，在ACL、NAACL、CIKM、ISWC等国际会议发表论文20余篇，曾获IEEE DSC Best Paper Runner Up Award等奖励，常年担任ACL、EMNLP、NAACL、AAAI、MM、TKDE等会议期刊的程序委员会成员或期刊审稿人，作为主要参与人员或参与人员参与及完成国重研、国自然及企业合作等10余项重要科研任务。期待他们在未来的科研道路上。凭借在各自领域的卓越表现。

2024-07-04 16:26:59 351

原创论文导读 | 独立路径多查询问题

独立路径：两条简单路径，如果除了端点外没有相同的顶点，则称这两条路径相互独立。k条路径两两相互独立则称这k条路径是k条独立路径。如图所示，红色和蓝色的两条路径是a和h之间的两条独立路径。k独立路径单查询：该问题有广泛的应用：网络安全。在网络流量中，机密信息通过路径从源发送到目的地。我们可以将信息分成几个部分，用不相交的路径发送，以降低隐私泄露的风险。网络容错。不相交的路径可以增强网络在路由方面的健壮性。

2024-06-07 16:20:18 906

原创论文导读 | 投机解码加速模型推理

投机解码(speculative decoding)最早在[1,2]中被提出。其方法可以概括为由一个小模型一次猜一批可能的结果，再由大模型并行地验证这些结果是否要接受。投机解码利用了上面两个观察，先用小模型猜后续的若干个tokens，如果当前的问题比较简单，则小模型有更大的可能猜对多个token。然后再用大模型并行的验证这一些token是否符合大模型的输出。由于现代计算机的并行能力，我们可以近似的认为大模型处理一个token和处理w个token的用时是几乎一样的。

2024-05-17 15:30:30 1199

原创论文导读 | 增强大模型的数学能力

数学能力是人类智能的一项基础技能，在自然科学、计算机科学、医学、金融等不同领域都发挥重要作用。因此也是现在评价大模型能力的重要指标。现在评价大模型数学能力最常用的两个评测数据集分别是MATH和GSM8KMATH数据集是一个由加州大学伯克利分校的研究团队开发的新数据集，专门用于衡量机器学习模型解决数学问题的能力。该数据集包含12,500个来自高中数学竞赛的挑战性问题，每个问题都有一个完整的逐步解决方案，这使得模型可以学习如何生成答案推导和解释。MATH数据集的问题覆盖了七个主要的数学领域，包括代数、几何、数论

2024-05-17 15:26:23 751

原创论文导读 | 图对齐

图对齐问题是将两个图的节点进行匹配的问题。而半监督图对齐指的是已知小部分节点之间的对应关系，通过学习获得其他节点的匹配关系。问题定义如下：给定属性图G1A1X1G2A2X2和锚节点对，输出相似矩阵SSxa表示G1中结点a和G2中结点x的相似性。解决这个问题常见方法有以下3种：consistency-based、embedding-based和optimal transport。

2024-05-17 15:25:18 988

原创论文导读 | 漫谈图神经网络

本文主要介绍图神经网络相关内容，包括图神经网络的基本结构以及近期研究进展。

2024-03-25 14:50:03 380

原创论文导读 | 漫谈编辑问题

本文围绕深度学习模型的编辑，介绍了针对一般分类器、图像生成模型、语言模型的编辑问题及一些相关方法，还对现有工作的优劣、一些可能的未来研究方向给出了简单的讨论。

2024-03-25 14:44:32 828

原创图解李白的“朋友圈”

本次我们从互联网上搜集了有关《长安三万里》中的人物以及其他唐代著名诗人的基本信息，然后以诗人、诗歌为主要实体类型，梳理了诗人之间的关系，在gBuilder中用非结构化数据表单录入的方式，最终得到了唐朝诗人关系的RDF文件。节点可以表示实体和属性，边可以表示为实体-实体和实体-属性之间的关系，这种形式对处理复杂的关联关系有着天然的优势，也更接近人类认知世界的形式，为数据处理提供了一种更好的组织和管理能力。在实际项目中，也可以根据不同类型的数据选择不同的抽取方式，或多种方式结合的形式来构建知识图谱。

2024-02-23 16:21:30 709

原创辞旧迎新｜回顾gStore的2023

2024-02-23 16:20:00 133

原创 #gStore-weekly | gMaster功能详解之数据划分策略

文件格式为<predicate>\t{Node_id}，predicate为三元组谓语，Node_id为节点id(数字类型)，把计划分配到同一节点的节点id配置为相同。文件格式为<entity>\t{Node_id}，entity为三元组主语或宾语，Node_id为节点id(数字类型)，把计划分配到同一节点的节点id配置为相同。如果主语、宾语模值不相等，该三元组分配到两个节点。划分节点时，1种是根据对主语、宾语、谓语计算hash值与节点数取模确认节点，1种是指定节点ID，通过ID与节点数取模确认节点。

2024-02-21 16:25:03 463

原创 #gStore-weekly | gMaster功能详解之节点配置

点击【新增按扭】，弹出新增节点页面，需要输入节点名称、节点IP、gStore用户、gStore密码、gStore端口、节点系统用户、节点系统密码、gStore路径、SSH端口、接口类型，所有字段都是必输项。点击左侧菜单【系统管理】下的【节点配置】，可以进入节点配置页面，展示当前已配置的所有节点的节点名称、节点IP、gStore版本、gStore用户名、gStore服务状态、gStore接口类型、端口、节点系统用户名、节点系统登录状态、ssh端口、gStore路径列表。gMaster提供了节点配置功能。

2024-02-21 16:24:29 366

原创 #gStore-weekly | gMaster功能详解之数据库查询

gMaster提供了数据库查询功能。该功能可以对集群中的数据库通过SPARQL进行查询。平台基于Master-Slave架构，内置了基于随机划分和指定划分的4种数据查询分解策略，支持百亿图数据规模下多达六跳的秒级查询。登录gMaster，点击左侧菜单【数据库】下的【图数据库查询】，进入数据库查询页面。在【数据库】下拉框选择要查询的数据库名。在查询SPARQL输入框中输入SPARQL语句，点击【查询】按钮，页面右侧展示查询结果。

2024-02-21 16:23:20 376

原创 #gStore-weekly | gMaster功能详解之数据库管理

gMaster提供了数据库管理功能。该功能可以对集群中的数据库进行集中管理，可以查看各个数据库详细信息。能够方便的对数据库进行新建、构建、导出、备份、还原、删除操作。登录gMaster，点击左侧菜单【数据库】下的【数据库管理】，进入数据库管理页面，页面展示已新建的数据库。在数据管理页面，点击右上角【新建数据库】按钮新建数据库。输入数据库名称后，点击提交按钮。点击【构建数据库】按钮。第一步配置节点，上传数据源文件。上传有两种方式：1、服务器文件方式，手动将文件传到gMaster服务器，并配置文件路径。

2024-02-21 16:22:37 651

原创 #gStore-weekly | workbench功能详解之知识更新

gStore workbench作为gStore的可视化管理工具，不仅提供了可视化查询功能，还提供了可视化的知识更新功能，用户可以在可视化界面上进行知识的新增、修改和删除等操作，让我们的知识管理更加清晰和便捷。登录workbench平台，进入知识更新页面，选择要更新的数据库，通过SPARQL查询出需要更新的实体和属性。新增节点可以直接通过【新增节点】按钮进行新增，同时如果只是新增节点则不需要进行第一步的查询动作，但是新增节点必须要选择先数据库。

2024-02-21 16:21:19 859

原创 #gStore-weekly | gStore最新版1.2之CONCAT函数使用详解

截至当前，关于gStore最新版1.2的新功能介绍就结束了，后续我们将持续完善和新增更多的功能，尽请期待！【注】LCASE函数将所有字母转化为小写，如LCASE("Alice") = "alice"【注】STR函数返回字符串的词法表示形式，如：STR(<Alice>) = "Alice"gStore最新版1.2其他新功能的介绍可点击以下连接查看>>：过滤查询宾语字面量为Al和ice拼接的数据。：查询宾语字面量等于主语字符串拼接邮箱后缀。：将查询到关系为喜欢的数据拼接在一起。: string类型的字符串值。

2024-02-21 16:20:26 486

原创 #gStore-weekly | gStore最新版1.2之新增内置高级函数详解（二）

gStore1.2版本新增了七个高级函数，我们第2期将继续介绍的高级函数为：整体/局部集聚系数（clusterCoeff）、鲁汶算法（louvain）、K跳计数（kHopCount）/K跳邻居（kHopNeighbor）三类高级函数。

2024-02-21 16:19:36 261

原创论文导读 | 因式分解数据库

在传统的关系型数据库中，二维表格形式容易造成信息的冗余。如果我们将数据库中的每条元组看成单项式，一个关系型数据库就可以表示成这些单项式的和。通过对多项式的因式分解就能够得到更加紧凑的表示形式。例如：下图中的表格，A 的取值有 a1,a2, B的取值有b1,b2，C的取值有c1,c2。不难看出表格中存储的是这些取值的所有组合情况。按照上述思路，我们可以将它用因式分解的表示形式进行表示：。我们发现，因式分解的表示形式只用了 6 个值就表示了具有 24 个值的二维表格。

2024-02-21 16:18:26 670

原创 #gStore-weekly | gStore最新版1.2之新增内置高级函数详解（一）

gStore1.2版本新增了七个高级函数，我们第2期将继续介绍的高级函数为：整体/局部集聚系数（clusterCoeff）、鲁汶算法（louvain）、K跳计数（kHopCount）/K跳邻居（kHopNeighbor）三类高级函数。

2024-02-21 16:15:38 799

原创 gStore最新版1.2之新增内置高级函数详解（一）

gStore1.2版本新增了七个高级函数，我们分成2期来对每一个函数的使用进行详细介绍，本期介绍的高级函数为单源最短路径（包括SSSP和SSSPLen）、标签传播（labelProp）、弱连通分量（WCC）三个高级函数。

2024-02-21 16:14:43 640

原创基于深度学习的子图计数方法

子图计数（Subgraph Counting）是图分析中重要的研究课题。给定一个查询图和数据图 , 子图计数需要计算在中子图匹配的（近似）数目。一般我们取子图匹配为子图同构语义，即从查询图顶点集到数据图顶点集的单射，保持拓扑关系（当查询图存在边时，数据图中对应点也需要有连边）和标签（查询图顶点和数据图中对应点标签相同）不变。

2024-02-21 16:14:17 1393

原创 #gStore-weekly | gStore最新版1.2之新增API接口详解

gStore1.2版本进一步丰富了API接口，接下来我们就逐一讲解每个接口的作用以及如何使用。我们首先启动http服务（以grpc为例），并指定服务端口号为9000：

2024-02-21 16:12:50 1037

原创 #gStore最新版1.2之空库的构建和批量数据构建

gStore1.2版本支持了空库的构建和批量数据构建，接下来我们将从本地命令、控制台、API接口三种方式来进行介绍如何使用：

2024-02-21 16:12:08 1220

原创 #gStore-weekly | gAnswer源码解析调用NE模块流程

gAnswer系统的主要思想，是将自然语言问题转化为语义查询图，再和RDF图做子图匹配。在转换成查询图的第一步就是确定查询图的节点，即节点提取（Node Extraction, NE）。查询图中的节点由实体（entity）、类型（type）和通配符（wild-cards）构成，因此节点提取的主要工作就是提取问题中的实体和类型的提及（mention），以及给出在知识库中对应的候选。具体而言，节点提取模块分为离线和在线两部分。

2023-11-21 10:08:44 168

原创 #gStore-weekly | gBuilder功能详解之结构化数据抽取

gBuilder的结构化数据抽取采用D2RQ技术实现。DR2Q是一个能够将关系数据库中的内容转换成RDF三元组的工具，由于知识图谱中储存的数据通常为三元组格式，而知识图谱构建模块的数据大多储存在关系数据库中，以不同的表的形式来区分，所以需要进行转换。D2RQ主要包括 D2R Server， D2RQ Engine 以及 D2RQ Mapping 语言。

2023-11-20 16:58:19 206