本期将分享近期全球知识图谱相关
行业动态、会议资讯、论文推荐
—--| 行业动态 |--—
微软开源GraphRAG
7月2日,微软开源了GraphRAG,一种基于图的检索增强生成(RAG) 方法,可以对私有或以前未见过的数据集进行问答(开源地址:https://github.com/microsoft/graphrag)。通过 LLM 构建知识图谱结合图机器学习,GraphRAG 极大增强 LLM 在处理私有数据时的性能,同时具备连点成线的跨大型数据集的复杂语义问题推理能力。普通 RAG 技术在私有数据,如企业的专有研究、商业文档表现非常差,而 GraphRAG 则基于前置的知识图谱、社区分层和语义总结以及图机器学习技术可以大幅度提供此类场景的性能。据微软在其博客上介绍,他们在大规模播客以及新闻数据集上进行了测试,在全面性、多样性、赋权性方面,结果显示 GraphRAG 都优于朴素 RAG(70~80% 获胜率)。
https://t.hk.uy/bE6N
http://s.mrw.so/7czoO
生成式人工智能+知识图谱技术
2024 年 7 月 3 日,Squirro是一家总部位于瑞士的SaaS 平台,专门提供企业级生成式 AI、搜索和商业洞察,宣布收购Synaptica,一家美国企业分类管理和知识图谱系统 SaaS 提供商。此次战略收购将 Synaptica 的语义图技术与 Squirro 生成式 AI 功能相结合,为知识发现、对话搜索和业务流程自动化创建了一个强大的平台。
http://s.mrw.so/ahIsd
—--| 会议讲座 |--—
CCF中国计算机应用大会
由中国计算机学会(CCF)主办的CCF第39届中国计算机应用大会(CCF NCCA 2024)及2024中国高校计算机教育大会(CCEC 2024)将于2024年7月12-18日在黑龙江·哈尔滨举办。
大会将邀请10余位中国科学院院士、中国工程院院士及50余位优青、杰青、长江学者等计算领域及其行业应用领域的国家级人才、顶级专家学者、企业家共同探讨人工智能+应用,尤其是在大规模预训练语言模型赋能千行百业的应用方面,将共享产学研创新合作新成就,共谋经济社会应用新前景。
详情请访问:
https://ccf.org.cn/ncca2024
—--| 报告推荐 |--—
GEqO
本周推荐的SIGMOD 2024上的论文:GEqO: ML-Accelerated Semantic Equivalence Detection,该文提出了一个名为GEqO的基于机器学习的框架,能够在大规模分析引擎中高效检测语义等价计算,从而提高集群资源利用率和减少作业执行时间。作者来自Microsoft Gray Systems Lab,Microsoft和SmartApps。
大规模分析引擎已成为现代数据驱动企业获取商业洞察和推动行动的核心依赖。这些引擎支持每天处理海量数据的大量分析作业,工作负载通常充满了跨多个作业的重叠计算。重用常见计算对于高效集群资源利用和减少作业执行时间至关重要。检测常见计算是减少这种计算冗余的第一步和关键步骤。然而,在大规模分析引擎上检测等价性需要高效且可扩展的全自动解决方案。此外,为了最大限度地重用计算,等价性需要在语义层面上进行检测,而不仅仅是语法层面(即能够检测看似不同查询的语义等价性)。不幸的是,现有解决方案未能满足这些要求。在本文中,作者通过提出GEqO,一个便携且轻量的基于机器学习的框架,迈出了填补这一空白的重要一步。GEqO引入了两个基于机器学习的过滤器,快速筛除不等价的子表达式,并采用半监督学习反馈循环,通过智能采样机制迭代改进其模型。此外,通过其新颖的与数据库无关的特征化方法,GEqO能够将一种工作负载和数据库的学习成果转移到另一种工作负载和数据库。作者的广泛实证评估表明,在类似TPC-DS的查询上,GEqO带来了显著的性能提升——比自动验证器快多达200倍,并且发现的等价性比优化器和基于签名的等价性方法多出2倍。
系统overview如下图所示:
论文链接http://arxiv.org/abs/2401.01280,感兴趣的读者可以关注。