自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 问答 (2)
  • 收藏
  • 关注

原创 Datawhale知识图谱 Task05 Neo4j 图数据库查询

一、 Neo4介绍1.1 Neo4介绍Neo4j是一个世界领先的开源图形数据库,由Java编写。图形数据库也就意味着它的数据并非保存在表或集合中,而是保存为节点以及节点之间的关系;Neo4j的数据由下面3部分构成:节点边和属性;Neo4j除了顶点(Node)和边(Relationship),还有一种重要的部分——属性。无论是顶点还是边,都可以有任意多的属性。属性的存放类似于一个HashMap,Key为一个字符串,而Value必须是基本类型或者是基本类型数组。在Neo4j中,节点以及边都能够包含

2021-01-17 18:51:43 145

原创 Datawhale 知识图谱 Task04 用户输入 知识库的查询语句

一、引言本部分任务主要是将用户输入问答系统的自然语言转化成知识库的查询语句,因此本文将分成两部分进行介绍。第一部分介绍任务所涉及的背景知识;第二部分则是相应的代码和其注释二、什么是问答系统?2.1 问答系统简介问答系统(Question Answering System,QA System)是用来回答人提出的自然语言问题的系统。根据划分标准不同,问答系统可以被分为各种不同的类型。问答系统从知识领域划分:封闭领域:封闭领域系统专注于回答特定领域的问题,由于问题领域受限,系统有比较大的发

2021-01-15 22:19:59 183

原创 Datawhale 知识图谱 Task03 Neo4j图数据库导入数据

一、引言在计算机科学中,图形作为一种特定的数据结构,用于表达数据之间的复杂关系,如社交关系、组织架构、交通信息、网络拓扑等等。在图计算中,基本的数据结构表达式是:G=(V,E),V=vertex(节点),E=edge(边)。图形结构的数据结构一般以节点和边来表现,也可以在节点上增加键值对属性。图数据库是 NoSQL(非关系型数据库)的一种,它应用图形数据结构的特点(节点、属性和边)存储数据实体和相互之间的关系信息。Neo4j 是当前较为主流和先进的原生图数据库之一,提供原生的图数据存储、检索和处理。它由

2021-01-13 23:14:12 450

原创 Datawhale Pandas 综合练习2

【任务四】显卡日志下面给出了3090显卡的性能测评日志结果,每一条日志有如下结构:Benchmarking #2# #4# precision type #1##1# model average #2# time : #3# ms其中#1#代表的是模型名称,#2#的值为train(ing)或inference,表示训练状态或推断状态,#3#表示耗时,#4#表示精度,其中包含了float, half, double三种类型,下面是一个具体的例子:Benchmarking Inference f

2021-01-13 22:56:22 92

原创 Datawhale 知识图谱 Task2 基于医疗知识图谱的问答系统操作介绍

一、引言该项目主要分为两部分:第一部分:搭建知识图谱。该部分的具体讲解将在 Datawhale 知识图谱组队学习 之 Task 3 Neo4j图数据库导入数据进行介绍;第二部分:启动问答测试。构建一个简单的基于 知识图谱 的对话系统,该部分的具体讲解将在 Datawhale 知识图谱组队学习 之 Task 4 用户输入->知识库的查询语句 和 Datawhale 知识图谱组队学习 之 Task 5 Neo4j 图数据库查询 进行分别介绍;本节的核心目标是 从 全局对项目的运行过程进行介绍和

2021-01-13 00:58:56 408

原创 Datawhale知识图谱 Task01 知识图谱介绍

一、知识图谱简介1.1 引言从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。早在 2010 年微软就开始构建知识图谱,包括 Satori 和 Probase;2012 年,Google 正式发布了 Google Knowledge Graph,现在规模已超 700 亿。目前微软和 Google 拥有全世界最大的通用知识图谱,Facebook 拥有全世界最大的社交知识图谱,而阿里巴巴和亚马逊则分别

2021-01-11 21:42:30 649

原创 Datawhale Pandas task10 时序数据

一、时序中的基本对象时间序列的概念在日常生活中十分常见,但对于一个具体的时序事件而言,可以从多个时间对象的角度来描述。例如2020年9月7日周一早上8点整需要到教室上课,这个课会在当天早上10点结束,其中包含了哪些时间概念?第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-710:00:00’这两个时间点分别代表了上课和下课的时刻,在 pandas 中称为 Timestamp 。同时,一系列的时间戳可以组成 DatetimeIndex ,而将

2021-01-10 19:43:35 141

原创 Datawhale Pandas Task09 分类数据

一、cat对象1. cat对象的属性在 pandas 中提供了 category 类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用 astype 方法。df = pd.read_csv('data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight'] s = df.Grade.astype("category")s

2021-01-07 21:49:53 85

原创 Datawhale Pandas Task08 文本数据

一、str对象1. str对象的设计意图str 对象是定义在 Index 或 Series 上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其 str 对象。在Python标准库中也有 str 模块,为了使用上的便利,有许多函数的用法 pandas 照搬了它的设计,例如字母转为大写的操作:var = 'abcd'str.upper(var) # Python内置str模块'ABCD's = pd.Series(['abcd', 'efg',

2021-01-06 10:05:05 185

原创 Datawhale Pandas Task07 缺失数据

一、缺失值的统计和删除1. 缺失信息的统计缺失数据可以使用 isna 或 isnull (两个函数没有区别)来查看每个单元格是否缺失,结合 mean 可以计算出每列缺失值的比例:df = pd.read_csv('data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer'])df.isn

2021-01-02 12:45:23 148

原创 Datawhale Pandas 综合练习

【任务一】企业收入的多样性拿到数据后首先对数据进行观察:df1 = pd.read_csv("practice_data/company.csv")df2 = pd.read_csv("practice_data/company_data.csv")df1.head()df2.head()可以直观的发现有两组数据有这么几点区别:证券代码格式不同,一组为字符串格式,一组为整形格式日期不同,一组是以年为单位,一组是每年的最后一日收入额的格式需要确认对于证券代码,具体来观察:由

2021-01-01 23:44:57 173 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除