笔记
文章平均质量分 78
Denis.Zzzzzzzz?
这个作者很懒,什么都没留下…
展开
-
Datawhale 学习笔记
原创 2021-10-31 01:16:14 · 138 阅读 · 0 评论 -
ubuntu20.04 开机引导后黑屏 光标闪现 无法进入图形桌面的解决方案
ubuntu20.04之前更新了n卡的显卡驱动,关机的时候就发现黑屏同时左上角光标闪烁,持续一段时间才关机,当时也没当回事。然而第二天再开机的时候发现,图形桌面进不去了。先说下配置,win10+ubuntu20.04双系统,rtx2060的显卡好吧开始问度娘和查论坛,发现有n种解决方案grub文件添加nomodeset,不管用。。。blacklist nouveau,不管用。。。还有说硬盘用满了,很显然也不是这个原因当然还有说引导分区不明确,我的情况也不符合后来一个偶然,在ctrl+alt原创 2021-08-25 10:45:00 · 27527 阅读 · 20 评论 -
Datawhale知识图谱 Task05 Neo4j 图数据库查询
一、 Neo4介绍1.1 Neo4介绍Neo4j是一个世界领先的开源图形数据库,由Java编写。图形数据库也就意味着它的数据并非保存在表或集合中,而是保存为节点以及节点之间的关系;Neo4j的数据由下面3部分构成:节点边和属性;Neo4j除了顶点(Node)和边(Relationship),还有一种重要的部分——属性。无论是顶点还是边,都可以有任意多的属性。属性的存放类似于一个HashMap,Key为一个字符串,而Value必须是基本类型或者是基本类型数组。在Neo4j中,节点以及边都能够包含原创 2021-01-17 18:51:43 · 111 阅读 · 0 评论 -
Datawhale 知识图谱 Task04 用户输入 知识库的查询语句
一、引言本部分任务主要是将用户输入问答系统的自然语言转化成知识库的查询语句,因此本文将分成两部分进行介绍。第一部分介绍任务所涉及的背景知识;第二部分则是相应的代码和其注释二、什么是问答系统?2.1 问答系统简介问答系统(Question Answering System,QA System)是用来回答人提出的自然语言问题的系统。根据划分标准不同,问答系统可以被分为各种不同的类型。问答系统从知识领域划分:封闭领域:封闭领域系统专注于回答特定领域的问题,由于问题领域受限,系统有比较大的发原创 2021-01-15 22:19:59 · 171 阅读 · 0 评论 -
Datawhale 知识图谱 Task03 Neo4j图数据库导入数据
一、引言在计算机科学中,图形作为一种特定的数据结构,用于表达数据之间的复杂关系,如社交关系、组织架构、交通信息、网络拓扑等等。在图计算中,基本的数据结构表达式是:G=(V,E),V=vertex(节点),E=edge(边)。图形结构的数据结构一般以节点和边来表现,也可以在节点上增加键值对属性。图数据库是 NoSQL(非关系型数据库)的一种,它应用图形数据结构的特点(节点、属性和边)存储数据实体和相互之间的关系信息。Neo4j 是当前较为主流和先进的原生图数据库之一,提供原生的图数据存储、检索和处理。它由原创 2021-01-13 23:14:12 · 388 阅读 · 0 评论 -
Datawhale Pandas 综合练习2
【任务四】显卡日志下面给出了3090显卡的性能测评日志结果,每一条日志有如下结构:Benchmarking #2# #4# precision type #1##1# model average #2# time : #3# ms其中#1#代表的是模型名称,#2#的值为train(ing)或inference,表示训练状态或推断状态,#3#表示耗时,#4#表示精度,其中包含了float, half, double三种类型,下面是一个具体的例子:Benchmarking Inference f原创 2021-01-13 22:56:22 · 82 阅读 · 0 评论 -
Datawhale 知识图谱 Task2 基于医疗知识图谱的问答系统操作介绍
一、引言该项目主要分为两部分:第一部分:搭建知识图谱。该部分的具体讲解将在 Datawhale 知识图谱组队学习 之 Task 3 Neo4j图数据库导入数据进行介绍;第二部分:启动问答测试。构建一个简单的基于 知识图谱 的对话系统,该部分的具体讲解将在 Datawhale 知识图谱组队学习 之 Task 4 用户输入->知识库的查询语句 和 Datawhale 知识图谱组队学习 之 Task 5 Neo4j 图数据库查询 进行分别介绍;本节的核心目标是 从 全局对项目的运行过程进行介绍和原创 2021-01-13 00:58:56 · 355 阅读 · 0 评论 -
Datawhale知识图谱 Task01 知识图谱介绍
一、知识图谱简介1.1 引言从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。早在 2010 年微软就开始构建知识图谱,包括 Satori 和 Probase;2012 年,Google 正式发布了 Google Knowledge Graph,现在规模已超 700 亿。目前微软和 Google 拥有全世界最大的通用知识图谱,Facebook 拥有全世界最大的社交知识图谱,而阿里巴巴和亚马逊则分别原创 2021-01-11 21:42:30 · 616 阅读 · 0 评论 -
Datawhale Pandas task10 时序数据
一、时序中的基本对象时间序列的概念在日常生活中十分常见,但对于一个具体的时序事件而言,可以从多个时间对象的角度来描述。例如2020年9月7日周一早上8点整需要到教室上课,这个课会在当天早上10点结束,其中包含了哪些时间概念?第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-710:00:00’这两个时间点分别代表了上课和下课的时刻,在 pandas 中称为 Timestamp 。同时,一系列的时间戳可以组成 DatetimeIndex ,而将原创 2021-01-10 19:43:35 · 119 阅读 · 0 评论 -
Datawhale Pandas Task09 分类数据
一、cat对象1. cat对象的属性在 pandas 中提供了 category 类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用 astype 方法。df = pd.read_csv('data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight'] s = df.Grade.astype("category")s原创 2021-01-07 21:49:53 · 74 阅读 · 0 评论 -
Datawhale Pandas Task08 文本数据
一、str对象1. str对象的设计意图str 对象是定义在 Index 或 Series 上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其 str 对象。在Python标准库中也有 str 模块,为了使用上的便利,有许多函数的用法 pandas 照搬了它的设计,例如字母转为大写的操作:var = 'abcd'str.upper(var) # Python内置str模块'ABCD's = pd.Series(['abcd', 'efg',原创 2021-01-06 10:05:05 · 172 阅读 · 0 评论 -
Datawhale Pandas Task07 缺失数据
一、缺失值的统计和删除1. 缺失信息的统计缺失数据可以使用 isna 或 isnull (两个函数没有区别)来查看每个单元格是否缺失,结合 mean 可以计算出每列缺失值的比例:df = pd.read_csv('data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer'])df.isn原创 2021-01-02 12:45:23 · 112 阅读 · 0 评论 -
Datawhale Pandas 综合练习
【任务一】企业收入的多样性拿到数据后首先对数据进行观察:df1 = pd.read_csv("practice_data/company.csv")df2 = pd.read_csv("practice_data/company_data.csv")df1.head()df2.head()可以直观的发现有两组数据有这么几点区别:证券代码格式不同,一组为字符串格式,一组为整形格式日期不同,一组是以年为单位,一组是每年的最后一日收入额的格式需要确认对于证券代码,具体来观察:由原创 2021-01-01 23:44:57 · 149 阅读 · 1 评论 -
Datawhale Pandas Task05 变形
一、长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:pd.DataFrame({'Gender':['F','F','M','M'], 'Height':[163, 160, 175, 180]}) pd.DataFrame({'Height: F':[163,原创 2020-12-27 22:40:47 · 152 阅读 · 0 评论 -
Datawhale 可视化 Task06 - 场景案例显神通
数据可视化的图表种类繁多,各式各样,因此我们需要掌握如何在特定场景下使用特定的图表。数据可视化是为业务目的服务的,好的可视化图表可以起到清晰准确反映业务结果的目的,在选择使用何种图表时,通常我们需要首先考虑你想通过可视化阐述什么样的故事,受众是谁,以及打算如何分析结果。关于如何利用数据创造出吸引人的、信息量大的、有说服力的故事,进而达到有效沟通的目的,可以进一步阅读这本书《用数据讲故事》 4学习。本章将介绍不同场景适合的可视化图表类型,使用注意事项,以及如何用现成的绘图接口来呈现。我们将常见的场景分原创 2020-12-27 21:33:27 · 398 阅读 · 0 评论 -
Datawhale Pandas Task04 分组
import pandas as pdimport numpy as np一、分组模式及其对象1. 分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据 性别 分组,统计全国人口 寿命 的 平均值依据 季节 分组,对每一个季节的 温度 进行 组内标准化依据 班级 分组,筛选出组内 数学分数 的 平均值超过80分的班级从上述的几个例子中不难看出,想要实现分组操作,必须明确三个要素:分组依据 、 数据来源 、 操作及其返回结果 。同时从充分性的角度来说,如果明确了这三方面,就能确定一原创 2020-12-25 17:21:54 · 89 阅读 · 1 评论 -
Datawhale 可视化 Task05 - 样式色彩秀芳华
一、matplotlib的绘图样式(style)在matplotlib中,要想设置绘制样式,最简单的方法是在绘制元素时单独设置样式。但是有时候,当用户在做专题报告时,往往会希望保持整体风格的统一而不用对每张图一张张修改,因此matplotlib库还提供了四种批量修改全局样式的方式1.matplotlib预先定义样式matplotlib贴心地提供了许多内置的样式供用户使用,使用方法很简单,只需在python脚本的最开始输入想使用style的名称即可调用,尝试调用不同内置样式,比较区别import m原创 2020-12-24 14:55:27 · 110 阅读 · 0 评论 -
Datawhale Pandas Task03 索引
import numpy as npimport pandas as pd一、索引器1. 表的列索引列索引是最常见的索引形式,一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列,返回值为 Series ,例如从表中取出姓名一列:df = pd.read_csv('../data/learn_pandas.csv',usecols = ['School', 'Grade', 'Name', 'Gender','Weight', 'Transfer'])df["Na原创 2020-12-22 18:57:57 · 229 阅读 · 0 评论 -
Datawhale可视化 task04 文字图例尽眉目
一、Figure和Axes上的文本Matplotlib具有广泛的文本支持,包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。下面的命令是介绍了通过pyplot API和objected-oriented API分别创建文本的方式。1.textpyplot API:matplotlib.pyplot.text(x, y, s, fontdict=None, **kwargs)OO API:Axes.text(self, x, y, s原创 2020-12-21 09:53:20 · 222 阅读 · 0 评论 -
Datawhale可视化 Task03 布局格式定方圆
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False一、子图1. 使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表,第一个数字为行,第二个为列figsize 参数可以指定整个画布的大小sharex原创 2020-12-20 10:39:26 · 96 阅读 · 1 评论 -
Datawhale Pandas Task02 Pandas基础
请保证 pandas 的版本号不低于1.1.5,否则请务必升级!一、文件的读取和写入1. 文件读取pandas 可以读取的文件格式有很多,这里主要介绍读取 csv, excel, txt 文件。df_csv = pd.read_csv('data/my_csv.csv')df_txt = pd.read_table('data/my_table.txt')df_excel = pd.read_excel('data/my_excel.xlsx')这里有一些常用的公共参数:header=N原创 2020-12-19 17:40:24 · 114 阅读 · 0 评论 -
Datawhale Pandas Task01 预备知识
一、Python基础1. 列表推导式与条件赋值在生成一个数字序列的时候,在 Python 中可以如下写出:L = []def my_func(x): return 2*xfor i in range(5): L.append(my_func(i))L[0, 2, 4, 6, 8]事实上可以利用列表推导式进行写法上的简化: [* for i in *] 。其中,第一个 * 为映射函数,其输入为后面 i 指代的内容,第二个 * 表示迭代的对象。[my_func(i) fo原创 2020-12-15 18:05:18 · 297 阅读 · 0 评论 -
Datawhale可视化 Task01Matplotlib初相识
一、认识matplotlibMatplotlib是一个Python 2D绘图库,能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形,用来绘制各种静态,动态,交互式的图表。Matplotlib可用于Python脚本,Python和IPython Shell、Jupyter notebook,Web应用程序服务器和各种图形用户界面工具包等。Matplotlib是Python数据可视化库中的泰斗,它已经成为python中公认的数据可视化工具,我们所熟知的pandas和seaborn的绘图接口其实也原创 2020-12-14 09:59:04 · 88 阅读 · 0 评论 -
天池新闻推荐入门赛之 task03 多路召回
多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。上图只是一个多路召回的例子,也就是说可以使用多种不同的策略来获取用户原创 2020-11-30 22:40:21 · 114 阅读 · 0 评论 -
vmware虚拟机能ping通外网,但无法上网
主机正常上网,vmware虚拟机能ping通外网,nslookup也能正常解析域名,baidu能正常搜索,但是其他网站都上不了。。。虚拟机是bridge模式,dns服务器开始用的跟主机一样的,后来换了114,发现都不行。。。虚拟机是xp和2003server,也都这毛病是哪里有什么问题嘛?...原创 2020-04-05 10:28:17 · 1256 阅读 · 1 评论