阿耀、Radio-CSDN博客

原创 DW小组学习知识图谱——任务4

用户输入->知识库的查询语句step 1：对于用户的输入，先使用预先构建的疾病、疾病别名、并发症和症状的AC Tree进行匹配； step 2：若全都无法匹配到相应实体，则使用结巴切词库对用户输入的文本进行切分； step 3：然后将每一个词都去与疾病词库、疾病别名词库、并发症词库和症状词库中的词计算相似度得分（overlap score、余弦相似度分数和编辑距离分数），如果相似度得分超过0.7，则认为该词是这一类实体； step 4：最后排序选取最相关的词作为实体（项目所有的实体类型如下图

2021-01-14 22:12:56 140

原创 DW小组学习——知识图谱：任务3

build_graph.py代码部分算法结构import部分获取数据路径数据读取创建节点创建节点属性创建知识图谱实体创建知识图谱关系创建实体关系边一、import二、获取数据路径三、数据读取1、初始化；2、读取.csv文件，按找‘gb18030’对字符进行编码，去掉索引all_data = pd.read_csv(self.data_path, encoding='gb18030').loc[:, :].values3、基于for循环的按行迭代

2021-01-13 22:32:41 163

原创 DW小组学习：知识图谱——任务2

1、知识图谱建立：python build_graph.py2、问答测试：bug太多了，有一部分没调整过来

2021-01-12 22:19:43 112

原创 DW小组学习：知识图谱——任务1

知识图谱的基本操作——增、删、查、改一：增加1、增加节点create(:Person{name:'John'})create(:Perdon{naem:'Bob'})2、增加关系：friendmatch(a:Person{name:'John'})match(b:Person{naem:'Bob'})merge(a)-[:friend]→(b)3、直接定义关系和节点creat(a:Person{name:‘Radio’})-[:friend{since:2020}]→

2021-01-11 22:22:23 296

原创 Pandas 学习：Task04 分组

第四章：分组df.groupby(分依据)[数据来源].使用操作1、根据简单条件分组df=pd.read_csv('learn_pandas.csv')df.groupby('Gender')['Height'].median()df.groupby(['School','Gender'])['Height'].mean()2、根据复杂逻辑条件分组从索引可以看出，其实最后产生的结果就是按照条件列表中元素的值（此处是True和False）来分组，下面用随机传入字母序列来...

2020-12-25 17:40:19 168

原创 datawhale pandas小组学习Task3

3、loc索引器：基于元素的索引器二、多级索引五、练习```pythonimport numpy as npimport pandas as pddf=pd.read_csv('company.csv')df.head(3)#（1）df_demo=df.loc[(df.age<=40)&(df.department.isin(['Dairy','Bakery']))&(df.gender=='M')]df_demo=df.query('.

2020-12-22 21:04:27 70

原创 Datawhale pandas学习任务二：pandas基础

第二章Pandas基础import numpy as npimport pandas as pdpd.__version__'1.1.3'一、文件读取和写入1、文件读取read_csv 从文件、URL、文件型对象中加载带有分隔符的数据，默认分隔符为逗号read_table 从文件、URL、文件型对象中加载带有分隔符的数据，默认分隔符为制表符read_excel从文件、URL、文件型对象中加载带有分隔符的数据,默认应该是空格吧这两个函数参数太多了，下面演示下常用的几个参数（分析所有参数太

2020-12-19 23:30:57 394 2

原创数据可视化，留着以后学。。

一、概述matplotlib的三层apimatplotlib的原理或者说基础逻辑是，用Artist对象在画布(canvas)上绘制(Render)图形。就和人作画的步骤类似：准备一块画布或画纸准备好颜料、画笔等制图工具作画所以matplotlib有三个层次的API：matplotlib.backend_bases.FigureCanvas 代表了绘图区，所有的图像都是在绘图区完成的matplotlib.backend_bases.Renderer 代表了渲染器，可以近似理解为画笔，控制

2020-12-18 22:51:55 240 1

原创 Pandas学习：预备知识

还没学完预备知识一、Python基础 1、列表推导式与条件赋值列表推导是（list comprehension）是一种简单的创造列表的方式，常应用于创建新的列表，其中每个元素是应用于另一个序列的每个成员或可迭代的某些操作的结果，或者创建满足特定条件的哪些元素的子序列。列入对于创建如下一个列表：L=[]def my_func(x): return 2*xfor i in range(5): L.append(my_func(i))print(L)[0, 2, 4, 6,

2020-12-16 22:18:16 338

原创数据可视化一

Matplotlib基础Matplotlib是一个Python 2D绘图库，能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形，用来绘制各种静态，动态，交互式的图表。二、一个最简单的绘图例子Matplotlib的图像是画在figure（如windows，jupyter窗体）上的，每一个figure又包含了一个或多个axes（一个可以指定坐标系的子区域）。最简单的创建figure以及axes的方式是通过pyplot.subplots命令，创建axes以后，可以使用Axes.plot绘制最简易的

2020-12-14 22:06:46 98

原创推荐系统任务四：特征工程

特征工程(制作特征和标签，转成监督学习问题)我们先捋一下基于原始的给定数据，有哪些特征可以直接利用：文章的自身特征， category_id表示这文章的类型， created_at_ts表示文章建立的时间，这个关系着文章的时效性， words_count是文章的字数，一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征，这个召回的时候用过，这里可以选择使用，也可以选择不用，也可以尝试其他类型的embedding特征，比如W2V等用户的设备特征信

2020-12-03 21:03:47 703

原创 numpy组队学习四：大作业

本次练习使用鸢尾属植物数据集.\iris.data，在这个数据集中，包括了三类不同的鸢尾属植物：Iris Setosa，Iris Versicolour，Iris Virginica。每类收集了50个样本，因此这个数据集一共包含了150个样本。sepallength：萼片长度sepalwidth：萼片宽度petallength：花瓣长度petalwidth：花瓣宽度以上四个特征的单位都是厘米（cm）。导入鸢尾属植物数据集，保持文本不变。import numpy as npoutfile

2020-12-01 23:35:40 83

原创推荐系统基础三：多路召回

如有了解详情者请移步原文：http://datawhale.club/t/topic/198多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进

2020-11-30 21:15:20 2251

原创 numpy小组学习笔记三：线性方程

线性代数1、numpy.dot(a, b[, out])计算两个矩阵的乘积，如果是一维数组则是它们的内积。注意：在线性代数里面讲的维数和数组的维数不同，如线代中提到的n维行向量在 Numpy 中是一维数组，而线性代数中的n维列向量在 Numpy 中是一个shape为(n, 1)的二维数组。2、numpy.linalg.eig(a) 计算方阵的特征值和特征向量。numpy.linalg.eigvals(a) 计算方阵的特征值。3、u, s, v = numpy.linalg.svd(a, full_

2020-11-29 22:15:45 154

weixin_48094385的博客