自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 DW小组学习知识图谱——任务4

用户输入->知识库的查询语句step 1:对于用户的输入,先使用预先构建的疾病、疾病别名、并发症和症状的AC Tree进行匹配; step 2:若全都无法匹配到相应实体,则使用结巴切词库对用户输入的文本进行切分; step 3:然后将每一个词都去与疾病词库、疾病别名词库、并发症词库和症状词库中的词计算相似度得分(overlap score、余弦相似度分数和编辑距离分数),如果相似度得分超过0.7,则认为该词是这一类实体; step 4:最后排序选取最相关的词作为实体(项目所有的实体类型如下图

2021-01-14 22:12:56 140

原创 DW小组学习——知识图谱:任务3

build_graph.py代码部分算法结构import部分获取数据路径数据读取创建节点创建节点属性创建知识图谱实体创建知识图谱关系创建实体关系边一、import二、获取数据路径三、数据读取1、初始化;2、读取.csv文件,按找‘gb18030’对字符进行编码,去掉索引all_data = pd.read_csv(self.data_path, encoding='gb18030').loc[:, :].values3、基于for循环的按行迭代

2021-01-13 22:32:41 163

原创 DW小组学习:知识图谱——任务2

1、知识图谱建立:python build_graph.py2、问答测试:bug太多了,有一部分没调整过来

2021-01-12 22:19:43 112

原创 DW小组学习:知识图谱——任务1

知识图谱的基本操作——增、删、查、改一:增加1、增加节点create(:Person{name:'John'})create(:Perdon{naem:'Bob'})2、增加关系:friendmatch(a:Person{name:'John'})match(b:Person{naem:'Bob'})merge(a)-[:friend]→(b)3、直接定义关系和节点creat(a:Person{name:‘Radio’})-[:friend{since:2020}]→

2021-01-11 22:22:23 296

原创 Pandas 学习:Task04 分组

第四章:分组df.groupby(分依据)[数据来源].使用操作1、根据简单条件分组df=pd.read_csv('learn_pandas.csv')df.groupby('Gender')['Height'].median()df.groupby(['School','Gender'])['Height'].mean()2、根据复杂逻辑条件分组从索引可以看出,其实最后产生的结果就是按照条件列表中元素的值(此处是True和False)来分组,下面用随机传入字母序列来...

2020-12-25 17:40:19 168

原创 datawhale pandas小组学习Task3

3、loc索引器:基于元素的索引器二、多级索引五、练习```pythonimport numpy as npimport pandas as pddf=pd.read_csv('company.csv')df.head(3)#(1)df_demo=df.loc[(df.age<=40)&(df.department.isin(['Dairy','Bakery']))&(df.gender=='M')]df_demo=df.query('.

2020-12-22 21:04:27 70

原创 Datawhale pandas学习任务二:pandas基础

第二章Pandas基础import numpy as npimport pandas as pdpd.__version__'1.1.3'一、文件读取和写入1、文件读取read_csv 从文件、URL、文件型对象中加载带有分隔符的数据,默认分隔符为逗号read_table 从文件、URL、文件型对象中加载带有分隔符的数据,默认分隔符为制表符read_excel从文件、URL、文件型对象中加载带有分隔符的数据,默认应该是空格吧这两个函数参数太多了,下面演示下常用的几个参数(分析所有参数太

2020-12-19 23:30:57 394 2

原创 数据可视化,留着以后学。。

一、概述matplotlib的三层apimatplotlib的原理或者说基础逻辑是,用Artist对象在画布(canvas)上绘制(Render)图形。就和人作画的步骤类似:准备一块画布或画纸准备好颜料、画笔等制图工具作画所以matplotlib有三个层次的API:matplotlib.backend_bases.FigureCanvas 代表了绘图区,所有的图像都是在绘图区完成的matplotlib.backend_bases.Renderer 代表了渲染器,可以近似理解为画笔,控制

2020-12-18 22:51:55 240 1

原创 Pandas学习:预备知识

还没学完预备知识一、Python基础 1、列表推导式与条件赋值 列表推导是(list comprehension)是一种简单的创造列表的方式,常应用于创建新的列表,其中每个元素是应用于另一个序列的每个成员或可迭代的某些操作的结果,或者创建满足特定条件的哪些元素的子序列。 列入对于创建如下一个列表:L=[]def my_func(x): return 2*x​for i in range(5): L.append(my_func(i))print(L)[0, 2, 4, 6,

2020-12-16 22:18:16 338

原创 数据可视化一

Matplotlib基础Matplotlib是一个Python 2D绘图库,能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形,用来绘制各种静态,动态,交互式的图表。二、一个最简单的绘图例子Matplotlib的图像是画在figure(如windows,jupyter窗体)上的,每一个figure又包含了一个或多个axes(一个可以指定坐标系的子区域)。最简单的创建figure以及axes的方式是通过pyplot.subplots命令,创建axes以后,可以使用Axes.plot绘制最简易的

2020-12-14 22:06:46 98

原创 推荐系统任务四:特征工程

特征工程(制作特征和标签, 转成监督学习问题)我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征, 比如W2V等用户的设备特征信

2020-12-03 21:03:47 703

原创 numpy组队学习四:大作业

本次练习使用 鸢尾属植物数据集.\iris.data,在这个数据集中,包括了三类不同的鸢尾属植物:Iris Setosa,Iris Versicolour,Iris Virginica。每类收集了50个样本,因此这个数据集一共包含了150个样本。sepallength:萼片长度sepalwidth:萼片宽度petallength:花瓣长度petalwidth:花瓣宽度以上四个特征的单位都是厘米(cm)。导入鸢尾属植物数据集,保持文本不变。import numpy as npoutfile

2020-12-01 23:35:40 83

原创 推荐系统基础三:多路召回

如有了解详情者请移步原文:http://datawhale.club/t/topic/198多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进

2020-11-30 21:15:20 2251

原创 numpy小组学习笔记三:线性方程

线性代数1、numpy.dot(a, b[, out])计算两个矩阵的乘积,如果是一维数组则是它们的内积。注意:在线性代数里面讲的维数和数组的维数不同,如线代中提到的n维行向量在 Numpy 中是一维数组,而线性代数中的n维列向量在 Numpy 中是一个shape为(n, 1)的二维数组。2、numpy.linalg.eig(a) 计算方阵的特征值和特征向量。numpy.linalg.eigvals(a) 计算方阵的特征值。3、u, s, v = numpy.linalg.svd(a, full_

2020-11-29 22:15:45 154

原创 推荐系统入门二:数据分析

数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。建议:当特征工程和模型调参已经很难继续上分了,可以回来在重新从新的角度去分析这些数据,或许可以找到上分的灵感导包1%matplotlib inline2import pandas as pd3import

2020-11-27 21:36:20 292 1

原创 numpy小组学习笔记三:统计相关

前面的内容源自于原文档,后面总结内容相当于读书笔记,如有谬误恳请指正。统计相关次序统计¶计算最小值numpy.amin(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue])Return the minimum of an array or minimum along an axis.【例】计算最小值import numpy as npx = np.array([[11, 1

2020-11-27 20:03:14 304

原创 推荐系统入门一:赛题理解+Baseline

赛题理解根据赛题简介,我们首先要明确我们此次比赛的目标: 根据用户历史浏览点击新闻的数据信息预测用户最后一次点击的新闻文章。从这个目标上看, 会发现此次比赛和我们之前遇到的普通的结构化比赛不太一样, 主要有两点:首先是目标上, 要预测最后一次点击的新闻文章,也就是我们给用户推荐的是新闻文章, 并不是像之前那种预测一个数或者预测数据哪一类那样的问题数据上, 通过给出的数据我们会发现, 这种数据也不是我们之前遇到的那种特征+标签的数据,而是基于了真实的业务场景, 拿到的用户的点击日志所以拿到这个题目,我

2020-11-25 22:06:16 387 1

原创 numpy学习笔记二:随机抽样

一、离散型随机变量1、二项分布【例】野外正在进行9(n=9)口石油勘探井的发掘工作,每一口井能够开发出油的概率是0.1(p=0.1)。请问,最终所有的勘探井都勘探失败的概率?import numpy as npimport matplotlib.pyplot as pltfrom scipy import statsnp.random.seed(20200605)n = 9# 做某件事情的次数p = 0.1# 做某件事情成功的概率size = 50000x = np.random.bin

2020-11-25 20:55:41 1171 1

原创 numpy学习笔记一:输入和输出

学习目标:运行所有已经给出的实例和课后练习1、numpy中save()和load()函数的使用2、savez()函数的使用3、文本文件(txt\csv)的存储和读取savetxt()、loadtxt()、genfromtxt()等函数4、文本格式设置5、课后习题做好计划,踏实执行...

2020-11-23 22:09:08 81

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除