_一颗豆子_-CSDN博客

原创搜索推荐相关

搜索算法Learning to Rank方法：1、单文档方法：根据query判断每个item的相似度2、文档对方法：确定文档对的前后顺序3、文档列表法：确定所有文档的先后顺序Item：垂域、意图、语义相似性、item的热度、用户的搜索日志排序算法的评估标准AUC：准确率：描述模型的推荐列表（分母）中有多少是正例item；召回率：描述有多少正例item（分母）包含在模型的推荐列表中AP average precision（平均精度）：在不同recall情况下 precisi

2021-11-30 16:36:35 1178

原创 GE/GNN

图表示学习：起因：直接在图这种非结构的，数量不定（可能数目非常多），属性复杂的图上进行机器学习/深度学习是很困难的，而如果能处理为向量将非常的方便矩阵分解：因为从某种程度上图中的各节点关系可以视为稀疏的矩阵，那么基于矩阵分解的方法就可以得到低维的向量。随机游走的原理：是一个随机过程，可以看作一个马尔可夫模型，指给定一个图和一个出发点，随机地选择一个邻居结点，移动到邻居结点上，然后把当前结点作为出发点，重复以上过程，1、根据随机选出的结点可以构成一个序列，作为在图上的Random Walk过

2021-10-06 21:58:18 282

原创自然语言处理

一、Textcnn：第一层为输入层。输入层是一个n*k的矩阵，其中n为一个句子中的单词数， k 是每个词对应的词向量的维度。这里为了使向量长度一致对原句子进行了padding操作。词向量可以是预先在其他语料库中训练好的，也可以作为未知的参数由网络训练得到预先训练的词嵌入可以利用其他语料库得到更多的先验知识，当前网络训练的词向量能够更好地抓住与当前任务相关联的特征。第二层为卷积层。输入层的"image"是一个由词向量拼成的词矩阵，且卷积核的宽和该词矩阵的宽相同，该宽度即为词向量大小，且卷积核只会在

2021-10-06 21:19:20 913

原创定义及概率论相关

一、深度学习与机器学习机器学习是指令计算机按照设计与编程算法行事的技术。深度学习属于机器学习的一个子域，其相关算法受到人工神经网络的启发。深度学习如今皆通过监督式学习或有标记的数据及算法实现。过程：确定相关数据集并准备进行分析。选择要使用的算法类型。根据所使用的算法构建分析模型。立足测试数据集进行模型训练，并根据需要进行模型修改。运行模型以生成测试评分。区别：机器学习能够适应各种数据量，特别是数据量较小的场景。如果数据量迅速增加，那么深度学习的效果将更为突出。深度学习需要

2021-10-05 19:19:11 343

原创监督学习与无监督学习

一、监督学习 (分类、回归)监督学习需要具有标签（label）的训练数据。如做分类，你需要先对训练数据做标记，然后才能训练模型将数据分成标记类。1.分类和回归对比都是对输入做出预测输出不同如果机器学习模型的输出是物体所属的类别是离散值，例如布尔值，我们称之为分类模型。如：预测明天及以后几天的天气情况：明天阴，下周一晴，是分类；如果机器学习模型的输出的是物体的值，是连续值的模型称为回归模型。如：通过之前的温度来预测现在往后的温度，每一个时刻，我们都能预测出一个温度值，得到这个

2021-10-05 19:18:22 5802

原创神经网络相关

一、前馈神经网络1.单层神经网络只有输入和输出层，可以看成一个线性累加器和一个二值化阈值元器件，通常会在累加一个偏移量b。相当于是对n元线性非齐次方程求解W的逆过程2.多层神经网络MLP多层感知机也叫人工神经网络，除了输入输出层，它中间可以有多个隐层，多层感知机层与层之间是全连接的。多层感知机最底层是输入层，中间是隐藏层，最后是输出层。假设输入层用向量X表示，则隐藏层的输出就是 f (W1X+b1)，W1是权重（也叫连接系数），b1是偏置，函数F为激活函数。隐层的激活函数为RELU输

2021-04-09 14:05:15 434

原创项目2-疾病基因关联预测

疾病基因关联预测

2021-03-29 22:24:35 313

原创排序算法总结

数据结构

2021-03-29 22:22:21 46

原创模型及调参

特征转换：特征转换就是对原始的特征变量进行转换处理，主要的原因是算法的需要，常做的特征转换有：标准化处理：把特征变量转换成均值为0，方差为1归一化处理：把特征变量转换为最小值为0，最大值为1正则化处理：将每个样本在所有变量上的值缩放到单位范数（在所有变量上的值的范数为1）特征编码：例如常用的独热编码......

2020-11-25 13:41:46 805

原创 PYTHON

记录每日dedede。菜鸟一枚默默自己再学习过程中遇到的问题和学到的方法希望没有人看的到。PYTHON语法记录取交集 list0 = list(set(list1).intersection(set(list2)))取并集 list0 = list(set(list1).union(set(list2)))论文中的log 通常指以2为底 math.log(x,2)写txt文件：f= open(’…/test.txt’, ‘a+’, encoding=‘utf-8’)f.wri

2020-11-13 20:18:43 366

原创 R 2020-10-26

R语言提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录R语言CSV文件操作orgDb(基因ID转换工具)使用一、pandas是什么？二、使用步骤1.引入库2.读入数据总结CSV文件操作一些额外操作#获取当前路径getwd()读取test.csv中前6行第一列的数据library("DOSE")a <- c()data &lt

2020-10-28 13:51:56 71

原创 MYSQL

MYSQL提示：MYSQL实践记录文章目录MYSQL前言一、字段替换二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、字段替换将表 t1里面的 f1字段的abc替换为defupdate splicedisease set DO_ID = replace(DO_ID,DO_ID,

2020-10-27 19:05:55 74

原创项目1-疾病关联预测的设计实现

疾病关联预测提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录疾病关联预测整体架构一、基因网络重建二、使用步骤1.引入库2.读入数据总结整体架构本文主要介绍疾病关联预测算法的实现流程，及各个python代码实现的功能，共分为：基因网络重建、基因网络表示、疾病相似度计算、基因相关疾病预测四个模块一、基因网络重建该模块使用NETSIM方法融合了

2020-10-14 15:22:36 619

原创 GitHub

GitHub初使用一、下载安装Git二、配置账户三、上传项目到GitHub一、下载安装Git到Git下载Git并安装：1.根据需要选择复选框后Next2.选择默认编辑器，点击Next3.继续next,配置PATH环境 Use Git from Git Bash only：这是最安全的选择，因为你的PATH根本不会被修改，你只能使用Git Bash的Git命令行工具。 Use Git from the Windows Command Prompt：这个选项被认为是安全的，它只向PATH添加一

2020-10-14 15:22:10 131

weixin_43612836的博客