Arvin Ou-CSDN博客

原创 GNN推荐算法（四）—LESSR：Handling Information Loss of Graph Neural Networks for Session-based Recommen

1 一点点引入LESSR（Lossless Edge-order preserving aggregation and Shortcut graph attention for Session-based Recommendation) 算法与之前讲到的LR-GCN、LightGCN以及Multi-GCCF算法针对的需求不同。后三个算法基于user-item二分图的结构为user做出推荐，而LESSR则是要通过挖掘用户历史行为的时序模式来预测用户下一时刻的行为。换句话说就是：根据用户某一段时间内的消费.

2022-05-27 15:46:56 804

原创 GNN推荐算法（三）—LR-GCCF：让GCN更深

LR-GCCF：让GCN更深1 一点点引入在读**‘Revisiting Graph based Collaborative Filtering: A Linear Residual Graph Convolutional Network Approach’摘要时，就感觉文中提出的LR-GCCF和LightGCN的思路有异曲同工之妙！于是查了查两篇文章的发表时间，都是2020年。只不过LightGCN专注于探讨简化之后的NGCF是不是会得到更好的表现，而LR-GCCF**除了简化embedding更新.

2022-05-20 10:44:09 1347

原创 GNN推荐算法（二）—Multi-GCCF：物尽其用

Multi-GCCF：物尽其用1 一点点引入Multi-Graph convolution collaborative filtering（Multi-GCCF）属于基于图神经网络的协同过滤算法。协同过滤算法通常基于这样一个假设：相似的用户往往喜欢同样的item，而具有相似客户的item往往会得到相似的评分。所以，大多数协同过滤算法基于user-item二分网络做出推荐，但由于在实际场景中每个user所对应的item数量是有限的，这就会导致构造出的user-item二分网络非常稀疏。此时，使用图卷

2022-05-19 12:14:57 1134 1

原创 GNN推荐算法（一）—LightGCN不相信非线性激活与特征转换

LightGCN最近在学一些关于推荐的算法，以此系列博客作为学习过程中的简单记录。同时希望找到有相同兴趣的小伙伴一起交流交流学习资源~1 Background在节点分类任务中，每个节点通常有多个属性信息。此时，非线性激活函数在理论上来说能够基于输入的属性捕捉到高维的特征信息。但在协同过滤中，由于节点的输入只有一个ID信息，使用非线性激活函数是否能够带来增益是有待观察的。此外，基于节点ID信息做线性特征转换是否work，也是一个值得探讨的问题。LightGCN的作者以nueral grpah co.

2022-05-18 11:57:29 1347

原创 Yolov5训练指南—CoCo格式数据集

Yolov5训练指南—CoCo格式数据集1 准备工作2 将coco数据集转换为yolo数据集3 训练参数定义4 训练模型5 预测1 准备工作训练Yolo模型要准备的文件及文件格式如下：/trianing # 根目录 /datasets # 数据集目录（可以任意取名） /images /train /val /labels /train /val /yolov5先创建一个training文件夹mkdir training/在training文件夹下使

2022-04-27 18:31:43 16252

原创图神经网络（三）—GAT-pytorch版本代码详解

GCN代码详解-pytorch版本1 GAT基本介绍2 代码解析2.1 导入数据2.2 GAT模型框架2.3 评估与训练参考资料写在前面…在研究生的工作中使用到了图神经网络，所以平时会看一些与图神经网络相关的论文和代码。写这个系列的目的是为了帮助自己再理一遍算法的基本思想和流程，如果同时也能对其他人提供帮助是极好的~博主也是在学习过程中，有些地方有误还请大家批评指正！github: https://github.com/OuYangg/GNNs1 GAT基本介绍论文标题：Graph atte

2022-04-11 16:28:13 8552 2

原创图神经网络（二）—GCN-pytorch版本代码详解

GCN代码详解-pytorch版本1 GCN基本介绍2 代码解析2.1 导入数据2.2 GCN模型框架2.3 评估与训练参考资料写在前面…在研究生的工作中使用到了图神经网络，所以平时会看一些与图神经网络相关的论文和代码。写这个系列的目的是为了帮助自己再理一遍算法的基本思想和流程，如果同时也能对其他人提供帮助是极好的~博主也是在学习过程中，有些地方有误还请大家批评指正！github: https://github.com/OuYangg/GNNs1 GCN基本介绍论文标题：Semi-super

2022-04-11 16:01:08 14138 8

原创机器学习基础（完结篇）—初识推荐系统与计算机视觉

推荐系统假设有四位用户对3部爱情片和2部动作片分别进行了评分。其中每个用户都有一部没有给出评分，推荐系统就根据这些数据来推测用户对这些未评分的电影会给出多少分。其中:n_u表示用户数量；n_m表示电影数量；r(i,j)=1表示第j位用户已经对第i部电影进行了评分。y(i,j)表示第j位用户给第i部的电影的评分解决此类问题可以使用线性回归的思想，那么我们的目标就是优化一个θ，来使的θ.T*x的值与实际值y(i,j)相近。公式如下：1 协同过滤选择特征：比如说我们已经知道了用户对电影的评

2022-04-10 15:52:48 2639

原创机器学习基础（七）—支持向量机

支持向量机1 优化目标在SVM当中，cost代替了log项，图像和log项的图像非常相似。在SVM中，我们优化不再使用λ，而是使用C，C这一项是被放到了前面的一项当中，并且1/m被去除。在支持向量机当中，为了使我们的代价函数最小：当y=1时，那么我们希望z(θ转置*x)能够尽可能的大于等于1，因为当z大于等于1时我们的cost_1函数就会是0，这就可以使代价函数最小当y=0时，我们则希望z小于等于-1，从而使得我们的代价函数最小。SVM会选择黑色的线作为决策边界，然后

2022-04-10 15:35:32 910

原创图神经网络（GNNs）模型学习笔记与总结

GCN学习笔记1 基于谱域的GCN1.1 知识要点：1.2 Spectral-based models1.2.1 Spectral Network1.2.2 ChebNet1.2.3 GCN1.2.4 AGCN1.2.5 DGCN1.2.6 GWNN1.2.7 小结2 基于空间的GCN2.1 知识要点2.2 Spatial-based models2.2.1 Neural FPs2.2.2 DCNN2.2.2 PATCHY-SAN1 基于谱域的GCN1.1 知识要点：在spectral-based G

2021-11-02 14:23:29 2500

原创 MySQL刷题笔记

MySQL刷题笔记-2021-10-28题目一：现在运营想要分别查看学校为山东大学或者性别为男性的用户的device_id、gender、age和gpa数据，请取出相应结果，结果不去重。表： user_profile要求输出：分析：本题要求按大学条件和性别条件在同一张表中取出指定字段时不去重，因此不能直接进行提取，需要用到union函数。思路：根据两个条件分别进行查询，然后使用union all来进行合并。SQL：SELECT device_id,gender,age,gpaF

2021-10-28 21:24:20 1285

原创图神经网络（一）—GraphSAGE-pytorch版本代码详解

GraphSAGE代码详解-pytorch版本1. GraphSAGE导入2. 代码解析2.1 加载数据2.2 Unsupervised Loss2.3 Models2.4 评估与模型使用2.5 Main参考资料1. GraphSAGE导入论文标题：Inductive Representation Learning on Large Graphs作者：William L. Hamilton, Rex Ying and Jure Leskovec在GraphSAGE之前提出的图神经网络方法，如

2021-05-16 15:10:26 11984 19

原创图神经网络模型—PATCHY-SAN的基本思想与流程

PATCHY-SAN方法阅读笔记1 将CNN应用到图结构数据时面临的问题：2 PATCHY-SAN流程1 将CNN应用到图结构数据时面临的问题：感受野不同：在处理图像问题时，卷积神经网络利用固定大小Kernel提取图像的特征，见下图当面对图结构数据时，由于网络中各节点的一阶邻居数是不同的，如果仍然使用固定大小的kernel是不可行的，因为卷积核的感受野会是不同的。那么在提取邻域的时候，是否可以对邻域进行削减或padding，使得卷积操作可行（注：不是网络中所有的节点都做为中心节点进行卷积神经网

2021-05-06 10:41:57 1183 1

原创 2021美赛规则及注意事项

一、美赛论文评阅标准是否对赛题给出了满意的解决方法，并对赛题中可能出现的模糊概念给予了必要的澄清和说明（美赛特别注重假设，因为题目比较发散，所以假设就是一切的根基）；是否明确列出了建模用到的所有前提条件及假设，并对其合理性给出了满意的解释或论证；是否通过对赛题的分析给出了建模的动机或论证了建模的合理性（大标题和小标题之间的话非常重要，需要展示建模的思路，比如为什么建这个模型，而不建其他模型）；是否设计出了能有效地解决赛题的数学模型（尽量不要用神经网络）；是否对模型给出了稳定性的检验；是否讨论了

2021-01-30 09:13:01 4900 3

原创 My SQL基础语法速查

1 语法规范不区分大小写每条命令用分号结尾每条命令根据需要可以进行缩进和换行单行注释： #或–多行注释：/* 注释文字 */2 常见命令show databases; 显示数据库use 库名; 进入某个指定库show tables from xx(库名); 展示某个库当中的表select database(); 查看当前所在库select * from (表名); 看表当中的数据create table name(id int, name varchar(20)); 创建一

2020-10-25 19:04:38 452

原创 17届数模B题代码流程

准备工作import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport randomfrom sklearn.linear_model import Lassofrom sklearn.linear_model import LinearRegressionfrom sklearn.ensemble import RandomForestRegressorfrom

2020-09-21 16:14:44 1362 3

原创 17届华为杯数学建模大赛B题代码

1 导入库：import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport randomfrom sklearn.linear_model import Lassofrom sklearn.linear_model import LinearRegressionfrom sklearn.ensemble import RandomForestRegressorfr

2020-09-20 22:38:32 2718 3

原创 “Weisfeiler-Lehman Neural Machine for Link Prediction“文章复现工作

1 复现文章：《Weisfeiler-Lehman Neural Machine for Link Prediction》2 文章提出的方法思路：笔者希望能够通过提取目标连边的周围连边所构成的子图，并通过一种编码方法，保留住每个节点在子图中扮演的不同角色，即在不同子图当中扮演相同角色的节点能够有相近的编号。如下面两张图所示，在两个不同的子网络当中，扮演角色相同的节点会得到相同的编号。然后笔者要对于网络中的每一条连边生成这样的一张子图，然后将子图都转化为对应的邻接矩阵，输入到一个机器学习

2020-09-09 18:18:29 1358 1

原创 Kaggle Intermediate-机器学习数据处理与特征工程

如何处理类别变量？方法一：丢弃（一般不用）方法二：LabelEncoderfrom sklearn.processing import LabelEncoderlabel_encoder = LabelEncoder()X[col] = label_encoder.fit_transform(X[col])X_val[col] = label_encoder.transform(X_val[col]方法三：OneHotEncoding:作用：可用来处理无序的类别特征。注意：当特征类别数

2020-05-17 19:38:55 777

原创管理学复试随笔

1. 什么是组织？为什么管理者对于组织很重要思路：首先阐述组织的概念，组织存在是为了干什么的？接着说明管理者在组织当中所要履行的职责（计划、组织、领导、控制），然后谈谈如果组织没有计划、没有明确的结构，没有领导者或没有控制组织会变成什么样，最后引入管理者，根据四项只能分别展开谈一谈管理者在组织实现目标过程中的作用。2.管理者与非管理类员工的区别？思路：这个问题主要考察是否能够想的全面，首先管...

2020-05-07 21:37:05 1968

原创《管理学原理与实践》-Robbins

第1章管理者与管理1.1 谁是管理者组织：是由两个或两个以上的个体或群体为实现共同目标协调起来行动的系统。组织的特征：1、组织由共同的目标；2、组织目标只能由人来完成；3、组织由特定的结构管理者：是指在组织中直接督促他人工作的角色1.2 什么是管理效率：是指正常的完成某项任务，用一定的投入获得最大的产出或用最小的投入获得一定的产出。效果：是指做正确的事，通过完成这些工作任务从...

2020-05-03 08:58:31 1248

原创 Pytorch基础

1 Tensor 基本操作Tensor与Numpy很相似，常用的操作如下随机生产一个指定行列的矩阵,每个值都会介于0-1之间import torchx = torch.randn(5,3)print(x)生成一个指定行列的全零0/1矩阵x = torch.ones(4,4)y = torch.zeros(4,4)print(x)print(y)生成与...

2020-04-22 21:27:59 244

原创 Adaboost-Python代码实践

基于单层决策树的Adaboost实践Adaboost 计算流程：首先给定数据集，基于弱学习器计算分类误差：计算该学习器的权重：更新权重分布，分类错误的样本会获得更高的权重，从而使得其在下一次迭代时受到更多的关注将所有的基学习器进行累加，合成最终的学习器：流程图：基学习器为单层决策树import numpy as npdef loadData(): ...

2020-04-17 15:06:16 1284

原创机器学习基础（十一）—感知机

1 基础概念1. 机器学习应用三个关键有某些有规律的目标待机器进行学习我们不知如何编程有能够给机器进行学习的资料2. 机器学习流程首先将Data传给我们的机器，Data也同时告诉了机器假设空间让机器对数据进行学习，选择一个最好的假设最后得到一个非常接近与目标函数f的假设函数g3.数据挖掘与机器学习的区别机器学习：利用数据来找到一个模型，使得模型能够很好地解决目标问...

2020-04-10 21:12:44 484

原创机器学习基础（九）—无监督学习是什么？

1 无监督学习K-MeansK-Means聚类分析方法的步骤：首先随机初始化K个点（K取决于需要分成的类别数）将离初始化点近的点分别归类，比如下图，蓝色的原点离蓝色的×比较近，所以就被归为此类。红色的也同理再计算每个类的均值，将聚类中心点移动到每类均值上再计算距离分类如此循环3、4两个步骤输入的值：K：类别数数据优化目标：c(...

2020-03-27 15:51:22 193

原创机器学习基础（八）—支持向量机代码实战

SVM最大间距回顾：设SVM找到的决策边界函数为：f(x)=wTx+b(其中w就相当于Logistic回归当中的θ1、θ2…，b就是θ0)。当f(x)=0时就代表样本点在决策边界线上。如下图所示当f(x)<-1时就是负样本，f(x)>1时就是正样本,因此可见f(x)描述了一个样本点到决策边界线上的距离。为什么SVM被称为最大间距分类器呢？首先要搞清楚样本点到决策边界...

2020-03-27 15:21:37 543

原创机器学习基础（十）—异常检测

异常检查假设我们已经收集到了一些数据集,并利用这些数据形成一个模型P，数据的分布如下所示。我们使用异常检测，测试P(x_test)是不是会低于某一个阈值（即判断该点是否常见）来判断有没有异常。参数估计概念：给定不带标签的数据集，来近似的估计出正态分布的期望值或者方差。可以通过样本的均值来估计期望，通过样本与期望之差的平方除以样本总数来估计方差。这同时也称为μ与σ的极大似然估计...

2020-03-27 15:20:55 654

原创机器学习基础（六）—怎么样让我的模型表现更好？

一、改进算法1. 当代价函数非常大的时候可以尝试的办法：获取更多的训练样本尝试用更少的特征数增加额外的特征降低/提高lambda值但是！这些步骤会花费较多的时间。下面将介绍一种事半功倍的解决办法。2.机器学习诊断它能够告诉你在计算的过程当中哪些方面出现了错误，然后可以知道如何改进才能达到最好的效果。（1）如何防止过拟合/欠拟合将数据分为测试集和训练集（3:7的比例...

2020-03-23 21:00:34 422

原创机器学习基础（五）—神经网络实现

神经网络代码实现读取数据：因为要求y为下图的形式，所以要对y进行处理import numpy as npimport pandas as pdfrom scipy.io import loadmatfrom sklearn.preprocessing import OneHotEncoderpath ='E:/Data/Ng/Coursera-ML-AndrewNg-Note...

2020-03-22 21:45:23 306

原创机器学习基础（四）—初识神经网络

1 多变量Logistic回归：多变量Logistic回归的基本思想就是：假设又K个类别，那么就用K个分类器，一个一个的挑出每一个类别与其他的类别进行比较。比如：类别包括：晴，阴天，雨三个分类。那么我就需要三个分类器。第一个分类器将晴作为一类，其他的作为一类利用二元Logistic回归的思想找到最优θ，依此类推。首先获取数据，查看数据import numpy as npimport p...

2020-03-20 21:58:27 312

原创机器学习基础（三）—逻辑斯蒂回归多分类

Logistic 多分类问题：面对Logistic多分类问题，通常的分类是将一类单独拎出来，然后其他剩下的分为另一类。这样就可以利用二元Logistic回归的思路了。比如下图，我们一共有三个类，那么我们会有三个分类器，然后依此计算hypothesis函数的值，最后看那个类别下的h值最大，那么就将其归为这一类。过拟合问题：简单来说，过拟合就是指一个模型在训练集上表现的相当好（代价函数可能非...

2020-03-19 22:49:23 1036

原创机器学习基础（二）—逻辑回归是什么？

Classification:逻辑回归（Logistic Regression）:作用：hypothesis函数在这里与线性回归是不同的：当h(x)>0.5，就会被归为正向类；当h(x)<0.5时就会被归为负向类在参数与特征值已知的情况下，y=0或1的概率下面这个图像描述了g(z)与z之间的关系：1、当z<0,即theta的转置特征值<0:g...

2020-03-18 21:55:33 288

原创机器学习基础（一）—初识机器学习与线性回归算法

1 What is Machine-learning?Tom Mitchell: 机器学习是指一个程序从经验E（计算机与自己进行上万次的对弈）中学习解决某项任务T（玩跳棋），进行某一项性能度量P（赢跳棋的概率），通过P测定在T上的表现因经验E而提高。2 Machine learning algorithm:1、Supervised learning:定义：给出一些数据集与正确的答案（...

2020-03-17 22:28:26 250

原创朴素贝叶斯代码实练（二）—新闻分类

实例：新闻分类器：参考：这篇首先将文件当中的文字取出，分别存到列表当中，并且返回存放字出现频率从高到底排列的列表：import os import jiebafrom sklearn.naive_bayes import MultinomialNBfrom matplotlib import pyplot as pltimport randomdef TextProcess(f...

2020-03-15 21:29:37 503

原创朴素贝叶斯代码实练（一）—哪些是垃圾邮件？

1 拉普拉斯平滑：上一篇博客的最后留下了一个问题，那就是如果检测的词列表中包含概率为0的字那么最后结果总是0。那么此时可以引入拉普拉斯平滑，也就是说，可以将所有的字初始化为1，然后分母初始化为2.还有一个问题就是要防止下溢出，即小数与小数项城越乘越小，到最后保留小数可能就成为了0，对此采用取对数的方式来进行解决，取对数不会有任何的损失。图片出处代码改进：def Trainer(tran...

2020-03-15 20:49:02 308

原创朴素贝叶斯基本原理

1 贝叶斯：思想：知道结果反推原因。例子：有1、2、3号工厂，并且没个厂房生产出次品的概率分别为：0.1、0.2、0.3求出现的次品是由3号工厂所生产的概率解：设：事件B为出现次品，事件A1、A2、A3分布代表1、2、3号工厂生产次品P（A3|B）（注：这里计算的条件概率就是已经知道结果为出现次品了，所以就是求在出现次品的条件下，次品来自3号工厂的概率） = P(A3*B)/P(B...

2020-03-14 22:43:22 336

原创统计学基础（四）—卡方检验怎么用？

配对卡方检验：目的：研究同一群人在实验前测和实验后测是否发生了变化前提：1、观测变量为二分类变量，且两类之间互斥2、分组变量包含2个分类，且相关。（当分组变量有3个及以上分类时，可使用Cochran’s Q检验）操作：结果分析：首先，从正对角线得出的结果是，25名研究对象中有8名干预前喝酒，干预后还继续进行喝酒的人；6名干预前不喝酒干预后还是不喝酒的的人...

2020-03-11 18:16:21 12404

原创 Matplotlib柱状图加百分比解决办法

import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltscore = pd.read_excel('E:/Data/前测自我认同感量表.xls',sheet_name = 'Sheet2')plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']p...

2020-03-10 20:27:48 5135

原创统计学基础（三）—数据的概率分布与差异检验方法

四种数：平均值：看某一组数据的平均情况（注：平均数对异常值的敏感程度太低，其结果往往很有争议）四分位数：用来比较不同类别数据的整体情况；通过箱线图可以用来检验出异常值标准差：用来衡量数据的波动大小标准分：用来描述某数值的相对排名，用不同数据集间的比较。二项分布：特点：一件事情只有两种结果（发生或不发生；正面或反面）；每一次发生的概率是相等的；重复进行n次实验。概率计算公式：p为...

2020-03-10 19:43:04 8724

原创统计学基础（二）—多变项分析

多变项分析：由面到体一果多因：多元回归分析一果多因净（偏）回归系数1、从下表可见受教育程度对于工资的影响比上一次做一因一果回归分析的时候第。原因在于原来做的一因一果线性回归分析出来的结果是受教育水平影响工资的毛重。而这里进行了多因素分析，其中受教育程度还会影响是不是当经理，因此这里显示的是净（偏）回归系数。其中要看那个贡献比较大，可以通过看Beta来判定。由上图可见，是否为经理的贡...

2020-03-09 17:12:43 840

空空如也

空空如也