- 博客(99)
- 收藏
- 关注
原创 连不上服务器,超时
项目场景:工位电脑连接系里的服务器。问题描述今天用我的MacbookAir可以通过ssh连上系里的服务器,但是MacMini无法连上。用vscode的ssh连接,会显示ssh 建立连接:操作已超时。于是开始查找原因。原因分析:同时在MacbookAir和MacMini上的terminal上面敲命令sudo systemsetup -getremotelogin。可以查看是否开始SSH功能。发现我的MacMini其实并没有开启ssh服务。网上查到的指令是sudo systemsetup -
2024-09-23 19:46:19 612
原创 [随便学学]在doker服务器中实现ssh免密登陆
最近登陆服务器,发现每次都需要输密码。所以想看看有没有一劳永逸的办法,能够不输密码。免密登陆。ssh(secure shell)是一种网络协议,用于在不安全的网络中建立安全的远程连接。ssh无密码登陆是通过公钥加密技术,实现在ssh连接中无需输入密码即可登陆远程服务器的方法。
2024-08-28 11:13:07 580
原创 [学习笔记]深度学习详解-Datawhale学习组
优化神经网络时,使用梯度下降法,遇到梯度为0的点,训练就停了下来,损失也不再下降。这个梯度为0的点,可以称为临界点。临界点可以细分为局部极小值局部极大值和鞍点。如下图,左侧是局部极小值,右侧是鞍点。鞍点的特点是,它在某些方向上是极小值,在某些方向上是极大值。形似马鞍面。
2024-08-25 15:50:15 1058
原创 VScode如何进行调试
"configurations"是一个数组,对应多个配置项(字典)。,缺点是程序没有配有调试器,因此不支持断点调试,即打了断点,通过这种方式运行,遇到断点仍会继续执行。"name"是给配置项起一个易于理解的名字,方便后面在调试时,通过下拉列表切换配置项。“request"指定的是调试模式,具体值只能是"launch"或者"attach”。“type"指定的是编程环境,如python对应type是"debugpy”。“name”,“type”,"request"是通用参数,任何编程语言都有。
2024-07-19 17:05:07 567
原创 [读论文]Transformers are SSMs
NotationTTT: Sequence length/ time length$$:摘要虽然transformer一直是深度学习在语言建模方面成功的主要架构,但状态空间模型(ssm),如Mamba,最近被证明在中小规模上与transformer相匹配或优于transformer。这些模型族实际上是非常密切相关的,并在ssm和注意力变体之间发展了一个丰富的理论联系框架,通过对一类经过充分研究的结构化半可分矩阵的各种分解连接起来。状态空间对偶(SSD)框架使我们能够设计一个新的架构(Mamba-2)
2024-07-14 00:16:13 1040
原创 [读论文]Mamba4Rec: Towards Efficient Sequential Recommendation with Selective State Space Models
序列推荐旨在评估动态的用户偏好以及用户历史行为之间的序列依赖关系。尽管基于transformer的模型已被证明对序列推荐是有效的,但它们受到注意力算子的二次计算复杂性导致的推理效率低下的问题的困扰,特别是对于长程行为序列。受最近状态空间模型(ssm)成功的启发,本文提出Mamba4Rec,这是第一个探索选择性ssm高效序列推荐潜力的工作。基于基础的Mamba模块,即一个带有硬件感知并行算法的选择性SSM,我们结合了一系列序列建模技术,在保证推理效率的同时,进一步提升模型性能。
2024-07-11 17:43:43 1231
原创 [代码复现]Self-Attentive Sequential Recommendation
文中有疑问的地方用?表示了。可以通过ctrl+F搜索’?
2024-05-30 22:54:27 1133
原创 Python心得(待补充)
下列网站的知识涵盖度由浅到深,可以按照(暂定)顺序逐个进行检索,即先选择靠上的网站进行知识点检索。建议先使用help(),然后查阅下面的网站/文档,最后还搞不懂可以去翻一些个人博客资料。下面的网站可以帮助了解IDE和python快捷命令,用来提高效率。对于内容多的,可以当工具书检索使用。对于内容少的可以看一遍。
2024-05-27 11:14:12 363
原创 [读论文]精读Self-Attentive Sequential Recommendation
顺序动态是许多现代推荐系统的一个关键特征,这些系统试图根据用户最近执行的操作来捕获用户活动的“上下文”。马尔可夫链(MC)和递归神经网络(RNN)。马尔可夫链假设用户的下一个动作可以仅根据他们最后(或最后几个)动作来预测,而 RNN 原则上允许发现长期语义。一般来说,基于MC 的方法在极稀疏的数据集中表现最好,其中模型精简至关重要,而RNN 在更密集的数据集中表现更好,在这些数据集中,模型复杂性更高。
2024-05-25 17:03:36 1387
原创 深度学习环境配置:(windows环境)WSL2-Ubuntu+(mac环境)
流程可参考:https://www.bilibili.com/video/BV1mX4y177dJ注意:中间可能需要使用命令更新一下wsl。
2024-05-15 16:19:11 1127
原创 [公开课学习]台大李宏毅-自注意力机制 & Transformer
存在一些问题,每个向量有一个输出结果,被称为不知道有多少输出结果,被称为seq2seq。
2024-05-08 21:29:03 1102
原创 [学习笔记]pytorch tutorial
使用预训练的ResNet 18 CNN,有18层深(CNN的层数一般就是指具有权重/参数的层数总和),可以进行1000分类。会创建一个简单的flask应用,带有rest api,并且以json数据作为返回。实现激活函数:nn.xxx, torch.xxx, F.xxx。成更高维度的tensor,其拓展的维度由。3.如何保存和加载Checkpoint。4.在GPU/CPU上保存/加载。pytorch会进行数字数字分类。是将相同大小的tensor。2.只需要保存参数(推荐)衡量分类模型的表现。
2024-04-03 15:58:56 875 2
原创 [学习笔记]刘知远团队大模型技术与交叉应用L6-基于大模型文本理解和生成介绍
IR系统分为两个阶段:Retrieval阶段:对整个文档库排序后,抽回一部分相关文档的子集。主要考虑召回率。Re-Rankink阶段:精排序主要的机器问答类型:机器阅读理解、开放域问答、基于知识库问答、对话式QA完形填空多选抽取式阅读理解(原文找答案)data-to-text: 可以把一些非语言性的表示的信息,通过模型,以人类可以理解的语言表示出来。例子:seq2seq比较知名的模型:T5T5是在一个被清洗过的爬取的数据集上训练的。输入时,会将其中一部分mask,在训练和模型策略上。
2024-02-02 15:05:35 667
原创 [学习笔记]刘知远团队大模型技术与交叉应用L5-BMSystem
表现:高效,便宜使用时只需要进行简单替换。介绍大规模预训练模型压缩的相关技术。以及相关工具包BMCook。下表是PLMs模型增长的趋势。如何将大规模的计算量降下来,同时保留PLMs学习到的能力。所以希望将大规模模型压缩。同时小模型基本上继承大模型的能力。有效的方法可能包括:知识蒸馏;模型剪枝;模型量化;模型的专家化现在的PLMs是十分过参数化的。有一些方法被用于提高模型效率。BMCook是一个工具包。它的目的是结合已有的有效的模型压缩方法,加速现有大规模模型。
2024-01-28 21:56:45 1013
原创 [学习笔记]刘知远团队大模型技术与交叉应用L4-Prompt-learning & Delta-learning
预训练和fine-tuning有一定的gap。毕竟是不同的任务。通过额外增加模版。映射到标签的过程称为verbalizer。这样就使用了mask任务。弥补了不同之间的gap。
2024-01-21 22:47:30 818
原创 [学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs
BPE提出主要是为了解决OOV的问题:会出现一些在词表中没有出现过的词。
2024-01-21 22:47:08 620
原创 [学习笔记]刘知远团队大模型技术与交叉应用-汇总
视频:【清华NLP】刘知远团队大模型公开课全网首发|带你从入门到实战[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics[学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics
2024-01-14 21:08:55 877
原创 [学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics
本节首先介绍神经网络的一些基本构成部分。然后简要介绍神经网络的训练方式。介绍一种基于神经网络的形成词汇的向量表示的方法。接下来继续介绍常见的神经网络结构:RNN和CNN。最后使用PyTorch演示一个NLP任务的一个完整训练的Pipeline。
2024-01-14 21:08:22 1046
原创 [学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics
相关知识,如Linux命令,Git命令等,需要自己了解。
2024-01-14 21:06:45 1628
原创 [学习笔记]PageRank算法
对于Column Stochastic矩阵,由Perreon-Frobenius定理,最大的特征值就是1,且存在唯一的主特征向量(特征值1对应的特征向量),向量所有元素求和为1。random walks with restarts:随机游走,并有传送到指定的一个节点,继续游走。pagerank的一种解释是:随机游走,并有概率随机传送到网络中的任意一个节点,继续游走。所以考虑一个网站是否重要,需要看引用它的网站是否重要,这就成了一个递归的问题。的节点的rank值,各自除以它的出度,再求和。
2023-09-11 17:46:22 1017 1
原创 [学习笔记]Node2Vec图神经网络论文精读
参考资料:https://www.bilibili.com/video/BV1BS4y1E7tf/?
2023-09-10 12:13:01 567
原创 [学习笔记]词向量模型-Word2vec
skip-gram只有一组完整的中心词向量,没法像之前一样将中心词向量和周围词向量相加求平均。与skip-gram的层次softmax的区别是u0是上下文词向量avg。开n次方根是为了避免长句子的概率比小句子概率小,导致评价偏颇。重要的词往往出现的频率比较小,不重要的词往往出现的频率比较高。语言模型是计算一个句子是句子的概率的模型。下面的skip-gram和cbow也都是Log线性模型。不同模型的E和T认为一样,所以下面用Q来代表模型复杂度。简单,但词越多,向量越长。语言模型是无监督的,不需要标注语料。
2023-09-10 10:16:23 499
原创 [学习笔记]DeepWalk图神经网络论文精读
核心思想:随机游走=句子GVEG=(V,E)GVEGLVEXYGLVEXYX∈R∣V∣×SX∈R∣V∣×S:每个节点有S维特征Y∈R∣V∣×∣Y∣Y∈R∣V∣×∣Y∣:每个节点有YY个标签任务:relational classification(不满足独立同分布假设)目标:学到XE∈Rr∣V∣×dXE∈Rr∣V∣×d:d是词嵌入后的维度。
2023-09-09 11:46:45 385
原创 [学习笔记]CS224W(图机器学习) 2022/2023年冬学习笔记
介绍的结构特征可以分为:节点的度不同节点的重要度度量可用于预测有影响力的节点节点的度聚类系数GDV可用于预测节点在图中的功能,桥接、枢纽、中心。
2023-09-06 16:08:02 1911
原创 [学习笔记]3小时搞定DRF框架 | Django REST framework前后端分离框架实践
DRF(全称Django REST framework)是一个用于构建 Web API 的强力工具集,是一个基于Django的Python Web框架,它为开发人员提供了一套快速开发 RESTful API 的工具,它能够自动化 API 可视化、文档化,实现接口的自动化测试以及自动化的API路由、序列化、视图、验证、分页、版本管理、认证等等功能。DRF简化了API的开发,并提供了一系列的工具来构建高质量的API。学习目标:使用DRF开发RESTful API接口。
2023-08-03 13:51:53 6064
原创 [学习笔记]全面掌握Django ORM
Django的ORM详解在django中,应用的文件夹下面会自动建一个models.py文件。模型类的优势与劣势优势:让开发人员专注于业务逻辑处理,提高开发效率。不需要在业务逻辑代码中编写原生sql语句了。用操作对象方式来操作数据库。缺点:一定程度上牺牲程序执行效率。orm写久了可能会忘记怎么写sql。Django Meta元数据类属性解析每个模型类下面都有一个子类:Meta这个类就是定义元数据的地方用于定义数据库或者数据表相关的信息如设置表明,设置排序,设置唯一键等。
2023-07-27 16:30:31 788
原创 [学习笔记]drf+vue前后端分离开发必备
最新版vue自学教程(drf+vue前后端分离开发必备) [学习笔记]drf+vue前后端分离开发必备1.vue.js初体验2. vue常见指令2.1 插值表达式2.2 v-bind指令2.2.1 v-bind指令简写和单向绑定2.3 v-model指令2.3.1 更多相关标签示例2.4 v-for指令2.5 v-on指令案例:数据管理2.6 v-if指令2.7 v-show指令案例:用
2023-07-21 16:37:43 688
原创 [学习笔记]python的web开发全家桶2
创建连接,创建游标cursor,用游标execute执行sql语句,然后断开连接。动态执行sql,千万不要用字符串格式化去做sql拼接,会有安全隐患SQL注入。安装完会有django-amin.exe和django模块。varchar,节省空间。MySQL,本质上就是一个软件。
2023-06-27 18:01:15 620
原创 [学习笔记]python的web开发全家桶1-前端
源学习视频目的:开发一个平台(网站)前端开发:HTML、CSS、JavaScriptWeb框架:接收请求并处理MySQL数据库:存储数据地方快速上手:基于Flask Web框架让你快速搭建一个网站出来。深入学习:基于Django框架(主要)1.快速开发网站from flask import Flaskapp = Flask(__name__)# 创建了网站/show/info和函数index的对应关系# 以后用户在浏览器上访问/show/info,网站自动执行index
2023-05-11 10:22:37 4752
原创 [学习笔记]金融风控实战
数据探索性分析是我们初步了解数据,熟悉数据为特征工程做准备的阶段,甚至很多时候EDA阶段提取出来的特征可以直接当作规则来用。可见EDA的重要性,这个阶段的主要工作还是借助于各个简单的统计量来对数据整体的了解,分析各个类型变量相互之间的关系,以及用合适的图形可视化出来直观观察。希望本节内容能给初学者带来帮助,更期待各位学习者对其中的不足提出建议。数据预处理:a. 缺失值的填充b. 时间格式处理c. 对象类型特征转换到数值异常值处理:a. 基于3sigma原则b. 基于箱型图。
2023-04-11 10:54:21 632
原创 Python中的对象赋值和浅拷贝,深拷贝
在看一篇资料的时候.有两处代码.这个代码可以查看data_train,可查看到数据修改.但下面的代码查看data_train却无法查看到数据修改.
2023-04-05 17:20:02 110
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人