自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(118)
  • 资源 (15)
  • 收藏
  • 关注

原创 llava-v1.6-vicuna-7b response为空,解决方案

分析得出是输入长度加上图片token过程,vicuna 默认的session_len长度(2048)过短造成的,对话模版也需要了解。

2024-07-23 17:06:40 26

原创 多模态开源模型部署Llava-v1.6-Vicuna-7B 总结

一段可以直接run的下载代码,超好用!

2024-07-11 10:27:02 190

原创 远程服务器运行项目代码 sh xxx.sh

把环境上传到远程服务器 (anaconda下面的文件夹)然后到项目对应目录下运行对应sh文件。把项目代码上传到远程服务器。

2024-06-08 15:52:14 128

原创 relative position encoding快速看懂相对位置编码代码实现

举例如果有5个token,相对位置就有9种情况。然后是通过前面的相对位置矩阵,得到相对位置编码。

2024-06-02 15:45:30 204

原创 一直出现问题,发现服务器磁盘空间已满导致,腾出服务器磁盘空间命令

通过上述步骤,你应该能够有效地腾出服务器磁盘空间,解决空间不足的问题。在进行文件删除操作时,请务必确保不会删除系统关键文件或正在使用的进程文件,以免影响系统稳定性。

2024-03-13 15:32:41 420

原创 urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host=‘huggingfac 远程服务器 访问不了外网 本地电脑可以使用VPN....

核心目的是想用远程服务器上的GPU跑代码,也就是服务器上的conda安装的环境和python解释器去执行pycharm里的项目,但是发现远程服务器不能访问外网…可以看出上面带GPU的服务器只能访问bing这样的普通网站,访问不了huggingface。就很麻烦,似乎只能手动下载一些类似bert的模型,或者尝试找huggingface的镜像web…如果要想直接下,可以本地电脑连VPN ,翻墙访问直接下载,但是本地电脑又没有GPU。

2024-02-27 17:05:27 643

原创 时序预测demo 代码快速实现 MLP效果比LSTM 好,简单模拟数据

生成的一个带些随机数的正弦波:y = torch.sin(x * 2 * 3.1415926 / 100) + 0.3 * torch.sin(x * 2 * 3.1415926 / 25) + 0.8 * np.random.normal(0, 1.5)LSTM(长短期记忆)的层数指的是在神经网络中堆叠的LSTM单元的数量。层数决定了网络能够学习的复杂性和深度。每一层LSTM都能够捕捉和记忆不同时间尺度的依赖关系,因此增加层数可以使网络更好地理解和处理复杂的序列数据。简单聪明的MLP第一轮就学会了。

2024-02-22 21:12:23 327

原创 机器之心:讲座分享——NPL顶会如何发表?内容小结

3分以上有机会,3.67,3.8左右 录用概率较高。机器之心:讲座分享——NPL顶会如何发表?

2024-02-20 10:52:22 146

原创 a.to(device)把张量转移到GPU上 细节

这样不能转移到GPU上。

2024-02-05 11:18:16 139

原创 【itransformer 多变量时间序列 】

*输入数据:**多变量时间序列。

2024-02-01 11:30:26 244

原创 Transformer 改进点,BERT模型的优缺点和一些模型基本原理总结

方差为d_k,需要除以根号d_k,把乘积的数值重新变为均值为0,方差为1.之前看过多篇博客,和视频讲解,才发现模型内部细节非常多,以及动态实现过程,最近才重新搞懂输入,输出,和mask在输出部分的原理。

2024-02-01 10:20:06 250

原创 git clone https改成http成功(fatal: unable to connect to github.com: github.com[0: 140.82.113.3]: errno)

奇怪的情况,去掉s就OK了。

2024-01-29 21:50:25 187

原创 基本矩阵运算、高维张量乘法运算

通过广播机制将形状不匹配的张量扩展为匹配形状,然后进行元素级乘法运算。在实际代码中,可以使用 PyTorch 提供的广播机制来自动处理形状不匹配的情况,无需手动进行扩展操作。点积运算:指你的两个向量的对应位置的元素相乘再相加。

2024-01-29 17:43:30 163

原创 MetaGPT task1学习

基础知识学习了解:

2024-01-14 17:04:59 407

原创 Model.from_pretrained(“./pytorch_model.bin“

2024-01-04 15:25:12 357

原创 重新理解一下F.cross_entropy()的细节

最初疑问:为什么F.cross_entropy (logits,labels)里的labels为212,213,这样的标签。

2023-12-16 15:40:44 539

原创 CLIP 对比学习 源码理解快速学习

是相似的,或者说这两个东西是一个意思,然后把这两个当成正样本,计算正样本的相似度要越大越好,即学习到的图像和文本的潜在特征表示进行运算后得到的相似度要越大越好,所以反向约束表示图像和文本的特征要能够彼此互通,图像的特征向量能够跟文本的特征向量在语义上能够互相认识彼此,从而认出彼此是相似的。优化方向:分母的负样本相似度越小越好,小到0可忽略不计,这时正样本上下抵消为1,log1=0,loss为0.最终计算contrastive loss,loss计算加上 -log。si,i :正样本相似度。

2023-12-15 16:15:06 1333

原创 10.10-11 科研记录 一些多模态工作的相关思考

文本向量维度为768,时间序列向量维度256或其他可变维度,但有些不太理解如果将这些维度随意进行线性变换后,所表示的特征的隐藏状态表示会进行怎么样的变化,感觉“有些抽象”,个人感觉可能还是由最后的loss反向去更新这些维度所表示的隐藏状态表示,选择不同维度可能就是因为经过多层模型结构后得到表示特征的不同深度的含义,维度相对高些才能装得下深层表达,然后合适的维度表示合适层次和深度的信息吧。中,笔记中多描述各种器官检查出来的情况,但可能隐约中这些文本也能跟患者的某些生理指标有一定关系,

2023-11-22 20:44:23 107

原创 【softmax和sidmod 快速学习和 用法对比】

另外,Softmax函数在多分类问题中更常用,而Sigmoid函数在二分类问题中更常用。对于多分类问题,Softmax函数可以处理多个类别之间的竞争关系,确保概率分布的归一化。而对于二分类问题,Sigmoid函数通常被用于输出单个概率值,表示样本属于正类的概率。总结起来,Softmax函数和Sigmoid函数是两种不同的激活函数,它们在使用和适用场景上有所不同。在二分类问题中,Softmax函数可以通过设置两个输出神经元的权重和偏置来模拟Sigmoid函数的行为,但是这种用法并不常见。

2023-11-17 11:13:31 105

原创 scp 跨服务器传输命令,把一个服务器上的文件复制传到当前服务器目录下

要将一个服务器上的文件复制到当前服务器的目录下,可以使用 scp 命令进行跨服务器传输。内网内的服务器可以互相迁移,不同网之间可能连不上,需要考虑网络方面的问题。

2023-11-16 15:52:34 915

原创 9.25 广读论文 思想汇总

多模态,多篇ACL,alibaba。数据集MIMIC-VI。

2023-11-13 11:29:24 64

原创 变分自编码器 / 概率分布的重新理解 感觉悟了很多

在传统的变分自编码器中,通常还会加入一个正则化项,即 KL 散度项,用于控制潜在空间中的数据分布符合一个预先给定的概率分布。如果不加 KL 散度项,则不会对潜在空间的分布进行限制,使得潜在空间的分布可以是任何分布,限制了它的生成性能和样本质量。的内容,但后边有些遗忘且在代码实现上没有灵活运用,建模一个概率分布,现在个人看来就是创建一种“某种特定规律的可能性集合”(自己的理解不一定对),然后在这个所有参数定义的“模型”去生成符合某种概率规律的数值。变分自编码器 不加KLD 对概率分布的约束项可以吗?

2023-11-10 17:04:01 119

原创 知识图谱初探思考

确实不是两者直接的相关关系,而是一种实体的“属性”的感觉,属性相似就可能是朋友,无非又是两者的特征比较相近,呈现某种相关关系,还是没啥区别啊,所谓的推理规则也比较含糊,本质相关关系也能够解决,只是知识图谱是一种可解释性的显示化表达。通过不断的研究和实践,我们可以逐步解决这些问题,使知识图谱在更多的领域中得到广泛应用和发挥其应有的价值。构建和维护成本高:知识图谱的构建和维护需要大量的人力、物力和时间,特别是在大规模和复杂的应用场景下,这使得知识图谱的构建和维护成本相对较高。,是事物关系的可计算模型。

2023-10-30 21:35:45 85

原创 transformer模型训练结构解析(加深理解)

模型的训练self,n_steps,n_layers,d_model,d_inner,n_head,d_k,d_v,dropout,):self.d_k,self.d_v,else:val_X, 0.2) #这行代码调用了一个名为_train_model的方法,并传入了training_loader作为参数#根据代码片段的上下文,可以推测_train_model方法是用来执行模型的训练操作的。

2023-10-28 19:56:40 238

原创 注意力屏蔽(Attention Masking)在Transformer中的作用 【gpt学习记录】

填充遮挡(Padding Masking):未来遮挡(Future Masking):

2023-10-13 16:09:33 560

原创 9.21广读最新arxiv论文 思路学习汇总

在本文中,我们研究了一个新的城市流动生成问题,为没有历史流动数据的地区生成动态城市流动。进一步的深入研究证明了生成城市流动数据的有效性,以及我们的模型在长期流动生成和城市流动预测方面的能力。一方面,现有方法无法全面探索多视角数据,因为它们通常学习视图之间的共同表示,而多视角数据既包含视图之间的共同信息,也包含每个视图内的特定信息。评价:感觉是个很有用的研究角度,衡量嵌入式方法在捕捉结构和上下文信息方面的有效性的方法,里面大概简单选了一些指标来评估吧,但理论性一般,没有太数学的支撑。

2023-09-25 15:57:00 71

原创 【手动实现nn.Linear 】

另外,最近的一些感想,觉得神经网络更多像是一种将数据抽象成某个维度,从而转换到另一个空间进行处理的过程,本质是对特征的处理,很多方法和模型结构也的设计也都是在更好地去映射和捕捉特征。

2023-09-25 08:59:26 313

原创 9.20广读论文 核心思路笔记

摘要:会话模型中,生成型和开放领域的模型尤其容易产生不安全内容,因为它们是在基于网络的社交数据上进行训练的。以前缓解这个问题的方法有缺点,比如打断对话的流畅性,对未见过的有毒输入上下文的泛化有限,以及为了安全而牺牲对话的质量。在本文中,我们提出了一个新颖的框架,名为 “LOT”(学习不要),该框架利用对比损失来通过学习正负训练信号来提高泛化能力。我们的方法不同于标准的对比学习框架,因为它能自动从之前学习过的安全和不安全语言分布中获取正负信号。联想和思考:概率分布的学习和神经网络之间的关系。

2023-09-21 15:34:49 73

原创 BERT 快速理解——思路简单描述

BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,它基于Transformer架构,通过在大规模的未标记文本上进行训练来学习通用的语言表示。

2023-09-19 22:33:24 1110

原创 9.14-广读最新研究方向论文核心思路汇总

为了解决这个问题并提高数据效率,我们引入了一种新颖的对比性 affordance 学习框架,该框架能够在包含单个遮挡物的场景上进行训练,并推广到具有复杂遮挡组合的场景。摘要:在金融领域,为了实现对表格文本数据的智能理解,以前的研究通过问答任务探索了数值推理在表格文本内容上的应用。在本文中,我们提出了一种新颖的语义导向层次图(SoarGraph),它利用层次图来模拟不同元素(例如,问题、表格单元格、文本段落、数量和日期)之间的语义关系和依赖关系,以促进支持证据的提取并提高数值推理能力。关键词:先验知识约束。

2023-09-18 09:00:30 72

原创 9.13-广读最新研究方向论文核心思路汇总

*受到开发者调试代码时与代码互动的方式的启发,我们提出了自动科学调试(AutoSD)技术,该技术给定有错误的代码和一个揭示错误的测试用例,提示大型语言模型自动生成假设,使用调试器积极与错误代码交互,从而在补丁生成之前自动得出结论。能够访问解释的参与者判断补丁正确性的时间与那些不能访问的参与者大致相同,但他们在研究中的五个实际错误中的准确性有所提高:70% 的参与者回答在使用修复工具时希望得到解释,而 55% 的参与者回答他们对科学调试表示满意。此外,它还揭示了预训练菜谱的可能的泄漏,例如,

2023-09-13 16:17:54 258

原创 广读论文核心思路汇总笔记 (一些有意思的论文and论文在研究的一些有意思的问题or场景应用)

在这样分析的指导下,我们提出了一种名为 BeMap 的公平消息传递方法,它利用一种平衡感知的抽样策略来平衡不同人口群体中每个节点的 1-跳邻居数量。在本文中,我们提出了一种名为 BagFormer 的双编码器模型,它利用跨模态交互机制来提高召回率,同时不牺牲延迟和吞吐量。我们表明,FGNN 能够表示最大似然概率图模型的近似推理算法——最大积,因此,当最大积表现良好时,FGNN 也能表现良好。提出了 IPM,它利用预训练语言模型捕捉填充的语义,把文本插补建模为分类任务,充分利用预训练语言模型捕捉语义的能力。

2023-09-13 13:23:07 172

原创 CrossEntropyLoss() 和 nn.BCEWithLogitsLoss() 举例说明区别

然后,它计算模型输出与目标标签之间的二元交叉熵损失。在多分类任务中,模型的最后一层输出是一个概率分布,表示每个类别的概率。CrossEntropyLoss() 计算模型输出与目标标签之间的交叉熵损失,用于衡量模型的预测与真实标签之间的差异。需要注意的是,nn.BCEWithLogitsLoss() **可以用于多标签分类任务,**其中每个样本可以属于多个类别。总之,CrossEntropyLoss() 适用于多分类任务,而 nn.BCEWithLogitsLoss() 适用于二分类任务和多标签分类任务。

2023-09-09 17:28:29 677

原创 内积与外积的含义与区别,余弦相似度

余弦相似度

2023-06-05 10:37:15 232

原创 softmax计算报错 float32改为float64

或者在计算时考虑到数值范围的限制,避免指数函数产生太大的数值。此外,也可以通过一些技巧,如在计算过程中减去最大值,和使用其他数值计算的方式规避数值上溢所带来的问题。逐步查看, 在计算指数函数之前,检查计算的值是否超出了浮点数的值域,这个警告通常是由于在某些计算过程中计算出的指数函数值超出了计算机的浮点数表示范围而触发的。在计算机运算中,数值计算的精度取决于计算机能够表示的数的范围和精度。函数中输入的值超出可用的数据类型的表示范围时,就会发生这种情况。解决方案:float32改为float64。

2023-04-07 16:46:58 518 1

转载 核函数 <-- 内积 <-- 余弦相似

2023-03-23 18:50:14 112

原创 conda环境打包迁移及部署

进入到要打包的虚拟环境中。

2023-03-14 20:20:06 892

原创 pycharm代码与远程服务器映射

点击配置,先把Python编译器环境选择到远程服务器配置好的环境下的python,融合把当前项目的地址和远程服务器的代码进行映射,这样运行的其实是远程服务器的代码,这样远程服务器上的代码改动后,debug或运行时发现结果也会改变。这样的好处就是,可以在本地调试,目前就知道这么多,其他确实还也有些不太理解。

2023-03-09 19:45:58 705

转载 PyCharm:如何将一个项目用作另一个项目的依赖项?

我已将 xyz 的主目录路径添加到用于项目 abc 的解释器的 PYTHONPATH 中: Settings->Project->Project Interpreter->Show All->Interpreter Paths->Add Path。在项目 abc 中,我们有一个带有函数 f1() 的模块 abc.mod_a,在项目 xyz 中,我们有一个带有函数 f2() 的模块 xyz.mod_b。我已将 xyz 添加为项目 abc 的项目依赖项: 设置->项目->项目依赖。它将为您处理所有依赖项。

2023-02-28 21:27:36 1152

原创 查看虚拟环境下某个python包的函数用法

3.输入help(xxx.xxx)某个包的某个函数。2.进入该环境下的python环境。1.先进入到虚拟环境。

2023-02-09 11:10:44 256

互联网+商业计划书样本.zip

互联网+优秀商业计划书样本

2021-06-25

互联网+&挑战杯商业计划书.zip

互联网+&挑战杯商业计划书优秀案例

2021-06-25

JavaWeb入门到实战.zip

超级好的学习教程,b站楠哥讲的java对应课件pdf和 java代码(一个javaweb可运行系统)

2021-06-25

1989-2020美赛建模论文.zip

美赛建模论文

2021-06-25

挑战杯优秀作品.zip

word和pdf文件覆盖多个优秀作品案例,具有较大参考价值

2021-06-25

中国“互联网+”大学生创新创业大赛.zip

大赛评审规则,往届获奖项目介绍,热点问题和样本模板。

2021-06-25

报刊订阅管理系统_数据库原理与应用报告.pdf

一个C#数据库系统的实验报告,内容完整,体系清晰明了,便于参考做数据库课程设计

2021-06-25

清风数学建模课件.zip

国赛美赛数学建模学习资料,包括matlab程序和讲解课件

2021-06-25

arxiv-metadata-oai-2019.json.zip

Datawhale组队学习21期_学术前沿趋势分析Task1_论文数据统计_数据文件

2021-01-16

(挑战杯)丁颖杯复赛60支队伍作品申报书.zip

挑战杯等类似创业比赛优秀作品申报案例

2020-05-28

网易(类似商业计划书).zip

行业分析报告,可以仿着写一些商业计划书

2020-05-28

2018SCI培训讲座PPT.pdf

2018SCI培训讲座PPT.pdf

2020-05-28

vision-language-navigation-with-self-supervised-auxiliary-reasoning-tasks.pdf

视觉语言导航论文,得奖佳作。

2020-05-28

MCM美赛-资料汇总.zip

美赛资料包,有详细的各种学习资料,非常全面

2020-05-28

第五届“挑战杯”创业计划书(决赛版).doc

挑战杯创业计划书,一些文档的整理,本来还是发压缩包好,这次先试一试了 挑战杯

2020-05-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除