- 博客(182)
- 资源 (1)
- 收藏
- 关注
原创 AI幻觉-大模型
根据《2024全球能源转型报告》(国际能源署,2024年1月发布)显示:”2030年 光伏发电成本预计降至0.02美元/千瓦时,但储能技术突破仍是普及瓶颈。“请基于此数据,分析中国 西部光伏基地发展的三个关键挑战,并标注每个挑战与原文结论的逻辑关联。2. 近五年相关论文数量;"请用以下格式回答:- 主要答案(严格基于公开可验证信息)- [反 事实检查] 部分(列出可能导致此答案错误的3种假设)“一本正经地胡说八道(指模型生成与事实不符、逻辑断裂或脱离上下文的内容,本质是统计概率驱动的“合理猜测” )。
2025-02-24 20:08:50
828
原创 sed -i ‘s/\r//‘ XX.sh-XX.sh: 11: Syntax error: word unexpected (expecting “do“)
这段代码的含义是使用sed命令对文件test.sh进行原地编辑,删除文件中的所有回车符(\r。
2024-11-20 15:52:14
290
原创 抱抱脸自动下载模型地址
解决:MODEL_PATH = "/home/user/.cache/huggingface/hub/models--THUDM--cogvlm2-llama3-chat-19B/snapshots/2bf7de6892877eb50142395af14847519ba95998"HuggingFace模型自动下载找保存地址。HuggingFace模型自动下载找保存地址。
2024-08-08 19:52:47
961
原创 中国象棋基础
将军的三种解决方案:(1)吃子解将(2)垫将(3)避将。(1)炮走直线,格式不限,范围在整个棋盘。(3)炮需要有其他棋子的配合。(5)将帅不可碰面,谁先看到谁赢。(2)炮吃子时,要有炮架子才能吃子。(1)帅走直线,前进后退均可。(3)活动范围在“九宫”之内。(1)车走直线,没有格式限制。(2)活动范围在整个棋盘。重炮将情形如上图所示。(2)一次只能走一格。(4)可行处可吃敌子。(3)可行处可吃敌子。
2024-02-03 15:22:48
563
原创 面向目标的多模态情感分析方法
目前现有的不同模态之间的融合方法相对来说较为简单,主要的特征融合方式主要分为早期融合和晚期融合两种,这类工作简单的将图片数据和文本数据结合起来,而忽略了图片和文本之间的结构化信息耦合,导致文本和图片融合后的最终特征向量输入到分类器进行情感机型预测的效果不佳。(2)如何对单模态中提取出来的特征进行进一步的重要性评估,选择出最有助于目标情感识别任务的特征,各个模态的信息之间可能存在一定的联系,如何发现并构建他们之间的关系,使得不同模态的信息可以相互作用。(1)如何选取网络模型对不同模态的信息特征进行提取。
2023-09-27 21:46:21
482
原创 vscode-server
1know_host清除2 删除服务器里的home/user/.vscode-server(不是根root下的vscode-server),删除时用户名保持一致。3 ssh配置文件 /etc/ssh/sshd_config[想改变,使用root,修改文件权限]4 删除修改后,重启Windows下得vscode,重启服务器。
2023-09-12 21:21:26
1465
原创 为什么选择Lora用于模型训练?
Lora采用的方式是向原有的模型中插入新的数据处理层,这样就避免了去修改原有的模型参数,从而避免将整个模型进行拷贝的情况,同时其也优化了插入层的参数量,最终实现了一种很轻量化的模型调校方法。Lora可以非常方便的在webui界面通过调用和不同权重,实现多种模型效果的叠加,相比DB大模型操作更加便捷,效果更加显著。一般lora都在144M,而一般的DB大模型至少都是近2G起,节省了大量的存储空间。Lora训练时需要的显存也少了,显卡的显存达到6g即可开启训练,硬件门槛更加亲民。
2023-05-23 16:24:06
1087
原创 搭建环境问题集合(jupyter lab和pycharm)
欲通过命令ps -aux | grep 进程名 返回某进程的进程号,再通过kill杀掉改进程,在这个过程中,如果grep不能匹配到正确的进程号,则grep本身会产生一条(并不是对应进程的进程号),并且这条信息的pid一直在变化。python -m ipykernel install --user --name [虚拟环境名] --display-name [想要在jupyter上显示的环境名]kill $(ps aux | grep 进程名 | tr -s ' '| cut -d ' ' -f 2)
2023-05-04 15:00:47
682
原创 pycharm专业版连接远程服务器操作步骤
不太理解的是为什么一定要选择继承全局的包,虚拟环境里边已经安装了各种库,为什么不选择继承全局的库的话,就只显示pip、 setuptools、wheel这三个库,虚拟环境里的其他的库不显示?我不明白不理解,但是选择勾选继承了这一切问题就迎刃而解。希望随着自己成长,会看这篇博客一系列的问题都不是问题了。希望自己越学越通透!
2023-04-13 21:28:34
127
转载 Prompt (提示)
最后,该范式依赖超大规模预训练语言模型,然而这些模型目前只掌握在少数的大公司手中,即便有个别开源的大模型,由于其过于庞大,小型公司或研究组也无法下载并使用它们。此外,为了提高系统的运行速度,如何通过在线的大模型获得离线的小模型,并且让离线小模型保持大模型在某些任务上的能力,也成为模型能实际应用的一种解决方案。因此,为了应对更多的任务,需要在下游任务上继续预训练(也可以叫预精调),而且现在的趋势是在众多的下游任务上预精调大模型,以应对多种、甚至未曾见过的新任务[5]。,即从以BERT为代表的。
2023-04-10 19:37:18
408
原创 变分推断(variational inference)
贝叶斯公式:是“由果溯因”的思想,当知道某件事的结果后,由结果推断这件事是由各个原因导致的概率为多少。全概率公式:是“由因推果”的思想,当知道某件事的原因后,推断由某个原因导致这件事发生的概率为多少。有了观测值以后,通过观测值,来反推Unobserved events发生的概率,就叫。即:寻找容易表达和求解的分布q,当q和p的差距很小的时候,q就可以作为p的。一个人在远处随机看到了一个学生,这个学生是女生的概率是多少?从“求分布”的推断问题,变成了“缩小距离”的优化问题。在这个过程中,我们的关键点转变了,
2023-04-02 10:53:50
507
原创 MoCo论文精读
MOCO这篇论文是假设我们已经对对比学习有了基础的了解,如果我们对之前的工作不是很了解的话,就不能理解这里为什么要这么做?Momentum Contrast【动量对比学习】,也无法体会到MOCO的精妙之处。什么是对比学习呢?
2023-04-01 21:40:02
437
原创 Word2Vec
在此之前的Word Embedding本质上是个静态的方式,所谓静态指的是训练好之后每个单词的表达就固定住了,以后使用的时候,不论新句子上下文单词是什么,这个单词的Word Embedding不会跟着上下文场景的变化而改变,所以对于比如Bank这个词,它事先学好的Word Embedding中混合了几种语义 ,在应用中来了个新句子,即使从上下文中(比如句子包含money等词)明显可以看出它代表的是“银行”的含义,但是对应的Word Embedding内容也不会变,它还是混合了多种语义。
2023-03-28 16:15:25
459
原创 Transformer论文里Batch Norm和Layer Norm异同
反过来讲,layer norm相对来说,没有太多这个问题,是因为它每个样本都是自己来算自己的均值和方差,不需要存在一个全局的均值和方差(因为均值方差是每个样本自己来做)。那么这个全局的均值和方差,如果碰到了一个新的预测样本,这个样本非常的长,我们在训练的时候没见过这么长的,那么我们之前算的均值和方差可能不是那么好用的。另外一点使我们前边提到的,我们在做预测的时候,我们要把我们全局的均值和方差记录下来。我们输入的是一个序列的样本,每个序列里面有很多的元素,我们给一个句子里面有n个词语。
2023-03-26 19:08:48
1144
2
原创 DETR二分图匹配
即遍历所有预测框,将预测框和所有真实框计算loss,然后将loss放入cost matrix,有了loss,我们便可以使用Linear sum assignment(匈牙利算法)得到最优解。我们知道这100个框中哪几个框和ground truth框是对应的,接下来,我们可以算真正的目标函数,然后用这个loss做梯度回传。例如我们有三个工人abc,我们需要完成三个工作xyz,因为每个工人有各自的长处短处,所以,完成工作所需要的时间和工钱也不一样。其包含两部分,一个是分类损失,一个是框的准确率损失。
2023-03-26 12:11:15
944
1
原创 MOCO论文前几段精读
假如说我们有两张图,图1图2图3,图1有一个人,图2也有一个人,可能图1的人是高兴地,图2的人是不高兴的,图3里我们有一个狗,我们希望模型在看到这三张图片以后,他可以分辨出前面这两张图片属于一个类别,后面这个明显不是一个类别,所以对比学习顾名思义就是对比着去学习,模型并不需要真的知道这两张图片代表的人,也不需要图3代表的是狗,他只需要知道图1图2类似,而图3和前两张图片不类似。
2023-03-21 20:21:25
466
原创 自监督学习
虽然它们都涉及无需人工标注的数据,但无监督学习更侧重于发现数据中的内在结构,而自监督学习则更侧重于利用数据本身的自然属性进行学习。自监督学习的思想主要是设计一个辅助训练目标,然后利用大量无标注的数据本身的结构或者特性,训练网络使得网络具备特征提取的能力。自然界是有序的、低熵的,这使得数据本身就已经包含了丰富的信息,如何更好地提取利用这些信息,这是无监督或者自监督学习的关键。虽然无监督学习和自监督学习都是机器学习领域中常见的学习方式,但它们并不是完全相同的概念,它们的表述也不是完全一致的。
2023-03-18 18:45:06
504
原创 对比学习入门理解
Positive Pairs即由同一张原始图片扩增而来的两张新的图片,类似的,还有negative Pairs,即由不同的原始图片进行扩增得到的新的图像。(3)我们希望把Positive Pairs这两张由同一张图片扩增的图像丢进深度学习模型中,我们希望深度模型可以学习到这两张图片是相似的。同样,我们将negative pairs丢进模型中,我们希望其可以学习到这两张图片是不同的。即他们有最大的相似一致性。对比学习是一种机器学习技术,通过训练模型哪些数据点相似或不同,来学习没有标签的数据集的一般特征。
2023-03-18 18:03:34
954
原创 Diffusion 模型
除了判别数据的相似性,在隐空间中采样,还可以生成新的数据。例如,在数学中,我们需要用a估计b,用a估计b很困难,但是用c估计b很简单,用a估计c很容易,所以我们可以通过a来估计c,再用c估计b,以此达到用a估计b的目的。对于生成模型来说,学习到的是概率分布,图中我们有两个类,我们分别求红色小三角与这两个类的联合概率分布,红色小三角属于联合概率分布大的那个类别。KL散度定量描述了两个概率分布之间的区别,并且其是概率分布模型中的一个基础概念,对推导模型的损失函数,比如交叉熵损失函数,具有重要意义。
2023-03-18 09:36:04
6143
原创 ChatGPT三个关键技术
情景学习(In-context learning)对于一些LLM没有见过的新任务,只需要设计一些任务的语言描述,并给出几个任务实例,作为模型的输入,即可让模型从给定的情景中学习新任务并给出满意的回答结果。这种训练方式能够有效提升模型小样本学习(few-shot learning)的能力。下图是一个情景学习的示例。可以看到,只需要以自然语言的形式描述两个情感分类任务输入输出的例子,LLM就能够对新输入数据的情感极性进行判断。思维链(Chain-of-Thought,CoT)
2023-02-22 21:48:54
6630
原创 目标检测研究
1.候选区域生成通过滑动窗口选择感兴趣区域Rol;使用多尺寸的输入图像和多尺度的滑动窗口识别多尺度和不同比例的目标。⒉特征向量抽取常用SIFT、 Harr、HOG、SURF。3.区域分类常用支持向量机。结合集成、串联学习、梯度提升的方法提高准确率。
2023-02-04 08:29:06
671
原创 零基础多图详解图神经网络(GNN/GCN)【论文精读】
主要有三大类问题,一个是在图层面的,一个顶点层面,一个是边层面。图层面给我们一个图,我们对图进行分类。顶点层面:一个俱乐部的A和B老师决裂了,分成了两大派系,各个顶点是站队A还是站队B。边层面给一个图片,我们首先通过语义分割把图片里面的人物,背景都拿出来之后,然后这个人物之间是什么关系,顶点有了,我们主要学习顶点之间边的属性是什么。
2023-01-05 21:08:27
1923
原创 多模态串讲(上)
因为我们往往做图像文本匹配,或者图像文本检索任务的时候,我们是有一个很大的已有的数据库的,这个时候如果我们新来一张图片,或者新来一个文本,我们要跟已有的数据库去做匹配 ,那其他所有的方法,比如图上的(a)(c)(d)都会非常的慢,因为其所有的数据都要过一遍编码器,但是CLIP模型就不需要,它可以提前把数据库里所有的图像文本的特征提前都抽取好,并且是想什么时候抽取就什么时候抽取,抽取好放在那里即可,等我们真正想用的时候,直接做一个点乘就好,矩阵乘法还是相当快的。所以CLIP的这个实际应用非常广泛。
2022-12-30 18:13:02
2356
2
原创 Vision Transformer论文精读(2/2)
一、主题在模型的设计上,是尽可能的按照最原始的Transformer来做的,这样的一个好处是我们可以直接把NLP那边已经成功地Transformer架构,直接拿过来用,就不需要魔改模型了,而且因为Transformer已经在NLP领域火了这么多年,他有一些写的非常高效的实现,同样Vision Transformer可以把它拿过来使用,
2022-10-16 20:13:23
2561
原创 Vision Transformer论文精读(1/2)
第一段先说,因为Transformer在NLP领域扩展的很好,越大的数据或者越大的模型最后的performance就会一直上升,没有饱和的现象,那自然而然会有一个问题就是如果我们把Transformer用到视觉里来,那是不是视觉的问题也能获得大幅度的提升?
2022-10-16 11:27:10
3276
原创 BERT(预训练Transformer模型)
Bert在18年提出,19年发表,Bert的目的是为了预训练Transformer模型encoder网络,从而大幅提高准确率Bert 的基本想法有两个,第一个想法:随机遮挡一个或者多个单词,让encoder网络根据上下文来预测被遮挡的单词。第二个想法:把两个句子放在一起让encoder网络判断两句话是不是原文里相邻的两句话Bert用这两个任务来预训练Transformer模型中的encoder网络。
2022-10-15 17:36:36
4794
原创 Transformer Model:从Attention层到Transformer网络(2/2)
这个是encoder网络的结构,输入是512*m的矩阵X,x的每一列都是512维的词向量,这个是我们刚刚定义的一个block,他有两层,一个self-attention层,一个全连接层,它的输出也是512*m的矩阵,输入和输出的大小一样,然后搭建第二个block,输出还是512的矩阵。最后在搭建一个全连接层,输入是512维z1,输出是512维的向量s1,全连接层都一样,都是把参数矩阵Ws,与输入的z向量相乘,然后relu激活函数得到向量s。输入是m个向量,x1到xm,输出也是m个向量,u1到um。
2022-10-15 16:37:28
627
原创 Transformer Model:Attention without RNN(1/2)
Attention最初发表在2015年,这篇论文用attention改进seq2seq模型,后来发现attention并不局限于seq2seq模型,而是可以用在所有的RNN,如果只有一个RNN网络,那么attention就叫做self-attention,self-attention论文 在2016年发表,再后来,有人发现不需要RNN直接单独用attention反而效果更好。
2022-10-15 11:04:09
525
原创 RNN模型与NLP应用:Self-Attention-9/9
上一篇我们使用attention来改进seq2seq模型,seq2seq有两个RNN网络,一个encoder,一个decoder,这节课我们学习self-Attention,把Attention用在一个RNN网络上Attention的第一篇论文发表于2015年,用来改进seq2seq模型,解决RNN的遗忘问题,其实Attention并不局限于seq2seq模型,Attention可以用在所有的RNN上。
2022-10-14 19:40:00
487
原创 RNN模型与NLP应用:Attention-8/9
Seq2seq模型个别词语被忘记了,那么decode就无从得知完整的句子,也就不可能产生正确的翻译,如果你拿seq2seq做机器翻译,便会得到这样的结果。横轴是句子的长度,纵轴机器翻译评估指标bleu,纵轴越高,说明机器翻译越准确,如果不用attention,输入句子超过20单词的时候,bleu便会下降,这是因为LSTM会遗忘,造成翻译出错,用attention得到红色曲线,这说明即使句子输入的很长,机器翻译的性能照样很好。
2022-10-14 17:04:01
377
原创 RNN模型与NLP应用:机器翻译与Seq2Seq模型-7/9
Seq2Seq模型把英语翻译成德语我们可以注意到机器翻译是一个多对多的问题,输出长度和输入长度且不固定做机器翻译的第一步都是处理数据,我们首先来对数据进行处理,把这些句子用矩阵,还有例如把大写字母变为小写字母,去掉标点符号等等,预处理之后,进行tokenization,把一句话进行变成很多个单词或者很多个字符,做tokenizer时候我们需要两个不同的tokenizer,英语用一个,德语用一个。
2022-10-14 16:03:23
904
原创 RNN模型与NLP应用:Simple RNN模型-3
现在RNN没有以前流行,由于在自然语言处理问题上,RNN已经有点过时了,如果训练数据足够多,RNN训练效果不如Transformer,但是在小规模数据集上,RNN还是非常有用的。机器学习经常用语音、文本等一些时序数据,我们如何对时序数据进行建模?上一次我们把一段文字整体输入一个logistics regression【线性回归】模型,让模型来做二分类,这属于one to one,一个输入对应一个输出模型,全连接神经网络和卷积神经网络都属于one to one模型。
2022-10-14 12:11:30
1737
原创 RNN模型与NLP应用:文本处理与词嵌入-2
我们使用IMDB数据,并且搭建机器学习模型,来分析电影评论,IMDB是最有名的电影评论网站,如果我们不看分数只看评论,那么我们通过看评论,大致可以得出用户给出的分数,但我们的猜测可能不太正确,如果换种方式,让我们判断电影评论是正面的还是负面的,我们应该会有很高的准确率,有人从IMDB爬了五万条电影评论,这些电影评论都是很极端的,都是强烈的喜欢或者是强烈反感,这个二分类问题对人来说非常简单,人们读一下评论就能轻易知道这个是正面的还是负面的,人应该有100%的准确率,这个。1代表正面,我们来数一下模型参数。
2022-10-13 22:06:23
478
原创 RNN模型与NLP应用:数据处理基础-1
这个197维的向量来表示美国,第一个元素是1,其余元素是0,中国对应2,这个197维向量的第二个元素是1,其余都是0.这样一来,每个 国籍就有一个one-hot向量表示,有197个国家,所以每个向量都是197维的,我刚才说我们要从1开始数,美国对应1,中国对应2,一开始时候,哈希表是空的,然后这样更新哈希表,假如单词w不在表里面,这样说明w还没有出现在文本里,到目前为止我们只看见w一次,所以我们把w加入哈希表,让其词频等于1,加入单词w在哈希表里面,说明w已经出现在文本里,只需要把他的词频加1.
2022-10-13 21:13:35
377
原创 RuntimeError: DataLoader worker (pid(s) ***********) exited unexpectedly
File "D:\Pycharm-WorkSpace\d2l-zh-pytorch\5 卷积神经网络\5.6 深度卷积神经网络(AlexNet).py", line 74, in File "D:\Pycharm-WorkSpace\d2l-zh-pytorch\5 卷积神经网络\5.6 深度卷积神经网络(AlexNet).py", line 74, in # 减小卷积窗口,使用填充为2来使得输入与输出的高和宽一致,且增大输出通道数。使用丢弃层来缓解过拟合。
2022-10-03 09:42:46
1469
原创 花书——PyTorch版本
事实上,要想解读图像中的内容,需要寻找仅仅在结合成千上万的数值时才会出现的特征,如边缘、质地、形状、眼睛、鼻子等,最终才能判断图像中是否有猫。我们可以收集一些已知包含猫与不包含猫的真实图像,然后我们的目标就转化成如何从这些图像入手得到一个可以推断出图像中是否有猫的函数。这个函数的形式通常通过我们的知识来针对特定问题选定。例如,我们使用一个二次函数来判断图像中是否有猫,但是像二次函数系数值这样的函数参数的具体值则是通过数据来确定。——思想“用数据编程”
2022-09-09 16:18:55
2183
4
haddop\scala\spark\winutils-master安装包
2020-10-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人