- 博客(27)
- 收藏
- 关注
原创 使用国内镜像下载gated model
gated model指的是需要模型owner授予权限的,比如llama。3. huggingface_hub的登录放在函数调用之前。2.配置镜像(注意os.environ放在脚本的最开头)邮箱和机构申请用模型。
2025-03-12 14:30:21
531
原创 高级计算机体系结构
访存(MEM):访存阶段与取指阶段类似,都是访问外部存储器,此阶段只需要输出地址与数据给数据存储器,并且接收数据存储器读出的数据。写回(WB):写回阶段包括4个选择器,输出一个数据写回寄存器堆。译码(ID):将上一级传递的指令进行译码并且读取寄存器堆。执行(EX):执行ALU的计算并且计算新的pc的值。取指(IF):产生新的pc值,并读取指令存储器。ALU执行指令(the worker)主存、中央处理单元、以及主存和CPU。冯诺依曼瓶颈:主存和CPU。决定哪些指令被执行 (
2024-12-20 13:33:20
1056
原创 宿主机无法通过WinSCP连接虚拟机
可能是由于网络配置不当或 DHCP(动态主机配置协议)没有成功分配 IPv4 地址。WinSCP 连接虚拟机需要 SSH 服务在虚拟机中运行。在虚拟机中,尝试重新请求 DHCP 分配 IP 地址。修改网络设置后,重启虚拟机的网络服务或重启虚拟机。确保虚拟机中安装了正确的网络驱动(例如。查看是否有 IPv4 地址。注意:在ifconfig之后。
2024-10-20 19:44:54
2247
原创 ACM digital library的高级检索
例如,如果搜索compute*,搜索引擎将提供包含诸如compute、computation、computing等单词的结果。The ACM Guide to Computing literature用于检索计算机学科文献,除了ACM出版社,还可检索其他出版社的计算机文献,要指示搜索按字面意思解释这些字符中的任何一个,而不是将其解释为特殊字符,请在字符前加上反斜杠字符\。默认的是ACM出版的全文数据库(检索免费,阅读付费需订阅,通过各学校校园网免费阅读全文)a AND b:a+b,即同时包含a b。
2024-09-20 10:09:41
2026
原创 解决Linux服务器上下载pytorch速度过慢的问题
torch-1.13.1+cu116-cp311-cp311-linux_x86_64.whl 注意cp311中的311指的是python版本,也需要与自己的python匹配,比如我的是3.8,我在Linux服务器中使用如下指令, 直接从指定的 URL 下载。需要下载的是GPU版本的pytorch,版本torch=1.13.1+cu116。ps:也可以使用其他下载器(如迅雷)通过镜像网站手动下载.whl文件到本地,然后。使用这种方式会从两个网址中查找安装包,清华源不存在安装包,仍然从官方下载。
2024-09-13 11:56:20
2838
4
原创 推荐算法中的特征工程
第二,类别特征的维度特别高,几万个标签是常态,再加上实数特征分桶、多维特征交叉,特征空 间的维度很容易上亿,如果把User ID、Item ID也用作特征,特征空间上十亿都不止。于是,Parameter Server这样的架构应运而生,一方面 Parameter Server利用分布式集群分散了参数存储、检索的压力,另一方面它利用推荐系统的特征空间超 级稀疏这一特点,每次计算时无须同步整个特征空间上亿个特征的参数,大大节省了带宽资源与时间开 销。4.类别特征的处理(在特征工程中很重要)
2024-09-11 11:20:43
500
原创 pytorch中矩阵乘法运算总结
与torch.mm类似,但多了一个batch_size维度,矩阵张量1维度是(b×m×n),矩阵张量2维度是(b×n×p),输出维度为(b×m×p)的矩阵,b是1D,可以视为行向量或者列向量均可,在进行矩阵乘法axb时,需要满足a的列数=b的行数,广播机制后可以进行运算,size为(10,3): 1D、2D 或更高维度的张量,PyTorch 会根据张量的维度自动选择合适的乘法操作。更通用,可以处理高维度的张量。: 用于各种矩阵乘法场景,比。3D的第一个维度当作是批量。
2024-09-10 19:08:42
936
原创 直接下载 Github 上的某个文件
master/课程资料/高等数值计算方法/期末资料/数值计算题解记录.pdf,如果复制URL,当粘贴到记事本中查看时,发现会变成这样https:///master/课程资料/高等数值计算方法/期末资料/数值计算题解记录.pdf再用IDM下载就会报错,保持原样即可正常下载。有时候需要下载GitHub 仓库的某一个文件,但是不想 clone 整个项目,需要一种能直接下载某一个文件的方式。分析原因:我们打开到文件所在的那一个网页时,当URL中包含中文,比如https://返回存储在 GitHub 中的文件的。
2024-09-09 10:00:37
1033
原创 Datawhale AI夏令营 机器学习组学习笔记
赛题数据由训练集和测试集组成,为了保证比赛的公平性,将每日日期进行脱敏,用1-N进行标识。即1为数据集最近一天,其中1-10为测试集数据。数据集由字段id(房屋id)、 dt(日标识)、type(房屋类型)、target(实际电力消耗)组成。
2024-07-14 22:13:32
270
原创 大模型面试题(四)
进行微调。这种方法可以利用预训练模型在大规模数据集上学到的通用知识,同时通过微调来适应特定任务。●层次微调: 与迁移学习类似,层次微调也是只更新模型的一部分参数,但是它更加灵活,可以选择性地微调模型的某些层。这种方法可以根据任务的复杂性和数据集的大小来调整微调的深度。●多任务学习:模型会在多个相关任务上同时进行训练,目的是让模型学会在不同任务之间共享知识。这种方法可以提高模型的泛化能力,并可能提高在特定任务上的性能。
2024-03-31 15:12:53
1930
1
原创 大模型面试题(三)
Diffusion模型的生成过程是通过逐步更新样本的概率分布来实现的。通过使用COT提示,模型可以按照逐步推理的方式生成输出,从而提高模型的性能和表现。在模型量化过程中,通常会对模型的权重参数、激活值和计算操作等进行优化和压缩,以减少模型的存储空间和计算复杂度,同时尽量保持模型的性能和准确度。在同一模型中联合训练多个不同但相关的任务,可以促进模型学习到更通用的表示,从而提高在新任务上的泛化性。2.训练难度: Diffusion 的训练相对复杂,需要一定的技术和经验来调整模型的参数和超参数。
2024-03-28 09:53:19
3412
1
原创 思维链(CoT)&思维树(ToT)
一.思维链示例来自于线上课程所学添加“请一步一步分析”:不添加“请一步一步分析”:(1)exp1(2)exp2实践体会:(1)个人觉得思维链这种技巧,在高级的模型上体现不明显,不使用"请一步一步分析",使用gpt-4模型在情况下一样会返回true,使用gpt3.5少数情况下不使用思维链也会返回true(在较初级的模型上可能结合思维链效果体现的明显(2)实践结果确实体现出思维链的作用,即可以使AI把问题分解成多个步骤,然后逐步解决,输出的结果更加准确。
2024-03-28 02:17:05
2030
1
原创 大模型面试题(二)
LLMs (Large Language Models)的复读机问题是指模型在生成文本时倾向于重复相同的短语或句子的现象。这种问题通常在生成较长文本时更为明显,可能导致生成的内容缺乏多样性,影响阅读体验和信息的准确传递。
2024-03-26 01:13:11
2669
1
原创 P-Tuning v2 vs Prefix-tuning
重参数化(Reparameterization)即Prefix-Tuning 放在PrefixEncoder里的MLP层,然而P-tuning作者发现MLP的作用在不同的任务和数据集上有区别,在比如BoolQ and CoNLL12上有负作用。因此P-tuning v2中就把这个给去掉了,也就是那个MLP或者LSTM。在P-tuning v2文章中有说"Technically, our approach P-tuning v2 is not conceptually novel.
2024-03-25 15:29:57
905
1
原创 大模型面试题(一)
过高的学习率可能导致训练不稳定,而过低的学习率会导致训练速度过慢。使用如学习率衰减策略或者学习率预热(适合大规模训练/复杂网络结构)可以优化学习率设置。:较大的批量可以提高训练的稳定性和效率,但会增加内存需求。︰指令的长度应与任务复杂度相匹配,过长的指令可能导致模型难以学习,而过短的指令可能提供不了足够的信息。3.请解释P-tuning的工作原理,并说明它与传统的fine-tuning方法的不同之处。∶需要足够的训练周期来确保模型充分学习,但过多的训练可能导致过拟合。
2024-03-22 20:34:25
946
1
原创 5G网络技术
1.5G通信系统核心网,接入网,承载网(用于前传,中传,回传)(19’04”开始)3G和4G属于互联网阶段重点是对4G和5G的比较1.2RAN接入网,DN数据中心,上面一块和UPF是核心网,UPF分出来实现控制与用户面分离两种接口结构:下面的N1,N2,N3,N4,N6,N9是基于点对点的接口;上面的是基于服务化的接口...
2022-01-13 14:46:32
8053
原创 各个数据结构类型的应用
栈:(何时用栈?当需要“记忆”,即出现某个问题但凭现有条件不能解决,就用栈)1.判断是否为回文字符串#include<iostream>#include<stdio.h>#include<string.h>using namespace std;int main(){ char a[101],s[101]; int i,len,mid,top=0; gets(a); len=strlen(a); if(len%2
2021-09-06 19:53:16
200
原创 比特鹏哥网课笔记(结构体,枚举,联合体,通讯录项目)
1.结构体内存对齐(1)在设计结构体时,既要满足对齐,又要节省空间(让占用空间小的成员尽量集中在一起)struct s1{ char c1; char c2; int i;//占用8个字节struct s2{ char c1; int i; char c2;//占用12个字节(2)修改默认对齐数#pragma pack(4) //设置为4#pragma pack() //取消设置的默认对齐数(3)写一个宏,计算结构...
2021-08-31 17:07:17
2414
1
原创 欧拉筛中的小细节
看了别人写的代码,我只把原函数改了一个地方,就不输出了(++cnt改成了cnt++),平时用的地方两者都一样,这次debug半天,发现居然错在了这里。(以下代码来自洛谷解析,我只是梳理自己的理解)#include<cstdio>#include<cstring> //可以改成万能头文件#include<bits/stdc++.h>bool isprime[1000000];//0表示不是质数,1表示是质数int prime[100000],cnt=0;//.
2021-08-24 20:57:37
143
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人