- 博客(15)
- 收藏
- 关注
原创 LLM预训练
网上大量预训练代码都是封装了trainer-deepspeed后的结果,看了也不了解其中所用技术的优化点在哪。本文从最基础的训练过程开始,层层加码并对比。
2023-08-11 15:33:32 4631 2
原创 带着问题学LLM
bin文件13.4g模型加载时有load_in_8bit和torch_dtype两个参数原始模型加载,显存占用12.6g, 参数格式fp32与fp16都有(ln层是32,其余16)load_in_8bit=True时,显存占用7.5g,参数格式int8与fp16都有(ln层是16,其余层weight是8,bias是16)torch_dtype=torch.float16,显存占用12.6g,参数格式fp16。
2023-06-12 21:21:45 1971
原创 衡量多个向量聚集程度的指标
将每个向量除自身的模,得到n个模长为1的向量,将他们相加后除个数,再求模,最终结果在0-1之间,表征了这一堆向量的聚集程度。
2023-03-01 16:54:00 255
原创 单层神经网络梯度下降
import numpy as np# 定义softmax函数,softmax:输出0-1之间的数,其和为1,可以用来表征判定是某个类别的概率def softmax(x): # x为一维数据时 if x.ndim == 1: return np.exp(x-np.max(x))/np.sum(np.exp(x-np.max(x))) # x为二维数据时 elif x.ndim == 2: val_num = np.ze
2020-08-05 03:32:56 308
原创 python实现softmax函数
import numpy as np# 定义softmax函数,softmax:输出0-1之间的数,其和为1,可以用来表征判定是某个类别的概率def softmax(x): # x为一维数据时 if x.ndim == 1: return np.exp(x-np.max(x))/np.sum(np.exp(x-np.max(x))) # x为二维数据时 elif x.ndim == 2: val_num = np.ze
2020-08-04 07:50:38 1544
原创 python-梯度下降法求函数极小值
import numpy as np# 定义func2函数def func2(x): return x[0]**2 + x[1]**2# 求func2函数在点[3.0, 4.0]处的梯度def numerical_diff(f, x): h = 1e-4 grap = np.zeros_like(x) for idx in range(x.size): tmp_val = x[idx] x[idx] = tmp_val + h
2020-08-04 03:27:08 3372
原创 学习曲线
# 画出模型在训练集和验证集上,关于训练集大小的性能函数(采用均方误差)# 1.导入需要使用的包from sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionimport matplotlib.pyplot as pltimport numpy as np# 2
2020-07-26 23:52:53 153
原创 多项式回归
import numpy as npfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegressionimport matplotlib.pyplot as pltm = 100X = 6 * np.random.rand(m, 1) - 3y = 0.5 * X**2 + X + 2 + np.random.randn(m, 1)plf = Polyno
2020-07-26 23:09:03 88
原创 随机梯度下降
import numpy as np# 设定x,y对应的值,即二维空间对应的100个点x = np.random.rand(100, 1)y = 4 + (3*x) + (0.2 * np.random.rand(100, 1))m = 100# 对每一行添加x0=1x_b = np.c_[np.ones(shape=(100, 1)), x]# 设定迭代次数n_iteration = 200# 设定学习率函数def learning_scheture(t): retur
2020-07-26 19:05:43 147
原创 梯度下降-python实现
import numpy as np# 设定x,y对应的值,即二维空间对应的100个点x = np.random.rand(100, 1)y = 4 + (3*x) + (0.2 * np.random.rand(100, 1))# 对每一行添加x0=1x_b = np.c_[np.ones(shape=(100, 1)), x]# 设定步长eta = 0.1# 设定迭代次数n_iteration = 1000# 利用迭代求解成本函数最小时的theta值# 设定任意初始theta值,
2020-07-26 00:37:21 152
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人