zhouzhou0929-CSDN博客

原创 LLM预训练

网上大量预训练代码都是封装了trainer-deepspeed后的结果，看了也不了解其中所用技术的优化点在哪。本文从最基础的训练过程开始，层层加码并对比。

2023-08-11 15:33:32 4631 2

bin文件13.4g模型加载时有load_in_8bit和torch_dtype两个参数原始模型加载，显存占用12.6g，参数格式fp32与fp16都有（ln层是32，其余16）load_in_8bit=True时，显存占用7.5g，参数格式int8与fp16都有（ln层是16，其余层weight是8，bias是16）torch_dtype=torch.float16，显存占用12.6g，参数格式fp16。

2023-06-12 21:21:45 1971

原创 NLP面试总结

面试总结

2023-03-09 11:12:53 217

原创 NLP面试

NLP面试知识点

2023-03-06 16:02:45 102

原创学习陈丹琦关系抽取pipeline Pure

学习陈丹琦博士的Pure模型

2023-03-04 15:34:52 737 1

原创衡量多个向量聚集程度的指标

将每个向量除自身的模，得到n个模长为1的向量，将他们相加后除个数，再求模，最终结果在0-1之间，表征了这一堆向量的聚集程度。

2023-03-01 16:54:00 255

原创 bert文本分类代码解析及accelerate使用

bert使用accelerate 完成fp16半精度训练

2023-02-25 13:59:48 568 1

原创 assert用法

assert用法

2023-02-15 13:40:37 74

原创单层神经网络梯度下降

import numpy as np# 定义softmax函数，softmax:输出0-1之间的数，其和为1，可以用来表征判定是某个类别的概率def softmax(x): # x为一维数据时 if x.ndim == 1: return np.exp(x-np.max(x))/np.sum(np.exp(x-np.max(x))) # x为二维数据时 elif x.ndim == 2: val_num = np.ze

2020-08-05 03:32:56 308

原创 python实现softmax函数

import numpy as np# 定义softmax函数，softmax:输出0-1之间的数，其和为1，可以用来表征判定是某个类别的概率def softmax(x): # x为一维数据时 if x.ndim == 1: return np.exp(x-np.max(x))/np.sum(np.exp(x-np.max(x))) # x为二维数据时 elif x.ndim == 2: val_num = np.ze

2020-08-04 07:50:38 1544

原创 python-梯度下降法求函数极小值

import numpy as np# 定义func2函数def func2(x): return x[0]**2 + x[1]**2# 求func2函数在点[3.0, 4.0]处的梯度def numerical_diff(f, x): h = 1e-4 grap = np.zeros_like(x) for idx in range(x.size): tmp_val = x[idx] x[idx] = tmp_val + h

2020-08-04 03:27:08 3372

原创学习曲线

# 画出模型在训练集和验证集上，关于训练集大小的性能函数（采用均方误差）# 1.导入需要使用的包from sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionimport matplotlib.pyplot as pltimport numpy as np# 2

2020-07-26 23:52:53 153

原创多项式回归

import numpy as npfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegressionimport matplotlib.pyplot as pltm = 100X = 6 * np.random.rand(m, 1) - 3y = 0.5 * X**2 + X + 2 + np.random.randn(m, 1)plf = Polyno

2020-07-26 23:09:03 88

原创随机梯度下降

import numpy as np# 设定x,y对应的值，即二维空间对应的100个点x = np.random.rand(100, 1)y = 4 + (3*x) + (0.2 * np.random.rand(100, 1))m = 100# 对每一行添加x0=1x_b = np.c_[np.ones(shape=(100, 1)), x]# 设定迭代次数n_iteration = 200# 设定学习率函数def learning_scheture(t): retur

2020-07-26 19:05:43 147

原创梯度下降-python实现

import numpy as np# 设定x,y对应的值，即二维空间对应的100个点x = np.random.rand(100, 1)y = 4 + (3*x) + (0.2 * np.random.rand(100, 1))# 对每一行添加x0=1x_b = np.c_[np.ones(shape=(100, 1)), x]# 设定步长eta = 0.1# 设定迭代次数n_iteration = 1000# 利用迭代求解成本函数最小时的theta值# 设定任意初始theta值，

2020-07-26 00:37:21 152

zhouzhou0929的博客