原始语料处理Bert

阿明 -李明

于 2021-12-22 09:32:49 发布

阅读量548

点赞数

文章标签： bert 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44094615/article/details/122078067

版权

#!/usr/bin/env python
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle

def train_valid_test_split(x_data, y_data,
validation_size=0.1, test_size=0.1, shuffle=True):
x_, x_test, y_, y_test = train_test_split(x_data, y_data, test_size=test_size, shuffle=shuffle)
valid_size = validation_size / (1.0 - test_size)
x_train, x_valid, y_train, y_valid = train_test_split(x_, y_, test_size=valid_size, shuffle=shuffle)
return x_train, x_valid, x_test, y_train, y_valid, y_test

if __name__ == '__main__':
path = "data/"
pd_all = pd.read_csv(os.path.join(path, "outcleanfile.csv"))
pd_all = shuffle(pd_all)
x_data, y_data = pd_all.title, pd_all.label

x_train, x_valid, x_test, y_train, y_valid, y_test = \
train_valid_test_split(x_data, y_data, 0.1, 0.1)

train = pd.DataFrame({'label': y_train, 'x_train': x_train})
train.to_csv("data/train.tsv", index=False, encoding='utf-8',sep='\t')
valid = pd.DataFrame({'label': y_valid, 'x_valid': x_valid})
valid.to_csv("data/dev.tsv", index=False, encoding='utf-8',sep='\t')
test = pd.DataFrame({'label': y_test, 'x_test': x_test})

test.to_csv("data/test.tsv", index=False, encoding='utf-8',sep='\t')

该代买主要处理格式为: label , titlle 两列，注意一定要做stuffle

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

阿明 -李明 CSDN认证博客专家 CSDN认证企业博客

码龄6年

中金汇安（北京）科技有限公司

27: 原创

77万+: 周排名

6万+: 总排名

2万+: 访问

: 等级

315: 积分

9: 粉丝

26: 获赞

17: 评论

49: 收藏

私信

关注

热门文章

最新评论

安装tensorflow-gpu-2.6
小木_清风般的过去: 感谢博主，非常有帮助！
Unbuntu中文语言错乱问题
阿明 -李明: 继续增加输入： sudo apt install ibus sudo apt-get install ibus-pinyin 启动选择拼音作为输入： iibus-setup ibus-setup
langchain下的安装步骤GLM
阿明 -李明: 引用「conda create -n langchain-chatglm python==3.10.4」 jupyter notebook # or jupyter notebook --allow-root
关于AB测试的效果推论
阿明 -李明: # 利用python 进行AB测试检验，发现测试数据之间的关系 from scipy.stats import ttest_ind import numpy as np # n1_samples = [64.2, 28.4, 85.3, 83.1, 13.4, 56.8, 44.2] # n2_samples = [45, 29.5, 32.3, 49.3, 18.3, 34.2, 43.9] n1_samples = np.array([[1,1.2],[1.03,1.03],[1.2,1.02],[0.89,0.95],[0.92,0.89]]) n2_samples = np.array([[2,2.1],[2.13,2.53],[3.23,2.22],[1.9,2.95],[1.95,1.89]]) p1 = np.array([0.05,0.05]) p2 = np.array([0.01,0.01]) print("标准差", np.std(n1_samples)) print("标准差", np.std(n2_samples)) # 独⽴双样本 t 检验的⽬的在于判断两组样本之间是否有显著差异： # 当我们使⽤scipy.stats.ttest_ind(x, y)，我们建⽴的假设是在x.mean()-y.mean()，但常为了得到正值结果，我们常会要求x.mean()>y.mean()。 # 即放置顺序是(n1_samples, n2_samples)，⽽不是(n2_samples, n1_samples) t_val, p = ttest_ind(n1_samples, n2_samples) print('t值：',t_val," p值：", p) if (p < p2).all() : print("2个数组之间重大差异，可以视为模型对数据结果影响度非常大") elif (p < p1).all() : print("2个数组之间有差异，,可以视为模型对数据结果影响度比较大") else: print("2个数组之间没有差异")
关于AB测试的效果推论
阿明 -李明: [code=python] # 利用python 进行AB测试检验，发现测试数据之间的关系 from scipy.stats import ttest_ind import numpy as np # n1_samples = [64.2, 28.4, 85.3, 83.1, 13.4, 56.8, 44.2] # n2_samples = [45, 29.5, 32.3, 49.3, 18.3, 34.2, 43.9] n1_samples = np.array([[1,1.2],[1.03,1.03],[1.2,1.02],[0.89,0.95],[0.92,0.89]]) n2_samples = np.array([[2,2.1],[2.13,2.53],[3.23,2.22],[1.9,2.95],[1.95,1.89]]) p1 = np.array([0.05,0.05]) p2 = np.array([0.01,0.01]) print("标准差", np.std(n1_samples)) print("标准差", np.std(n2_samples)) # 独⽴双样本 t 检验的⽬的在于判断两组样本之间是否有显著差异： # 当我们使⽤scipy.stats.ttest_ind(x, y)，我们建⽴的假设是在x.mean()-y.mean()，但常为了得到正值结果，我们常会要求x.mean()>y.mean()。 # 即放置顺序是(n1_samples, n2_samples)，⽽不是(n2_samples, n1_samples) t_val, p = ttest_ind(n1_samples, n2_samples) print('t值：',t_val," p值：", p) if (p < p2).all() : print("2个数组之间重大差异，可以视为模型对数据结果影响度非常大") elif (p < p1).all() : print("2个数组之间有差异，,可以视为模型对数据结果影响度比较大") else: print("2个数组之间没有差异") [/code]

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。