NLP bert 中文分类入门

本文介绍了使用Huggingface开源社区进行自然语言处理的数据处理方法,包括排序、乱序、选择、切分和列操作。还展示了如何应用BERT进行中文命名实体识别的快速实战,提供了相关视频学习资源。
摘要由CSDN通过智能技术生成

推荐 Huggingface 开源社区  里边包含大量: 模型  数据集  配置文件等

https://huggingface.co/   # 网址

数据处理:

几类常用函数: sort 排序  例: sorted_dataset = dataset.sort('label')  将数据中的label标签进行排序   sorted_dataset['label'][:10] 前十行    [-10:]后十行

shuffle  乱序   例: shuffled_dataset = sorted_dataset.shuffle(seed=42)  乱序

选择 select  dataset.set([0,10,20,30,40,50])    

split 切分     shard 分桶(将数据均匀分配程几份)

列操作和列转换  rename_colunm    remove_columns

map 

def add(x):
    return x**2            #计算x的平方

lists = range(11)       #创建包含 0-10 的列表
a = map(add,lists)      #计算 0-10 的平方,并映射
print(a)                # 返回一个迭代器:<map object at 0x0000025574F68F70>
print(list(a))          # 使用 list() 转换为列表。结果为:[0,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值