tf.text学习

这篇博客探讨了Unicode和UTF-8字符编码的区别,以及decode和encode在处理文本时的作用。接着,文章转向了 TensorFlow 的 tf.text 模块,介绍了如何进行Unicode规范化和切词操作,包括WhitespaceTokenizer和UnicodeScriptTokenizer。还提到了tf.data和其他文本操作,如wordshape和N-grams。
摘要由CSDN通过智能技术生成

背景:

字符编码笔记:ASCII,Unicode 和 UTF-8:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

unicode 和 utf-8

  • unicode编码
    ASCII码一共规定了128个字符的编码,英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。Unicode当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样, 需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。
  • utf-8编码
    “UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。
  • UTF-8 VS Unicode
    UTF-8 是 Unicode 的实现方式之一。
    严的 Unicode 是4E25(100111000100101),4E25处在第三行的范围内(0000 0800 - 0000 FFFF),因此严的 UTF-8 编码需要三个字节,即格式是1110xxxx 10xxxxxx 10xxxxxx。然后,从严的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,严的 UTF-8 编码是11100100 10111000 10100101,转换成十六进制就是E4B8A5。
    以汉字严为例,Unicode 码是4E25,需要用两个字节存储,一个字节是4E,另一个字节是25。存储的时候,4E在前,25在后,这就是 Big endian 方式;25在前,4E在后,这是 Little endian 方式。

decode VS encode

  • decode
    Decode作用是将二进制数据解码成unicode编码,如str1.decode(‘utf-8’),表示将utf-8的编码字符串解码成unicode编码。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值