tf.text学习

最新推荐文章于 2024-06-30 19:46:34 发布

加油加油~~~

最新推荐文章于 2024-06-30 19:46:34 发布

阅读量183

点赞数

分类专栏： ASR python学习文章标签： python unicode

本文链接：https://blog.csdn.net/weixin_45903371/article/details/110137384

版权

这篇博客探讨了Unicode和UTF-8字符编码的区别，以及decode和encode在处理文本时的作用。接着，文章转向了 TensorFlow 的 tf.text 模块，介绍了如何进行Unicode规范化和切词操作，包括WhitespaceTokenizer和UnicodeScriptTokenizer。还提到了tf.data和其他文本操作，如wordshape和N-grams。

摘要由CSDN通过智能技术生成

背景:

字符编码笔记：ASCII，Unicode 和 UTF-8：http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

unicode 和 utf-8

unicode编码
ASCII码一共规定了128个字符的编码,英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。Unicode当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样，需要注意的是，Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。
utf-8编码
“UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。
UTF-8 VS Unicode
UTF-8 是 Unicode 的实现方式之一。
严的 Unicode 是4E25（100111000100101），4E25处在第三行的范围内（0000 0800 - 0000 FFFF），因此严的 UTF-8 编码需要三个字节，即格式是1110xxxx 10xxxxxx 10xxxxxx。然后，从严的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，严的 UTF-8 编码是11100100 10111000 10100101，转换成十六进制就是E4B8A5。
以汉字严为例，Unicode 码是4E25，需要用两个字节存储，一个字节是4E，另一个字节是25。存储的时候，4E在前，25在后，这就是 Big endian 方式；25在前，4E在后，这是 Little endian 方式。

decode VS encode

decode
Decode作用是将二进制数据解码成unicode编码，如str1.decode(‘utf-8’),表示将utf-8的编码字符串解码成unicode编码。

最低0.47元/天解锁文章

加油加油~~~

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
tf.text学习

背景:字符编码笔记：ASCII，Unicode 和 UTF-8：http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.htmlunicode 和 utf-8unicode编码ASCII码一共规定了128个字符的编码,英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。Unicode当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样，需要注意的是，Unicode只是一个符号集
复制链接

扫一扫

专栏目录