留心文字编码的不同

最新推荐文章于 2023-06-21 08:29:13 发布

一古清流

最新推荐文章于 2023-06-21 08:29:13 发布

阅读量91

点赞数

分类专栏： Ruby 文章标签： Ruby Encoding

本文链接：https://blog.csdn.net/wufeng_no1/article/details/86240529

版权

Ruby 专栏收录该内容

29 篇文章 1 订阅

订阅专栏

《Ruby基础教程》的第二十二章，有这样一段示例代码，意图删除读取的HTML文件的头部和尾部，并保存在新的TXT文件中。

 1: htmlfile = "cathedral.html"
 2: textfile = "cathedral.txt"
 3:
 4: html = File.read(htmlfile)
 5:
 6: File.open(textfile, "w") do |f|
 7:   in_header = true
 8:   html.each_line do |line|
 9:     if in_header && /<a name="1">/ !~ line
10:       next
11:     else
12:       in_header = false
13:     end
14:     break if /<a name="version">/ =~ line
15:     f.write line
16:   end
17: end

但是我们试着将它执行一下却发现，系统会报错，并定位出许多错误点来。我们看一下错误信息“invalid byte sequence in GBK (ArgumentError)”，可以得知是文字编码的问题。实际上是由于internal encoding 和 extertal encoding的不同造成的，我们只需在代码前追加一行以下代码就可以了。

Encoding.default_external = Encoding.find('utf-8')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一古清流

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python3设置编码为utf8_Python3 是如何解决棘手的字符编码问题的？

weixin_39653766的博客

11-23

1141

Python3 最重要的一项改进之一就是解决了 Python2 中字符串与字符编码遗留下来的这个大坑。Python 编码为什么那么蛋疼？已经介绍过 Python2 字符串设计上的一些缺陷：使用 ASCII 码作为默认编码方式，对中文处理很不友好。把字符串的牵强地分为 unicode 和 str 两种类型，误导开发者当然这并不算 Bug，只要处理的时候多留心也可以避免这些坑。但在 Python3 两...

如何解决python中编码错误的问题_Python3 是如何解决棘手的字符编码问题的？

weixin_39820226的博客

12-12

271

Python3 最重要的一项改进之一就是解决了 Python2 中字符串与字符编码遗留下来的这个大坑。 Python 编码为什么那么蛋疼？已经介绍过 Python2 字符串设计上的一些缺陷：使用 ASCII 码作为默认编码方式，对中文处理很不友好。把字符串的牵强地分为 unicode 和 str 两种类型，误导开发者当然这并不算 Bug，只要处理的时候多留心也可以避免这些坑。但在 Python3...

参与评论您还未登录，请先登录后发表或查看评论

开发中同一个字拥有不同编码的汇总(eg䶮)

qq_15509071的博客

01-17

3418

借用知乎上的回答：属于GBK的遗留问题，当年定义GBK的时候同期的Unicode还没收“龙天”所以GBK给制定了个用户自定义区的码e863，后来Unicode收了该字，就在正式区分了码4dae。有些输入法按GBK规范做就是输出e863，另一些按Unicode做，输出就是4dae，理论上，应该以4dae为准，毕竟现在是Unicode的天下了链接：https://www.zhihu.com/qu...

Python3 是如何解决棘手的字符编码问题的？

mengyidan的专栏

03-29

777

本文来自微信公众号Python之禅（VTtalk）作者：刘志军题图：unsplash.comPython3 最重要的一项改进之一就是解决了 Python2 中字符串与字符编码遗留下来的这个大坑。Python 编码为什么那么蛋疼？已经介绍过 Python2 字符串设计上的一些缺陷： - 使用 ASCII 码作为默认编码方式，对中文处理很不友好。 - 把字符串牵强地分为 uni...

python3字符编码正确的是_Python3 是如何解决棘手的字符编码问题的？

weixin_39594103的博客

12-05

题图：unsplash.comPython3 最重要的一项改进之一就是解决了 Python2 中字符串与字符编码遗留下来的这个大坑。Python 编码为什么那么蛋疼？已经介绍过 Python2 字符串设计上的一些缺陷：使用 ASCII 码作为默认编码方式，对中文处理很不友好。把字符串牵强地分为 unicode 和 str 两种类型，误导开发者当然这并不算 Bug，只要处理的时候多留心也可以避免这些...

网页中的字符集编码与乱码(3)--content-type charset 方式

最新发布

Just do IT

06-21

2425

深入介绍了响应头 Response Headers 中的 Content-Type 中的 charset 信息的应用, 包括许多在静态文档和动态文档中的实验与测试的细节, 以及一些具体配置和与文档内编码声明的优先级问题.

Google编码规范

夏菠

08-15

4573

文件的哈夫曼编码与解码

不想起床的小张的博客

12-19

3649

准备一个字符文件，要求：统计该文件中各种字符的频率对各字符进行 Huffman编码，显示每个字符的编码以及将该文件翻译成 Huffman编码文件再将 Huffman编码文件翻译成源文件显示每个字符以一个字节进行二进制编码后的编码文件

基于C++文件的哈夫曼编码与解码

毕业作品网站

01-19

1053

文件的哈夫曼编码与解码 1.全局变量 count 与 std:count 矛盾，建议用其他变量名。 2.内存泄漏问题注意空间要开够指针不可越界 main 函数内开辟的栈空间大小一般为 8MB 若要开辟较大的数组请去 main 函数之外 3.编译器错误推荐大家使用教新的较稳定的编译器 4.文件操作打开后记得关闭否则会占用系统资源 5.申请完空间，要记得释放，养成习惯。释放函数不可张冠李戴(留心编译器的 Warning)。malloc/free,new/delete 要配对使用。编码要求及任

编码规范（华为）

zm1_1zm

07-23

3523

高质量的代码需要注意以下几点： 1 排版 2 注释 3 标识符命名 4 可读性 5 变量、结构 6 函数、过程 7 可测性 8 程序效率 9 质量保证 10 代码编辑、编译、审查 11 代码测试、维护 12 宏一．排版 1. 程序块要采用缩进风格编写，缩进的空格数为4个，函数或过程的开始、结构的定义及循环、判断等语句中的代码都要采用缩进风

cocos2d-x中的C++ 编码规范

Fairy的专栏

08-01

4045

声明务必要看头文件 define用法前向声明内联函数 -inlh文件函数参数顺序 include的命名和顺序作用域命名空间非命名的命名空间命名空间的使用规则嵌套类非成员函数静态成员函数全局函数局部变量静态变量和全局变量类在构造函数里面完成工作初始化显式构造函数拷贝构造函数委派和继承构造函数结构体 vs 类继承多重继承接口操作符重载访问控制声明顺序编

整理华为C/C++编码规范

Season@HangZhou 专栏

01-07

5324

目录 1 排版 2 注释 3 标识符命名 4 可读性 5 变量、结构 6 函数、过程 7 可测性 8 程序效率 9 质量保证 10 代码编辑、编译、审查 11 代码测试、维护 12 宏 1 排版 1-1：程序块要采用缩进风格编写，缩进的空格数为4个

K&R编码规范（linux内核编码规范）

lxslove的专栏

08-20

2384

这是Documentation/CodingStyle 的中文版，似乎没有LKD里面讲的幽默。再次fuck匈牙利命名法。 “在函数名中包含函数类型（所谓的匈牙利命名法）是脑子出了问题——编译器知道那些类型而且能够检查那些类型，这样做只能把程序员弄糊涂了。难怪微软总是制造出有问题的程序。” Linux内核代码风格

关于cannot load such file -- sqlite3/sqlite3_native (LoadError)的错误

wufeng_no1的博客

01-15

2419

今天试着用ruby操作sqlite3数据库，用gem安装sqlite3数据库，是没有问题的。 D:\software\sqlite-amalgamation-3260000\sqlite-amalgamation-3260000>gem install sqlite3 Fetching: sqlite3-1.3.13-x64-mingw32.gem (100%) Successfully ...

Ruby中有关字符串长度的操作

wufeng_no1的博客

01-18

1820

题目：定义方法binary_multiple_of_4?(s)，它接受一个字符串，并且当该字符串表示的是一个可以被4整除的二进制数时返回true。注意：一定要保证当字符串不是合法的二进制数时，该方法返回false。(此处前导0视为合法，但仅有0视为不合法）分析：判断字符串的长度用String#size方法较为合适，另外判断可以被4整除时要注意字符串长度为0即空字符串的特殊情况。 def...

Ruby on Rails——一个完整的例子（二）

wufeng_no1的博客

02-11

1708

我们可以使用表单生成器来创建表单。在这里我们先使用以下rails为我们提供的form_with方法，把它加入到之前创建的文件app/views/articles/new.html.erb中： <%= form_with scope: :article, local: true do |form| %> <p> <%= form.label :titl...

使用sort对数值进行排序

wufeng_no1的博客

01-16

985

看一下这个练习。定义方法max_2_sum，它接受一个整数数组作为参数，并返回该数组中最大的两个元素的和。对于空数组它应该返回0。对于只有一个元素的数组，它应该返回此元素。这个练习需要注意以下几点： 1.对传入的参数数量进行判断，无参数传入时输出0；一个参数传入时输出参数本身；两个以上参数传入时返回最大的两个元素的和。 2.既然求两个最大元素的和，就要对数组进行排序。而Ruby中的so...

初识Rails--创建一个新项目

wufeng_no1的博客

01-31

984

安装Rails：gem install rails 创建一个blog项目：rails new blog 自动创建完成的blog项目文件如下：然后启动rails server，使用命令rails server 从信息中我们可以看到监听端口为3000，在浏览器中输入localhost:3000，就可以访问页面了。 ...