中文编码主要有两种:国标(GB)和大五(Big5)。繁体字基本上用大五码,在
台湾、香港等地很普遍;我们熟悉的简化字则用国标码。因你要将繁体字
文章转成UTF-8码,很可能原文是用大五码,可试一下
iconv -f BIG5 -t UTF-8
如果你想把繁体字转成简化字,假设都用UTF-8码,还可以
iconv -f UTF-8 -t BIG5 |iconv -f BIG5 -t GB2312 |iconv -f GB2312 -t UTF-8
当然这一转换可能会有错,因为繁简转换不是简单的一一对应,你得仔细地
检查一遍。简化字转成繁体字亦类似。
台湾、香港等地很普遍;我们熟悉的简化字则用国标码。因你要将繁体字
文章转成UTF-8码,很可能原文是用大五码,可试一下
iconv -f BIG5 -t UTF-8
如果你想把繁体字转成简化字,假设都用UTF-8码,还可以
iconv -f UTF-8 -t BIG5 |iconv -f BIG5 -t GB2312 |iconv -f GB2312 -t UTF-8
当然这一转换可能会有错,因为繁简转换不是简单的一一对应,你得仔细地
检查一遍。简化字转成繁体字亦类似。