UnicodeとUTF-8フォーマット:
対応関係
UNICODE | UTF-8 |
0000 0000 - 0000 007F | 0XXX XXXX |
0000 0080 - 0000 07FF | 110X XXXX 10XX XXXX |
0000 0800 - 0000 FFFF | 1110 XXXX 10XX XXXX 10XX XXXX |
0001 0000 - 001F FFFF | 1111 0XXX 10XX XXXX 10XX XXXX 10XX XXXX |
0020 0000 - 03FF FFFF | 1111 10XX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX |
0400 0000 - 7FFF FFFF | 1111 110X 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX |
Unicode->UTF-8の転換方法:
1.上記の表によって、対応するUTF-8フォーマットのバイト数を計算する。
2.フォーマットを取得する。
3.Unicodeをバイナリに転換する。
4.取得したフォーマットに代入する。ビットが不足の場合、0を使う。