知識ベース

KOI8-RU

KOI8-RUは、キリル文字を使用するロシア語、ウクライナ語、ベラルーシ語をカバーするように設計された8ビット文字エンコードです。ロシア語とブルガリア語をカバーするKOI8-Rと密接に関連していますが、10個のボックス描画文字を、大文字と小文字の両方でウクライナ語とベラルーシ語の5文字Ґ、Є、І、Ї、Ўに置き換えます。それはKOI8-Uとさらに密接に関連しており、KOI8-Uにはincludeは含まれませんが、それ以外は同じ置換を行います。追加の文字割り当ては、KOI8-Fに追加されるforを除き、KOI8-Eによって照合されます。

IBMでは、KOI8-RUにコードページ1167が割り当てられています。

KOI8は、ISO 8859-5よりもはるかに一般的に使用されていますが、ISO 8859-5は実際に使用されたことはありません。別の一般的なキリル文字エンコードはWindows-1251です。将来的には、両方が最終的にUnicodeに取って代わる可能性があります。

KOI8はKod Obmena Informatsiey、8ビット (ロシア語:КодОбменаИнформацией、8ビット)の略で、「情報交換のためのコード、8ビット」を意味します。

KOI8文字セットには、ロシア語のキリル文字が、ISO 8859-5のような自然なキリル文字のアルファベット順ではなく、擬似ローマ順であるという特性があります。これは不自然に思えるかもしれませんが、8番目のビットが取り除かれた場合でも、通常のASCII端末で大文字と小文字を逆にした音訳でテキストを読み取ることができます(少なくとも解読できます)。たとえば、KOI8-RUの「РусскийТекст」は、8番目のビットが削除されるとrUSSKIJ tEKST (「ロシア語テキスト」)になります。

キャラクターセット

次の表は、KOI8-RUエンコードを示しています。各文字は、同等のUnicodeコードポイントと10進コードポイントで表示されます。

_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
0_
0
1_
16
2_
32
SP
0020

0021

0022

0023
$
0024

0025

0026
'
0027

0028

0029
*
002A
+
002B

002C
-
002D

002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039

003A
;
003B

003C
=
003D
>
003E

003F
4_
64
@
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048

0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q
0051
R
0052
S
0053
T
0054
うん
0055
V
0056
W
0057
バツ
0058
Y
0059
Z
005A

005D
^
005E
_
005F
6_
96
`
0060
a
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068

0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
あなたは
0075
v
0076
w
0077
バツ
0078
y
0079
z
007A
{
007B
|
007C
}
007D

007E
8_
128

2500

2502

250C

2510

2514

2518

251C

2524

252C

2534

253C

2580

2584

2588

258C

2590
9_
144

2591

2592

2593

201C

25A0

2219

201D

2014

2116

2122
NBSP
00A0
»
00BB
®
00AE
«
00AB

00B7
¤
00A4
A_
160

2550

2551

2552
ё
0451
є
0454

2554
і
0456
ї
0457

2557

2558

2559

255A

255B
ґ
0491
ў
045D

255E
B_
176

255F

2560

2561
Ё
0401
Є
0404

2563
І
0406
Ї
0407

2566

2567

2568

2569

256A
Ґ
0490
Ў
040D
©
00A9
C_
192
ю
044E
а
0430
б
0431
ц
0446
д
0434
е
0435
ф
0444
г
0433
х
0445
и
0438
©
0439
к
043A
л
043B
м
043C
н
043D
о
043E
D_
208
п
043F
я
044F
р
0440
с
0441
т
0442
あなた
0443
ж
0436
в
0432
ь
044C
ы
044B
з
0437
ш
0448
э
044D
щ
0449
ч
0447
ъ
044A
E_
224
Ю
042E
А
0410
Б
0411
Ц
0426
Д
0414
Е
0415
Ф
0424
Г
0413
Х
0425
И
0418
Й
0419
К
041A
Л
041B
М
041C
Н
041D
О
041E
F_
240
П
041F
Я
042F
Р
0420
С
0421
Т
0422
У
0423
Ж
0416
В
0412
Ь
042C
Ы
042B
З
0417
Ш
0428
Э
042D
Щ
0429
Ч
0427
Ъ
042A

KOI8-Rとの違いは、位置0xA4で構成されています。 0xA6; 0xA7; 0xAD; 0xAE;および0xB4; 0xB6; 0xB7; 0xBD; 0xBE;ロシア語には存在しない余分な文字で構成されています。

RFC 2319では、文字0x95はU + 2219(∙)である必要があるとされていますが、Windows-1251の箇条書き文字と一致させるためにU + 2022(•)である場合もあります。

一部の参照にはタイプミスがあり、文字0xB4は正しいU + 0404ではなくU + 0403であると誤って記載されています。このタイプミスは、RFC 2319の付録Aにあります(ただし、RFCの本文の表に正しいマッピングが記載されています)。