「基本多言語面」の版間の差分

削除された内容追加された内容

インライン

2018年6月20日 (水) 21:05時点における版

基本多言語面（きほんたげんごめん、英: Basic Multilingual Plane, BMP）は、ISO/IEC 10646の第0群第0面およびUnicodeの第0面。最初の65536の符号位置である0000₁₆～FFFF₁₆からなる。

最もよく使う、基本的な文字・記号のほとんどが含まれる。

UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。

符号化

BMPの符号位置は、UTF-16やUTF-8では、他の面より少ないオクテット（バイト）数で符号化される。

UTF-8では、1〜3オクテットで符号化される。
UTF-16では、2オクテットで符号化される。サロゲートペア（代用対）は必要がないため使われない。
UTF-32では、他の面と同様、4オクテットで符号化される。

歴史

BMPは、本来、1990年に4バイト文字符号化方式 (CCS) として策定されたDIS 10646の用語だった。DISはDraft International Standardの略で、ISOのドラフト（草稿）を意味する。DIS 10646は、UCS-4同様、文字を群、面、区、点の4バイトで符号化した。そのうち最初の面がBMPである。ただし、DIS 10646第1版はISO 2022準拠で、20₁₆～7F₁₆のみしか使えなかったため、BMPを始めとする各面は256×256 = 65536ではなく96×96 = 9216符号位置しか持たなかった。また、BMPは最初の面と言っても、第0面ではなく第20₁₆群第20₁₆面だった。

一方、DIS 10646とは別に、Unicodeが2バイトCCSとして民間で開発されていた。UnicodeはISO 2022非準拠で、256×256の1面からなっていた。

1991年、DIS 10646第1版は否決され、Unicodeとの一本化が決定された。BMPは、Unicodeと完全な互換性を持つことに決まった。ISO 2022準拠の制約が外され、1面がUnicodeと同じ256×256 = 65536符号位置を持つようになった。また、BMPは第0群第0面に移動された。こうして生まれたのがDIS 10646第2版で、これを元に、1993年にISO/IEC 10646が生まれた。

配置領域

BMPは、同種の用字をまとめた、いくつかの配置領域に分かれている。ただし、相次ぐ追加・変更により、配置領域による区分の意味は薄れている。（例えば、ラテン文字は1FFF₁₆以下の領域が一杯になってきたので、かつて記号用の領域とされていた2xxx₁₆の領域やCJK用であったAxxx₁₆の領域を使用するようになった。また、互換文字の領域にあるものでも、他の領域に同じような文字がないため、互換文字としては扱わないものもある。例えばU+FA1FやU+FA24など。）

主な配置領域
開始	終了	配置領域名
0000	1FFF	一般スクリプト
2000	2DFF	記号
2E00	33FF	CJKの表音文字と記号
3400	9FFF	CJK統合漢字
A000	A4CF	彝文字
AC00	D743	ハングル音節
D800	DFFF	代用符号位置
E000	F8FF	私用
F900	FFFD	互換文字と特殊文字

当初基本多言語面は以下のような4つの「領域」に分けられていた^[1]。

0000 33FFをアルファベット及び音節文字の用字並びに種々の記号のために使うA領域
3400 9FFFを中国、日本及び韓国の統合された漢字のために使うI領域
A000 DFFFを将来の標準化のために使うO領域
E000 FFFDを私用文字、互換文字と特殊文字の為に使うR領域

しかしながら上記のように例外的な配置が増えてきたため現在基本多言語面で「領域」として定められているのは以下の二つだけである^[2]。

D800 DFFFを代用符号位置に使用するS領域
E000 F8FFを私用領域

収録されている用字系

記号類は省略。

BMPの主な用字系
Latin	ラテン文字
IPA	IPA
Greek	ギリシア文字
Coptic	コプト文字
Cyrillic	キリル文字
Glagolitic	グラゴル文字
Armenian	アルメニア文字
Georgian	グルジア文字
Hebrew	ヘブライ文字
Arabic	アラビア文字
Syriac	シリア文字
Thaana	ターナ文字
Samaritan	サマリア文字
Mandaic	マンダ文字
Tifinagh	ティフィナグ文字
NKo	ンコ文字
Vai	ヴァイ文字
Bamum	バムン文字
Ethiopic	エチオピア文字
Cherokee	チェロキー文字
Unified Canadian Aboriginal Syllabics	統合カナダ先住民文字
Ogham	オガム文字
Runic	ルーン文字
Devanagari	デーヴァナーガリー文字
Bengali	ベンガル文字
Gurmukhi	グルムキー文字
Gujarati	グジャラート文字
Oriya	オリヤー文字
Tamil	タミル文字
Telugu	テルグ文字
Kannada	カンナダ文字
Malayalam	マラヤーラム文字
Sinhala	シンハラ文字
Meetei Mayek	メイテイ文字
Ol Chiki	オル・チキ文字
Saurashtra	サウラーシュトラ文字
Syloti Nagri	シロティナーガリー文字
Tibetan	チベット文字
Phags-pa	パスパ文字
Lepcha	レプチャ文字
Limbu	リンブ文字
Tagalog	タガログ文字
Hanunoo	ハヌノオ文字
Buhid	ブーヒッド文字
Tagbanwa	タグバンワ文字
Javanese	ジャワ文字
Balinese	バリ文字
Sundanese	スンダ文字
Batak	バタク文字
Rejang	ルジャン文字
Buginese	ブギス文字
Cham	チャム文字
Khmer	クメール文字
Thai	タイ文字
Lao	ラーオ文字
Myanmar	ビルマ文字
Kayah Li	カヤー文字
Tai Le	タイ・ナ文字
New Tai Lue	タイ・ロ文字
Tai Viet	タイ・ヴィエト文字
Tai Tham	ラーンナー文字
Braille Patterns	ブライユ点字
Hiragana	ひらがな
Katakana	カタカナ
Mongolian	モンゴル文字
Bopomofo	注音字母
CJK Unified Ideographs	CJK統合漢字
Yi Syllables	彝文字
Lisu	リス文字
Hangul Syllables	ハングル

参考資料

用語の日本語表記は原則として次にならった。“Unicode Terminology English - Japanese”. Unicode, Inc. 2010年1月1日閲覧。

脚注

[脚注の使い方]

^ JIS X 0221:1995「国際符号化文字集合（UCS)ｰ第1部体系及び基本多言語面」　p.9
^ JIS X 0221:2007「国際符号化文字集合（UCS)」 p.10

外部リンク

Roadmap to the BMP（英語）

[1] JIS X 0221:1995「国際符号化文字集合（UCS)ｰ第1部体系及び基本多言語面」　p.9

[2] JIS X 0221:2007「国際符号化文字集合（UCS)」 p.10

[1]

[2]

@@ 36行目: / 36行目: @@
 |3400||9FFF||[[CJK統合漢字]]
 |-
-|A000||A4CF||[[ロロ文字]]
+|A000||A4CF||[[彝文字]]
 |-
 |AC00||D743||[[ハングル]]音節
@@ 195行目: / 195行目: @@
 |style="text-align:right"|CJK Unified Ideographs||[[CJK統合漢字]]
 |-
-|style="text-align:right"|Yi Syllables||[[ロロ文字]]
+|style="text-align:right"|Yi Syllables||[[彝文字]]
 |-
 |style="text-align:right"|Lisu||[[リス文字]]

2018年6月20日 (水) 21:05時点における版

符号化

歴史

配置領域

収録されている用字系

参考資料

関連項目

脚注

外部リンク