「基本多言語面」の版間の差分
レジャン→ルジャン |
リンク修正 |
||
36行目: | 36行目: | ||
|3400||9FFF||[[CJK統合漢字]] |
|3400||9FFF||[[CJK統合漢字]] |
||
|- |
|- |
||
|A000||A4CF||[[ |
|A000||A4CF||[[彝文字]] |
||
|- |
|- |
||
|AC00||D743||[[ハングル]]音節 |
|AC00||D743||[[ハングル]]音節 |
||
195行目: | 195行目: | ||
|style="text-align:right"|CJK Unified Ideographs||[[CJK統合漢字]] |
|style="text-align:right"|CJK Unified Ideographs||[[CJK統合漢字]] |
||
|- |
|- |
||
|style="text-align:right"|Yi Syllables||[[ |
|style="text-align:right"|Yi Syllables||[[彝文字]] |
||
|- |
|- |
||
|style="text-align:right"|Lisu||[[リス文字]] |
|style="text-align:right"|Lisu||[[リス文字]] |
2018年6月20日 (水) 21:05時点における版
基本多言語面(きほんたげんごめん、英: Basic Multilingual Plane, BMP)は、ISO/IEC 10646の第0群第0面およびUnicodeの第0面。最初の65536の符号位置である000016~FFFF16からなる。
最もよく使う、基本的な文字・記号のほとんどが含まれる。
UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。
符号化
BMPの符号位置は、UTF-16やUTF-8では、他の面より少ないオクテット(バイト)数で符号化される。
- UTF-8では、1〜3オクテットで符号化される。
- UTF-16では、2オクテットで符号化される。サロゲートペア(代用対)は必要がないため使われない。
- UTF-32では、他の面と同様、4オクテットで符号化される。
歴史
BMPは、本来、1990年に4バイト文字符号化方式 (CCS) として策定されたDIS 10646の用語だった。DISはDraft International Standardの略で、ISOのドラフト(草稿)を意味する。DIS 10646は、UCS-4同様、文字を群、面、区、点の4バイトで符号化した。そのうち最初の面がBMPである。ただし、DIS 10646第1版はISO 2022準拠で、2016~7F16のみしか使えなかったため、BMPを始めとする各面は256×256 = 65536ではなく96×96 = 9216符号位置しか持たなかった。また、BMPは最初の面と言っても、第0面ではなく第2016群第2016面だった。
一方、DIS 10646とは別に、Unicodeが2バイトCCSとして民間で開発されていた。UnicodeはISO 2022非準拠で、256×256の1面からなっていた。
1991年、DIS 10646第1版は否決され、Unicodeとの一本化が決定された。BMPは、Unicodeと完全な互換性を持つことに決まった。ISO 2022準拠の制約が外され、1面がUnicodeと同じ256×256 = 65536符号位置を持つようになった。また、BMPは第0群第0面に移動された。こうして生まれたのがDIS 10646第2版で、これを元に、1993年にISO/IEC 10646が生まれた。
配置領域
BMPは、同種の用字をまとめた、いくつかの配置領域に分かれている。ただし、相次ぐ追加・変更により、配置領域による区分の意味は薄れている。(例えば、ラテン文字は1FFF16以下の領域が一杯になってきたので、かつて記号用の領域とされていた2xxx16の領域やCJK用であったAxxx16の領域を使用するようになった。また、互換文字の領域にあるものでも、他の領域に同じような文字がないため、互換文字としては扱わないものもある。例えばU+FA1FやU+FA24など。)
開始 | 終了 | 配置領域名 |
---|---|---|
0000 | 1FFF | 一般スクリプト |
2000 | 2DFF | 記号 |
2E00 | 33FF | CJKの表音文字と記号 |
3400 | 9FFF | CJK統合漢字 |
A000 | A4CF | 彝文字 |
AC00 | D743 | ハングル音節 |
D800 | DFFF | 代用符号位置 |
E000 | F8FF | 私用 |
F900 | FFFD | 互換文字と特殊文字 |
当初基本多言語面は以下のような4つの「領域」に分けられていた[1]。
- 0000 33FFをアルファベット及び音節文字の用字並びに種々の記号のために使うA領域
- 3400 9FFFを中国、日本及び韓国の統合された漢字のために使うI領域
- A000 DFFFを将来の標準化のために使うO領域
- E000 FFFDを私用文字、互換文字と特殊文字の為に使うR領域
しかしながら上記のように例外的な配置が増えてきたため現在基本多言語面で「領域」として定められているのは以下の二つだけである[2]。
- D800 DFFFを代用符号位置に使用するS領域
- E000 F8FFを私用領域
収録されている用字系
記号類は省略。
Latin | ラテン文字 |
IPA | IPA |
Greek | ギリシア文字 |
Coptic | コプト文字 |
Cyrillic | キリル文字 |
Glagolitic | グラゴル文字 |
Armenian | アルメニア文字 |
Georgian | グルジア文字 |
Hebrew | ヘブライ文字 |
Arabic | アラビア文字 |
Syriac | シリア文字 |
Thaana | ターナ文字 |
Samaritan | サマリア文字 |
Mandaic | マンダ文字 |
Tifinagh | ティフィナグ文字 |
NKo | ンコ文字 |
Vai | ヴァイ文字 |
Bamum | バムン文字 |
Ethiopic | エチオピア文字 |
Cherokee | チェロキー文字 |
Unified Canadian Aboriginal Syllabics | 統合カナダ先住民文字 |
Ogham | オガム文字 |
Runic | ルーン文字 |
Devanagari | デーヴァナーガリー文字 |
Bengali | ベンガル文字 |
Gurmukhi | グルムキー文字 |
Gujarati | グジャラート文字 |
Oriya | オリヤー文字 |
Tamil | タミル文字 |
Telugu | テルグ文字 |
Kannada | カンナダ文字 |
Malayalam | マラヤーラム文字 |
Sinhala | シンハラ文字 |
Meetei Mayek | メイテイ文字 |
Ol Chiki | オル・チキ文字 |
Saurashtra | サウラーシュトラ文字 |
Syloti Nagri | シロティナーガリー文字 |
Tibetan | チベット文字 |
Phags-pa | パスパ文字 |
Lepcha | レプチャ文字 |
Limbu | リンブ文字 |
Tagalog | タガログ文字 |
Hanunoo | ハヌノオ文字 |
Buhid | ブーヒッド文字 |
Tagbanwa | タグバンワ文字 |
Javanese | ジャワ文字 |
Balinese | バリ文字 |
Sundanese | スンダ文字 |
Batak | バタク文字 |
Rejang | ルジャン文字 |
Buginese | ブギス文字 |
Cham | チャム文字 |
Khmer | クメール文字 |
Thai | タイ文字 |
Lao | ラーオ文字 |
Myanmar | ビルマ文字 |
Kayah Li | カヤー文字 |
Tai Le | タイ・ナ文字 |
New Tai Lue | タイ・ロ文字 |
Tai Viet | タイ・ヴィエト文字 |
Tai Tham | ラーンナー文字 |
Braille Patterns | ブライユ点字 |
Hiragana | ひらがな |
Katakana | カタカナ |
Mongolian | モンゴル文字 |
Bopomofo | 注音字母 |
CJK Unified Ideographs | CJK統合漢字 |
Yi Syllables | 彝文字 |
Lisu | リス文字 |
Hangul Syllables | ハングル |
参考資料
用語の日本語表記は原則として次にならった。“Unicode Terminology English - Japanese”. Unicode, Inc. 2010年1月1日閲覧。