文字集合

文字集合（もじしゅうごう、英: character set）は、文字、特にコンピュータにおけるキャラクタをその要素（「元」）とする集合である。文字セットという場合もある。

例えば、「全てのアルファベット」(a, b, c, ..., z, A, B, C, ..., Z)というのもひとつの文字集合であるし、「全てのひらがな」(あ, い, う, ..., ん)というのもまた、ひとつの文字集合である。

コンピュータにおける文字集合

「文字コード」も参照

コンピュータ上で文字を扱う場合、典型的には文字による通信を行う場合にその両端点では、どのような文字集合を使うか、あらかじめ取り決めておく必要がある。あらかじめ定義された符号化文字集合（後述）を使う、とすることが多い。

レパートリ

符号化文字集合（後述）の収録対象となる文字群をレパートリという。標準や規格によって用語に違いがあり次のように定義されている。

Unicode Character Encoding Model (UTR#17): 抽象文字レパートリ (ACR: Abstract Character Repertoire）- 符号化の対象となる概念上の文字の非順序集合。
Character Model for the World Wide Web 1.0： Fundamentals (W3C勧告 CharMod): レパートリ (repertoire) - 符号化の対象となる識別された文字の集合。一つ以上の対象言語において、テキストを表現し様々なテキスト処理を効果的に可能にするため、実用的に文字が選択される。それらの文字は利用者が文字と理解するものとは厳密には一致するとは限らない。この文字の集合がレパートリと呼ばれる。
ISO/IEC 10646 (JIS X 0221): レパートリ (repertoire) - 符号化文字集合で表現する文字の指定された集合。
JIS X 0208, JIS X 0213等: レパートリ (repertoire) - 符号化文字集合の一つ以上のビット組合わせによって表現される、規定された文字の集合。
IBMの文字データ表現体系 (CDRA: "Character Data Representation Architecture"): 文字セット (CS: "character set") - コード化表現を前提としない、文字の定義済みセット。

符号化文字集合

文字集合を定義しその集合内の各文字に一意の符号化表現を関連付ける規則を符号化文字集合と言う^[1]。符号化文字集合には、例えばJIS X 0201、JIS X 0208、ISO/IEC 10646(UCS-2, UCS-4)等がある。標準や規格によって用語に違いがあり次のように定義されている。

文字コードを定義している公的規格では以下のように定義されている。

ISO/IEC 646, ISO/IEC 8859, ANSI X3.4 (ASCII): coded character set; code - A set of unambiguous rules that establishes a character set and the one-to-one relationship between the characters of the set and their bit combinations.
JIS X 0201, JIS X 0208, JIS X 0213: 符号化文字集合 (coded character set)、符号 (code) - 文字集合を定め、かつその集合内の文字とビット組合わせとを1対1に関連付ける、あいまいでない規則の集合。
ISO/IEC 10646 (JIS X 0221): 符号化文字集合 (coded character set) - 文字集合及びその集合の文字と符号化表現との間の関係を規定するあいまいさのない規則の集合。

それ以外の団体による文書には以下のようなものもある。

Unicode Character Encoding Model (UTR#17): 符号化文字集合 (CCS: Coded Character Set) - 概念上の文字の集合から非負整数の集合への写像として規定される。この整数の範囲は連続である必要はない。Unicode標準においてUnicodeスカラー値 (Unicode scalar value) の概念は非連続な非負整数として明示的に定義される。符号化文字集合が概念上の文字から整数への写像であれば、ある概念上の文字は符号化文字集合で規定されることになる。
IABモデル (RFC2130): 符号化文字集合 (CCS: Coded Character Set) - 符号化文字集合は概念上の文字の集合から整数の集合への写像である。
Character Model for the World Wide Web 1.0： Fundamentals (W3C勧告 CharMod): 符号化文字集合 (CCS: coded character set) - レパートリ中の個々の文字は対応する（数学的、抽象的な）非負整数、コードポイント（区点位置、面区点位置、文字番号や符号位置等）に関連付けられる。その結果、レパートリから非負整数の集合への写像が符号化文字集合 (CCS) と呼ばれる。
IBMの文字データ表現体系 (CDRA): コード・ページ (CP: "code page") - それぞれのグラフィック文字セットごと、またはグラフィック文字セットの集まりに対する、コード・ポイント (code point) の指定。一つのコード・ページの中で、コード・ポイントには特定の意味を一つだけ持たせることができる。

符号化文字集合と文字符号化方式

ASCIIやISO/IEC 8859のような符号化文字集合はそれ単体で運用されることが多いが、EUC-JPやShift_JIS、UTF-8のように2つ以上の符号化文字集合を組み合わせたり変形したりして運用される文字コードがある。そこで、符号化文字集合を組み合わせて運用する方式を指して文字符号化方式という言葉が使われることがある。

ある文字集合に含まれる文字を用いて記述した同一の文字列であっても、使用する文字符号化方式が異なれば、異なるバイト列となる。また、異なる文字符号化方式の文字列データであっても、基となる文字集合が同一であれば、文字の欠落無く相互変換が可能である。基となる文字集合が異なっていても、変換元の文字集合が、変換後の文字集合の部分集合であれば、欠落は発生しない。ただし、部分集合であっても、符号化文字集合における文字の符号の並びが異なる場合もあり、そのような場合は巨大な変換表が必要となる(例えば、JIS X 0208はUCS-2の部分集合であるが、符号の並びは全く異なる)。ただし、近年のOSでは、標準的な機能として変換表を持っていることも多く(WindowsのMultiByteToWideChar API、UNIXのlibiconv等)、アプリケーションが独自に変換表を持つ必要はあまりない。逆に、部分集合の関係にない文字集合へ変換した場合、欠落する文字が発生し、中黒点等で置き換えられたり、不適切なプログラムであれば文字化け等が発生する(ただし、同様の現象は、フォントが原因の場合もあり、文字集合の変換が原因とは即時には判断できない)。

文字符号化方式を適用する際に、複数の文字集合を組み合わせたり、文字集合の一部をベンダーが独自に置き換えることもあり、互換性問題の原因となりやすい。例えば、WindowsとMacintoshで作成されたShift_JIS文書では、それぞれ基となる文字集合にベンダーが独自の修正を加えているため、完全な互換性は無い(例えば丸付き数字と括弧付き曜日など)。他にも、文字集合の僅かな差異により問題が起きやすい例は、「~」と「‾」、「\」と「¥」などである。

ISO/IEC 646, ISO/IEC 8859, ISO/IEC 2022 (JIS X 0202), JIS X 0201, JIS X 0208, JIS X 0213等の定義では「符号化文字集合」と「符号」とは同義であり、交代可能な用語とされるが、UnicodeやIABモデルでは異なった意味で同じ用語が使われていることがあるため、解釈が混同されることがある。また、文字集合の似た用語としてMIME等で利用されるIANAのcharsetがあるが、charsetは符号化文字集合と文字符号化方式を合わせた概念であり、名称と実態が一致していない。

出典

[脚注の使い方]

^ 矢野啓介、2019、『[改訂新版]プログラマのための文字コード技術入門』、技術評論社〈WEB+DB PRESS plus シリーズ〉 ISBN 978-4-297-10291-3 9頁

外部リンク

UTR#17: Character Encoding Model（Unicodeの文字符号化モデル）
RFC2130: The Report of the IAB Character Set Workshop held 29 February 1 March
Character Data Representation Architecture Reference（IBMの文字データ表現体系 (CDRA) リファレンス）
IBM Character set by GCSGID（IBMの文字セット登録簿）
IBM Code page by CPGID（IBMのコード・ページ登録簿）

文字コード

日本語用の
文字コード

JIS規格

符号化文字集合	JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 JIS X 0221（日本文字部分レパートリ）
文字符号化方式	ISO-2022-JP EUC-JP Shift_JIS Shift_JISX0213 Shift_JIS-2004 EUC-JISX0213 EUC-JIS-2004 ISO-2022-JP-3 ISO-2022-JP-2004 漢字シフトコード
文字一覧	JIS X 0213非漢字一覧 JIS X 0213漢字一覧の1面 JIS X 0213漢字一覧の2面

JIS以外の公規格

メーカーの規格

符号化文字集合	IBM拡張文字マイクロソフト標準キャラクタセット Adobe-Japan1 iモード絵文字 EZweb絵文字 SoftBank絵文字今昔文字鏡 JIPS EBCDIC GT書体 KEIS IBM漢字システムレコード用文字符号ビブロス外字
文字符号化方式	Microsoftコードページ932 MacJapanese JEF漢字コード U-PRESS

日本語を含む
多言語文字集合

Unicode
ISO/IEC 10646
JIS X 0221

面	基本多言語面追加面追加多言語面追加漢字面第三漢字面追加特殊用途面私用面
文字符号化方式	UTF-8 UTF-16/UCS-2 UTF-32/UCS-4 UTF-7 UTF-EBCDIC GB 18030 SCSU BOCU-1
文字一覧	Unicode一覧 Unicode一覧表 Unicode6.0の携帯電話の絵文字の一覧 UnicodeのEmojiの一覧

TRONコード

TRONコード

日本語以外用の
文字集合

初期の文字コード	ASCII Baudot Code ISO/IEC 646 ISO/IEC 6937 T.61
ISO/IEC 8859	-1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -13 -14 -15 -16
書誌用	ISO 5426 ISO 5426-2 ISO 5427 ISO 5428 ISO 6438 ISO 6861 ISO 6862 ISO 9036 ISO 10585 ISO 10586 ISO 10754 ISO 11822 ANSEL MARC-8
国家標準	ArmSCII CNS 11643 GOST 10859 GB 2312 HKSCS ISCII KPS 9566 KS X 1001 PASCII TIS-620 TSCII VISCII YUSCII KOI8-R KOI8-RU KOI8-U KOI8-T KOI8-CS
EUC	EUC-CN EUC-KR EUC-TW
ISO/IEC 2022	ISO/IEC 2022 CN ISO/IEC 2022 KR CCCII
MacOS コードページ	Macintosh Standard Roman Character Set アラビア語 CentralEurRoman EUC-CN Big5 クロアチア語キリルデーヴァナーガリー Dingbats ペルシャ語ギリシア語グジャラート語グルムキーヘブライ語アイスランド語 EUC-KR ルーマニア語 MacSymbol TIS-620 トルコ語ウクライナ語
DOS コードページ	437 720 737 775 850 852 855 857 858 860 861 862 863 864 865 866 869 KOI8 Kamenicky Mazovia MIK Iran System
Windows コードページ	874 (TIS-620) 936 (GBK) 949 (EUC-KR) 950 (Big5) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1361 54936 (GB18030)
EBCDIC コードページ	37 293（英語版） 300（英語版） 310（英語版） 351（英語版） 353（英語版） 355（英語版） 357（英語版） 358（英語版） 359（英語版） 360（英語版） 819 930（英語版） 933（英語版） 939（英語版） 1364（英語版） 1390（英語版） 1399（英語版） 8859（英語版）
その他標準	モザイク集合
記号用	Symbol Wingdings Webdings
プラットフォーム固有	ATASCII CDC display code DEC Radix-50 Fieldata GSM 03.38 HP roman8 PETSCII TI calculator character sets ZX Spectrum character set