今更 サロゲートペア文字とは・・・

検索しても「Windows VISTAでは304文字のサロゲートペアが増えました。」としかヒットしない。
JIS X 0213:2004 対応と新日本語フォント「メイリオ」について では

マイクロソフトでは、従来 JIS 第 1 および第 2 水準漢字 (JIS X 0208 に規定されている 6,355 文字) をベースとした Shift JIS の漢字に加え、1998 年には JIS 補助漢字 (JISX 0212 に規定されている 5,801 文字) を加えた 12,156 文字の漢字を標準フォントとして組み込むなど、最新の日本語情報処理規格に基づいて文字の拡張を継続的に行ってきました。Windows Vista ならびに Windows Server 2008 では、これまでと同様に日本文化に根ざした情報化社会の実現を支援するため、国の国語施策および法令に整合する最新の JIS 漢字「JIS2004」に対応した日本語フォントを搭載しています。
Windows Vista ならびに Windows Server 2008 に標準搭載される全ての日本語 OpenType フォント、「MS ゴシック 3 書体 (MS ゴシック、MS P ゴシック、MS UI Gothic)」、「MS 明朝 2 書体 (MS 明朝、MS P 明朝)」および「メイリオ」が JIS2004 対応となります。
なお、JIS2004 対応に伴い、一部の漢字が正字に修正されていますので、ご留意ください。

簡単にすると

× 「メイリオ・フォントを使うとJIS2004 対応に伴い、一部の漢字が正字に修正されています」

○ 「MS明朝などのフォントもJIS2004 対応に伴い、文字化けしますけど仕様です!」

と云う内容だ。要は、Vista以前のXPからテキストを持ってくると、違った漢字に見えるものもあるハズ。
さらに、リンク切れの激しい資料をUnzipして見ていくと、
2.3.2. 追加された文字の使用による影響 に

CJK extension B に属する文字は特に注意が必要 です。CJK extension B とは Unicode の符号位置で U+20000 から U+2A6DF にマッピングされている文字で、

Windows ではUTF-16 によってサロゲートペア(2 つの 16 ビット符号単位で 1つの文字を表す)としてこれらの文字をサポート します。JIS2004にはCJK Extension Bに属する303文字があり・・・とある。

JIS X 0123:2000/2004 で検索した結果も、303文字。
多分、当初のVISTAでは303文字だったのだろう、しかし、Windows7ではU+29FCE(
 
あー、WordPressは、サロゲートペアは未対応だったらしく、記事が途切れてしまった。
たしかフランス製ですからね。関係ないよね。(大笑
ではやりなおし、
Windows7では、U+29FCEと見分けが付かない、U+29FD7(予鳥みたいな字) が増えて、304文字になってるハズ。
Windows8.1には大量にサロゲートペアが増えてるので、Windows7では未実装の文字も全部埋まっているから、ちゃんとやっておかないと、ボロボロだね。




コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA