昨日Unihan-3.2.0.txtについて、今回からはじめてJIS X 0213-2000のマッピングがあるように書きましたが、前のUnihan-3.1.1.txtを見てみたら、すでにありました。    で、タグつけについても、0213については、「kIRG_JSource」を見るより、「kJIS0213」を見た方がよいとおもわれます。そこには「1,14,03」のような形式で「面,区,点」が記述されています。  つまり、Unihan-3.2.0.txtで新しい所は「kCompatibilityVariant」タグで記述された部分であると思われます。    また、「kCompatibilityVariant」として新しく振られたコードの一つにU+FA5Cという文字があります。字面としては「臭」に似た字で「自+犬」を合わせたものです。Unicode側ではこれはU+81EDの異体字として考えられているようですが、PDFで見る限りどちらも「自+犬」という字面になっています。    U+81ED kIRG_JSource 0-3D2D    なので区点でいうと「29-13」です。でもこのコードにあたる字を0213側のPDFで見ると「自+犬」ではなく「自+大」に割り振られています。0213のPDFは汚くて見づらいのですが、0213では「自+犬」を「1-90-56」に割り当てて区別しようとしているようです。    つまり、Unicode主体で見るとメインはU+81EDで、これは「自+犬」。今まではこれ一つしかなかったので、それを「自+大」(1-29-13)に割り当てていた。それが今回Compatibilityということで、U+FA5Cを用意した、という感じでしょうか。では0213を主体として考えるとどちらにどちらを割り当てればいいのでしょうか。    「自+大」 1-29-13 ・・・・ U+81ED ? U+FA5C ?  「自+犬」 1-90-56 ・・・・ U+81ED ? U+FA5C ?    いままでしかたなく「自+大」を「自+犬」に割り当てていたことを考えると、「1-90-56」をU+81EDに、「1-29-13」をU+FA5Cにするのが素直かと思いますが、じゃあ今までの割り当てはどうするんだ、という問題もあるかと思います。ややこしい話です。    もちろんUnicode側ではJIS X 0213との対応を厳密に規定しているわけではなく、「対応できるようにコードを開けておいたから、あとはご勝手に」という姿勢なのでしょうが。    【今日の日経平均】 11,024 -308
|
|