今回は、Unicodeで異体字を扱う際の便利ツール、「異体字セレクタセレクタ」のご紹介です。
みなさま、パソコンやスマホ・携帯などで文字入力をする時、最近は特に文字がUnicodeかどうかなど、気にすることもなくなってきていることが多いのではないかと思います。漢字だけでもそろそろ8万字種を超えようとしているような状況で、日常の利用で不便を感じる人はかなり少ないだろうと想像しております。
しかし一方で、Unicodeでは同じ文字だとして「包摂」扱いにされた字形の相違にこだわりを持っておられる方も依然としていらっしゃることと思います。最近は、そのような「文字としては同じだけど字形が違場合」にもきちんとテクストデータレベルで区別できるようにする仕組みが広まってきています。すでにWindowsでもMacでも使えるようです。Unicode Consortiumが提供するこの仕組みは、IVS(Ideographic Variation Sequence)、と呼ばれているようです。詳しくは下記のURLなどをご覧ください。
要するに、「枝番形式」と呼ばれるもので、技術的には目新しいものではないようなのですが、とにかく、支配的になってきている規格やOSで採用・サポートされるということで、とりあえずそういう仕組みが手元でも使えるようになってきているようです。
さて、枝番形式なのですから、枝番をうまく選んだりできれば済む話なのですが、これがまだそんなに便利な感じになっていないようで、まだまだ広く便利に使えるというわけではないようです。特に、フォントが希望するIVDに対応しているかどうか、ということがまだ難しく、さらに、枝番がついているかどうか、ついている枝番はどれなのか、という情報も、アプリケーションによって使いやすかったりよくわからなかったりするようです。
そこで登場するちょっと便利なツールが、言語学とDHに取り組んでいる大学院生の王一凡さんが作った「異体字セレクタセレクタ」です。
このツールでできることは、筆者が理解している範囲で恐縮ですが、
1.ある漢字にIVSでどんな異体字セレクタが用意されているかをIVDを横断して確認できる
⇒ここから、任意の異体字セレクタを選択して異体字を入力することもできる
2.操作している文書に登場している漢字にどんな異体字セレクタが使われているかを確認/可視化できる(手元に対応フォントがなくてもある程度対応できる)
特に、2.の機能がなかなか秀逸だと思いますが、とりあえずは、ざっと、機能について見てみましょう。
筆者は「記」という漢字の異体字で時々困っています。右側が「己」ではなくて「巳」になっているにも関わらず、Unicodeでは同じ文字として扱われてしまっています。このような場合に、その二つの「字形」を区別するのにIVSが使われています。
というこで、まずは「記」で検索してみましょう。そうすると以下のようになります。
では、字形を表示しているところをクローズアップしてみましょう。「画像」の列では、右側が「巳」になっている「記」が二つありますね。これらの字形の画像は、かの有名なglyphwikiからとってきているようです。
「セレクタ」の列をみてみると、U+E0102となっているものが、「画像」の列では、右側が「巳」になっている「記」ですね。
このようにして、字形とセレクタ(枝番)の対応をシンプルに確認することができます。
さらに、左の方の列を見てみると「コピー」というボタンがそれぞれの行に設置されていることがわかります。この「コピー」をクリックすると、クリップボードにIVS付きでコピーされます。ただし、コピーしたものを適切な字形としてペーストするには、IVSに対応しているアプリケーションであり、かつ、対応できるフォントも用意されていなければなりません。少なくとも筆者が今使っている環境ではうまく表示できないようです。
さて、コピーした文字ですが、筆者のような環境だと、そもそもIVSがついているのかどうかもよくわからないという状況になってしまいます。それを解消してくれるのが、頁の左上にあるインプットフォームです。IVS付きの文字をコピーしてからペーストすると、フォームに表示されている文字の字形はそのままですが、フォームの下に「8A18+E0102」という表示がでます。この、黄緑色の「E0102」と書かれているのがIVSの枝番号です。このコピー&ペーストによる異体字セレクタ(枝番)の確認は他のアプリケーションから持ってきても使うことができます。
IVSは、最近は、OSだけでなく色々なアプリケーション等で対応するようになってきています。しかしながら、まだまだ便利なツールは十分に出来上がっておらず、今後の課題となっています。このツールは、そういった状況を多少なりとも改善するのに有益であるように思われます。みなさまにおかれましても、Unicodeの異体字やその便利な使い方にご関心がおありの方は、ちょっと試してみていただけますと幸いです。