世界の文字と記号の大図鑑

4327377368ヨハネス・ベルガーハウゼン, シリ・ポアランガン『世界の文字と記号の大図鑑 ー Unicode 6.0の全グリフ』(研究社, 2014)

Unicodeの文字の一覧。本家Unicode, Inc.のCodeCharts.pdfとの一番の違いは、各文字がどのフォントで印刷されているかがすぐわかるようになっていることでしょうか。使われているフォントの一揃いが欲しいです。

紹介文には「ユニコード6.0に登録された10万9242文字のすべて」とあるので、本書で扱っているのは、タイトルにある「文字と記号」や副題にある「グリフ」ではなく、「図形文字(graphic characters)」だと思いますが(参照)、図形文字なのに載ってないものや、図形文字ではないのに載っているものがあるのがちょっと気になりました。(いずれも印刷はできません。Unicodeの図形文字の定義が変だということもあります。)

原著はデコードユニコード

Adobe-Japan1-6のすべてのグリフを1ページで

この記事で作るもの:Adobe-Japan1-6の全23058グリフを1ページで (PDF, 5MB)

Unicodeの文字の一覧を作ったのに続いて、Adobe-Japan1-6のグリフの一覧を作ります。自分で作らなくてもAdobe-Japan1のグリフ一覧は、

しかし、自分で作れるようになっていれば、全グリフを1ページにといった、自分の好きなレイアウトの一覧表が作れます。

改訂版が出るたびに買っている奥村晴彦, 黒木裕介『LaTeX2ε美文書作成入門』(技術評論社, 第6版, 2013)にも、判型が変わった頃から“Adobe-Japan1全グリフ”が掲載されているのですが、書体が小塚明朝ではなくヒラギノ明朝なので、ここでの目的には適しません。以前書いたように、小塚明朝では区別され、ヒラギノ明朝では区別されない漢字のペアがあるので、ヒラギノ明朝では全グリフにはならないのです。『基本日本語活字見本集成』の著者の一人である小形克宏さんも、ブログで次のように書いています。

このページをより一般的なヒラギノ明朝で組むという話が出たとき、ぼくはかなり強く小塚明朝でなければ信頼性を担保できないことを主張しました。仮にヒラギノ明朝でAdobe-Japan1-5を表しても、それはヒラギノとしての実装解釈を示したにすぎず、仕様制定者の本来の意図が見えなくなってしまいます。Adobe-Japan1は文字コード規格ではなく、あくまでも「グリフ」セットなのですから、小塚明朝のタイプフェイス・デザインを前提とするのは自明の理であり、その意味で小塚明朝で掲載されたことは至極当然と言えるでしょう。『基本日本語活字見本集成本OpenType版』のこと (1)

というわけで、小塚明朝で作ります。

小塚明朝とTeXLiveがインストールされた環境で、「kanji-config-updmap kozuka-pr6n」として小塚明朝を埋め込めるようにします。Adobe-Japan1-6のCIDは、0から23057まで、間を空けずに使われているようなので、単純な繰り返しをするTeXファイルで一覧を作れます。こうして作った一覧表が冒頭のPDFファイルです(改行の制御に不満があります@doraTeXさんのコードを参考に修正しました)。

Unicodeのすべての文字を1ページで

この記事で作るもの:Unicode 6.0のすべての文字を1ページで (PDF, 23MB)

4327377368ヨハネス・ベルガーハウゼン, シリ・ポアランガン『世界の文字と記号の大図鑑 ー Unicode 6.0の全グリフ』(研究社, 2014)の著者はUnicode 6.0の全109242文字2時間30分かけて見るビデオの作者ですか。今度は1024ページの書籍。「Decodeunicode」で画像検索すると原著が出てきますが、楽しみですね。(追記:世界の文字と記号の大図鑑

「Unicodeのすべての文字を印刷した本って、前にもなかったっけ?」と思って本棚を探したのですが、勘違いでした。

0321480910頭に浮かんだのはThe Unicode Consortium『The Unicode Standard, Version 5.0』(Addison-Wesley Professional, 2006)(文献リストあり、索引なし)だったのですが、この本は、(1) The Unicode Standard、(2) Code Charts (PDF)から漢字を除いたもの、(3) Han Radical-Stroke Index (PDF)という構成でした。つまり、漢字はコードポイント順に一つずつではなく、Han Radical-Stroke Indexという形で掲載されているだけでした。

Unicode 5.0より後は、紙媒体ではないようですが、たとえば6.0について同じことをするなら、 (1) The Unicode Standard (PDF)、(2) Code Charts (PDF)、(3) Han Radical-Stroke Index (PDF)を使うことになるのでしょう。(Code Chartsには漢字も含まれているので、「文字の一覧(番号順)」が欲しいだけならCode Chartsだけで十分です。)

これらの資料もいいのですが、こういうのは、自分でもちょっとやってみたいところです。例えば、Unicodeの全文字を1ページに、なんてことも、自分で作れるようになればできます。

というわけで、必要なデータをEnumerated Versions of The Unicode Standardから探して作ろうとしたら、これがなかなか面倒でした。

Unicode 6.0の全文字は、UnicodeData.txtに載っているはずですが、この第1列をHTMLの数値文字参照に置き換えるだけでは終わりません。

UnicodeData.txtには、CJK統合漢字など、1行1文字になっていない部分があります。それを補うのは面倒なので、Unicode 5.1以降で導入されたUnicode Character
Database in XML
を使うことにします。このXMLファイルは、char要素1個が1文字に対応します。

XMLファイルには、印刷できない文字?も含まれているので、それを除外しなければなりません。Unicode 6.0のコードポイントは109449個ありますが、そのうちGraphic Characterは109242個です(参照)。『世界の文字と記号の大図鑑』の109242文字というのはこれのことなのでしょう。Graphic Characterの定義General_Category ValuesThe Unicode Standard Chapter 2 General Structureの「Table 2-3. Types of Code Points」を見ると、char要素のgc属性値がCから始まるものとZl, Zpになっているものは除外しなければならないことがわかります。(異体字セレクタのような、明らかに印刷不能な文字が残るのですが、とりあえずはそのままにします。それを使う異体字もここでは数えません。)

というわけで、ちょっとスクリプトを書いて、Unicode 6.0の文字の一覧を作ります。

こんなHTMLファイルです。このファイルは、Unicodeの文字を数値文字参照で書いてあるだけのものなので、文字を実際に表示できるかどうかは環境によります。Noto花園明朝などを入れた環境で、Firefox 31とChrome 36を試したところ、FirefoxはUnicode 6.0のすべての字形を表示できたようですが、Chromeはぜんぜんだめでした(目視以外の確認法がわかりません)。

Windows上のFirefoxでAdobe PDFに印刷した結果が冒頭のPDFファイルです。

完成に必要な無料フォントを列挙する(あるいはもっとよい方法の提案)という自由研究を、どこかの小学生がやってくれることを期待します。

関連:Unicodeのすべての文字を1回ずつ使って絵を描く

追記:The Unicode Map Projectがすばらしいです。

自由なフォントNotoの、同じ形の漢字、似ている形の漢字

フォントNoto(Google版)Source Han Sans(Adobe版)が発表されました。自由なフォントです。ウェイトがそろっているのがいいですね。

じっくり試してみたいところですが、祭りのうちに、と思ってちょっといじってみました。

Notoに含まれる同じ形の漢字(?)は以下の通りです(クリックで拡大)。

Notoに含まれる似ている形の漢字(?)には以下のようなものがあります(クリックで拡大)。拡大して見ると確かに違うのですが、ぱっと見では区別できません(どこまでを「似ている」と見なすかは人それぞれです。基準を緩めれば該当する文字が増えます)。

UnicodeやAdobe-Japan1との関係は調べていません。ごめんなさい。漢字は苦手です。

関連

小塚明朝では区別され、游明朝体では区別されない漢字のペア2組

Windows 8.1に游明朝が、Mac X v10.9 Mavericksに游明朝体が搭載されました。各OSでフォント名もウェイトも揃っていないという奇妙な状況ですが、「Windows搭載の日本語フォントにおいて、バックスラッシュ(U+005C)の字形は円記号(U+00A5)と同じでなければならない」という考え方を貫くための、最も簡単な方策なのかもしれません。

WindowsでもMacでも2種類の明朝ファミリーがあるのですから、うまく使いこなせるようになりたいものです(MS明朝はファミリーとは呼べないか)。

というわけで、游明朝体をちょっと見てみました。以前、「小塚明朝では区別され、ヒラギノ明朝では区別されない漢字のペア239組」という記事を書きましたが、游明朝体はどうでしょう。

Mac OS Xに搭載されている游明朝体ミディアム(バージョン1.000)では、CIDが違うにもかかわらず形が同じになっている漢字が4組あります。そのうち2組は小塚明朝でも同じ形です。つまり、小塚明朝では区別され、游明朝体では区別されない漢字のペアは2組です。小塚明朝 Pr6N R(バージョン6.014)では下のような字形です(数字はCID。游明朝体では同じ形です)。

これらの字形は、Adobe Technical Note #5078: The Adobe-Japan1-6 Character Collectionのp.10では「同じ」とされていますが、小塚明朝の実装では違います。

ほとんど区別できませんが、拡大して重ねると微妙に違うのがわかります(游明朝体では同じ形です)。

もう1組はもっと似ています(描き分ける必要が本当にあるのか疑問です。游明朝体では同じ形です)。

小塚明朝では区別され、ヒラギノ明朝では区別されない漢字のペアが239組あったことと比べると、ヒラギノと同じ字游工房で制作されたにもかかわらず、そういうペアが2組みしかない游明朝体はAdobe-Japan1に忠実なように見えます(同一だとされているグリフを区別している小塚明朝よりも忠実?)。デザインへのこだわり方が、ヒラギノと游明朝体では違うということなのでしょう。