小塚明朝では区別され、ヒラギノ明朝では区別されない漢字のペア239組

以下に掲載する漢字のペア239組は、小塚明朝 Pr6N R(バージョン6.014)では形が区別されていますが、ヒラギノ明朝 ProN(Ver. 8.10)では形が区別されていません(厳密に言えば、ヒラギノ明朝で、形は区別されていなくても位置が違うものが2字あります)。(小塚明朝PDF版ヒラギノ明朝PDF版

他にもあったら教えてください。

よく見ないとわからないものもありますが、小塚明朝では確かに形が違います。これらの文字が、ヒラギノ明朝では同じ形になっているというわけです。(図中の数字はCID)

たとえば、

CID=6930とCID=13407を区別すべきだとは、個人的には思いませんが、区別して出力するためには、安岡さんの論文で紹介されているようなCIDに対応したシステム(TeXも含まれる)と、2つのグリフが本当に違っているフォントが必要です。ですから、「TeXを使えばCID=6930とCID=13407を区別して出力できる」という言い方はちょっと不正確です。ヒラギノ明朝では区別して出力できません。

こうなると、ヒラギノ明朝がAdobe-Japan1に準拠しているとは言えないような気もしてきますが、上に示したような漢字に限って言えば、ヒラギノ明朝のポリシーを尊重してもいいでしょう。しかし、Adobe-Japan1-4 & APGS実践情報を見ると、非漢字も考慮するなら、ヒラギノ明朝がAdobe-Japan1に準拠しているとは言いにくいようです。(リンク先で指摘されていた差異は、Adobe Technical Note #5078のp.3で許容されたものでした。)

参考:グリフの区別とヒラギノのデザインコンセプト 2

おまけ

小塚明朝の漢字はすべて形が違うかと言うと、そういうことでもないようで、下の小塚明朝の2組は同じ形です。(この2組は上の239組の中には入っていませんが、ヒラギノ明朝でも同じ形です。)

追記:Adobe Technical Note #5078のp.10によれば、喩(CID=4411)とCID=7984、渣(CID=5459)とCID=7994のペアの形も同じはずですが、小塚明朝の実装では違っています。(参照:小塚明朝では区別され、游明朝体では区別されない漢字のペア2組

漢字字形の問題点

4887152582野﨑邦臣『漢字字形の問題点』(天来書院, 2013)によれば、

現在、諸橋大漢和をはじめ殆どの漢和辞典・漢字表が「奇・寄・崎」を正体字とし、「竒・・﨑」等を俗字や異体字としている。が、それは筆写体の変遷を知らない、または知っていても無視している学者の一方的見解と私は考える。漢字の字形は筆写体と活字体の両面から研究しなければならない。

Yahoo! 知恵袋の回答の、『どちらかと言えば、「崎」が主流でした』というのとは異なる研究成果が披露されている。

拙著『Webアプリケーション構築入門』でも触れたように、JIS規格では同じ文字と見なされ包摂されている「吉」と「𠮷」や「高」と「髙」と違い、「﨑」は「崎」とは別の字としてJISには登録されているので(「吉」と「𠮷」、「高」と「髙」、「崎」と「﨑」はいずれもUnicodeでは区別できる)、そのまま使ってもいいように思うのだが、この記事のように、「崎」と書いてから「崎は大の部分が立」のような説明をするのは、第3水準漢字に対応していない端末を考慮してというよりは、マスメディアの申し合わせによるところが大きいのだろう。

いずれにしても、「崎は大の部分が立」を素直に受け取って横棒が1本多い文字を想像する必要はない。

4764106191共同通信社『記者ハンドブック 新聞用字用語集 』(共同通信社, 第12版, 2010)によれば、常用漢字表(異体字を除く)・人名用漢字・表外漢字字体表に載っているものを使うのが原則なのだが、「﨑」はそのいずれにも載っていない。『漢字字形の問題点』によれば、平成2年の法務省民事局長通達の「氏又は名に用いる文字」の別表に載っているらしい。

それはともかく、『漢字字形の問題点』は力作。「『康煕字典 東大本』が原刻本であることが、版木の割れ目の後から判断できる」とか。

天来書院のウェブサイトにサンプルがある。

つぶやきの限界(140文字)への挑戦

拙著『Webアプリケーション構築入門』のサンプルとして、Twitterクライアントを作りました。

単なるクライアントではつまらないので、つぶやきが140文字未満のときは、文字を追加して139から140文字になるようにしています。

本稿執筆時点でのTwitterの仕様では、ちょっと面白い結果になるみたいです。仕様が変わったら公開を止めます。(追記:直ったようなので、公開をやめました。)

Twitterのアカウント情報は保存しませんが、気になる人は https://twitter.com/settings/applications で削除してください。

試してみる

しばらくすると改竄されてしまいました。Twitter社には書き換える権限があるのかもしれませんが、それを頻繁に行使されるとちょっと不安になりますね(ジャスミン革命に使えるのかしら)。

参考書

矢野啓介『プログラマのための文字コード技術入門』(技術評論社, 2012)

4797361190徳丸浩『体系的に学ぶ 安全なWebアプリケーションの作り方』(ソフトバンククリエイティブ, 2011)

恩師の条件—魚偏の漢字

中学3年間、中勘助『銀の匙』1冊だけを教科書に行われたの国語の授業を紹介した『奇跡の教室』。この本に出てくる「魚偏の漢字は678字ある」という話を確かめられなかった、ということを以前書きました

4576050516予想はしていたのですが、「諸橋大漢和だと『恩師の条件』書いてある」と教えてもらったので、さっそくチェックしてみました。

恩師の条件自体は私にはあまり関係がないのですが、「私は高校生の勉強を“孤独な戦い”に終わらせたくなかった(p.170)」というのに、我が意を得たりなどと思いながら見ていくと、次のような記述がありました。

漢字を知らなければその魚が口にはいらぬわけでもないが、魚の漢字を見てどんな魚かわかるというのも日本人的教養というものであろう。

どんな字があるか、辞書を写せば簡単だがそれでは面白くない。趣味と教養を両立させたいものである。すし屋で出すマッチ、箸ぶくろ、茶呑みなどに、魚つくしを使っているのがある。ちょっと気をつけていると何種類も集まってくる。その読解をやってみるとなかなか面白い。大漢和辞典の六七八字の中にさえ含まれていないで、いくら考えても読めないものもあり、まるで難しいクイズを解くようなおもしろさが味わえる。「銀の匙研究ノート」

「魚偏」とは書いていませんが、諸橋大漢和であることは確認できました。重くてちょっとあれなのですが、引っ張り出して確認してみると、魚部の漢字が679字あるので、おそらくこれのことだったのだろうと思います(魚偏だけに限定すると625字)。補巻で追加された魚部が23字(うち魚偏は20字)などを考えるとまたよくわからなくなるので、「魚部は約700字」ということにするのがいいかと思います。

諸橋大漢和の情報ならUnicodeのデータベースに入っているじゃん」と思って、いつものようにUnihan.zipを漁(≠魚偏)ってみしたが、

grep kMorohashi Unihan_DictionaryIndices.txt | cut -f 1 | sort > morohashi.txt
grep "\\s195'\{0,1\}\." Unihan_RadicalStrokeCounts.txt | cut -f 1 | sort | uniq > 195.txt
join morohashi.txt 195.txt | wc -l

284

このように、284字しか出てきませんでした。CJK統合漢字拡張漢字に関しては、諸橋大漢和との対応はとられていないようですね。

魚​魛​魜​魝​魞​魟​魠​魡​魢​魣​魤​魥​魦​魧​魨​魩​魪​魫​魬​魭​魮​魯​魰​魱​魲​魳​魴​魵​魶​魷​魸​魺​魻​魼​魽​魾​魿​鮀​鮁​鮂​鮃​鮄​鮅​鮆​鮇​鮈​鮉​鮊​鮋​鮌​鮍​鮎​鮏​鮐​鮑​鮒​鮓​鮔​鮕​鮖​鮗​鮙​鮚​鮛​鮜​鮝​鮞​鮟​鮠​鮡​鮢​鮣​鮤​鮥​鮦​鮧​鮨​鮩​鮪​鮫​鮬​鮭​鮮​鮯​鮰​鮱​鮲​鮵​鮶​鮷​鮸​鮹​鮺​鮻​鮼​鮽​鮾​鮿​鯀​鯁​鯂​鯃​鯄​鯅​鯆​鯇​鯈​鯉​鯊​鯋​鯌​鯍​鯎​鯏​鯐​鯑​鯒​鯔​鯕​鯖​鯗​鯘​鯙​鯚​鯛​鯜​鯝​鯞​鯟​鯠​鯡​鯢​鯣​鯤​鯥​鯦​鯧​鯨​鯩​鯪​鯫​鯬​鯭​鯮​鯯​鯰​鯱​鯲​鯶​鯷​鯸​鯹​鯺​鯻​鯼​鯽​鯾​鯿​鰀​鰁​鰂​鰃​鰄​鰅​鰆​鰇​鰈​鰉​鰊​鰋​鰌​鰍​鰎​鰏​鰐​鰑​鰒​鰓​鰔​鰕​鰖​鰗​鰘​鰙​鰚​鰜​鰝​鰞​鰟​鰠​鰡​鰢​鰣​鰤​鰥​鰦​鰧​鰨​鰩​鰪​鰫​鰬​鰭​鰮​鰯​鰰​鰱​鰲​鰳​鰴​鰵​鰶​鰷​鰸​鰹​鰺​鰻​鰼​鰽​鰾​鰿​鱀​鱁​鱂​鱃​鱄​鱅​鱆​鱇​鱈​鱉​鱊​鱋​鱌​鱍​鱎​鱏​鱐​鱑​鱒​鱓​鱔​鱕​鱖​鱗​鱘​鱙​鱚​鱛​鱜​鱝​鱞​鱟​鱠​鱡​鱢​鱣​鱤​鱥​鱦​鱧​鱨​鱩​鱪​鱫​鱬​鱭​鱮​鱯​鱰​鱱​鱲​鱳​鱴​鱵​鱶​鱷​鱸​鱹​鱺​鱻​鷠​魯​鱗

4582128041ちなみに、一家に一冊『字通』には、魚部の漢字は48字あるようで、このくらいが平和でいいなあと思いました。さらにちなみに、.NET版『字通』はすてに古くなっていて、残念ながらWindows 7にはインストールできません。紙の『字通』はこの先もずーと読めるでしょうから、改めて「紙は強い」と思いました。とはいえ、諸橋大漢和は重くて場所取ってあれなので、早く電子化してほしいのですが、

CD-ROM化に関しては、コンピュータで扱える漢字の数の問題や、『大漢和辞典』そのものの巨大さがネックとなって、一朝一夕には実現できない状況です。(「大漢和辞典 よくある質問」のQ13

4469800007などと言うなら、とりあえず画像で、番号での検索のみ可能にしたバージョンを、DVDやiPad版で出せばいいんじゃないかと思います。ポスターならできるくせに。自炊している人とかいるんですかねえ。

4121503945『灘中 奇跡の国語教室 – 橋本武の超スロー・リーディング』というタイトルで新書化されました。

ウェブブラウザからクリップボードにコピーするときに保持される形式?

調べてわかってから書いた方がいいのですが、かなり面倒な気がしたのでやめました。アンテナを張っておくつもりで。

CSSでフォントを指定する際の「font-family: fontA, fontB;」のような記述は、「fontAがインストールされているならfontAで、なければfontBで表示する」という用途で使われることが多いと思いますが、仕様にあるように、「fontAで表示できる文字はfontAで、表示できない文字はfontBで表示する」という複雑な処理にも使えます。同じことをWindowsでやろうとすると、フォントリンクという面倒な設定が必要です。

以前、魚部の漢字を列挙したことがありました。ああいうことをする際には、Unicodeのすべての漢字を扱える花園明朝が便利ですが、コードポイントによって花園明朝Aと花園明朝Bを使い分けなければなりません。しかし、HTML文書なら、「font-family: 花園明朝A, 花園明朝B;」でいいので簡単です(Opera for Windows 11.50は例外?)。

これは便利、ということで、フォント情報を含んだままウェブブラウザからWord等の別のアプリケーションに文字列をコピーしたくなります。「形式を選択して貼り付け→テキスト」を使うことが多いと思いますが、Word上でフォントを再設定するのはとても大変なので、ふだんは邪魔な機能が役立つというわけです。

しかし、このときの振る舞いがよくわかりません。とりとめもなく書くと、

  • 多くの場合、font-familyの値の最初のフォント情報しかコピーされません(上述の例だとすべて花園明朝Aとしてコピーされる)。
  • Firefox 5.0 for Windowsでは、CSSファイルやstyle要素に書いたフォント情報はコピーされず、style属性で指定したものだけがコピーされます。
  • Macでは、貼り付けるアプリケーションによってまったく動作が違います(クリップボードの種類が2つある?)。
  • Macでは、CJK統合漢字拡張漢字B集合とCJK統合漢字拡張漢字C集合以降では振る舞いが違う場合があります。

というわけで、住み慣れたウェブブラウザの外は荒野だったというわけなのですが、さてどこから手をつけたものでしょう。