インテルによる「ポーカーの手の判別の並列化」について


概要:インテル デベロッパー・ゾーンで公開されている「C++ 11 でマルチスレッド・コードを記述する」という記事の,「ポーカーの手の判別は並列化しても速くならない」という主張について調べた結果,私の環境で4.9秒かかる元記事の処理が,0.68秒で終わるようになりました.(コード

計測すべし。計測するまでは速度のための調整をしてはならない。(ロブ・パイク)

オリジナルのpokereval/pokereval.cppを見ながら作業しましょう.

Step 1:実験の意義

タスクの中でスリープするのはやめましょう.そういうことをすればマルチスレッド版がシングルスレッド版より速くなるのは当然ですが,意味がありません.105行目を書き換えます.

//Sleep(1);

Step 2:データセット

2万件(正確には19981件)ではすぐに終わってしまうので,100万件のデータを使いましょう.207行目を書き換えます.

std::ifstream filein("hands1million.txt");

Step 3:シングルスレッド版の実行時間

シングルスレッド版はこれで動くので,この実行時間を基準にチューニングします.

筆者のPC(i7-4930K,Visual Studio Community 2017,Win32 Releaseモード)では,4.9秒でした(シングルスレッド版・オリジナル).

Step 4:バグ修正

マルチスレッドのコードにバグが2個あるので修正します.(補足:この修正はpull requestしました.)

(1) 入力の終わりの判定が間違っていて,hands1million.txtの最後の空行をカウントしています.283, 284行目の,

if (filein.eof()) break;
std::getline(filein, str);

を次で置き換えます.

if (!std::getline(filein, str)) break;

(2) スレッド数の倍数だけ処理したところで出力していますが,最後に余った分を出力し忘れています.299行目の#elseの前に,次を挿入しましょう.

if (count != MaxThreads - 1) {
  for (int i = 0; i < count; ++i) {
    fileout << futures[i].get() << '\n';
  }
}

Step 5:マルチスレッド版の実行時間

269行目の#define Multi 1を有効にして,マルチスレッド版の実行時間を計ります.

筆者のPCでは5.7秒でした(マルチスレッド版・オリジナル).

マルチスレッド版がシングルスレッド版(4.9秒)より遅いと悔しいのは確かです.

Step 6:計測

Visual Studioの,デバッグ→パフォーマンス プロファイラーで,関数ごとのCPU使用率を計測します.

測定結果の上位は次のようなものでした.

プロファイル結果

std::basic_istreamに一番時間がかかっています.もう少しよく見ると,その大部分は,std::endlで費やされているようです.

Step 7:パフォーマンスチューニング

『C++の教科書』の8.2.3項に,endlはバッファをフラッシュさせると書いてあります.100万件のデータの出力する際に,1件ごとにフラッシュするのはまずいでしょう.294行目のstd::endl'\n'に置き換えます.

fileout << e.get() << '\n';

筆者のPCでは2.5秒でした(マルチスレッド版・修正後).

残念ながら,これでシングルスレッド版(4.9秒)を上回ったわけではありません.シングルスレッド版のコードでもstd::endl'\n'に置き換えて(256行目),実行時間を計ります.

筆者のPCでは1.4秒でした(シングルスレッド版・修正後).

依然として,マルチスレッド版よりシングルスレッド版の方が高速です.

とはいえ,元記事の「評価の実行時間が短すぎて、タスクを非同期に呼び出すオーバーヘッドが原因である」という考察は疑問です.ここで解いているのはいわゆる embarrassingly parallel というやつで,並列化の効果が,「あって当然」だからです.

Step 8:OpenMP

OpenMPを使いましょう.『C++の教科書』の12.4節に使い方が載っています.

マクロで場合分けしてもかまいませんが,シングルスレッド版のコード(300から306行目)を書き換えます.データをメモリに読み込んで,OpenMPで並列に判別し,結果を出力します.

std::vector<std::string> hands;
while (std::getline(filein, str)) {
  hands.push_back(str);
}
rowCount = hands.size();

std::vector<std::string> results(rowCount);
#pragma omp parallel for
for (int i = 0; i < rowCount; ++i) {
  PokerHand pokerhand(hands[i]);
  auto result = EvaluateHand(pokerhand);
  results[i] = pokerhand.GetResult(result);
}

for (int i = 0; i < rowCount; ++i) {
  fileout << results[i] << '\n';
}

筆者のPCでは0.68秒でした(OpenMP版).これでシングルスレッド版・修正版(1.4秒)より速くなりました.シングルスレッド版・オリジナル(4.9秒)よりはかなり速いです.ちなみに,OpenMPを有効にしない状態でのこのコードの実行時間は1.7秒でした.

まとめ:ポーカーの手の判別は並列化で速くなります.

「大学への数学」2017年6月号掲載の拙稿「機械まかせの数学 Mathematicaで解く東大入試数学」について


B06XWF34YQ月刊誌「大学への数学」2017年6月号で,「機械まかせの数学」という記事を書きました。内容は副題「Mathematicaで解く東大入試数学」のとおりです。

高校生向けの雑誌ですが,大学生,というか,「コンピュータと数学」ということに興味を持てるすべての人が想定読者です。高校数学の知識を前提にしていますが,大学入試問題を解く数学力は不要です。「Mathematicaでしょ,知ってる」という方も,Ver. 10以降のMathematicaを知らないなら,ちょっと驚くかもしれません。

膨大なネタを4ページに収めました。行間をすべて説明するのは大変なので,ここでは一つだけ。

「プログラミング入門=アプリ制作」や「プログラミング入門=ロボット制御」という風潮がありますが,この記事のように,数学を題材にしてプログラミングを学ぶという話は,もっとあっていいと思います。その際,題材とする数学は,高校レベルがいいでしょう。多くの方が基本的知識を持っていますし,問題の難しさも比較的判断しやすいからです(受験勉強のおかげ?)。大学入試問題を使うと,解けても解けなくてもそれなりの驚きがあります。

というわけで,高校生がメインターゲットの雑誌ですが,この記事は高校生以外にもお勧めです。

高3の一年間,この雑誌の学力コンテストで名前を載せ続けたのですが,著者として名前が載ることになるとは思いませんでした。いわゆる,「当時の自分に読ませたい記事」のつもりです。息子に読ませたいかというとちょっと微妙で,ちょうど1歳になる息子が読めるようになる2020年頃には,状況がまったく変わっているかもしれません。

記事中のコードはWolfram Cloudにまとめてあります。Mathematicaは高価なソフトウェアだと思っている人が多いようですが,基本機能はクラウド上で無料で使えます(こちら)。「別の言語でやってみた」という反応も歓迎です。

電子版はないので,お早めにどうぞ。

見本

Taro Yabukiさん(@taroyabuki)がシェアした投稿 –

『アナイス・ニンの日記』新訳


『アナイス・ニンの日記』(水声社, 2017),重要文献の邦訳(一部新訳)である。

アナイス・ニンの日記には,初期(4巻)と編集版(7巻),無削除版(6巻)があり,一部はすでに翻訳されている。今回翻訳されたのは,下の網掛け部分の抜粋。

初期(4巻)

  • 1914–1920: Linotte (Vol. 1) 『リノット』
  • 1920–1923: Vol. 2
  • 1923–1927: Vol. 3
  • 1927–1931: Vol. 4

編集版(7巻)

無削除版(6巻)

今回の翻訳は当初,次のような計画だったらしい。

当初は,編集版・初期・無削除版の三シリーズを網羅する抄訳を,杉崎和子さんとわたしの共訳で出版する予定だった。(編訳者より)

計画どおりに上記の全17巻すべてを網羅していれば「決定版」となっただろう。無削除版がまったく入っていないのが特につらい。フィリップ・カウフマンの映画から来る読者のための最初の1冊が『ヘンリー&ジューン』であることは変わらずか。

本を書きました。『基礎からしっかり学ぶC++の教科書』


4822298930
『基礎からしっかり学ぶC++の教科書』(日経BP, 2017)

プログラミング言語なんて,Python一択になるんじゃないの?という向きは,TensorFlowのコードや,世界コンピュータ将棋選手権の参加チームの使用言語をご覧になるといいでしょう。「どうしてJavaやC++よりも遅いPythonが機械学習で使われているの?」などという話もあります。

『文法からはじめるプログラミング言語 MS Visual C++入門(マイクロソフト公式解説書)』(日経BP, 2009)の改訂版という位置付けですが,かなりの部分を書き直しました。

新しい話

  • C++11, C++14に対応しました。新しい話題は,型推論・ラムダ・ムーブ・新しい標準ライブラリ(ハッシュテーブル・並列処理・乱数・時間)などです。
  • Visual C++に加えて,GNU C++とClangでも,サンプルコードの動作を確認しています。
  • (実用的かどうかはともかく)C++の高速性が活きる例として,組み合わせパズルを解きます。(何を勘違いしたか,初刷では幅優先探索の英語が間違ってますな!)

なくしたもの

  • GUI(GUIアプリを作るならC++でなくてもいいだろうと考えてのことです。)
  • C++/CLI(旧版で,マネージ拡張という失敗例を紹介したわけですが・・・)

C++入門書の執筆は,プログラミング初心者からは「難しい」,C++のプロからは「いいかげん」と言われる,負けの決まった戦いです。(いいわけ)

松村真宏『仕掛学』(東洋経済新報社, 2016)


そういうわけで、松村真宏さんの『仕掛学』(東洋経済新報社, 2016)(参考文献リストあり・索引なし)を拝読したわけだが、特に興味深かったのは、第4章:仕掛けの失敗学(成功する仕掛けと失敗する仕掛け)、第5章:何かを「学」にするための仕掛け、第6章:この本が売れる理由(本を売るための仕掛け)、第7章:この本についてウェブで書かせるための仕掛け、第8章:娘たちへの思い、であった。もちろんこの記事は第7章の影響下にある。言われてみれば、量子論が量子力「学」になった経緯も詳しくは知らず。