Entries

ピエール・バレ、ジャン・ノエル・ギュルガン『巡礼の道 星の道』


フランス人ジャーナリスト2名による、サンティアゴ・デ・コンポステーラへの聖地巡礼について。著者自身もフランスのヴェズレーから1700kmの巡礼行を50日かけて行っている。その過程の日誌は本文ではなく、巻末に補遺のように収められている。本文にはおおむね12~18世紀の文献から、巡礼を行った人々や、巡礼行の経由地の様子について書かれている。

私にとって面白かったのは著者たちの日誌のほうだった。これは1977年に行われているが、本文で扱われる時代との落差が面白い。アスファルトにすっかり覆われ、あるいは大きな道路によって分断された巡礼の道。足への疲労は、現代ではしっかりした靴があるとはいえ、かなり大きい。フランス国内ではコンポステーラへの巡礼について知っている人が少なく、浮浪者や不審者扱いされる。野宿するに軒先を借りようとも断られ続ける次第。巡礼者に対して食事や宿泊を振る舞った昔の時代とはまったく違う。はては修道院にさえ、冷たくあしらわれる。。。

本文はあまり時代を区切って書かれていない。また、巡礼路にしたがって書かれているというより、トピックごとに書かれている。例えばどんな人が巡礼に出かけたのか。請願や悔誓願や悔い改め、病気の治癒といった伝統的な理由(p.20-26)から、ごたごたから逃げるための口実としての巡礼、他人に代わって代理で巡礼するビジネス(p.27-32)、または懲罰としての巡礼(p.32-35)。もともと本書の原題は巡礼者に声掛けするお決まりのセリフ、「私達のためにコンポステラで祈ってください」。

巡礼が盛んになるについて、道や橋が整備される。こうした整備を寄進するのもまた、巡礼に携わる一環となる。巡礼路に潜む危険、盗賊や山賊たち、あるいは無理解・無関心な非キリスト教徒たち。本書はフランス人の視点から書かれていることもあって、フランス国内からピレネー山脈を超えてスペイン国内につながる巡礼路が大きく取り上げられる。スペイン国内に入ってからナバラ地方、カスティーリャ地方、ガリシア地方に至る巡礼の主要路は、カミーノ・フランセス(フランスの道)と呼ばれている。

カミーノ・フランセスに殺到するフランス人たち。最盛期には巡礼路の小さな村々を一日あたり1000人が通過していったという(p.244)。カミーノ・フランセスが定着した12・13世紀、巡礼者目当てのビジネスも盛んになる。カミーノ・フランセス沿いの街を席巻し、地元の人々を辟易とさせるフランク人の商人たち(p.89-92)。

本書は歴史家でなくジャーナリストということもあるが、歴史的な整理はあまりされていない。トピックごとの記述がメインで、そのトピック内での移り変わりや位置づけなどは見えてこない。クリュニー修道院のサンティアゴ宣伝による定着とか、いわば「公式」の歴史は本書にはなく、数世紀にも渡る「巡礼の時代」における民俗誌となっている。そのため、もっと広範な視点での記述を期待するとやや肩透かしにあった。サンティアゴ・デ・コンポステーラへの巡礼は、ペスト、宗教改革により一時衰退するが、やがて対抗宗教改革を経て17世紀に再び盛んに(p.244-252)といった大づかみのストーリーをまずは見たかった。

大泉陽一『未知の国スペイン』


スペインの中でも独自の文化をもつ、バスク、カタルーニャ、ガリシアについて。歴史や教会文化、食文化などが簡潔に記されている。著者はスペイン在住の経済系の研究者だが、本書はもともとその父親の記した本の改訂だそうだ。

バスクについては、その過激な独立運動もあって単書がいくつか見られる。カタルーニャは人気都市のバルセロナを含んでいるため、数多くの本がある。ガリシアはかなりマイナーな方。サンティアゴ・デ・コンポステーラへの巡礼についての本が多いくらいか。これらの地域についてまとまって記しているのは類を見ない。記述の分量はバスク:カタルーニャ:ガリシアで5:3:2くらい。バスクが多い。

バスク地方の記述は、著者が一番馴染みがあることもあってよくできている。バスク地方にはもともと、アウトリゴネス、カステリィオス、バルドゥロス、バスコニアという4つの部族がいた。バスク民族だけが他の三部族と違ってローマに抵抗しなかったため、ローマ人とバスク人の友好関係が維持された。他の部族は滅ぼされた。かくしてバスク人は独自の非ローマ的伝統的社会や文化を保持することができた(p.7-9)。8世紀には南からウマイヤ朝、北からはフランク王国カール大帝がバスクに攻め入る。この狭間でバスクの人々は、バスコニア人としてのアイデンティティを維持しようとする。かくしてバスクは9世紀にはパンプローナ王国を確立し、10世紀にはそれが分裂してナバラ王国となる(p.14-15)。16世紀にはアラゴン王フェルナンド5世に征服され、カスティーリャ・アラゴン連合王国に組み入れられる。

バスク地方は1833年第一次カルリスタ戦争の敗北により、1876年スペインの一地域として組み入れられる。国民国家の形成の時期、バスクがアイデンティティを再び模索し始める。サビノが始めるバスク民族主義はこの後、1893年に宣言される(p.18-25)。1931年にスペインで第二共和政が成立し、バスクに自治の機運が高まる。1936年には、アギレを大統領としてバスク自治政府が成立する。ただ、フランコ反乱軍と共和国政府軍の戦いでは共和国側についたため、これがかのゲルニカの空爆につながる。フランコの勝利によりバスク地方は自治権を剥奪され、弾圧の時代へ入る(p.30-37)。フランコ退陣のあと、1979年になってようやく自治政府が復活。ただし国家はあくまでスペイン一つであり、バスク人はスペイン人との位置づけが続いている(p.42-44)。

世界で活躍したバスク人として、まず大航海時代の探検家が書かれる。フィリピンを征服したレガスピ司令官、太平洋航路を発見したウルダネータ、はじめて世界を一周したエルカノ。また、バスク人は世界最古の捕鯨歴史をもつそうだ。セミクジラの漁を近海のビスケー湾で行っていた。鯨を追ってコロンブスのアメリカ到達より100年早くカナダの東北海岸に到達したりもしている(p.56-60)。バスクといえばイグナチオ・デ・ロヨラが創始したイエズス会。フランシスコ・ザビエルの話もある。また、バスクの伝統的スポーツや祭りについて記されているのも特徴的。

カタルーニャの歴史はだいぶ簡潔な印象。カタルーニャも自治を求めてフランコと戦った。ゆえにフランコ政権で弾圧に合う。1977年には、スペインで最初に自治の復活を成し遂げる(p.119-121)。カタルーニャの記述はモンセラット山のベネディクト会修道院の話が多い。天正少年使節がモンセラット山に立ち寄っており、その話も扱われる。文化面は何と言ってもガウディの建築。カタルーニャ地方にあるガウディの設計した建築物が紹介される。

ガリシアの歴史は古代ケルト民族が扱われる程度。記述の大半は、聖都サンティアゴ・デ・コンポステーラの広場や教会建築についてだ。作付面積も少なく都市部の産業を発展させて吸収することもできないガルシアの農民は貧しかった。アンダルシアとは農業の規模がまったく違う。そのため、18世紀には中南米への移住が始まる。1960年代には特に旧西ドイツに職工移民としての出稼ぎが急増した(p.185-188)。

最後にはフランコ政権時代の愛国的歴史教育について書かれている。その教育が残したスペイン至上主義はいまだに影響が大きく、若者には英語の学習意欲が低いなど、外国への興味が薄い現状を生んでいるとのこと(p.205-207)。

坂本俊之『人工知能システムを外注する前に読む本』


ディープラーニングとはどういうもので、ディープラーニングを使ったシステムを開発しようとしたらどのような点に気をつける必要があるかを書いている。著者はスマホアプリ等を作ってきた開発者のようだ。こういった課題はコンサルティング会社を中心に多く扱われているが、本は少ないので面白い試みか。

ディープラーニングについての解説が半分以上を占めている。ビジネスサイドの初心者がサーベイしておくべきレベルの話が続く。ディープラーニングを使ったシステムの開発が普通のソフトウェアの開発と異なる点は、結局3つ。大量の学習用データが必要になるので、データ準備・作成に費用・工数がかかること。また、精度があらかじめ保証できるものではないので、ある程度、失敗を許容して進むべきこと。さらに、開発にGPUを始めとした特有のインフラが必要なこと(p.124-136)。それ以外の点においては、ディープラーニングを使ったシステムでも、それを業務で運用しようとしたら周りのシステムとつながなければならない。結局はシステムインテグレーションの必要がある(p.117-123, 263-267)。よってSIerの仕事はなくならない。

それぞれの点で対処方法は異なる。学習用データの作成は人手を投入して短縮できる。しかしモデルの学習段階は、計算資源がネックになる。結局は計算が終わるのを待つ時間が増えるので、この工程で人を追加しても無駄だ(p.141-144)。むしろ計算パワーを追加する必要がある。一方、学習用データは人を投入すればいいので、この工程だけ別途の契約にすることもできる(p.229f)。ちなみに、学習用データのことを著者は一貫して教師データと書いている。教師なし学習を行う場合でも、学習用データの収集は同じく必要で、教師データと限定する意味はない。

学習はうまく精度が出るかは事前に分からないので、アジャイル開発のアプローチが適するとしている(p.230f)。ただし、著者の書くアジャイルは学習用データ作成の計画段階から、モデル設計、学習、性能評価の一連のサイクルをアジャイルに回すもの。実はモデル設計と学習段階にこそアジャイルに回すべきループがある。ハイパーパラメータの膨大なチューニングなど。ここは外注する想定で一つにまとめられているのだろう。

学習済モデルの権利問題について扱われているのは、最近の話題をフォローしている。ただ、学習済モデルに著作権が認められないというだけで、特段、新しい方向性や提言はない。なお学習用データの作成のところは、収集したデータに著作性が認められるか(あたかも電話帳やデータベースの著作性のように)が述べられている(p.247f)。ここでは、学習用データの作成のためには既存の著作物の利用が著作者の許諾なく可能という、著作権法47条の7(情報解析のための複製)についてぜひとも述べておくべきだろう。

この本はおそらく流行りに乗ってディープラーニングの開発を外注する想定で書かれている。しかしほとんどの部分はデータ分析のプロジェクトに共通するものだ。本書もどうやら本来はそうした方向を見ているようだ。コラム的にある「やってみよう」コーナーでは、エクセルのソルバーを使った線形回帰が内容を何も解説しないままいきなり登場したり(p.99-105)、なぜかWekaが出てきたり(p.172-185)。ディープラーニングを触ってみようと出てくるのが、誰も知らないようなJavaベースのsimbrain(p.232-240)。TensorFlow Playgroundでも紹介すればよいかと。

最後に、著者の理解の怪しそうなところ。ビジネス側の人間ならともかく、開発者がこのような理解なのはどうか。

学習用データが1つしか必要のない例として、スタイル変換のChainer-Goghが出ている(p.110f)。Chainer-Goghはすでに十分に学習されたCNNであるVGG-16を使っている。学習用データが1つしか必要のない例とはとても言えない。それなら、例えば学習済のモデルを使って単純に手持ちのデータで画像分類に使うのも、学習用データが1つしか必要のない例となる。Chainer-Goghにも「学習」があるが、普通のCNNのようにネットワークの重みではなく、入力画像そのものをSGDで変化させるものだ。同列に学習と呼ぶべきものではないだろう。

ニューラルネットワークの精度を評価するものとして、決定係数が挙げられている(p.212)。これは「出力された結果がどのくらい正解しているかを表す数値」だそうだ。それはPrecisionというのではないか。決定係数はディープラーニングではなく回帰分析で出てくるもので、定義がいくつかあるがメジャーなのは「残差の平方和を標本値の平均からの差の平方和で割ったものを、1から引いた値」といったところ。ちなみに「決定係数の逆数(つまり、不正解の割合)」(p.212)と書いてあるが、Precisionが60%(6/10)だったらその逆数は10/6=166.7%だ。これは不正解の割合40%ではない。

「強化学習」という単語については、全面的に誤解しているようだ(p.217-220, 250f, 257)。何を言おうとしているのか判明ではないが、一度学習したモデルに別のデータを与えて学習することを強化学習と考えてるらしい。モデルを「強化する」とでも言うのだろうか。それは最大限に好意的に解釈しても、転移学習だ。教師データを自動的に収集してディープラーニングのモデルの精度を向上させる手法が強化学習だという誤解が、どうやら一般に流布していると知り合いから聞いた。たぶんそんな誤解だろう。教師あり学習だけを扱っているから本書の趣旨には影響しないものの、残念すぎる。

岩根圀和『物語 スペインの歴史 人物篇』


スペインの歴史から6名を選び、ちょっとした歴史小説タッチでその人物の特徴的なシーンを描く。対象は騎士エル・シド(ca.1043-1099)、女王フアナ(1479-1555)、聖職者ラス・カサス(1484-1566)、作家セルバンテス(1547-1616)、画家ゴヤ(1746-1828)、建築家ガウディ(1852-1926)。

フアナでは城に幽閉される様子、ラス・カサスはセプルベタ博士との討論の様子。セルバンテスはちょっとひねって共同住宅で起こった傷害事件の様子。ガウディは路面電車と接触事故を起こす最期の様子。小説タッチでテンポよく描かれている。ただ、印象的な場面を先に持ってきて記述しているため、その人物の生涯の話としては順番が前後する。そのところに多少の読みにくさを感じる。

スペイン歴史全体の動きとの関連は、エル・シドとフアナは政治に大きく関わっているのでよく見える。しかし他はその時代背景はさほど見える書き方ではない。歴史を知るというより、人物に親しみを持って歴史を垣間見る本。

坪井祐太、海野裕也、鈴木潤『深層学習による自然言語処理』


文句なく素晴らしい名著。内容は本の題名そのまま。この分量でここまで分かりやすく書けるのは脱帽。最近の自然言語処理に関する主に理論面の解説。抽象的なところをそのまま解説するのではなく、適宜具体化しながら解説している。また、著者による新たな位置づけや、説明の工夫も多く見られる。

深層学習の一般的解説から、特に自然言語処理で使われるSeq2Seqや注意モデルの解説、翻訳・要約・対話・質問応答という具体的なタスクへの応用、学習を効率的に行うための手法、更にはメモリや計算量を削減するための技術からなる。深層学習による自然言語処理は、従来のような分かち書き、構文解析などのサブタスクに分解せず、end-to-endに一貫して行うことが多い。このことの利点は、部分最適に陥らず全体最適ができること、恣意的に分割された部分問題より遥かに多くの正解データが手に入ることが挙げられる(p.3-5)。第一章の冒頭の議論の整理から、少なくとも私にはなるほどと感じられ、とても引き込まれる。

自然言語処理ではベクトル化として扱われる分散表現が、ニューラルネットワークの研究と、自然言語の研究の双方からどのように発展して合流してきたか、歴史を踏まえて書かれている(p.57-62)。この記述もとても素晴らしい。さらには、"word2vec"と言われるものはツールなのか、モデルの種類(対数双線形モデル)なのか、手法なのか、ときに区別されていないというコメント(p.65)は実務家ならでは。分散表現を得るための技法の一つである負例サンプリングは、実は他とは違うモデルを推定していることになるという指摘(p.69-71)もクリア。

機械翻訳、文章要約、対話、質問応答といった応用タスクにおいては、それまで述べられた分散表現への埋め込み、RNN、注意機構といった仕組みが部品のように組み合わさって実現されていることが見て取れる。扱われているのはtoy exampleでなく実際のものなので、ネットワークは大きめで細かく理解するのはやや大変。特に文書要約では、学習用データの量と要約の正解の定義の困難さから、見出し生成タスクで行われてきた。最近の結果からはRNNがよいことになっているが、これは自明なことではないという。見出しのように不自然にまで要約される文では、局所性に基づくCNNが有利でもおかしくない(p.132-141)。正解データの準備が難しいという点では、対話タスクも同じ。対話タスクのほうが、一体何が正しい応対なのかは定義が難しい(p.149-153)。本書では少しだけ触れられているが、ここは強化学習と親和性がありそう。紙面の都合があるのはもちろんだが、最近の自然言語処理の方向性として、強化学習との関連がもう少し扱われていると良かった。

学習を効率的に行って汎化誤差を最小にする技術は、現場の試行錯誤のノウハウが詰まっている。汎化誤差を、モデルの表現力不足による近似誤差、学習データの偏りによる推定誤差、学習誤差の最適化アルゴリズムによる最適化誤差に分けて解説。ハイパーパラメータの選択については、ベイズ最適化に触れられているが2ページのみ。ここはまだあまり進んでおらず、人手による調整が多く行われていると(p.182)。深層学習を使うことによって特徴量を事前に工夫しなくてよくなったが、ハイパーパラメータの選択が大変となった。特徴工学はいらなくなったが、代わりにネットワーク構造工学が必要になったというコメント(p.163f)。

計算量やメモリ消費量を抑えるテクニックは、深層学習のフレームワークChainerの開発に使われているのだろう。この章は私の関心からやや外れていることもあって、ぼんやりと読んだのみだった。

実に早いスピードで進展していく研究状況を、ここまで分かりやすくまとめている著者たちの力量に感服する。この分野に関心があるなら、何を置いてもひとまず読め、という一冊だろう。