Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

岩根圀和『物語 スペインの歴史 人物篇』


スペインの歴史から6名を選び、ちょっとした歴史小説タッチでその人物の特徴的なシーンを描く。対象は騎士エル・シド(ca.1043-1099)、女王フアナ(1479-1555)、聖職者ラス・カサス(1484-1566)、作家セルバンテス(1547-1616)、画家ゴヤ(1746-1828)、建築家ガウディ(1852-1926)。

フアナでは城に幽閉される様子、ラス・カサスはセプルベタ博士との討論の様子。セルバンテスはちょっとひねって共同住宅で起こった傷害事件の様子。ガウディは路面電車と接触事故を起こす最期の様子。小説タッチでテンポよく描かれている。ただ、印象的な場面を先に持ってきて記述しているため、その人物の生涯の話としては順番が前後する。そのところに多少の読みにくさを感じる。

スペイン歴史全体の動きとの関連は、エル・シドとフアナは政治に大きく関わっているのでよく見える。しかし他はその時代背景はさほど見える書き方ではない。歴史を知るというより、人物に親しみを持って歴史を垣間見る本。

坪井祐太、海野裕也、鈴木潤『深層学習による自然言語処理』


文句なく素晴らしい名著。内容は本の題名そのまま。この分量でここまで分かりやすく書けるのは脱帽。最近の自然言語処理に関する主に理論面の解説。抽象的なところをそのまま解説するのではなく、適宜具体化しながら解説している。また、著者による新たな位置づけや、説明の工夫も多く見られる。

深層学習の一般的解説から、特に自然言語処理で使われるSeq2Seqや注意モデルの解説、翻訳・要約・対話・質問応答という具体的なタスクへの応用、学習を効率的に行うための手法、更にはメモリや計算量を削減するための技術からなる。深層学習による自然言語処理は、従来のような分かち書き、構文解析などのサブタスクに分解せず、end-to-endに一貫して行うことが多い。このことの利点は、部分最適に陥らず全体最適ができること、恣意的に分割された部分問題より遥かに多くの正解データが手に入ることが挙げられる(p.3-5)。第一章の冒頭の議論の整理から、少なくとも私にはなるほどと感じられ、とても引き込まれる。

自然言語処理ではベクトル化として扱われる分散表現が、ニューラルネットワークの研究と、自然言語の研究の双方からどのように発展して合流してきたか、歴史を踏まえて書かれている(p.57-62)。この記述もとても素晴らしい。さらには、"word2vec"と言われるものはツールなのか、モデルの種類(対数双線形モデル)なのか、手法なのか、ときに区別されていないというコメント(p.65)は実務家ならでは。分散表現を得るための技法の一つである負例サンプリングは、実は他とは違うモデルを推定していることになるという指摘(p.69-71)もクリア。

機械翻訳、文章要約、対話、質問応答といった応用タスクにおいては、それまで述べられた分散表現への埋め込み、RNN、注意機構といった仕組みが部品のように組み合わさって実現されていることが見て取れる。扱われているのはtoy exampleでなく実際のものなので、ネットワークは大きめで細かく理解するのはやや大変。特に文書要約では、学習用データの量と要約の正解の定義の困難さから、見出し生成タスクで行われてきた。最近の結果からはRNNがよいことになっているが、これは自明なことではないという。見出しのように不自然にまで要約される文では、局所性に基づくCNNが有利でもおかしくない(p.132-141)。正解データの準備が難しいという点では、対話タスクも同じ。対話タスクのほうが、一体何が正しい応対なのかは定義が難しい(p.149-153)。本書では少しだけ触れられているが、ここは強化学習と親和性がありそう。紙面の都合があるのはもちろんだが、最近の自然言語処理の方向性として、強化学習との関連がもう少し扱われていると良かった。

学習を効率的に行って汎化誤差を最小にする技術は、現場の試行錯誤のノウハウが詰まっている。汎化誤差を、モデルの表現力不足による近似誤差、学習データの偏りによる推定誤差、学習誤差の最適化アルゴリズムによる最適化誤差に分けて解説。ハイパーパラメータの選択については、ベイズ最適化に触れられているが2ページのみ。ここはまだあまり進んでおらず、人手による調整が多く行われていると(p.182)。深層学習を使うことによって特徴量を事前に工夫しなくてよくなったが、ハイパーパラメータの選択が大変となった。特徴工学はいらなくなったが、代わりにネットワーク構造工学が必要になったというコメント(p.163f)。

計算量やメモリ消費量を抑えるテクニックは、深層学習のフレームワークChainerの開発に使われているのだろう。この章は私の関心からやや外れていることもあって、ぼんやりと読んだのみだった。

実に早いスピードで進展していく研究状況を、ここまで分かりやすくまとめている著者たちの力量に感服する。この分野に関心があるなら、何を置いてもひとまず読め、という一冊だろう。

立石博高ほか編『スペインの歴史』


近々スペインに行く機会があるので、いくつか関連する本を読んでいくことにした。まずは基本的な通史の本から。本書はスペインの先史時代からEC加盟までの歴史を扱っている。特徴としては、フランコ政権下でのナショナリスティックな歴史感から脱却しようとしている。それはスペイン民族という一体性の強調からの脱却、キリスト教徒、特にカトリックを中心とみる見解からの脱却、スペイン栄光の歴史からの脱却。よって、本書にはバスクやカタルーニャなどの、各地域の独立した動き、キリスト教徒が発展していく過程でのユダヤ教徒やイスラム教徒への迫害が扱われる。そしていわゆるスペインの「黄金時代」は記述があっさりしている。

スペインのカトリックは、政治的な意味合いで現れている。ローマ帝国後にイベリア半島にあった西ゴート王国は、アリウス派だった。西ゴート王国のレオヴィギルド王は、東ローマ軍に抵抗するべく国内の統一を図る必要性から、アリウス派からカトリックへの改修を模索する。西ゴート王国のカトリック改宗は、レオヴィギルドの息子レカルドが589年第三回トレド公会議を宣言するに至った(p.17f)。

レコンキスタの過程もカトリック側からでなく、中立的な立場で書かれる。むしろ、レコンキスタと並行するユダヤ教徒の虐殺と追放について詳しい。これらはスペイン史の暗部として残る(p.74-82, 86-88)。また、イベリア半島最後のイスラム王朝であるグラナダ王国の記述は興味深い。特に、グラナダ王国で貿易を担ったジェノヴァ商人。グラナダはイスラム王朝ながら、ほとんどジェノヴァの経済的植民地に等しかった。グラナダ王国はジェノヴァ商人の国際的ネットワークによって、貿易が栄えた。グラナダ王国が食糧危機に陥ったとき、西ヨーロッパ中から食糧を運んだものもジェノヴァ商人だった。しかし15世紀前半になって、地中海対岸のマグリブ地方の政治混乱、ポルトガルのアフリカ西岸進出による、トランス・サハラからギニア沿岸への貿易ルート変更によりグラナダ王国の貿易は衰微。15世紀半ば以降、ジェノヴァ共和国の通達もあり、ジェノヴァがグラナダから手を引く。このことはグラナダ王国にとって死亡宣告に等しかった(p.43-46)。

スペインは各地域の緩やかな連帯の状態を長く続けた。カスティーリャ、アラゴンのカトリック両王期、続くハプスブルク朝ともに各地域の法や習慣を尊重する多元性を容認している。これは中世的なものと評される。ただし、多元性の容認とは言え、キリスト教以外の共同体を認めなかった。ユダヤ教徒、イスラム教徒はたとえキリスト教に改宗してそれぞれコンベルツ、モリスコとなったとしても、「純粋な」キリスト教徒ではないとして差別された。一族に一人でも「純粋な」キリスト教徒でないものがいれば、一族全体が劣るものとされた(p.140-144)。

中央集権への試みは18世紀のブルボン朝から始まることになる(p.106)。それに向かう過程は国内の大きな混乱を生む。17世紀初頭のハプスブルク朝のフェリペ4世治世下において、中央集権を目指した寵臣オリバーレス伯公爵の失敗が目につく。30年戦争に向けて各地から平等に徴兵を行ったことは、多元性を尊重したハプスブルク朝の時代に合っていない。各地から反乱が起こり、1640年代に内政の危機を迎える。スペインの威光を取り戻す様々な試みが行われるも、いずれも失敗に終わる(p.112-116, 120-)。スペインの黄金時代は過ぎており、フランス優位の時代へ移行。かくてブルボン王朝となる。

資本主義が普及していく流れにスペインはいま一つ乗り切れない。ここに、蓄財をユダヤ的であるとして忌避する風潮が、スペインでの資本主義誕生を遅らせる一因となったことが述べられる(p.122)。また経済は、自由主義と絶対君主政を巡る19世紀前半の混乱で大きな打撃を受ける。自由主義と絶対君主政の対立は経済だけでなく、行政の非効率を生み、財政を圧迫。近代国家の形成基盤が蝕まれていく。自由主義者は1868年に国女王イザベル二世を亡命に追い込むも、選挙では王政支持派が勝ってしまう。最終的に1873年に共和制が宣言されるも、一年弱で軍のクーデターにあい、あえなく終わる、といった混乱ぶり。1875年、王政復古でアルフォンソ12世が就いてからつかの間の安定を得る(p.163-169)。「スペイン独立戦争」として語られるこれらの過程は、本書では自由主義と絶対君主政を巡るスペイン国内の対立として描かれている。ここには反フランス闘争はあっても、「スペイン国民」なるものは幻想でしかない(p.173-179)。

そのあとは、1931年に共和主義者が支持を得て共和制が樹立されるとアルフォンソ13世は亡命し、第二共和制となる。しかしフランコの反乱にあい共和制は瓦解。フランコ政権による独裁の時代へ移行する。

坂井豊貴『多数決を疑う』


名著。社会的選択理論について分かりやすく語った入門書。社会的選択理論は高度な数学に支えられている。本書は数学的ディテールに踏み込むことはない。しかしその雰囲気や、ここから先に踏み込んだら数学的に厳密な世界が待っている一歩手前まできちんと導いていく。

タイトルにあるように、本書は多数決以外の不公平の無い決め方を巡っている。多数決は現代の社会で標準的なものとされる。多数決で示された結論が「民意」とされたりする。しかし多数決は明らかに、少数意見を切り捨ててなるものだ。さらに何度か出てくる2000年アメリカ大統領選挙のように、第三者(ネーダー)の登場でゴアの支持票が割れ、下馬評と違ってブッシュが勝つ、といった事例も生まれる。投票パターンをそれぞれペアで比べるとどのペアでも勝てない候補が、全体では勝ってしまうといったパラドクスの形で定式化することもできる。
多数決ほど、その機能を疑われないまま社会で使われ、しかも結果が重大な影響を及ぼす仕組みは、他になかなかない。とりわけ、議員や首長など代表を選出する選挙で多数決を使うのは、乱暴というより無謀ではなかろうか。(p.177)


話は18世紀フランス革命期のボルダとコンドルセから始まる。ボルダの提案した集約ルールとは、各人が一票ではなく三票を持ち、1位に3点、2位に2点、3位に1点を入れるもの。点の付け方が異なるスコアリングモデルは数多くある。スポーツのリーグ戦などではよく使われている。しかしボルダルールは、選択肢ごとにペアとした時にどれでも負ける(ペア敗者)のに全体では一位となるような事態を防ぐ唯一のルールだ(p.11-16)。政治選挙の世界でも、スロヴェニア、ナウル、キリバスで実際に適用例がある(p.19-22)。ボルダルールのもとでは、自身と似たような選択肢を設けて対立候補の票を奪うクローン問題が起こるのが問題だ(p.23-26)。

コンドルセがボルダルールの強力な批判者としてある。例えば3つの選択肢がXよりY、YよりZ、ZよりXが勝るという、じゃんけんのようなサイクルが生まれる事態がありうる(コンドルセのパラドックス)。コンドルセの解決法は、4つ以上への選択肢の場合に一般化したペイトン・ヤングにより、最尤法として解釈された(p.39-47)。とはいえ、ペア勝者規準とペア弱敗者規準といった選択肢をペアにした時の性質や、棄権すると結果を操れるといった棄権へのロバストネス(棄権防止性)、そしてスコアリングモデルの分かりやすさから、コンドルセルールよりもボルダルールがいいとしている(p.58-60)。

しかしながら、どれが勝っているという問題ではない。マルケヴィッチの反例が示すように、集約の方法が変わればすべて異なる勝者が選ばれる事態もある。集約ルールが変われば民意は変わるのだ。私たちにできるのは民意を明らかにすることではなく、適切な集約ルールを選んで使うことだけだ。票が割れやすい状況ならば多数決は誤った結論に導くおそれがある。どういう状況なのかに応じて、集約の方法は設計されるべきなのだ(p.47-50)。

続いて、多数の意見を集約すべきなのはそもそもなぜかという問題をめぐり、ルソーの一般意志が扱われる。それまでの様々な状況に対してどのように対処する集約ルールがあるのか、という話からは少し外れる。ただ、そうした発想の根幹にある思想だということだろう。

さらに、選択肢が全順序で並ぶような単峰性があるときには、中央値を取るのが最適だという中位ルールの話(p.100-108)。そしていわば本書の中核でもある、アローの不可能性定理へ入る。通俗的には民主制が不可能であることを示したとも曲解されるこの定理を、著者はここまでの準備をもとにきちんと議論している。結局、アローの不可能性定理が教えるのは二項独立性という条件の不可能である。これは先に述べたアメリカ大統領選挙の例のように、他の選択肢が入り込むとペアで見たときと順序が変わってしまうことが起こらない、という条件だ。他の一切の選択肢から独立であるという条件であり、そもそも過度なまでに厳しい条件と著者は言う。アローの不可能性定理は、二項独立性という厳しい条件(と、すべての人がある選択肢を選んだら、実際にそれが選ばれるという満場一致性)を満たすのは独裁制しかないということ。一般的に民主制の不可能性が示されたということではない(p.121)。だとすると、二項独立性という過酷な条件を考えることのモチベーションがよく分からない。

単峰性が成立しないケースでも、64%の多数決があればサイクルは発生しないというカプリン、ネイルバフの結果も興味深い。これが凸多様体の理論を援用して導き出されていることも。それは単に高度な数学理論による結果にすぎないのではない。単峰性が成立しない、すなわち選択肢が単一の全順序で測れずに多元的である場合、例えば特に日本国憲法の改正などでは、現在の有権者の過半数の賛成を求めるのではなく、64%以上の人の賛成を求めるべきなのだ(p.129-135)。

最後には、小平市の都道328号線問題のように、そもそも多数決を含め票決さえ取れない問題にどう対処するかを扱う。これはメカニズムデザインと呼ばれる問題圏。各人が各政策案の便益を金額で評価して金銭移転を行う、クラークメカニズム。いわば、政策へのオークションであり、オークション理論と類比する。

社会的な意見の抽出、ある種の平等性の確保が数学的に議論できるのが、社会的選択理論の魅力だ。著者も書くように(p.162-164)、周波数オークションではこうした理論に従うことの利点が明らかであり、OECD各国も取り入れているのに、日本ではTVメディアやそれを受けた自民党の既得権益者の妨害にあり進まない。きちんとした専門家による、こうした決め方のデザインが求められる。選挙でボルダルールを取り入れるなどとてもいいだろう。

高橋威知郎『14のフレームワークで考えるデータ分析の教科書』


教科書然としているが、あまり標準的な事柄が書いてあるわけではない。個人的にはもっと教科書的なものを探していたが、本書はかなり独自の視点が多く入っている。データサイエンス養成読本は教科書といえるが、まったくの初心者にはややテクニカルすぎる。よりビジネス面によった本を探していた。少なくともこの本は教科書というより、著者の経験に基づいてデータ分析のステップを整理したものだ。例えば初心者が本書を読んで、書かれている事項が標準的に扱われているものだと思われると困る。

データ分析の流れとしてはCRISP-DMが書いてあるわけではなく、準備する、集める、分析する、表現する、伝えるの5つのステップで書かれている。何をどう分析するつもりなのかを示す分析計画書に当たるものとして、メッセージボードというのが書かれている。メッセージボードは、誰?、目的、何?、具体的には?、最初の一歩という5つからなっている。このメッセージボードには網羅感がない。具体的に、というのが一つの項目になっているのは奇妙だし、まして他の項目と同時に埋まらないのはステップとして納得感が低い。最初の一歩というのも意図が不明だ。本書の記述の不満としては、ビジネス面の有効性からのデータ分析テーマの検討が甘いと思われる。すぐにどのようなデータがあるかという話になってしまっている。設定したテーマはビジネス的にインパクトがあるのか、実行可能なのかについての検討がほとんどなされていないという印象(p.31-37)。ビジネス的に意味があるのか、意味があっても実行可能なのか(コスト面や組織の立場的に)、ほかに優先事項はないのか等々、この段階で検討すべきことはもっとある。

スケジューリングについては書いてあることが面白く、本来かかると考えた期間の半分でできることしかしないというスケジュールを組み立てるとしている(p.52-57)。データ分析はやってみないと何ができるか分からない面も多く、最初からITシステム導入のようなスケジューリングはできない。とはいえ、期間の半分でできることにスコープを絞ったらビジネス側の人間は納得しないだろう。アジャイル的な要素とか、R&D的に考えるとかもありうる。

データの素性は6W1Hで明らかにし、素性のわからないデータを用いないこととしている(p.68-73)。6W1Hは、だれが、だれに対して、なぜ、いつ、どこで、何を、どのように、という観点からデータについて明らかにしようとする。分析をするためにはどんなデータが必要なのかを先に考えてから、はじめて探しに行くというステップは好ましい(p.78f)。

この後はQCの7つ道具になぞらえて定量分析のための7つ道具、そしてQCの新7つ道具になぞらえて定性分析のための7つ道具が書かれている。ここはかなり著者オリジナルの整理。事例集をはさんで、プレゼンテーションのための技法を述べている。スライドを作るとき、定量情報は加工して載せ、定性情報は加工せずに載せるというアドバイスは面白い(p.162f)。定量情報は何を意味しているのかを書かないと数字だけでは伝わらない。定性情報は下手に抽象化してしまうと生の感覚が伝わらない。

著者独自の観点から方法論をまとめている本としてよくできている。とはいえ教科書ではない。初心者に文句なく勧められるデータ分析の教科書はないものか。そこまで方法論として定式化されいない分野なのか。
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。