本記事製作にあたり、快く許可して頂いたMark Allen Thornton博士に御礼を申し上げます。
______________________________________

 数的優位を持つ側が戦に勝利する率に関する統計調査をソーントン博士がしてくれました。

ソーントン博士の元記事リンク
【Do numbers always win?】
http://markallenthornton.com/blog/numerical-advantage/

 最初に書いておきますが、これは正式な調査ではありません
 ソーントン博士はハーバード大学で心理学の博士号を取得し現在はプリンストン大学の社会神経科学研究所で活動をしておられる方です。博士はサイトを作り研究記事を書いており、たまに個人ブログの方にもデータサイエンスの様々なテーマで記事を投稿してくれています。博士は「暇なときに(in my spare time)」に書いてるとのことで、どうやら趣味のようです。
battle_scatter

 この記事を起点にいくつか思う所を書いてみようと思います。(翻訳ではなく、統計調査全部は書かないのでぜひ元サイトを読んでみてください。)このデータから数的優位の効果がどれほどかという主張はしません。所感の文は軽い気持ちで読んで頂けたら幸いです。

また、よく言われる攻撃と守備の兵力3:1の原則に関する統計調査と米陸軍教範内の記述の仕方についても調べた記事を別途作成しました。攻撃守備だけでなくカウンター時や遅滞作戦時の比率も載っています。
攻撃対守備兵力3:1の原則_統計データと米陸軍教範での考え方
http://warhistory-quest.blog.jp/20-Mar-28

数が常に勝利をもたらすか?

 2018年4月23日、Mark Allen Thornton心理学博士のブログに次の記事が投稿された。

【 486の歴史的戦での兵数と損失量に関するウィキペディア上のデータを用いた分析 】 

 本職は歴史でも軍事でもないのだが博士はデータサイエンスを用いて、時間がある時にこうした調査をしてくれている。
 この記事で絶対的な何かが明らかにされることは無くまさに趣味の、だが興味深い調査だ。
_____________________________________________
 改めて書く必要もないことだがwikipediaの情報は真面目な学術研究に使用してはならない。「wikipediaは信頼してよい情報源ではない」というwikipediaに書かれた注意事項ページも用意されている。
https://en.wikipedia.org/wiki/Wikipedia:Wikipedia_is_not_a_reliable_source
 英語版wikipediaの歴史項目は日本語版より遥かに充実はしているし多くの検討が入っている場合が多く必ずしも間違いでは無いがそこが問題なのではなく、文献元の有る無しや正誤に関わらず引用してはならない。規制がかかることはあれど基本的にいつでも誰でも編集できるシステムであるが故に、情報量を増やすことは他の追随を許さなくても信頼性を得るのは構造上不可能となっているためだ。

 更に博士が指摘してくれているが、そもそも戦争のデータから兵数と勝敗結果(及び死傷者数)を抽出して分析するだけでは、兵力数が勝利をもたらした要因であるかはわからない、論理的に相関性があるとは証明できない

「This approach has the serious limitation of being correlational. Thus it could not really tell us whether army size caused victory. However, this approach has the compelling virtues of being easy and free, which is why I adopted it here.」
 Dr. Mark Allen Thornton

 よって今回の調査はあくまで頭の片隅に入れるだけという扱いになるが、そのサンプル量の多さも相まって個人的思索を楽しむ一助になるのではないかと思う。
_____________________________________________

【ソーントン博士の調査手法】

・統計分析プログラミングR言語を使いWikipediaRのパッケージを利用。
※WikipediaR
https://cran.r-project.org/web/packages/WikipediaR/index.html
・サイト内でインデックスに紐づけされた全ての歴史上の戦いに関連する800以上のwikipediaページを「scrape」
※wikipedia内のアルファベット順List of battles
https://en.wikipedia.org/wiki/List_of_battles_(alphabetical)
・rvestパッケージを利用しHTMLを解析し、これらのページの大半で「event box」を抽出。イベントボックスの所のデータには勝者と敗者、両者の戦力、戦闘結果の死傷者が含まれている。
※rvest
https://github.com/tidyverse/rvest
・いくつかのイベントボックスは機械的読み込みができる統一的フォーマットになっていなかった。勝者の欄がずれていたり、兵力数の欄も一致していなかった。例えば総数だけが書かれているものもあれば、箇条書きで兵科別に騎兵何人歩兵何人といったように書かれていたりもした。

・stringrパッケージを使用し数値を解析。イベントボックスの各側に複数の数値が書かれている場合はその最大値、中央値、合計を出し、さらに平均値もだした。兵員数ではなく師団数などが書かれている場合は極端に小さく現れるので、数値が500以下の場合は除外とした。

・これらを読み込めるデータ数は約500記事であった。そこで博士は苦労していくつかのデータは手作業で入力した。結果として486の戦例がこの統計のデータとして使用できた。

【ソーントン博士の調査結果】

 結論から述べると、兵数が多い側が勝利した事例は51%であった。

 博士はデータを統計分析しその結果をvcdを用いて幾つかのグラフにしてくれた。数的優位側が勝利する頻度についての最も単純なグラフは次のモザイクプロットである。モザイクプロットの条件は次のようになっている。

・四角形のサイズが頻度を反映するように作られ、大きければ頻度が高いものを意味する。
・不均衡なまでに大きい四角は青色、小さいボックスは赤色で表示される。差が小さい場合は灰色となる。
・Null resultsはp値でのカイ2乗検定によってサポートされる。

 その結果が下図のようになった。
battle_mosaic

・ボックスはほとんど均衡した。
・p値は閾値の0.05を遥かに上回った。
 (ちなみにwikipediaの編集者はボックスの左側に勝者を置くのが多い傾向もわかった。)

 Null resultsがデータをカテゴリーで分析したために引き起こされたのではないかと思う人がいるかもしれない。どういう意味かと言うと、兵数差の極めて小さい数々の戦の結果ならば「兵数の多い方が勝つかどうかの結果」には強い影響を及ぼさないはずなのにカテゴリー上はカウントされてしまうために、実際に兵数の差が大きいような戦の統計結果が覆い隠されてしまったのではないか、ということだ。
 続いて博士は次のボックスプロットを作った。各戦の勝者側と敗者側の兵数の数値分布を示している。赤色ボックスは観測値の75%が分布する範囲を表示し、内中央の水平線は中央値を表す。ボックスの外の上下にある水平線はボックスの高さの1.5倍のラインであり、それより外にあるのは極端な観測値だ。縦軸は対数目盛であるのでlog10(Y) =4なら兵数Yは10の4乗で10000人だ。縦軸値が5なら10万人である。
battle_box
 勝者と敗者の兵数には差が存在し、中央値同士での兵数差は2688人である。だがこの差はp=0.54であり統計的に有意ではない。
 グラフから明らかなように勝者と敗者の兵数分布は似通っている。

 これは何がおこっているのだろうか?兵数が勝敗を決める唯一の決定要因ではないと考えるのは理にかなってはいるが、それでも確かに何らかの影響があるはずだ。次の散布図はその効果が上の図で見られない理由についての考察の助けになるだろう。
 この散布図には1つの戦が1つの赤点で示される。そして兵数を対数変換してから敗者側を横X軸、勝者側を縦Y軸で位置入力されている。よって図にはしっている黒色実線の対角線は兵数が等しい点を示している。勝者側の兵数の方が多ければ対角線より上にくるし、敗者側の兵数が多ければ対角線の下に来る。破線は散布データの回帰直線だ。

battle_scatter
 一目でわかるように勝者と敗者の兵数は極めて強い関連性がある。(r=0.78)
 対角線近辺に点の多くが集まり、半の戦が兵力差が小さい状態で行われたことを意味している。
 回帰直線の方が兵力等数線よりも傾きが緩いことから、規模の小さい戦なら数的優位側が勝ったデータの方が多くなりがちで、戦の規模が大きくなるにつれ数的優位側が負けるデータ数が増えていった全体傾向がわずかだが見られたことがわかる。
______________________________________________

 博士は次の2点を考えた。
【1】「戦(battle)」という概念が文化的に構築されていること。
 すべての軍事衝突がwikipediaのページになっているとは限らない。(wikipediaは誰かが給金で仕事として記事を書いているのではなく有志が書いているため、知名度の低い戦いは記事が作られない傾向がある。)一般的に戦とみなされるには衝突が大きく、戦略的重要性があったり、何か驚くようなことがあったりする。この記事製作者の選択プロセスの結果として戦データを集計すると歪んだ結果になる可能性がある。具体的に言うと、あまりに大きな兵数で小さな兵数の敵を簡単に潰しただけでは衝突そのものは大きくならず、戦として記載されないといったことが考えられる。

【2】兵数差が大きすぎる場合そもそも(会)戦を避ける。 
 歴史的考察というより軍事的合理性の観点からの思考だ。「銃撃戦にナイフで参加はしない」ということが引用されている。通常ならば軍事指揮官は兵数がひどく劣る場合、正面衝突をしたがらない。確かに例外はあるが、歴史的に大半の先頭はある程度の両軍指揮官が(暗黙にせよ)合意したやり方で始められているのだ。一方が(会)戦を望み、他方はそれを受け入れも拒絶もできる。例えば移動、撤退、要塞へ籠る、または単に降伏してしまうこともある。(戦わずして降伏した場合は多数側の勝利なのだが、「戦」として記事が作られず本データ集計に反映されない。)逆に言うと、そのような寡兵で大軍を相手に挑んだ戦例とは、何らかの他の軍事的アドバンテージの要因(技術や奇襲性)などを有していたが故に数的な要因を相殺できると指揮官が踏んでおこなったものだろう。
_____________________________________
 博士はこの他にも考察をしており、更に統計分析は死傷者数についても行っている。これらは本サイトでは取り扱わないので元サイトを参照してほしい。

所感

【統計調査の困難性】

 「数的優位側が負けた事例の統計調査」というテーマはとてもつない迷宮だ。根拠なく感覚で話しても有意義は論理は導かれることは少なく、戦例を統計調査しようとすると更に苦労することになる。

 自軍であろうと敵軍であろうと兵数や犠牲者数を戦に居合わせた者たちが正確に計上するのは困難だ。数え方からして大雑把であったりほぼ目分量しか根拠が無かったり、両軍で食い違うどころか1つの軍内で整合性が合わないこともある。この手の数値は基本的に誇張され記されており、時にプロパガンダのために意図的ですらある。それを各学者が時代と場所ごとの補給可能能力と動員可能能力の推定、詳細史料の比較、類似事例の検証などを行い信頼性ある数値にまで落とし込んで現代の書籍には載せられる。彼らの為した仕事は地味で評価されることは稀だが壮絶な労力をかけてその数値は算出されたものだ。ただその専門の研究者達の間ですら一致しないことが多々あり、日々それはアップデートされる。もし統計数値の正確性/信頼性を高くしたいと望むなら膨大な戦例1つ1つに膨大な書籍を読み込まねばならない。個人では到底不可能なので数十人あるいは数百人の専門家の共同プロジェクトが必要となるだろう。

 そして兵数(numerical strength)とは何なのかで分類することが必要になる。「戦」を戦争か戦役か会戦かあるいは更に別のもので捉えるかだけで全く変わってくる。そして累計人数か衝突の瞬間の保有人数かも違う。例えば戦争1年目の兵数比率が1:1で2年目も1:1だとしたら一見互角と思える、だが各会戦の損耗率が平均10%と20%であれば補填された兵数がまるで違う。これをどう捉えるか。各個撃破はどの規模でどういう観点で捉えるのだろうか。遊兵の考え方も違ってくる。根本的に勝利の概念も問われる。

・参戦国の戦争全体に渡る累計総動員数、あるいは年度などの時期ごとの全体保有数
・単一の戦役に投入された部隊要員の累計総数、あるいは戦闘各段階ごとの瞬間的保有数
・単一の会戦の投入総数、あるいは直接的に戦闘に参加した兵数

その他分類を書いていくとまだまだあるはずだ。

 深く検証しなくても何百何千と調べるのは骨が折れるだろう。Thornton博士は現代データサイエンスの技能を用いて486の統計データを作ってくれた。電子データに特定のフォーマット或いはソースを有する場合、このようにプログラムで抽出できる。言うは易しだが、wikipediaでも特定フォーマットが揃っていなかったり何らかの齟齬があり博士も最後は手作業でしている。人類史の戦は軽く1000を超える。同様のプログラムあるいはAIが将来的にこの種の統計を助けることになるのだろうか。今はわからない。
 故にこのような情熱ある調査をしてくれたソーントン博士に心から感謝の言葉を述べる。
___________________________________________

【Jun Ludvikの調査結果】

 他にもよく見るのが「平時」における軍事費や保有兵数でランキングをつけたものだ。
 これに関連した調査はJan Ludvikの『The poverty of statistics: Military power and strategic balance』という論文がある。彼はここ160年間で起きた大規模軍事衝突に絞り軍事支出額や平時の兵数を勝敗結果と並べて検証している。
 ここでは9つの戦争の内で軍事支出額が多い国が勝利したのは6つ、平時保有兵数の優位側が勝利したのは4つであると述べている。第2次イタリア独立戦争は同等とカウントしているので50%で数的優位側が大規模紛争に勝ったということになる。ただしLudvikもオスマン朝をどう捉えるかなど単純にカウントできない苦慮をしている。ここに載っている数値も調べ出せば色々と思う所は出てくるだろう。
___________________________________________

【数的優位という一要素】

「Although it's reasonable to think that army size might not be the sole determinant of victory, surely it must have some effect?」
Mark Allen Thornton

「It is true that the state with higher defence expenditure and a larger army has a statistically greater change of winnning the war, these characteristics are nothing more than imprecise indicators.」
 Jun Ludvik

 上述のように統計そのものは混迷を極めるのだが、この軍事要素に関する考え方はあらゆる人々が「数的優位にはアドバンテージがある」という点で一致している。如何に単一の兵士の影響力が小さかろうがマイナスではないため、数的増加は戦力増大と言える。上述の調査を行った人々も「軍事的各要素の集積である戦の結果」がどうであれ、数的優位という要素単一は論理的価値を保有していることを確信している。

 その価値を認めながらも議論になってしまうのは2点、数的優位のディスアドバンテージとコストである。

 ディスアドバンテージとは例えば、数的優位を達するために絶対数を増加させる必要があり数的肥大化は組織システムの効率を下げる場合があるといったものだ。また指揮の困難性が増大する点もあるだろう。けれども、他にもディスアドバンテージはあるだろうがその存在は数的優位のアドバンテージの存在を否定するものではない。この2つは同時に存在する。従って軍事的な洗練とは、ディスアドバンテージを「別の方向からのアプローチ」によって解決または縮小し、アドバンテージの影響の方がより大きくなるように尽力することだ。指揮が困難なら通信能力や訓練の増大によって対処するのだ。逆に言うと、数的優位の効力は指揮や練度が増大すれば共に増大する。兵数とは軍事的1要素であり、他の数多の要素も存在し互いに影響を与え合っている。

Money, Money, and Yet More Money!
Clifford J. Rogersの近世軍事革命議論に関する論文題名の一部

 時折「質か量か」のような議論を目にすることがある。あるいは何かの主義が重要であると絶対視する見方だ。これに対する答えはいつも決まっている。両方とも重要であり、両方とも最高を揃えるのが軍事的な意味で最も強い軍隊である。質の高い兵士を多く揃えるのを目指すだけだ。
 しかし現実的には困難だ。そこには無数の障害が立ちはだかっている。特にコストは軍隊にとって厄介で、人件費の占める割合は軍事費の中ではかなり高く、数的優位を求める挑戦は必ずこの難敵に会うことになる。時にそれを達するには国家の経済活動を破綻に追い込むほどの負担を強いる。軍隊が政治的手段である限りそれは本質的目的から外れている。故に如何なる軍隊も全てを手に入れることはできず、何かを諦め、妥協する。
 数的優位が重要であるという自明の事柄を「軽視した」と書かれる国が戦史上いくつもある。長い研究と経験を持つ軍人たちですらそうして批判されるのだ。数的優位を達するための人的資源と物質的資源と資金源を鑑みて彼らは諦めた。しかし勝利まで諦めてはいなかった。その一部が戦史に残る寡兵側の勝利の事例なのだろう。

 Christoph M. SchmidtとRalph Rotteが記した『On the Production of Victory: Empirical Determinants of Battlefield Success in Modern War』では、数的優位とシステム性が近代戦の成功に大きく影響を与えたと述べている。(逆に技術要素が思ったより影響力が低いことを主張している。)彼らの考えの基盤は複数要素の比較というものだ。

 戦争は複雑で膨大な要素が絡み合う事象だ。単一の要素の価値は何時如何なる時も重要であり、技術も数量も練度も全てがそうだ。何らかの要素を諦めざるを得ないことはあっても、それは一時的なもので絶対的なものではない。逆に何らかの要素を最重要と捉えリソースをつぎ込むこともまた同じである。
 軍事論文には時折「Panaceaではない」という表現を見かける。パナケイアとはギリシャ神話のあらゆる病を癒す神であり、現代では万能薬という意味で使われる。彼らは皆、ある要素が高度になろうとも万能ではないということを改めて警告している。だがそれは薬であることを認めているのだ。数的優位は万能薬ではないし効能の度合いは戦争ごとに違うかもしれないが、その意義は失われず戦史の中に存在している。

















______________________________________
 以上です。ここまで長い文を読んで頂きありがとうございました。
 御見識を少しでも教えて頂きたく、話しの叩き台になれたらと本サイトを作っています。考察・別説等をご存知でしたら何卒よろしくお願い致します。


 この手の統計調査は凄まじく大変なので為されている方を応援しています。…しかしそれにしても趣味でこんなことをやってのける博士は凄い。途中で手作業して苦しんだと書いてるのにやり遂げるあたり執念も凄い。



_____________________________________________
【メモ】

 博士はこの手の調査をするのには3つの手法があると述べている。
・実証実験=実際に人間を使ってある環境下で戦わせてみる。いうまでも生命の尊厳を踏みにじる行為であり使えない。博士は悪だと断言している。appealingly directとも言っているのが少し怖い。

・シミュレーション=これはコンピュータを介して実施する演習が可能だ。ただこれにもそれなりのリソースが必要であるし、シミュレーションの前提となる変数(特徴)が実際とずれていたら正確に反映できない。ただしある程度の物理的合理性を検討することができる。

・歴史的戦例の統計調査=兵数規模と勝利陣営を基準に勝利頻度を調べる。このアプローチには相関性に重大な制限がある。
_____________________________________
 如何にwikipediaの数値がおかしいかもよく示してくれている統計結果だと感じる。兵数のボックス分布がlog10(Y) =4以上なので10000人以上ばかりだということだ。log10(Y) =5未満なので10万人未満であることがわかる。つまりwikipedia上の戦の75%は1万人~10万人を片側の勢力だけで揃えていたことになる。1万以上の会戦ばかりというのは途轍もない違和感がある。

(兵数差を絶対値で捉えるか比率で捉えるかの2パターンがあるが、小規模ほど比率差が大きくでやすい。)