Quora 「汎化性能」
公開日:
:
最終更新日:2023/05/29
出版・講義資料
すべてのデータサイエンティストが知っておくべき、統計学の重要なトピックはなんでしょうか?
個人的には「汎化性能」だと思います。
上の図はその説明でよく用いられるもので、実際には3次多項式にノイズを加えて生成したサンプル(白い円)に多項式フィッティングを行った結果です。3次多項式モデル(赤線)だと全ての円は通らないながらも滑らかで綺麗に全体のトレンドに沿った曲線が描けますが、9次多項式モデル(青線)だとより多くの円を通りながらもぐにゃぐにゃして全体のトレンドに合わない奇妙な曲線を描いてしまいます。
それもそのはずで、3次モデルは程よく真の値(3次多項式に従う)を捉えているのに対して、9次モデルは真の値のみならずノイズにまでフィットしてしまっているからです。この場合、両端(-3 or 3)の外側にまでサンプルを拡張した場合、3次モデルは適切にフィットするであろう一方、9次モデルはあらぬ方向に吹っ飛んでしまって全くフィットしないであろうことが容易に想像できるかと思います。
このように、ノイズに振り回されず程よく全体のトレンドを捉え、適切にまだ見ぬ未知データにうまくモデルを当てはめられる(適切に予測できる)度合いのことを「汎化性能」と呼びます。
統計学とは、「標本抽出(サンプリング)された少ない標本から背後にある(見えない)母集団の性質を推定する営み」だとされます。この定義に従えば、汎化性能を確保することは統計学を統計学たらしめる本質的な要件であるように見えます。
言い換えると、例えばt検定やカイ二乗検定のような仮説検定から重回帰分析のような線形モデル、ロジスティック回帰などの一般化線形モデル、さらには統計的学習の手法に基づく機械学習領域におけるDeep Learningのような高度なモデルであっても全く同じことが言えるということだと思います。
汎化性能を評価する方法は世の中には色々あり、例えばAICのような情報量規準を用いるものや、交差検証によって擬似的に手持ちのサンプルから算出するものもあり、それぞれのシチュエーションに応じて使い分けることが望ましいとされます。
いかなる統計学的な取り組みであれ、汎化性能を確保することは非常に重要であると個人的には考えています。
関連記事
-
-
書評『法とフィクション』来栖三郎 東大出版会
観光の定義においても、自由意思を前提とするが、法律、特に刑法では自由意思が大前提。しかし、フィク
-
-
鬼畜米英が始まったのは、1944年からの現象 岩波ブックレット「日本人の歴史認識と東京裁判」吉田裕著
靖国神社情報交換会に参加した。歴史認識は重要な観光資源であるとする私の考えに共鳴されたメンバーの
-
-
脳科学 ファントムペイン
四肢の切断した部分に痛みを感じる、いわゆる幻肢痛(ファントムペイン)は、脳から送った信号に失った
-
-
田岡俊二さんの記事 陸軍は「海軍の方から対米戦争に勝ち目はない、と言ってもらえまいか」と内閣書記官長(今の官房長官)を通じて事前に働きかけた。だが、海軍は「長年、対米戦準備のためとして予算をいただいて来たのに、今さらそんなことは言えません」と断り、日本は勝算のない戦争に突入した。
昔、国際船舶制度の件でお世話になった田岡俊二さんの記事が出ていたので、面白かったところを抜き書き
-
-
希望難民ご一行様 ピースボートと「承認の共同体」幻想 (光文社新書) 新書 – 2010/8/17
ピースボートというクルーズ旅行商品があり、かつて週刊誌にその悪評が掲載されたことがある。消費者保護を
-
-
2002年『言語の脳科学』酒井邦嘉著 東大教養学部の講義(認知脳科学概論)をもとにした本 生成文法( generative grammar)
メモ p.135「最近の言語学の入門書は、最後の一章に脳科学との関連性が解説されている」私の観光教
-
-
『シベリア出兵』広岩近広
知られざるシベリア出兵の謎1918年、ロシア革命への干渉戦争として行われたシベリア出兵。実際に起
-
-
シャマニズム ~モンゴル、韓国の宗教事情~プラス『易経』
シャーマン的呪術は筮竹による数字と占いのテキストを使った方法にかわった。このことにより特殊能力者でな
-
-
『2050年のメディア』下山進
日本の新聞がこの10年で1000万部の部数を失っていることを知り、2018年4月より、慶應義塾大学
-
-
Quora Covid-19の死亡者はアメリカが27.9万人、日本が2210人 (12/06現在) です。日本では医療崩壊の危険が差し迫っているとの報道がありますが、アメリカに比べて医療体制が貧弱なのでしょうか?
12月16日現在、アメリカでの死亡者数は約30万4千人、そして日本での死亡者数は2600名足らずで
