*

Quora 「汎化性能」

公開日: : 最終更新日:2023/05/29 出版・講義資料

すべてのデータサイエンティストが知っておくべき、統計学の重要なトピックはなんでしょうか?

個人的には「汎化性能」だと思います。

上の図はその説明でよく用いられるもので、実際には3次多項式にノイズを加えて生成したサンプル(白い円)に多項式フィッティングを行った結果です。3次多項式モデル(赤線)だと全ての円は通らないながらも滑らかで綺麗に全体のトレンドに沿った曲線が描けますが、9次多項式モデル(青線)だとより多くの円を通りながらもぐにゃぐにゃして全体のトレンドに合わない奇妙な曲線を描いてしまいます。

それもそのはずで、3次モデルは程よく真の値(3次多項式に従う)を捉えているのに対して、9次モデルは真の値のみならずノイズにまでフィットしてしまっているからです。この場合、両端(-3 or 3)の外側にまでサンプルを拡張した場合、3次モデルは適切にフィットするであろう一方、9次モデルはあらぬ方向に吹っ飛んでしまって全くフィットしないであろうことが容易に想像できるかと思います。

このように、ノイズに振り回されず程よく全体のトレンドを捉え、適切にまだ見ぬ未知データにうまくモデルを当てはめられる(適切に予測できる)度合いのことを「汎化性能」と呼びます。

統計学とは、「標本抽出(サンプリング)された少ない標本から背後にある(見えない)母集団の性質を推定する営み」だとされます。この定義に従えば、汎化性能を確保することは統計学を統計学たらしめる本質的な要件であるように見えます。

言い換えると、例えばt検定やカイ二乗検定のような仮説検定から重回帰分析のような線形モデル、ロジスティック回帰などの一般化線形モデル、さらには統計的学習の手法に基づく機械学習領域におけるDeep Learningのような高度なモデルであっても全く同じことが言えるということだと思います。

汎化性能を評価する方法は世の中には色々あり、例えばAICのような情報量規準を用いるものや、交差検証によって擬似的に手持ちのサンプルから算出するものもあり、それぞれのシチュエーションに応じて使い分けることが望ましいとされます。

いかなる統計学的な取り組みであれ、汎化性能を確保することは非常に重要であると個人的には考えています。

関連記事

任文桓『日本帝国と大韓民国に仕えた官僚の回想』を読んで

まず、親日派排斥の韓国のイメージが日本で蔓延しているが、本書を読む限り、建前としての親日派排除はなく

記事を読む

渡辺惣樹著『第二次世界大戦 アメリカの敗北』

対独戦争をあくまで回避するべきと主張したチェンバレンら英国保守層 対独戦争は膨大な国力を消費し、アメ

記事を読む

no image

2023/7/18 【未来予測】地球の課題を解決するのは「人流ビッグデータ」だ ジオテクノロジーズ | NewsPicks Studios

https://newspicks.com/news/8641407/body/ 若い人達も人

記事を読む

no image

書評『人口の中国史』上田信

中国人口史通史の新書本。入門書でもある。概要〇序章 人口史に何を聴くのかマルサスの人口論著者の「合

記事を読む

no image

書評『日本人になった祖先たち』篠田謙一 NHK出版 公研2020.1「人類学が迫る日本人の起源」

分子人類学的アプローチ SPN(一塩基多型)というDNAの変異を検出する技術が21

記事を読む

no image

倉山満著『お役所仕事の大東亜戦争』1941年12月8日『枢密院会議筆記』真珠湾攻撃後に、対米英宣戦布告の事後採決

海軍が真珠湾攻撃のことを東条に伝えたのは直前のこと 倉山満著『お役所仕事の大東亜戦争』p.2

記事を読む

『庶民と旅の歴史』新城常三著

新城 常三(1911年4月21日- 1996年8月6日)は、日本の歴史学者。交通史を専門とした。1

記事を読む

no image

人流・観光学概論修正原稿資料

◎コロナ等危機管理関係 19世紀の貧困に直面した時、自由主義経済学者は「氷のように

記事を読む

『サイボーグ化する動物たち 生命の操作は人類に何をもたらすか』作者:エミリー・アンテス 翻訳:西田美緒子 白揚社

DNAの塩基配列が読破されても、その配列の持つ意味が分からなければ解読したことにはならない。本書の冒

記事を読む

no image

保護中: 学士会報No.946 全卓樹「シミュレーション仮説と無限連鎖世界」

海外旅行に行けないものだから、ヴァーチャル旅行を楽しんでいる。リアルとヴァーチャルの違いは分かっ

記事を読む

PAGE TOP ↑