*

Quora 「汎化性能」

公開日: : 最終更新日:2023/05/29 出版・講義資料

すべてのデータサイエンティストが知っておくべき、統計学の重要なトピックはなんでしょうか?

個人的には「汎化性能」だと思います。

上の図はその説明でよく用いられるもので、実際には3次多項式にノイズを加えて生成したサンプル(白い円)に多項式フィッティングを行った結果です。3次多項式モデル(赤線)だと全ての円は通らないながらも滑らかで綺麗に全体のトレンドに沿った曲線が描けますが、9次多項式モデル(青線)だとより多くの円を通りながらもぐにゃぐにゃして全体のトレンドに合わない奇妙な曲線を描いてしまいます。

それもそのはずで、3次モデルは程よく真の値(3次多項式に従う)を捉えているのに対して、9次モデルは真の値のみならずノイズにまでフィットしてしまっているからです。この場合、両端(-3 or 3)の外側にまでサンプルを拡張した場合、3次モデルは適切にフィットするであろう一方、9次モデルはあらぬ方向に吹っ飛んでしまって全くフィットしないであろうことが容易に想像できるかと思います。

このように、ノイズに振り回されず程よく全体のトレンドを捉え、適切にまだ見ぬ未知データにうまくモデルを当てはめられる(適切に予測できる)度合いのことを「汎化性能」と呼びます。

統計学とは、「標本抽出(サンプリング)された少ない標本から背後にある(見えない)母集団の性質を推定する営み」だとされます。この定義に従えば、汎化性能を確保することは統計学を統計学たらしめる本質的な要件であるように見えます。

言い換えると、例えばt検定やカイ二乗検定のような仮説検定から重回帰分析のような線形モデル、ロジスティック回帰などの一般化線形モデル、さらには統計的学習の手法に基づく機械学習領域におけるDeep Learningのような高度なモデルであっても全く同じことが言えるということだと思います。

汎化性能を評価する方法は世の中には色々あり、例えばAICのような情報量規準を用いるものや、交差検証によって擬似的に手持ちのサンプルから算出するものもあり、それぞれのシチュエーションに応じて使い分けることが望ましいとされます。

いかなる統計学的な取り組みであれ、汎化性能を確保することは非常に重要であると個人的には考えています。

関連記事

no image

保護中: 『from 911/USAレポート』第827回 「アベノミクスの功罪と出口シナリオ」冷泉彰彦 これだけ識字率と基礎算術と社会性の訓練を受けた分厚い人口を抱えた大国が、利幅が薄く労働集約型の観光業を主要産業とするという、どう考えても悲劇的な産業構造に追い詰められた、これは7年半にわたって改革に消極であったことのツケにしても、随分と妙な方向になったと思います

結果的に、これだけ識字率と基礎算術と社会性の訓練を受けた分厚い人口を抱えた大国が、利幅が薄く労働

記事を読む

no image

『一人暮らしの戦後史』 岩波新書 を読んで

港図書館で『一人暮らしの戦後史』を借りて読んでみた。最近の本かと思いきや1975年発行であった。

記事を読む

no image

「食譜」という発想 学士會会報 2017-Ⅳ 「味を測る」 都甲潔

学士會会報はいつもながら素人の私には情報の宝庫である。観光資源の評価を感性を測定することで客観化しよ

記事を読む

no image

書評 AIの言語理解について考える」川添愛 学士会報940号P.42

分類がわかりやすい 1 今のAIは人間の言葉を理解している。  理解

記事を読む

『江戸の旅と出版文化』原淳一郎

中世宗教史と異なり近世宗教史の大きな特徴に寺社参詣の大衆化がある。新城常三の「社寺参詣の社会経済史

記事を読む

no image

『カシュガール』滞在記 マカートニ夫人著 金子民雄訳

とかく甘いムードの漂うシルクロードの世界しか知らない人には、こうした動乱の世界は全く想像を超えるも

記事を読む

保護中: 『植物は知性を持っている』ステファノ・マンクーゾ 動物と植物は5億年前に進化の枝を分かち、動物は他の動植物を探して食べることで栄養を摂取する「移動」、植物は与えられた環境から栄養を引き出す「定住」、を選択した。このことが体構造の違いまでもたらしたらしい。「目で見る能力」ではなく、「光を知覚する能力」と考えれば、植物は視覚を持つ

植物は「動く」 著者は、イタリア人の植物生理学者ステファノ・マンクーゾである。フィレンツェ大学国際

記事を読む

no image

「米中関係の行方と日本に及ぼす影響」高原明生 学士會会報No.939 pp26-37

金日成も金正日も金正恩も「朝鮮半島統一後も在韓米軍はいてもよい」と述べたこと  中国支配を恐れてい

記事を読む

『高度経済成長期の日本経済』武田晴人編 有斐閣 訪日外客数の急増の分析に参考

キーワード 繰延需要の発現(家計ストック水準の回復) 家電モデル(世帯数の増加)自動車(見せびら

記事を読む

no image

矢部 宏治氏の「なぜ日本はアメリカの「いいなり」なのか?知ってはいけないウラの掟」

http://gendai.ismedia.jp/articles/-/52466 外務省がつ

記事を読む

PAGE TOP ↑