*

Quora 「汎化性能」

すべてのデータサイエンティストが知っておくべき、統計学の重要なトピックはなんでしょうか?

個人的には「汎化性能」だと思います。

上の図はその説明でよく用いられるもので、実際には3次多項式にノイズを加えて生成したサンプル(白い円)に多項式フィッティングを行った結果です。3次多項式モデル(赤線)だと全ての円は通らないながらも滑らかで綺麗に全体のトレンドに沿った曲線が描けますが、9次多項式モデル(青線)だとより多くの円を通りながらもぐにゃぐにゃして全体のトレンドに合わない奇妙な曲線を描いてしまいます。

それもそのはずで、3次モデルは程よく真の値(3次多項式に従う)を捉えているのに対して、9次モデルは真の値のみならずノイズにまでフィットしてしまっているからです。この場合、両端(-3 or 3)の外側にまでサンプルを拡張した場合、3次モデルは適切にフィットするであろう一方、9次モデルはあらぬ方向に吹っ飛んでしまって全くフィットしないであろうことが容易に想像できるかと思います。

このように、ノイズに振り回されず程よく全体のトレンドを捉え、適切にまだ見ぬ未知データにうまくモデルを当てはめられる(適切に予測できる)度合いのことを「汎化性能」と呼びます。

統計学とは、「標本抽出(サンプリング)された少ない標本から背後にある(見えない)母集団の性質を推定する営み」だとされます。この定義に従えば、汎化性能を確保することは統計学を統計学たらしめる本質的な要件であるように見えます。

言い換えると、例えばt検定やカイ二乗検定のような仮説検定から重回帰分析のような線形モデル、ロジスティック回帰などの一般化線形モデル、さらには統計的学習の手法に基づく機械学習領域におけるDeep Learningのような高度なモデルであっても全く同じことが言えるということだと思います。

汎化性能を評価する方法は世の中には色々あり、例えばAICのような情報量規準を用いるものや、交差検証によって擬似的に手持ちのサンプルから算出するものもあり、それぞれのシチュエーションに応じて使い分けることが望ましいとされます。

いかなる統計学的な取り組みであれ、汎化性能を確保することは非常に重要であると個人的には考えています。

関連記事

no image

聴覚   空間の解像度は視覚が強く、時間の分解度は聴覚が強い。人間の脳は、より信用できる方に重きを置いて最終決定する

人間の脳は、より信用できる方に重きを置いて最終決定する 聴覚が直接情動に訴えかけるのは、大脳皮質

記事を読む

no image

刑事コロンボ49話 迷子の兵隊

易経が出てきたのでうれしくなった。最近の学生は易という言葉を聞いたことがないという。占いだと言って

記事を読む

no image

渋滞学『公研』2019年4月 メモ

渋滞学 西成活裕 渋滞とは? 結局人の動き  法則性はあるのか? 空気や水と違って人間にはそれぞれ

記事を読む

no image

中東・バルカン旅行を終えて(まとめ・未定稿)

〇一人当たりGDP とりあえず訪問国の、2016年IMFと2015年国連の一人当たりの名目GDPの

記事を読む

no image

梁山泊とダボス会議

ダボス会議を知らない人はいないくらい知名度が高くなった。従って安倍総理も出席するし、出席したがる人

記事を読む

no image

『観光紀遊』岡千仭著 明治19年

明治19年であるから、観光は国際観光の意味が強い時代であろう。

記事を読む

no image

三谷太一郎『日本の近代とは何であったか』日本何故いかにして植民地帝国となったのか ビルマの竪琴のラストはスコットランド民謡 共通の歌曲がない 欧州文化と同じ意味でのアジア文化の存在に疑念

植民地帝国へと踏み出す日本 三国干渉が契機 非公式帝国主義 コストをかけなくてすむ方式 不平

記事を読む

no image

『高度経済成長期の日本経済』武田晴人編 有斐閣 訪日外客数の急増の分析に参考

キーワード 繰延需要の発現(家計ストック水準の回復) 家電モデル(世帯数の増加)自動車(見せびらか

記事を読む

no image

住と宿の相対化 インドから上陸「不動産業界のアマゾン」の正体の記事

東洋経済の記事 https://toyokeizai.net/articles/-/2701

記事を読む

no image

中国人白タク問題  運転手派遣業とレンタカーの組み合わせによる新規ビジネス

運送機能の分化:金沢学院大学の大学院の講義を契機に、二十年来運送機能の分化について考えてきている。

記事を読む

PAGE TOP ↑