主成分分析と線形回帰

　主成分分析は、データの情報損失を最小とするような基底を見つける。これに対して、線形回帰は、仮説（線形モデル）に最も良くフィットする仮説のパラメタを探す。

　ときどき思うのは、与えられた2次元データに対して直線をフィットしたとき、フィットしたあとの見た目からは、どちらの方法を使ったのかが分からないということである。アルゴリズムの詳細まで知らない初心者が、線形回帰と主成分分析による直線のフィッティングの差を明確に説明できるだろうか。そもそも、主成分分析と線形回帰は目指すゴールが異なっている。それは前述の通りである。さらに言えば、主成分分析は、説明変数と被説明変数の間の関係性をモデル化するのではなく、「単に」データの情報損失が最小になるような写像を見出すだけである。つまり、データの各次元に何らかの関係性を仮定しない。これに対して、線形回帰は、与えられたデータの次元の間に何らかの関係性が要請されている。つまり、xがyを説明する、といったことである。この点も、これらの手法で大きく違っている点のひとつであろう。また、技術的には、説明変数に誤差が含まれている場合、線形回帰は適さないが、主成分分析は問題なく適用できる（説明変数という考え方をしない）。

　線形回帰は、ある現象を説明するための良いモデルを見出す（良い説明変数を見出す）ために用いられるのに対し、主成分分析は、データを良く代表する新たな基底を見出すため、次元削減のために用いられる。

sigmaの日記

日々思ったことをつらつらと書きます。

主成分分析と線形回帰