k-means法は、教師なし学習によるグループ分けの手法でした。教師なし学習でグループ分けを行うことを「クラスタリング」または「クラスター分析」と呼びます。
KNN(k-nearest neighbor)はK近傍法ともよばれる機械学習アルゴリズムです。アルゴリズムとしては非常に単純であり、「近くにあるデータは似ているはずだ」という発想に基づいています。 K近傍法のKは近くにあるデータをK個集めるという意味で、多数決により分類を決定します。
k近傍法とk平均法の違い 正解はk近傍法は教師あり学習なのに対してk平均法は教師なし学習だと言うことです。k近傍法は教師あり学習の中でも分類という学習に属し、k平均法は教師なし学習のなかのクラスタリングという学習に属します。分類とクラスタリングどちらも言葉が似ていますが、違いとして正解ラベルがあるかどうかです。
An easy to understand nonparametric model is the k-nearest neighbors algorithm that makes predictions based on the k most similar training patterns for a new data instance. The method does not assume anything about the form of the mapping function other than patterns that are close are likely to have a similar output variable. ノンパラメトリックモデルとしてわかりやすいのは、k-nearest neighborsアルゴリズムで、新しいデータインスタンスに対して、最も類似したk個の学習パターンに基づいて予測を行うものである。この方法は、近いパターンが類似の出力変数を持つ可能性が高いということ以外、マッピング関数の形式について何も仮定しない。
階層型クラスタリングは、その名が示すように、クラスタの階層を構築するアルゴリズムである。このアルゴリズムでは、まずすべてのデータ点をそれぞれのクラスタに割り当てる。次に、2つの最も近いクラスタが同じクラスタにマージされる。最終的に、1つのクラスタしか残らなくなった時点で、このアルゴリズムは終了する。 階層型クラスタリングの結果は、デンドログラムを用いて示すことができる。デンドログラムは次のように解釈できる。
singlelinkage method
Hieralcical Method の中でも距離の計算を Ward 法や、 single linkage method で行う