K-meansアルゴリズムを使用して、毎日の会社の収益を10(= k)グループに分類しました。データベースの各ウィンドウ(1か月)にこのプロセスを適用しました。今、私は時間をかけてクラスターを比較したいと思います。言い換えれば、ウィンドウt + 1のどのクラスターがウィンドウtの最初のクラスター(C1としましょう)に対応するかを特定したいと思います。次に、ウィンドウt + 1のどのクラスターがウィンドウtの2番目のクラスター(C2としましょう)に対応します。など、ウィンドウクラスターの10個のクラスターについて... 2つのクラスターを類似とみなすための仮説Iは、ウィンドウtの1つのクラスターに存在する企業の最小60%がウィンドウt + 1のクラスターに存在する必要があるということです。
4つの変数(WindClus、Window、Cluster、Company)のデータフレーム(Df)があります。
- WindClus 両方の連結です窓 そして集まる。
- 窓 重複しないローリングウィンドウとして構築されます。各ウィンドウは1か月を表します。
- 各窓 10を含むクラスター (グループ)、およびそれぞれ集まる いくつかを集める企業。
より良い画像を取得するには、次の脚注のURL画像を参照してください1。
クラスターのペアワイズ比較を行うにはどうすればよいですか?そして、結果に応じて、新しいクラスターに対応するためにクラスター番号を変更しますか?
K-meansはランダム化されます。同じ月に2回実行しても同じ結果は得られません。
そうするじゃない クラスターが1か月から1か月に1対1で対応することを期待してください
あなたができることは、すべてのデータを結合し、k-meansを1回だけ実行することです(または、複数回実行して結果が安定しているかどうかを確認してください-非常に異なる結果は結果が良くないことを示します!)そしてクラスタリング後にデータを分割します。