bugfix> r > 投稿

K-meansアルゴリズムを使用して、毎日の会社の収益を10(= k)グループに分類しました。データベースの各ウィンドウ(1か月)にこのプロセスを適用しました。今、私は時間をかけてクラスターを比較したいと思います。言い換えれば、ウィンドウt + 1のどのクラスターがウィンドウtの最初のクラスター(C1としましょう)に対応するかを特定したいと思います。次に、ウィンドウt + 1のどのクラスターがウィンドウtの2番目のクラスター(C2としましょう)に対応します。など、ウィンドウクラスターの10個のクラスターについて... 2つのクラスターを類似とみなすための仮説Iは、ウィンドウtの1つのクラスターに存在する企業の最小60%がウィンドウt + 1のクラスターに存在する必要があるということです。

4つの変数(WindClus、Window、Cluster、Company)のデータフレーム(Df)があります。

  • WindClus 両方の連結です そして集まる
  •  重複しないローリングウィンドウとして構築されます。各ウィンドウは1か月を表します。
  •  10を含むクラスター (グループ)、およびそれぞれ集まる いくつかを集める企業

より良い画像を取得するには、次の脚注のURL画像を参照してください1。

クラスターのペアワイズ比較を行うにはどうすればよいですか?そして、結果に応じて、新しいクラスターに対応するためにクラスター番号を変更しますか?

回答 1 件
  • K-meansはランダム化されます。同じ月に2回実行しても同じ結果は得られません。

    そうするじゃない クラスターが1か月から1か月に1対1で対応することを期待してください

    あなたができることは、すべてのデータを結合し、k-meansを1回だけ実行することです(または、複数回実行して結果が安定しているかどうかを確認してください-非常に異なる結果は結果が良くないことを示します!)そしてクラスタリング後にデータを分割します。

あなたの答え