次のように、Apache Sparkにデータセットがあるとします。
+---+--------------------+
| id| vec|
+---+--------------------+
| 0|[1, 2, 3, 4] |
| 0|[2, 3, 4, 5] |
| 0|[6, 7, 8, 9] |
| 1|[1, 2, 3, 4] |
| 1|[5, 6, 7, 8] |
+---+--------------------+
そして、vecは
List
です
Doubles
の
。
次のように、IDとそのIDに関連付けられたベクトルの平均を含むデータセットを作成するにはどうすればよいですか。
+---+--------------------+
| id| vec|
+---+--------------------+
| 0|[3, 4, 5, 6] |
| 1|[3, 4, 5, 6] |
+---+--------------------+
前もって感謝します!
回答 2 件
関連記事
- slide()関数が数値ベクトルを計算してリストに入れるのを止める方法は?
- 場所をページに変換してから、各ページの平均感情を計算します。その平均スコアをページごとにプロットします
- Summarise()を使用してデータセット内の複数の列の平均を取得する方法
- Spark with Scala:可能な各ペアで関数を実行してテーブルを計算します
- Q:Dataset フラットマップから空のデータセットSpark Java
- 最初のデータセットの値に基づいて、2番目のデータセットの値を更新する
- Spark MLLIB:ランダムフォレスト回帰のstddevのような値を計算します
- 値のベクトルの差の最小値を計算する方法は?
- createDataFrameを使用してSpark Vector列を作成する
DataSetの入力スキーマに一致するケースクラスを作成しました。 IDでデータセットをグループ化し、foldLeftを使用して、グループ化されたデータセットのベクトル内の各idxの平均を累積しました。
お役に立てれば!