だから、私はPythonを使用して最新のファイルを見つける方法を見つけました。今、私はpysparkを使用して最新のファイルを見つけることができるかどうか疑問に思っています。現在、パスを指定していますが、pysparkに最新の変更されたファイルを取得してもらいたいです。
現在のコードは次のようになります。
df = sc.read.csv("Path://to/file", header=True, inderSchema=True)
よろしくお願いします。
関連した質問
- Kafkaからデータを読み取り、PythonでSpark StructuredSreamingを使用してコンソールに出力します
- リモートから起動するPythonジョブの送信
- PySparkの他の列で行われた計算に基づいて新しい列を作成する方法
- Spark 23:アスタリスクなしでサブディレクトリを読み取る方法は?
- Sparkでのオンライン(増分)ロジスティック回帰
- KafkaConsumerはマルチスレッドアクセスpysparkに対して安全ではありません
- Pythonを使用してDataricksからPostgresに書き込む
- PySparksqlfilterが期待どおりに動作しない
- タイムスタンプをローカル時間に変換するpyspark date_format()およびhour()
- pysparkを使用してHiveデータベースに接続できますが、実行するとプログラムデータが表示されません
この答えからPySparkで動作するHDFS APIを取得するコードをコピーしました:Pyspark:HDFSパス上のファイル/ディレクトリのリストを取得します