bugfix> apache-spark > 投稿

だから、私はPythonを使用して最新のファイルを見つける方法を見つけました。今、私はpysparkを使用して最新のファイルを見つけることができるかどうか疑問に思っています。現在、パスを指定していますが、pysparkに最新の変更されたファイルを取得してもらいたいです。

現在のコードは次のようになります。

df = sc.read.csv("Path://to/file", header=True, inderSchema=True)

よろしくお願いします。

回答 1 件
  • この答えからPySparkで動作するHDFS APIを取得するコードをコピーしました:Pyspark:HDFSパス上のファイル/ディレクトリのリストを取得します

    URI           = sc._gateway.jvm.java.net.URI
    Path          = sc._gateway.jvm.org.apache.hadoop.fs.Path
    FileSystem    = sc._gateway.jvm.org.apache.hadoop.fs.s3.S3FileSystem
    Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration
    fs = # Create S3FileSystem object here
    files = fs.listStatus(Path("Path://to/file"))
    # You can also filter for directory here
    file_status = [(file.getPath().toString(), file.getModificationTime()) for file in files]
    file_status.sort(key = lambda tup: tup[1], reverse= True)
    most_recently_updated = file_status[0][0]
    spark.read.csv(most_recently_updated).option(...)
    
    

あなたの答え