bugfix> r > 投稿

600万行と20列を超えるデータセットで回帰を毎日実行する必要があります。計算を高速化し、クラウドに移動したいと思います。はtensorflow.rstudio 現在、私の目的に最適なオプションですか?

回答 1 件
  • 上手:

    R> nr <- 6e6 
    R> nc <- 20   
    R> M <- matrix(rnorm(nr*nc), nr, nc)          
    R> y <- runif(nr)                               
    R> system.time(b1 <- lm.fit(M, y))          
       user  system elapsed                 
     18.219  10.046   3.169 
    R>
    
    

    そして、私たちがより手の込んだ lm() が欲しいなら -似ているが速いアプローチ:

    R> system.time(b2 <- RcppArmadillo::fastLm(M, y))        
       user  system elapsed 
     10.028   9.248   3.733 
    R>
    
    

    通常の形式で結果を簡単に見ることができます:

    R> summary(b2)
    Call:
    fastLm.default(X = M, y = y)
    Residuals:
          Min.    1st Qu.     Median    3rd Qu.       Max. 
    -0.0028683  0.2496700  0.4996900  0.7498700  1.0030000 
            Estimate     StdErr t.value p.value  
     [1,]  1.138e-04  2.355e-04   0.483  0.6290  
     [2,]  3.637e-04  2.356e-04   1.543  0.1228  
     [3,]  2.602e-04  2.355e-04   1.105  0.2692  
     [4,]  6.760e-05  2.357e-04   0.287  0.7743  
     [5,]  2.440e-04  2.357e-04   1.035  0.3005  
     [6,]  1.230e-04  2.356e-04   0.522  0.6017  
     [7,] -1.239e-04  2.356e-04  -0.526  0.5990  
     [8,] -9.908e-05  2.356e-04  -0.420  0.6741  
     [9,] -1.633e-04  2.356e-04  -0.693  0.4882  
    [10,] -3.994e-04  2.357e-04  -1.695  0.0901 .
    [11,] -2.056e-05  2.356e-04  -0.087  0.9304  
    [12,] -1.335e-04  2.356e-04  -0.567  0.5709  
    [13,] -9.811e-05  2.356e-04  -0.416  0.6772  
    [14,]  3.083e-04  2.356e-04   1.308  0.1907  
    [15,] -9.598e-06  2.356e-04  -0.041  0.9675  
    [16,]  1.781e-04  2.355e-04   0.756  0.4494  
    [17,]  4.247e-05  2.355e-04   0.180  0.8569  
    [18,]  1.425e-04  2.358e-04   0.604  0.5457  
    [19,]  5.302e-05  2.356e-04   0.225  0.8219  
    [20,]  1.735e-04  2.357e-04   0.736  0.4616  
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    Residual standard error: 0.577 on 5999980 degrees of freedom
    Multiple R-squared: 2.14e-06,   Adjusted R-squared: -1.19e-06
    R>
    
    

    本当に問題はありません。かかった4秒未満 私の(おそらく半分まともで最近の)自宅のマシンで。なぜ「クラウド」なのですか?なぜ「テンソルフロー」なのですか?テンソルフローが非常に厳しいと遅い 一方、回帰は単一の線形予測です(複数のコアで完全に発生します)オートマジック ファッション)?カスタムソフトウェアではなく、単純なDebian/Ubuntuパッケージ(たまたま関与している)。

    AWSまたはAzureの節約を削減できたら、コンサルタントとして行動できればうれしいです...そして、冗談です。

あなたの答え