bugfix> r > 投稿

NULLの母集団を持つ2つの列を持つデータフレームがあります

 'data.frame': 31337 obs. of  16 variables:
  # $ ID                       : int  1 2 3 5 6 7 8 9 10 11 ...
  # $ Target                   : int  0 0 0 0 0 0 0 0 0 0 ...
  # $ band                     : chr  "3. 35 to 44" "NULL" "NULL" "NULL" ...
  # $ gender                   : chr  "Male" "NULL" "Male" "NULL" ...

a)Rに「Null」がある行を削除しますか b)NをRのロジスティック回帰の個別のカテゴリーとして残しますか?

aの答えがyesの場合、どのようにすればよいですか

回答 2 件
  • あなたの質問にはいくつかのことがあります。

    データフレームの「NULL」は文字値です。 NULL ではありません 。

    例えば。、

    is.null(NULL)
    [1] TRUE
    is.null("NULL")
    [1] FALSE
    
    

    Rには NULL の違いがあります  および NANULL  nullまたは空のオブジェクトを表します。多くの場合、関数によって返されるため、値は未定義です。 NA  欠損値です(存在しません)。コンテキストに基づいて、「NULL」値を NA に置き換えます 。 「NULL」を NA に置き換える簡単な方法 、 dplyr::na_if() を参照 。 (関数のドキュメントへのリンク。)

    glm() を使用している場合  ロジスティック回帰モデルを実行するには、いくつかの方法 glm() があります  欠落データ(NA)を処理します。引数 na.action でNAを処理する方法を制御できます 。 ?glm を実行する  コンソールでこの機能のヘルプページを表示します。各引数の値の説明があります。

    NAの削除または欠損値のダミーインジケーターの使用に関する質問に答えるために、それはモデルの意図の問題です。このような広範なトピックに対する一般的な答えを、詳細なしに提供することは困難です。

  • @jordan ..素晴らしいアドバイス..データフレームがサイズの14%に縮小

    data = na_if(data、 "NULL") データ<-data [!is.na(data $age_band)&!is.na(data $gender)、]

あなたの答え