bugfix> r > 投稿

この@camilleコードは、ggplotで素晴らしいパレート図を生成します。

library(tidyverse)
d <- tribble(
    ~ category, ~defect,
    "price", 80,
    "schedule", 27,
    "supplier", 66,
    "contact", 94,
    "item", 33
) %>% arrange(desc(defect)) %>%
    mutate(
        cumsum = cumsum(defect),
        freq = round(defect / sum(defect), 3),
        cum_freq = cumsum(freq)
    ) %>%
    mutate(category = as.factor(category) %>% fct_reorder(defect))
brks <- unique(d$cumsum)
ggplot(d, aes(x = fct_rev(category))) +
    geom_col(aes(y = defect)) +
    geom_point(aes(y = cumsum)) +
    geom_line(aes(y = cumsum, group = 1)) +
    scale_y_continuous(sec.axis = sec_axis(~. / max(d$cumsum), labels = scales::percent), breaks = brks)

累積y値で2番目のy軸が途切れることを確認したい場合を除き、ほぼ完璧です。これは、base-Rで次のコードを使用して実現できます。しかし、ggplotでどのように行うのですか?

## Creating the d tribble
library(tidyverse)
d <- tribble(
  ~ category, ~defect,
  "price", 80,
  "schedule", 27,
  "supplier", 66,
  "contact", 94,
  "item", 33
)
## Creating new columns
d <- arrange(d, desc(defect)) %>%
  mutate(
    cumsum = cumsum(defect),
    freq = round(defect / sum(defect), 3),
    cum_freq = cumsum(freq)
  )
## Saving Parameters 
def_par <- par() 
## New margins
par(mar=c(5,5,4,5)) 
## bar plot, pc will hold x values for bars
pc = barplot(d$defect,  
             width = 1, space = 0.2, border = NA, axes = F,
             ylim = c(0, 1.05 * max(d$cumsum, na.rm = T)), 
             ylab = "Cummulative Counts" , cex.names = 0.7, 
             names.arg = d$category,
             main = "Pareto Chart (version 1)")
## Cumulative counts line 
lines(pc, d$cumsum, type = "b", cex = 0.7, pch = 19, col="cyan4")
## Framing plot
box(col = "grey62")
## adding axes
axis(side = 2, at = c(0, d$cumsum), las = 1, col.axis = "grey62", col = "grey62", cex.axis = 0.8)
axis(side = 4, at = c(0, d$cumsum), labels = paste(c(0, round(d$cum_freq * 100)) ,"%",sep=""), 
     las = 1, col.axis = "cyan4", col = "cyan4", cex.axis = 0.8)
## restoring default paramenter
par(def_par)

カミーユにはいくつかのアイデアがありましたが、「ggplot2の最近のバージョンではセカンダリ軸を使用できますが、プライマリ軸の変換に基づく必要があります。この場合、プライマリ軸の値と最大値で除算してパーセンテージを取得します。」

回答 2 件
  • brks <- unique(d$cumsum)
    brks2 <- unique(d$cumsum / max(d$cumsum))
    ggplot(d, aes(x = fct_rev(category))) +
      geom_col(aes(y = defect)) +
      geom_point(aes(y = cumsum)) +
      geom_line(aes(y = cumsum, group = 1)) +
      scale_y_continuous(sec.axis = sec_axis(~. / max(d$cumsum), labels = scales::percent, breaks = brks2), breaks = brks)
    
    

  • これにより、前回の質問の以前のコードよりも改善される唯一の点は、@ Jack Brookesの答えは、 ggplot の外側で2セットのブレークを計算する必要がなくなったことです。  コール。代わりに、 unique(d$cumsum) として累積生数のブレークを取得しました   unique(d$cumfreq) としての累積頻度のブレーク 。これらの両方で、最初に0を追加しました。それ以外の場合は0にブレークが配置されていないためです。


    library(tidyverse)
    library(scales)
    d <- tribble(
      ~ category, ~defect,
      "price", 80,
      "schedule", 27,
      "supplier", 66,
      "contact", 94,
      "item", 33
    ) %>% arrange(desc(defect)) %>%
      mutate(
        cumsum = cumsum(defect),
        freq = round(defect / sum(defect), 3),
        cum_freq = cumsum(freq)
      ) %>%
      mutate(category = as.factor(category) %>% fct_reorder(defect))
    ggplot(d, aes(x = fct_rev(category))) +
      geom_col(aes(y = defect)) +
      geom_point(aes(y = cumsum)) +
      geom_line(aes(y = cumsum, group = 1)) +
      scale_y_continuous(breaks = c(0, unique(d$cumsum)),
        sec.axis = sec_axis(~. / max(d$cumsum), labels = scales::percent,
           breaks = c(0, unique(d$cum_freq))) 
      ) +
      theme(panel.grid.minor = element_blank())
    
    

あなたの答え