web-dev-qa-db-fra.com

Récapitulation par pourcentage de sous-groupe dans R

J'ai un ensemble de données comme celui-ci:

df = data.frame(group = c(rep('A',4), rep('B',3)),
                subgroup = c('a', 'b', 'c', 'd', 'a', 'b', 'c'),
                value = c(1,4,2,1,1,2,3))


group | subgroup | value
------------------------
  A   |    a     |  1
  A   |    b     |  4
  A   |    c     |  2
  A   |    d     |  1
  B   |    a     |  1
  B   |    b     |  2
  B   |    c     |  3

Ce que je veux, c'est obtenir le pourcentage des valeurs de chaque sous-groupe dans chaque groupe, c'est-à-dire que la sortie devrait être:

group | subgroup | percent
------------------------
  A   |    a     |  0.125
  A   |    b     |  0.500
  A   |    c     |  0.250
  A   |    d     |  0.125
  B   |    a     |  0.167
  B   |    b     |  0.333
  B   |    c     |  0.500

Exemple pour le groupe A, sous-groupe A: la valeur était 1, la somme de l'ensemble du groupe A est 8 (a = 1, b = 4, c = 2, d = 1) - donc 1/8 = 0,125

Jusqu'à présent, je n'ai trouvé que des agrégats assez simples comme this, mais je ne sais pas comment faire la "division par une somme dans un sous-groupe "partie.

16
oliver13

Selon votre commentaire, si les sous-groupes sont uniques, vous pouvez le faire

library(dplyr)
group_by(df, group) %>% mutate(percent = value/sum(value))
#   group subgroup value   percent
# 1     A        a     1 0.1250000
# 2     A        b     4 0.5000000
# 3     A        c     2 0.2500000
# 4     A        d     1 0.1250000
# 5     B        a     1 0.1666667
# 6     B        b     2 0.3333333
# 7     B        c     3 0.5000000

Ou pour supprimer la colonne value et ajouter la colonne percent en même temps, utilisez transmute

group_by(df, group) %>% transmute(subgroup, percent = value/sum(value))
#   group subgroup   percent
# 1     A        a 0.1250000
# 2     A        b 0.5000000
# 3     A        c 0.2500000
# 4     A        d 0.1250000
# 5     B        a 0.1666667
# 6     B        b 0.3333333
# 7     B        c 0.5000000
33
Rich Scriven