Récapitulation par pourcentage de sous-groupe dans R

Question

J'ai un ensemble de données comme celui-ci:

df = data.frame(group = c(rep('A',4), rep('B',3)), subgroup = c('a', 'b', 'c', 'd', 'a', 'b', 'c'), value = c(1,4,2,1,1,2,3)) group | subgroup | value ------------------------ A | a | 1 A | b | 4 A | c | 2 A | d | 1 B | a | 1 B | b | 2 B | c | 3

Ce que je veux, c'est obtenir le pourcentage des valeurs de chaque sous-groupe dans chaque groupe, c'est-à-dire que la sortie devrait être:

group | subgroup | percent ------------------------ A | a | 0.125 A | b | 0.500 A | c | 0.250 A | d | 0.125 B | a | 0.167 B | b | 0.333 B | c | 0.500

Exemple pour le groupe A, sous-groupe A: la valeur était 1, la somme de l'ensemble du groupe A est 8 (a = 1, b = 4, c = 2, d = 1) - donc 1/8 = 0,125

Jusqu'à présent, je n'ai trouvé que des agrégats assez simples comme this , mais je ne sais pas comment faire la "division par une somme dans un sous-groupe "partie.

Rich Scriven · Accepted Answer

Selon votre commentaire, si les sous-groupes sont uniques, vous pouvez le faire

library(dplyr) group_by(df, group) %>% mutate(percent = value/sum(value)) # group subgroup value percent # 1 A a 1 0.1250000 # 2 A b 4 0.5000000 # 3 A c 2 0.2500000 # 4 A d 1 0.1250000 # 5 B a 1 0.1666667 # 6 B b 2 0.3333333 # 7 B c 3 0.5000000

Ou pour supprimer la colonne value et ajouter la colonne percent en même temps, utilisez transmute

group_by(df, group) %>% transmute(subgroup, percent = value/sum(value)) # group subgroup percent # 1 A a 0.1250000 # 2 A b 0.5000000 # 3 A c 0.2500000 # 4 A d 0.1250000 # 5 B a 0.1666667 # 6 B b 0.3333333 # 7 B c 0.5000000