Comment puis-je sous-définir des lignes dans un cadre de données dans R basé sur un vecteur de valeurs?

Question

J'ai deux ensembles de données qui sont supposés être de la même taille mais ne le sont pas. Je dois rogner les valeurs de A qui ne sont pas dans B et vice versa pour éliminer le bruit d'un graphique entrant dans un rapport. (Ne vous inquiétez pas, ces données ne sont pas supprimées définitivement!)

J'ai lu le texte suivant:

Mais je ne parviens toujours pas à faire en sorte que cela fonctionne correctement. Voici mon code:

bg2011missingFromBeg <- setdiff(x=eg2011$ID, y=bg2011$ID) #attempt 1 eg2011cleaned <- subset(eg2011, ID != bg2011missingFromBeg) #attempt 2 eg2011cleaned <- eg2011[!eg2011$ID %in% bg2011missingFromBeg]

Le premier essai élimine simplement la première valeur du vecteur setdiff résultant. Le deuxième essai cède et erreur lourde:

Error in `[.data.frame`(eg2012, !eg2012$ID %in% bg2012missingFromBeg) : undefined columns selected

adibender · Accepted Answer

Cela vous donnera ce que vous voulez:

eg2011cleaned <- eg2011[!eg2011$ID %in% bg2011missingFromBeg, ]

L'erreur dans votre deuxième tentative est parce que vous avez oublié le ,

En général, pour plus de commodité, la spécification object[index] sous-ensembles de colonnes pour un 2d object. Si vous souhaitez sous-définir les lignes et conserver toutes les colonnes, vous devez utiliser la spécification object[index_rows, index_columns], tandis que index_cols peut être laissé vide, ce qui utilisera toutes les colonnes par défaut.

Cependant, vous devez toujours inclure le , pour indiquer que vous souhaitez obtenir un sous-ensemble de lignes au lieu d'un sous-ensemble de colonnes.

Dinre · Answer

Si vous souhaitez simplement sous-définir chaque trame de données par un index existant dans les deux trames de données, vous pouvez le faire avec la fonction 'match', comme suit:

data_A[match(data_B$index, data_A$index, nomatch=0),] data_B[match(data_A$index, data_B$index, nomatch=0),]

Ceci est cependant identique à:

data_A[data_A$index %in% data_B$index,] data_B[data_B$index %in% data_A$index,]

Voici une démo:

# Set seed for reproducibility. set.seed(1) # Create two sample data sets. data_A <- data.frame(index=sample(1:200, 90, rep=FALSE), value=runif(90)) data_B <- data.frame(index=sample(1:200, 120, rep=FALSE), value=runif(120)) # Subset data of each data frame by the index in the other. t_A <- data_A[match(data_B$index, data_A$index, nomatch=0),] t_B <- data_B[match(data_A$index, data_B$index, nomatch=0),] # Make sure they match. data.frame(t_A[order(t_A$index),], t_B[order(t_B$index),])[1:20,] # index value index.1 value.1 # 27 3 0.7155661 3 0.65887761 # 10 12 0.6049333 12 0.14362694 # 88 14 0.7410786 14 0.42021589 # 56 15 0.4525708 15 0.78101754 # 38 18 0.2075451 18 0.70277874 # 24 23 0.4314737 23 0.78218212 # 34 32 0.1734423 32 0.85508236 # 22 38 0.7317925 38 0.56426384 # 84 39 0.3913593 39 0.09485786 # 5 40 0.7789147 40 0.31248966 # 74 43 0.7799849 43 0.10910096 # 71 45 0.2847905 45 0.26787813 # 57 46 0.1751268 46 0.17719454 # 25 48 0.1482116 48 0.99607737 # 81 53 0.6304141 53 0.26721208 # 60 58 0.8645449 58 0.96920881 # 30 59 0.6401010 59 0.67371223 # 75 61 0.8806190 61 0.69882454 # 63 64 0.3287773 64 0.36918946 # 19 70 0.9240745 70 0.11350771

maycca · Answer

Vraiment compréhensible par l'homme exemple (comme c'est la première fois que j'utilise% en%), comment comparer deux trames de données et ne conserver que les lignes contenant les mêmes valeurs dans une colonne spécifique:

# Set seed for reproducibility. set.seed(1) # Create two sample data frames. data_A <- data.frame(id=c(1,2,3), value=c(1,2,3)) data_B <- data.frame(id=c(1,2,3,4), value=c(5,6,7,8)) # compare data frames by specific columns and keep only # the rows with equal values data_A[data_A$id %in% data_B$id,] # will keep data in data_A data_B[data_B$id %in% data_A$id,] # will keep data in data_b

Résultats:

> data_A[data_A$id %in% data_B$id,] id value 1 1 1 2 2 2 3 3 3 > data_B[data_B$id %in% data_A$id,] id value 1 1 5 2 2 6 3 3 7

Sam Firke · Answer

Selon les commentaires de la publication d'origine, les fusions/jointures sont bien adaptées à ce problème. En particulier, une jointure interne ne renverra que les valeurs présentes dans les deux cadres de données, rendant inutile l'instruction setdiff.

En utilisant les données de l'exemple de Dinre:

en base R:

cleanedA <- merge(data_A, data_B[, "index"], by = 1, sort = FALSE) cleanedB <- merge(data_B, data_A[, "index"], by = 1, sort = FALSE)

tilisation du paquet dplyr:

library(dplyr) cleanedA <- inner_join(data_A, data_B %>% select(index)) cleanedB <- inner_join(data_B, data_A %>% select(index))

Pour conserver les données sous forme de deux tables distinctes, chacune contenant uniquement ses propres variables, cela permet de sous-définir la table non désirée sur sa seule variable d'index avant la jointure. Ensuite, aucune nouvelle variable n'est ajoutée à la table résultante.