Supposons que j'ai un tableau de données contenant certains joueurs de baseball:
library(plyr)
library(data.table)
bdt <- as.data.table(baseball)
Pour chaque joueur (donné par id), je veux trouver la ligne correspondant à l'année où ils ont joué le plus de matchs. C'est simple en plyr:
ddply(baseball, "id", subset, g == max(g))
Quel est le code équivalent pour data.table?
J'ai essayé:
setkey(bdt, "id")
bdt[g == max(g)] # only one row
bdt[g == max(g), by = id] # Error: 'by' or 'keyby' is supplied but not j
bdt[, .SD[g == max(g)]] # only one row
Cela marche:
bdt[, .SD[g == max(g)], by = id]
Mais il n'est que 30% plus rapide que plyr, ce qui suggère qu'il n'est probablement pas idiomatique.
Voici le rapide data.table
façon:
bdt[bdt[, .I[g == max(g)], by = id]$V1]
Cela évite de construire .SD
, qui est le goulot d'étranglement dans vos expressions.
edit: En fait, la principale raison pour laquelle l'OP est lent n'est pas seulement qu'il a .SD
dedans, mais le fait qu'il l'utilise d'une manière particulière - en appelant [.data.table
, qui a actuellement une énorme surcharge, donc l'exécuter en boucle (quand on fait un by
) accumule une très grosse pénalité.