web-dev-qa-db-fra.com

Sous-ensemble par groupe avec data.table

Supposons que j'ai un tableau de données contenant certains joueurs de baseball:

library(plyr)
library(data.table)

bdt <- as.data.table(baseball)

Pour chaque joueur (donné par id), je veux trouver la ligne correspondant à l'année où ils ont joué le plus de matchs. C'est simple en plyr:

ddply(baseball, "id", subset, g == max(g))

Quel est le code équivalent pour data.table?

J'ai essayé:

setkey(bdt, "id") 
bdt[g == max(g)]  # only one row
bdt[g == max(g), by = id]  # Error: 'by' or 'keyby' is supplied but not j
bdt[, .SD[g == max(g)]] # only one row

Cela marche:

bdt[, .SD[g == max(g)], by = id] 

Mais il n'est que 30% plus rapide que plyr, ce qui suggère qu'il n'est probablement pas idiomatique.

51
hadley

Voici le rapide data.table façon:

bdt[bdt[, .I[g == max(g)], by = id]$V1]

Cela évite de construire .SD, qui est le goulot d'étranglement dans vos expressions.

edit: En fait, la principale raison pour laquelle l'OP est lent n'est pas seulement qu'il a .SD dedans, mais le fait qu'il l'utilise d'une manière particulière - en appelant [.data.table, qui a actuellement une énorme surcharge, donc l'exécuter en boucle (quand on fait un by) accumule une très grosse pénalité.

67
eddi