J'ai des données avec plus de 3 millions d'enregistrements ayant start.time et end.time comme deux des variables. Les 10 premiers obs sont les suivants:
start.date start.time end.date end.time
1 2012-07-13 15:01:32 2012-07-13 15:02:42
2 2012-07-05 18:26:31 2012-07-05 18:27:19
3 2012-07-14 20:23:21 2012-07-14 20:24:11
4 2012-07-29 16:09:54 2012-07-29 16:10:48
5 2012-07-21 14:58:32 2012-07-21 15:00:17
6 2012-07-04 15:36:31 2012-07-04 15:37:11
7 2012-07-22 18:28:31 2012-07-22 18:28:50
8 2012-07-09 21:08:42 2012-07-09 21:09:02
9 2012-07-05 09:44:52 2012-07-05 09:45:05
10 2012-07-02 18:50:47 2012-07-02 18:51:38
J'ai besoin de calculer la différence entre start.time et end.time.
J'ai utilisé le code suivant:
mbehave11$diff.time <- difftime(mbehave11$end.time, mbehave11$start.time, units="secs")
Mais je reçois cette erreur:
Error in as.POSIXlt.character(x, tz, ...) :
character string is not in a standard unambiguous format
In addition: Warning messages:
1: In is.na.POSIXlt(strptime(xx, f <- "%Y-%m-%d %H:%M:%OS", tz = tz)) :
Reached total allocation of 1535Mb: see help(memory.size)
Vous devez transformer vos chaînes en objets de date avant de pouvoir effectuer l'arithmétique date/heure. Essaye ça:
a) Lire vos données:
R> dat <- read.table(textConnection("start.date start.time end.date end.time
2012-07-13 15:01:32 2012-07-13 15:02:42
2012-07-05 18:26:31 2012-07-05 18:27:19
2012-07-14 20:23:21 2012-07-14 20:24:11"), header=TRUE)
b) Travailler sur une observation:
R> strptime( paste(dat[,1], dat[,2]), "%Y-%m-%d %H:%M:%S")
[1] "2012-07-13 15:01:32" "2012-07-05 18:26:31" "2012-07-14 20:23:21"
c) Travailler sur l'ensemble, convertir en numérique:
R> as.numeric(difftime(strptime(paste(dat[,1],dat[,2]),"%Y-%m-%d %H:%M:%S"),
strptime(paste(dat[,3],dat[,4]),"%Y-%m-%d %H:%M:%S")))
[1] -70 -48 -50
R>
Je pense que vous pouvez utiliser le package lubridate
il a une méthode appelée ymd_hms
vous pouvez l'utiliser pour obtenir l'heure de la chaîne: c'est beaucoup plus rapide pour les grands ensembles de données
library(lubridate)
dat <- read.table(textConnection("start.date start.time end.date end.time
2012-07-13 15:01:32 2012-07-13 15:02:42
2012-07-05 18:26:31 2012-07-05 18:27:19
2012-07-14 20:23:21 2012-07-14 20:24:11"), header=TRUE)
starttime = ymd_hms(paste(dat[,1], dat[,2]))
endtime = ymd_hms(paste(dat[,3], dat[,4]))
interval = difftime(endtime,starttime,units = "secs")
ou vous pouvez simplement le faire sur une seule ligne, mais cela prend plus de temps pour un ensemble de données volumineux:
difftime(paste(dat[,3], dat[,4]),paste(dat[,1], dat[,2]),units = "secs")