Quelqu'un peut-il aider s'il vous plaît comment obtenir la liste des ensembles de données intégrés et leurs paquets de dépendance?
Il existe plusieurs façons de trouver les jeux de données inclus dans R:
1: Utiliser data()
vous donnera une liste des jeux de données de tous les paquetages chargés (et pas seulement ceux du paquet datasets
); les jeux de données sont commandés par paquet
2: / Utiliser data(package = .packages(all.available = TRUE))
vous donnera une liste de tous les jeux de données dans les paquetages disponibles sur votre ordinateur (c'est-à-dire aussi ceux qui ne sont pas chargés)
3: Utiliser data(package = "packagename")
vous donnera les jeux de données de ce paquet spécifique. data(package = "plyr")
donnera les jeux de données du paquet plyr
.
Si vous voulez savoir dans quel paquet un jeu de données est situé (par exemple, le jeu de données acme
), vous pouvez effectuer les opérations suivantes:
dat <- as.data.frame(data(package = .packages(all.available = TRUE))$results)
dat[dat$Item=="acme", c(1,3,4)]
qui donne:
Package Item Title
107 boot acme Monthly Excess Returns
J'ai souvent besoin de connaître également la structure des jeux de données disponibles. J'ai donc créé dataStr
dans mon package divers }.
dataStr <- function(package="datasets", ...)
{
d <- data(package=package, envir=new.env(), ...)$results[,"Item"]
d <- sapply(strsplit(d, split=" ", fixed=TRUE), "[", 1)
d <- d[order(tolower(d))]
for(x in d){ message(x, ": ", class(get(x))); message(str(get(x)))}
}
dataStr()
Veuillez noter que la sortie dans la console est assez longue.
C'est le type de sortie:
[...]
warpbreaks: data.frame
'data.frame': 54 obs. of 3 variables:
$ breaks : num 26 30 54 25 70 52 51 26 67 18 ...
$ wool : Factor w/ 2 levels "A","B": 1 1 1 1 1 1 1 1 1 1 ...
$ tension: Factor w/ 3 levels "L","M","H": 1 1 1 1 1 1 1 1 1 2 ...
WorldPhones: matrix
num [1:7, 1:7] 45939 60423 64721 68484 71799 ...
- attr(*, "dimnames")=List of 2
..$ : chr [1:7] "1951" "1956" "1957" "1958" ...
..$ : chr [1:7] "N.Amer" "Europe" "Asia" "S.Amer" ...
WWWusage: ts
Time-Series [1:100] from 1 to 100: 88 84 85 85 84 85 83 85 88 89 ...
Edit: pour obtenir une sortie plus informative et l'utiliser pour les packages non chargés ou tous les packages du chemin de recherche, veuillez utiliser la version en ligne révisée avec
source("https://raw.githubusercontent.com/brry/berryFunctions/master/R/dataStr.R")
Voici une liste complète des jeux de données de paquets R maintenue par le professeur Vincent Arel-Bundock . https://vincentarelbundock.github.io/Rdatasets/
Rdatasets est une collection de plus de 1200 jeux de données qui étaient à l'origine distribué aux côtés de l’environnement de logiciel statistique R et de certains de ses paquets add-on. L’objectif est de rendre ces données plus larges accessible pour l'enseignement et le développement de logiciels statistiques.
Courir
help(package = "datasets")
dans la console R Studio et vous obtiendrez tous les jeux de données disponibles dans l’onglet Aide soignée à droite.