J'ai une question sur l'extraction d'une partie d'une chaîne. Par exemple, j'ai une chaîne comme celle-ci:
a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0"
J'ai besoin d'extraire tout ce qui se situe entre GN=
et ;
.Alors ici, ce sera NOC2L
.
Est-ce possible?
Remarque: Ceci est une INFO
colonne Format de fichier VCF . GN étant le nom du gène, nous souhaitons extraire le nom du gène de la colonne INFO
.
Essaye ça:
sub(".*?GN=(.*?);.*", "\\1", a)
# [1] "NOC2L"
En supposant que les points-virgules séparent vos éléments et que les signes d’égalité apparaissent exclusivement entre des paires clé/valeur, une méthode non strictement stricte serait:
bits <- unlist(strsplit(a, ';'))
do.call(rbind, strsplit(bits, '='))
[,1] [,2]
[1,] "DP" "26"
[2,] "AN" "2"
[3,] "DB" "1"
[4,] "AC" "1"
[5,] "MQ" "56"
[6,] "MZ" "0"
[7,] "ST" "5:10,7:2"
[8,] "CQ" "SYNONYMOUS_CODING"
[9,] "GN" "NOC2L"
[10,] "PA" "1^1:0.720&2^1:0"
Ensuite, il suffit de sélectionner l'élément approprié.
Une façon serait:
gsub(".+=(\\w+);.+", "\\1", a, Perl=T)
Je suis sûr qu'il existe des moyens plus élégants de le faire.
a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0"
m = regexpr("GN.*;",a)
substr(a,m+3,m+attr(m,"match.length")-2)
Comme la chaîne provient d'un fichier VCF, nous pouvons utiliser VariantAnnotation package:
library(VariantAnnotation)
# read dummy VCF file
fl <- system.file("extdata", "chr22.vcf.gz", package="VariantAnnotation")
vcf <- readVcf(fl, "hg19")
# see first 5 variables for info column
info(vcf)[1:3, 1:5]
# DataFrame with 3 rows and 5 columns
# LDAF AVGPOST RSQ ERATE THETA
# <numeric> <numeric> <numeric> <numeric> <numeric>
# rs7410291 0.3431 0.9890 0.9856 2e-03 0.0005
# rs147922003 0.0091 0.9963 0.8398 5e-04 0.0011
# rs114143073 0.0098 0.9891 0.5919 7e-04 0.0008
# Now extract one column, e.g.: LDAF
info(vcf)[1:3, "LDAF"]
# [1] 0.3431 0.0091 0.0098
Dans l'exemple ci-dessus d'objet VCF, il n'y a pas de colonne "GN", mais l'idée est la même. Dans votre cas, ci-dessous devrait fonctionner:
# extract gene name
info(vcf)[, "GN"]
Au lieu de combiner les références arrières avec sub
, vous pouvez utiliser une assertion lookbehind et lookahead avec une opération d'extraction, comme suit:
library(stringr)
a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0"
str_extract(a, "(?<=GN=)[^;]*(?=;|$)")
# [1] NOC2L
Où:
(?<=GN=)
affirme que GN=
doit être en avance sur le match(?=;|$)
affirme que ;
ou la fin de la chaîne ($
) doit être derrière (après) la correspondance[^;]*
correspond à n'importe quel nombre de caractères qui ne sont pas ;
Remarque: [^;]*
a été utilisé sur .*
, ce dernier pouvant correspondre à un ;
et continuer à correspondre jusqu'à la fin de la chaîne ($
).