Hier, j'ai commenté une réponse dans laquelle une personne avait utilisé [0123456789]
dans un expression régulière plutôt que [0-9]
ou \d
. J'ai dit qu'il était probablement plus efficace d'utiliser un spécificateur de plage ou de chiffre qu'un jeu de caractères.
J’ai décidé de tester cela aujourd’hui et j’ai découvert à ma grande surprise que (dans le moteur de calcul regex C # au moins) \d
semble être moins efficace que l’un ou l’autre des deux autres qui ne semblent pas trop différer beaucoup. Voici ma sortie de test sur 10000 chaînes aléatoires de 1000 caractères aléatoires, dont 5077 contiennent en fait un chiffre:
Regular expression \d took 00:00:00.2141226 result: 5077/10000
Regular expression [0-9] took 00:00:00.1357972 result: 5077/10000 63.42 % of first
Regular expression [0123456789] took 00:00:00.1388997 result: 5077/10000 64.87 % of first
C'est une surprise pour moi pour deux raisons:
\d
est pire que [0-9]
. Existe-t-il plus à \d
que simplement un raccourci pour [0-9]
?Voici le code de test:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Diagnostics;
using System.Text.RegularExpressions;
namespace SO_RegexPerformance
{
class Program
{
static void Main(string[] args)
{
var Rand = new Random(1234);
var strings = new List<string>();
//10K random strings
for (var i = 0; i < 10000; i++)
{
//Generate random string
var sb = new StringBuilder();
for (var c = 0; c < 1000; c++)
{
//Add a-z randomly
sb.Append((char)('a' + Rand.Next(26)));
}
//In roughly 50% of them, put a digit
if (Rand.Next(2) == 0)
{
//Replace one character with a digit, 0-9
sb[Rand.Next(sb.Length)] = (char)('0' + Rand.Next(10));
}
strings.Add(sb.ToString());
}
var baseTime = testPerfomance(strings, @"\d");
Console.WriteLine();
var testTime = testPerfomance(strings, "[0-9]");
Console.WriteLine(" {0:P2} of first", testTime.TotalMilliseconds / baseTime.TotalMilliseconds);
testTime = testPerfomance(strings, "[0123456789]");
Console.WriteLine(" {0:P2} of first", testTime.TotalMilliseconds / baseTime.TotalMilliseconds);
}
private static TimeSpan testPerfomance(List<string> strings, string regex)
{
var sw = new Stopwatch();
int successes = 0;
var rex = new Regex(regex);
sw.Start();
foreach (var str in strings)
{
if (rex.Match(str).Success)
{
successes++;
}
}
sw.Stop();
Console.Write("Regex {0,-12} took {1} result: {2}/{3}", regex, sw.Elapsed, successes, strings.Count);
return sw.Elapsed;
}
}
}
\d
vérifie tous les chiffres Unicode, alors que [0-9]
est limité à ces 10 caractères. Par exemple, Persian digits, ۱۲۳۴۵۶۷۸۹
, est un exemple de chiffres Unicode qui correspondent à \d
, mais pas [0-9]
.
Vous pouvez générer une liste de tous ces caractères à l'aide du code suivant:
var sb = new StringBuilder();
for(UInt16 i = 0; i < UInt16.MaxValue; i++)
{
string str = Convert.ToChar(i).ToString();
if (Regex.IsMatch(str, @"\d"))
sb.Append(str);
}
Console.WriteLine(sb.ToString());
Qui génère:
0123456789٠١٢٣٤٥٦٧٨٩۰۱۲۳۴۵۶۷۸۹߀߁߂߃߄߅߆߇߈߉०१२३४५६७८ ᥆᥇᥈᥉᥊᥋᥌᥍᥎᥏ ᧐᧑᧒᧓᧔᧕᧖᧗᧘᧙ ᭐᭑᭒᭓᭔᭕᭖᭗᭘᭙᮰᮱᮲᮳᮴᮵᮶᮷᮸᮹᱀᱁᱂᱃᱄᱅᱆᱇᱈᱉᱐᱑᱒᱓᱔᱕᱖᱗᱘᱙꘠꘡꘢꘣꘤꘥꘦꘧꘨꘩꣐꣑꣒꣓꣔꣕꣖꣗꣘꣙꤀꤁꤂꤃꤄꤅꤆꤇꤈꤉꩐꩑꩒꩓꩔꩕꩖꩗꩘꩙0123456789
Nous remercions ByteBlast de l'avoir remarqué dans la documentation. Il suffit de changer le constructeur de regex:
var rex = new Regex(regex, RegexOptions.ECMAScript);
Donne de nouveaux horaires:
Regex \d took 00:00:00.1355787 result: 5077/10000
Regex [0-9] took 00:00:00.1360403 result: 5077/10000 100.34 % of first
Regex [0123456789] took 00:00:00.1362112 result: 5077/10000 100.47 % of first
De “\ d” dans regex signifie-t-il un chiffre? :
[0-9]
n'est pas équivalent à\d
.[0-9]
correspond uniquement aux0123456789
caractères, alors que\d
correspond à[0-9]
et à d'autres caractères numériques, par exemple les chiffres en arabe oriental٠١٢٣٤٥٦٧٨٩
Un ajout à réponse du haut de Sina Iravianian , voici une version .NET 4.5 (puisque seule cette version supporte la sortie UTF16, cf. les trois premières lignes) de son code, en utilisant la gamme complète de points de code Unicode. En raison du manque de prise en charge appropriée pour les plans Unicode supérieurs, de nombreuses personnes ne sont pas conscientes de la nécessité de toujours rechercher et inclure les plans Unicode supérieurs. Néanmoins, ils contiennent parfois des caractères importants.
Mettre à jour
Puisque \d
ne prend pas en charge les caractères non-BMP dans les expressions rationnelles (merci xanatos ), voici une version qui utilise la base de données de caractères Unicode.
public static void Main()
{
var unicodeEncoding = new UnicodeEncoding(!BitConverter.IsLittleEndian, false);
Console.InputEncoding = unicodeEncoding;
Console.OutputEncoding = unicodeEncoding;
var sb = new StringBuilder();
for (var codePoint = 0; codePoint <= 0x10ffff; codePoint++)
{
var isSurrogateCodePoint = codePoint <= UInt16.MaxValue
&& ( char.IsLowSurrogate((char) codePoint)
|| char.IsHighSurrogate((char) codePoint)
);
if (isSurrogateCodePoint)
continue;
var codePointString = char.ConvertFromUtf32(codePoint);
foreach (var category in new []{
UnicodeCategory.DecimalDigitNumber,
UnicodeCategory.LetterNumber,
UnicodeCategory.OtherNumber})
{
sb.AppendLine($"{category}");
foreach (var ch in charInfo[category])
{
sb.Append(ch);
}
sb.AppendLine();
}
}
Console.WriteLine(sb.ToString());
Console.ReadKey();
}
Donner la sortie suivante:
DecimalDigitNumber 012345678901234567890123456789߀߁߂߃߄߅߆߇߈߉012345678 9 01২345678901234567890123456789 ୦୧୨୩୪୫୬୭୮୯ 0123456789012345678901234567890123456789 ෦෧෨෩෪෫෬෭෮෯ 012345678901234567890123456789012345678901234567890123456789 ᠐᠑᠒᠓᠔᠕᠖᠗᠘᠙ ᥆᥇᥈᥉᥊᥋᥌᥍᥎᥏ ᧐᧑᧒᧓᧔᧕᧖᧗᧘᧙᪀᪁᪂᪃᪄᪅᪆᪇᪈᪉᪐᪑᪒᪓᪔᪕᪖᪗᪘᪙ ᭐᭑᭒᭓᭔᭕᭖᭗᭘᭙᮰᮱᮲᮳᮴᮵᮶᮷᮸᮹᱀᱁᱂᱃᱄᱅᱆᱇᱈᱉᱐᱑᱒᱓᱔᱕᱖᱗᱘᱙꘠꘡꘢꘣꘤꘥꘦꘧꘨꘩꣐꣑꣒꣓꣔꣕꣖꣗꣘꣙꤀꤁꤂꤃꤄꤅꤆꤇꤈꤉꧐꧑꧒꧓꧔꧕꧖꧗꧘꧙꧰꧱꧲꧳꧴꧵꧶꧷꧸꧹꩐꩑꩒ ꩔꩕꩖꩗꩘꩙꯰꯱꯲꯳꯴꯵꯶꯷꯸꯹
LettreNuméro
ᛮᛯᛰⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫⅬⅭⅮⅯⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹⅺⅻⅼⅽⅾⅿↀↁↂↅↆↇↈ〇〡〢〣〤〥〦〧〨〩〸〹〺ꛦꛧꛨꛩꛪꛫꛬꛭꛮꛯ
OtherNumber ²³¹¼½¾৴৵৶৷৸৹
\ d vérifie tout le Unicode, alors que [0-9] est limité à ces 10 caractères. Si seulement 10 chiffres, vous devriez utiliser. Autres Je recommande d'utiliser\d , Parce que moins d'écriture.