Filtrage d'un utf8 invalide

Question

J'ai un fichier texte dans un encodage inconnu ou mixte. Je veux voir les lignes qui contiennent une séquence d'octets qui n'est pas UTF-8 valide (en canalisant le fichier texte dans un programme). De manière équivalente, je veux filtrer les lignes qui sont UTF-8 valides. En d'autres termes, je recherche grep [notutf8].

Une solution idéale serait portable, courte et généralisable à d'autres encodages, mais si vous pensez que la meilleure façon est de cuire dans le définition de l'UTF-8 , allez-y.

vinc17 · Accepted Answer

Si vous souhaitez utiliser grep, vous pouvez faire:

grep -axv '.*' file

dans les locales UTF-8 pour obtenir les lignes qui ont au moins une séquence UTF-8 invalide (cela fonctionne avec GNU Grep au moins).

frabjous · Answer

Je pense que vous voulez probablement iconv . C'est pour convertir entre des jeux de codes et prend en charge un nombre absurde de formats. Par exemple, pour supprimer tout ce qui n'est pas valide en UTF-8, vous pouvez utiliser:

iconv -c -t UTF-8 < input.txt > output.txt

Sans l'option -c, il signalera des problèmes de conversion en stderr, donc avec la direction du processus, pourriez-vous enregistrer une liste de ceux-ci. Une autre façon serait de supprimer les éléments non UTF8, puis

diff input.txt output.txt

pour une liste des modifications apportées.

Peter.O · Answer

Edit: j'ai corrigé une faute de frappe dans l'expression régulière. Il fallait un '\ x80` pas \80.

Le regex pour filtrer les formulaires UTF-8 invalides, pour l'adhésion stricte à UTF-8, est le suivant

Perl -l -ne '/ ^( ([\x00-\x7F]) # 1-byte pattern |([\xC2-\xDF][\x80-\xBF]) # 2-byte pattern |((([\xE0][\xA0-\xBF])|([\xED][\x80-\x9F])|([\xE1-\xEC\xEE-\xEF][\x80-\xBF]))([\x80-\xBF])) # 3-byte pattern |((([\xF0][\x90-\xBF])|([\xF1-\xF3][\x80-\xBF])|([\xF4][\x80-\x8F]))([\x80-\xBF]{2})) # 4-byte pattern )*$ /x or print'

Sortie (des lignes clés.from Test 1):

Codepoint ========= 00001000 Test=1 mode=strict valid,invalid,fail=(1000,0,0) 0000E000 Test=1 mode=strict valid,invalid,fail=(D800,800,0) 0010FFFF mode=strict test-return=(0,0) valid,invalid,fail=(10F800,800,0)

Q. Comment crée-t-on des données de test pour tester une expression rationnelle qui filtre Unicode invalide?
UNE. Créez votre propre algorithme de test UTF-8 et enfreignez ses règles ...
Catch-22 .. Mais alors, comment testez-vous ensuite votre algorithme de test?

L'expression régulière ci-dessus a été testée (en utilisant iconv comme référence) pour chaque valeur entière de 0x00000 à 0x10FFFF .. Cette valeur supérieure étant la valeur entière maximale d'un point de code Unicode

En novembre 2003, l'UTF-8 était limité par la RFC 3629 à quatre octets couvrant uniquement la plage U + 0000 à U + 10FFFF, afin de correspondre aux contraintes du codage de caractères UTF-16. `

Selon cette wikipedia UTF-8 page ,.

UTF-8 code chacun des 1 112 064 points de code du jeu de caractères Unicode, en utilisant un à quatre octets de 8 bits

Ce nombre (1 112 064) équivaut à une plage 0x000000 à 0x10F7FF, qui est 0x0800 timide de la valeur entière maximale réelle pour le codec Unicode le plus élevé: 0x10FFFF

Ce bloc d'entiers est absent du spectre des points de code Unicode, en raison de la nécessité du codage UTF-16 pour aller au-delà de son intention de conception d'origine via un système appelé paires de substitution . Un bloc de 0x0800 entiers a été réservé pour être utilisé par UTF-16 .. Ce bloc couvre la plage0x00D800 à 0x00DFFF. Aucun de ces inteters n'est une valeur Unicode légale et n'est donc pas une valeur UTF-8 non valide.

Dans Test 1 , le regex a été testé par rapport à chaque numéro de la plage de points de code Unicode, et il correspond exactement aux résultats de iconv .. ie. 0x010F7FF valeurs valides et 0x000800 valeurs invalides.

Cependant, le problème se pose maintenant de: * Comment le regex gère-t-il la valeur UTF-8 hors plage; au dessus de 0x010FFFF (UTF-8 peut s'étendre à 6 octets, avec une valeur entière maximale de x7FFFFFFF ?
Pour générer les valeurs d'octets * non-unicode UTF-8 nécessaires, j'ai utilisé la commande suivante:

 Perl -C -e 'print chr 0x'$hexUTF32BE

Pour tester leur validité (d'une certaine manière), j'ai utilisé Gilles' Regex UTF-8 ...

 Perl -l -ne '/ ^( [\000-\177] # 1-byte pattern |[\300-\337][\200-\277] # 2-byte pattern |[\340-\357][\200-\277]{2} # 3-byte pattern |[\360-\367][\200-\277]{3} # 4-byte pattern |[\370-\373][\200-\277]{4} # 5-byte pattern |[\374-\375][\200-\277]{5} # 6-byte pattern )*$ /x or print'

La sortie de 'Perl's print chr' correspond au filtrage de l'expression rationnelle de Gilles .. L'un renforce la validité de l'autre .. Je ne peux pas utiliser iconv car il ne gère que le sous-ensemble valide Unicode Standard du plus large (original) Norme UTF-8 ...

Les nunbers impliqués sont assez grands, j'ai donc testé des haut de gamme, bas de gamme, et plusieurs scans progressifs par incréments tels que, 11111, 13579, 33333, 53441 ... Les résultats correspondent tous, donc maintenant il ne reste plus qu'à tester l'expression rationnelle par rapport à ces valeurs de style UTF-8 hors limites (invalide pour Unicode, et donc également invalide pour l'UTF-8 strict lui-même).

Voici les modules de test:

[[ "$(locale charmap)" != "UTF-8" ]] && { echo "ERROR: locale must be UTF-8, but it is $(locale charmap)"; exit 1; } # Testing the UTF-8 regex # # Tests to check that the observed byte-ranges (above) have # been accurately observed and included in the test code and final regex. # ========================================================================= : 2 bytes; B2=0 # run-test=1 do-not-test=0 : 3 bytes; B3=0 # run-test=1 do-not-test=0 : 4 bytes; B4=0 # run-test=1 do-not-test=0 : regex; Rx=1 # run-test=1 do-not-test=0 ((strict=16)); mode[$strict]=strict # iconv -f UTF-16BE then iconv -f UTF-32BE beyond 0xFFFF) (( lax=32)); mode[$lax]=lax # iconv -f UTF-32BE only) # modebits=$strict # UTF-8, in relation to UTF-16 has invalid values # modebits=$strict automatically shifts to modebits=$lax # when the tested integer exceeds 0xFFFF # modebits=$lax # UTF-8, in relation to UTF-32, has no restrictione # Test 1 Sequentially tests a range of Big-Endian integers # * Unicode Codepoints are a subset ofBig-Endian integers # ( based on 'iconv' -f UTF-32BE -f UTF-8 ) # Note: strict UTF-8 has a few quirks because of UTF-16 # Set modebits=16 to "strictly" test the low range Test=1; modebits=$strict # Test=2; modebits=$lax # Test=3 mode3wlo=$(( 1*4)) # minimum chars * 4 ( '4' is for UTF-32BE ) mode3whi=$((10*4)) # minimum chars * 4 ( '4' is for UTF-32BE ) ######################################################################### # 1 byte UTF-8 values: Nothing to do; no complexities. ######################################################################### # 2 Byte UTF-8 values: Verifying that I've got the right range values. if ((B2==1)) ; then echo "# Test 2 bytes for Valid UTF-8 values: ie. values which are in range" # ========================================================================= time \ for d1 in {194..223} ;do # bin oct hex dec # lo 11000010 302 C2 194 # hi 11011111 337 DF 223 B2b1=$(printf "%0.2X" $d1) # for d2 in {128..191} ;do # bin oct hex dec # lo 10000000 200 80 128 # hi 10111111 277 BF 191 B2b2=$(printf "%0.2X" $d2) # echo -n "${B2b1}${B2b2}" | xxd -p -u -r | iconv -f UTF-8 >/dev/null || { echo "ERROR: Invalid UTF-8 found: ${B2b1}${B2b2}"; exit 20; } # done done echo # Now do a negated test.. This takes longer, because there are more values. echo "# Test 2 bytes for Invalid values: ie. values which are out of range" # ========================================================================= # Note: 'iconv' will treat a leading \x00-\x7F as a valid leading single, # so this negated test primes the first UTF-8 byte with values starting at \x80 time \ for d1 in {128..193} {224..255} ;do #for d1 in {128..194} {224..255} ;do # force a valid UTF-8 (needs $B2b2) B2b1=$(printf "%0.2X" $d1) # for d2 in {0..127} {192..255} ;do #for d2 in {0..128} {192..255} ;do # force a valid UTF-8 (needs $B2b1) B2b2=$(printf "%0.2X" $d2) # echo -n "${B2b1}${B2b2}" | xxd -p -u -r | iconv -f UTF-8 2>/dev/null && { echo "ERROR: VALID UTF-8 found: ${B2b1}${B2b2}"; exit 21; } # done done echo fi ######################################################################### # 3 Byte UTF-8 values: Verifying that I've got the right range values. if ((B3==1)) ; then echo "# Test 3 bytes for Valid UTF-8 values: ie. values which are in range" # ======================================================================== time \ for d1 in {224..239} ;do # bin oct hex dec # lo 11100000 340 E0 224 # hi 11101111 357 EF 239 B3b1=$(printf "%0.2X" $d1) # if [[ $B3b1 == "E0" ]] ; then B3b2range="$(echo {160..191})" # bin oct hex dec # lo 10100000 240 A0 160 # hi 10111111 277 BF 191 Elif [[ $B3b1 == "ED" ]] ; then B3b2range="$(echo {128..159})" # bin oct hex dec # lo 10000000 200 80 128 # hi 10011111 237 9F 159 else B3b2range="$(echo {128..191})" # bin oct hex dec # lo 10000000 200 80 128 # hi 10111111 277 BF 191 fi # for d2 in $B3b2range ;do B3b2=$(printf "%0.2X" $d2) echo "${B3b1} ${B3b2} xx" # for d3 in {128..191} ;do # bin oct hex dec # lo 10000000 200 80 128 # hi 10111111 277 BF 191 B3b3=$(printf "%0.2X" $d3) # echo -n "${B3b1}${B3b2}${B3b3}" | xxd -p -u -r | iconv -f UTF-8 >/dev/null || { echo "ERROR: Invalid UTF-8 found: ${B3b1}${B3b2}${B3b3}"; exit 30; } # done done done echo # Now do a negated test.. This takes longer, because there are more values. echo "# Test 3 bytes for Invalid values: ie. values which are out of range" # ========================================================================= # Note: 'iconv' will treat a leading \x00-\x7F as a valid leading single, # so this negated test primes the first UTF-8 byte with values starting at \x80 # # real 26m28.462s \ # user 27m12.526s | stepping by 2 # sys 13m11.193s / # # real 239m00.836s \ # user 225m11.108s | stepping by 1 # sys 120m00.538s / # time \ for d1 in {128..223..1} {240..255..1} ;do #for d1 in {128..224..1} {239..255..1} ;do # force a valid UTF-8 (needs $B2b2,$B3b3) B3b1=$(printf "%0.2X" $d1) # if [[ $B3b1 == "E0" ]] ; then B3b2range="$(echo {0..159..1} {192..255..1})" #B3b2range="$(> {192..255..1})" # force a valid UTF-8 (needs $B3b1,$B3b3) Elif [[ $B3b1 == "ED" ]] ; then B3b2range="$(echo {0..127..1} {160..255..1})" #B3b2range="$(echo {0..128..1} {160..255..1})" # force a valid UTF-8 (needs $B3b1,$B3b3) else B3b2range="$(echo {0..127..1} {192..255..1})" #B3b2range="$(echo {0..128..1} {192..255..1})" # force a valid UTF-8 (needs $B3b1,$B3b3) fi for d2 in $B3b2range ;do B3b2=$(printf "%0.2X" $d2) echo "${B3b1} ${B3b2} xx" # for d3 in {0..127..1} {192..255..1} ;do #for d3 in {0..128..1} {192..255..1} ;do # force a valid UTF-8 (needs $B2b1) B3b3=$(printf "%0.2X" $d3) # echo -n "${B3b1}${B3b2}${B3b3}" | xxd -p -u -r | iconv -f UTF-8 2>/dev/null && { echo "ERROR: VALID UTF-8 found: ${B3b1}${B3b2}${B3b3}"; exit 31; } # done done done echo fi ######################################################################### # Brute force testing in the Astral Plane will take a VERY LONG time.. # Perhaps selective testing is more appropriate, now that the previous tests # have panned out okay... # # 4 Byte UTF-8 values: if ((B4==1)) ; then echo "# Test 4 bytes for Valid UTF-8 values: ie. values which are in range" # ================================================================== # real 58m18.531s \ # user 56m44.317s | # sys 27m29.867s / time \ for d1 in {240..244} ;do # bin oct hex dec # lo 11110000 360 F0 240 # hi 11110100 364 F4 244 -- F4 encodes some values greater than 0x10FFFF; # such a sequence is invalid. B4b1=$(printf "%0.2X" $d1) # if [[ $B4b1 == "F0" ]] ; then B4b2range="$(echo {144..191})" ## f0 90 80 80 to f0 bf bf bf # bin oct hex dec 010000 -- 03FFFF # lo 10010000 220 90 144 # hi 10111111 277 BF 191 # Elif [[ $B4b1 == "F4" ]] ; then B4b2range="$(echo {128..143})" ## f4 80 80 80 to f4 8f bf bf # bin oct hex dec 100000 -- 10FFFF # lo 10000000 200 80 128 # hi 10001111 217 8F 143 -- F4 encodes some values greater than 0x10FFFF; # such a sequence is invalid. else B4b2range="$(echo {128..191})" ## fx 80 80 80 to f3 bf bf bf # bin oct hex dec 0C0000 -- 0FFFFF # lo 10000000 200 80 128 0A0000 # hi 10111111 277 BF 191 fi # for d2 in $B4b2range ;do B4b2=$(printf "%0.2X" $d2) # for d3 in {128..191} ;do # bin oct hex dec # lo 10000000 200 80 128 # hi 10111111 277 BF 191 B4b3=$(printf "%0.2X" $d3) echo "${B4b1} ${B4b2} ${B4b3} xx" # for d4 in {128..191} ;do # bin oct hex dec # lo 10000000 200 80 128 # hi 10111111 277 BF 191 B4b4=$(printf "%0.2X" $d4) # echo -n "${B4b1}${B4b2}${B4b3}${B4b4}" | xxd -p -u -r | iconv -f UTF-8 >/dev/null || { echo "ERROR: Invalid UTF-8 found: ${B4b1}${B4b2}${B4b3}${B4b4}"; exit 40; } # done done done done echo "# Test 4 bytes for Valid UTF-8 values: END" echo fi ######################################################################## # There is no test (yet) for negated range values in the astral plane. # # (all negated range values must be invalid) # # I won't bother; This was mainly for me to ge the general feel of # # the tests, and the final test below should flush anything out.. # # Traversing the intire UTF-8 range takes quite a while... # # so no need to do it twice (albeit in a slightly different manner) # ######################################################################## ################################ ### The construction of: #### ### The Regular Expression #### ### (de-construction?) #### ################################ # BYTE 1 BYTE 2 BYTE 3 BYTE 4 # 1: [\x00-\x7F] # =========== # ([\x00-\x7F]) # # 2: [\xC2-\xDF] [\x80-\xBF] # ================================= # ([\xC2-\xDF][\x80-\xBF]) # # 3: [\xE0] [\xA0-\xBF] [\x80-\xBF] # [\xED] [\x80-\x9F] [\x80-\xBF] # [\xE1-\xEC\xEE-\xEF] [\x80-\xBF] [\x80-\xBF] # ============================================== # ((([\xE0][\xA0-\xBF])|([\xED][\x80-\x9F])|([\xE1-\xEC\xEE-\xEF][\x80-\xBF]))([\x80-\xBF])) # # 4 [\xF0] [\x90-\xBF] [\x80-\xBF] [\x80-\xBF] # [\xF1-\xF3] [\x80-\xBF] [\x80-\xBF] [\x80-\xBF] # [\xF4] [\x80-\x8F] [\x80-\xBF] [\x80-\xBF] # =========================================================== # ((([\xF0][\x90-\xBF])|([\xF1-\xF3][\x80-\xBF])|([\xF4][\x80-\x8F]))([\x80-\xBF]{2})) # # The final regex # =============== # 1-4: (([\x00-\x7F])|([\xC2-\xDF][\x80-\xBF])|((([\xE0][\xA0-\xBF])|([\xED][\x80-\x9F])|([\xE1-\xEC\xEE-\xEF][\x80-\xBF]))([\x80-\xBF]))|((([\xF0][\x90-\xBF])|([\xF1-\xF3][\x80-\xBF])|([\xF4][\x80-\x8F]))([\x80-\xBF]{2}))) # 4-1: (((([\xF0][\x90-\xBF])|([\xF1-\xF3][\x80-\xBF])|([\xF4][\x80-\x8F]))([\x80-\xBF]{2}))|((([\xE0][\xA0-\xBF])|([\xED][\x80-\x9F])|([\xE1-\xEC\xEE-\xEF][\x80-\xBF]))([\x80-\xBF]))|([\xC2-\xDF][\x80-\xBF])|([\x00-\x7F])) ####################################################################### # The final Test; for a single character (multi chars to follow) # # Compare the return code of 'iconv' against the 'regex' # # for the full range of 0x000000 to 0x10FFFF # # # # Note; this script has 3 modes: # # Run this test TWICE, set each mode Manually! # # # # 1. Sequentially test every value from 0x000000 to 0x10FFFF # # 2. Throw a spanner into the works! Force random byte patterns # # 2. Throw a spanner into the works! Force random longer strings # # ============================== # # # # Note: The purpose of this routine is to determine if there is any # # difference how 'iconv' and 'regex' handle the same data # # # ####################################################################### if ((Rx==1)) ; then # real 191m34.826s # user 158m24.114s # sys 83m10.676s time { invalCt=0 validCt=0 failCt=0 decBeg=$((0x00110000)) # incement by decimal integer decMax=$((0x7FFFFFFF)) # incement by decimal integer # for ((CPDec=decBeg;CPDec<=decMax;CPDec+=13247)) ;do ((D==1)) && echo "==========================================================" # # Convert decimal integer '$CPDec' to Hex-digits; 6-long (dec2hex) hexUTF32BE=$(printf '%0.8X\n' $CPDec) # hexUTF32BE # progress count if (((CPDec%$((0x1000)))==0)) ;then ((Test>2)) && echo echo "$hexUTF32BE Test=$Test mode=${mode[$modebits]} " fi if ((Test==1 || Test==2 )) then # Test 1. Sequentially test every value from 0x000000 to 0x10FFFF # if ((Test==2)) ; then bits=32 UTF8="$( Perl -C -e 'print chr 0x'$hexUTF32BE | Perl -l -ne '/^( [\000-\177] | [\300-\337][\200-\277] | [\340-\357][\200-\277]{2} | [\360-\367][\200-\277]{3} | [\370-\373][\200-\277]{4} | [\374-\375][\200-\277]{5} )*$/x and print' |xxd -p )" UTF8="${UTF8%0a}" [[ -n "$UTF8" ]] \ && rcIco32=0 || rcIco32=1 rcIco16= Elif ((modebits==strict && CPDec<=$((0xFFFF)))) ;then bits=16 UTF8="$( echo -n "${hexUTF32BE:4}" | xxd -p -u -r | iconv -f UTF-16BE -t UTF-8 2>/dev/null)" \ && rcIco16=0 || rcIco16=1 rcIco32= else bits=32 UTF8="$( echo -n "$hexUTF32BE" | xxd -p -u -r | iconv -f UTF-32BE -t UTF-8 2>/dev/null)" \ && rcIco32=0 || rcIco32=1 rcIco16= fi # echo "1 mode=${mode[$modebits]}-$bits rcIconv: (${rcIco16},${rcIco32}) $hexUTF32BE " # # # if ((${rcIco16}${rcIco32}!=0)) ;then # 'iconv -f UTF-16BE' failed produce a reliable UTF-8 if ((bits==16)) ;then ((D==1)) && echo "bits-$bits rcIconv: error $hexUTF32BE .. 'strict' failed, now trying 'lax'" # iconv failed to create a 'srict' UTF-8 so # try UTF-32BE to get a 'lax' UTF-8 pattern UTF8="$( echo -n "$hexUTF32BE" | xxd -p -u -r | iconv -f UTF-32BE -t UTF-8 2>/dev/null)" \ && rcIco32=0 || rcIco32=1 #echo "2 mode=${mode[$modebits]}-$bits rcIconv: (${rcIco16},${rcIco32}) $hexUTF32BE " if ((rcIco32!=0)) ;then ((D==1)) && echo -n "bits-$bits rcIconv: Cannot gen UTF-8 for: $hexUTF32BE" rcIco32=1 fi fi fi # echo "3 mode=${mode[$modebits]}-$bits rcIconv: (${rcIco16},${rcIco32}) $hexUTF32BE " # # # if ((rcIco16==0 || rcIco32==0)) ;then # 'strict(16)' OR 'lax(32)'... 'iconv' managed to generate a UTF-8 pattern ((D==1)) && echo -n "bits-$bits rcIconv: pattern* $hexUTF32BE" ((D==1)) && if [[ $bits == "16" && $rcIco32 == "0" ]] ;then echo " .. 'lax' UTF-8 produced a pattern" else echo fi # regex test if ((modebits==strict)) ;then #rxOut="$(echo -n "$UTF8" |Perl -l -ne '/^(([\x00-\x7F])|([\xC2-\xDF][\x80-\xBF])|((([\xE0][\xA0-\xBF])|([\xED][\x80-\x9F])|([\xE1-\xEC\xEE-\xEF][\x80-\xBF]))([\x80-\xBF]))|((([\xF0][\x90-\xBF])|([\xF1-\xF3][\x80-\xBF])|([\xF4][\x80-\x8F]))([\x80-\xBF]{2})))*$/ or print' )" rxOut="$(echo -n "$UTF8" | Perl -l -ne '/^( ([\x00-\x7F]) # 1-byte pattern |([\xC2-\xDF][\x80-\xBF]) # 2-byte pattern |((([\xE0][\xA0-\xBF])|([\xED][\x80-\x9F])|([\xE1-\xEC\xEE-\xEF][\x80-\xBF]))([\x80-\xBF])) # 3-byte pattern |((([\xF0][\x90-\xBF])|([\xF1-\xF3][\x80-\xBF])|([\xF4][\x80-\x8F]))([\x80-\xBF]{2})) # 4-byte pattern )*$ /x or print' )" else if ((Test==2)) ;then rx="$(echo -n "$UTF8" |Perl -l -ne '/^([\000-\177]|[\300-\337][\200-\277]|[\340-\357][\200-\277]{2}|[\360-\367][\200-\277]{3}|[\370-\373][\200-\277]{4}|[\374-\375][\200-\277]{5})*$/ and print')" [[ "$UTF8" != "$rx" ]] && rxOut="$UTF8" || rxOut= rx="$(echo -n "$rx" |sed -e "s/$..$/\1 /g")" else rxOut="$(echo -n "$UTF8" |Perl -l -ne '/^([\000-\177]|[\300-\337][\200-\277]|[\340-\357][\200-\277]{2}|[\360-\367][\200-\277]{3}|[\370-\373][\200-\277]{4}|[\374-\375][\200-\277]{5})*$/ or print' )" fi fi if [[ "$rxOut" == "" ]] ;then ((D==1)) && echo " rcRegex: ok" rcRegex=0 else ((D==1)) && echo -n "bits-$bits rcRegex: error $hexUTF32BE .. 'strict' failed," ((D==1)) && if [[ "12" == *$Test* ]] ;then echo # " (codepoint) Test $Test" else echo fi rcRegex=1 fi fi # Elif [[ $Test == 2 ]] then # Test 2. Throw a randomizing spanner into the works! # Then test the arbitary bytes ASIS # hexLineRand="$(echo -n "$hexUTF32BE" | sed -re "s/(.)(.)(.)(.)(.)(.)(.)(.)/\1\n\2\n\3\n\4\n\5\n\6\n\7\n\8/" | sort -R | tr -d '\n')" # Elif [[ $Test == 3 ]] then # Test 3. Test single UTF-16BE bytes in the range 0x00000000 to 0x7FFFFFFF # echo "Test 3 is not properly implemented yet.. Exiting" exit 99 else echo "ERROR: Invalid mode" exit fi # # if ((Test==1 || Test=2)) ;then if ((modebits==strict && CPDec<=$((0xFFFF)))) ;then ((rcIconv=rcIco16)) else ((rcIconv=rcIco32)) fi if ((rcRegex!=rcIconv)) ;then [[ $Test != 1 ]] && echo if ((rcRegex==1)) ;then echo "ERROR: 'regex' ok, but NOT 'iconv': ${hexUTF32BE} " else echo "ERROR: 'iconv' ok, but NOT 'regex': ${hexUTF32BE} " fi ((failCt++)); Elif ((rcRegex!=0)) ;then # ((invalCt++)); echo -ne "$hexUTF32BE exit-codes $${rcIco16}${rcIco32}=,$rcRegex\t: $(printf "%0.8X\n" $invalCt)\t$hexLine$(printf "%$(((mode3whi*2)-${#hexLine}))s")\r" ((invalCt++)) else ((validCt++)) fi if ((Test==1)) ;then echo -ne "$hexUTF32BE " "mode=${mode[$modebits]} test-return=($rcIconv,$rcRegex) valid,invalid,fail=($(printf "%X" $validCt),$(printf "%X" $invalCt),$(printf "%X" $failCt)) \r" else echo -ne "$hexUTF32BE $rx mode=${mode[$modebits]} test-return=($rcIconv,$rcRegex) val,inval,fail=($(printf "%X" $validCt),$(printf "%X" $invalCt),$(printf "%X" $failCt))\r" fi fi done } # End time fi exit

St&#233;phane Chazelas · Answer

Je trouve uconv (dans icu-devtools package dans Debian) utile pour inspecter les données UTF-8:

$ print '\xE9 \xe9 \u20ac \ud800\udc00 \U110000' | uconv --callback escape-c -t us \xE9 \xE9 \u20ac \xED\xA0\x80\xED\xB0\x80 \xF4\x90\x80\x80

(Le \xs aide à repérer les caractères invalides (à l'exception du faux positif volontairement introduit avec un littéral \xE9 au dessus de)).

(plein d'autres usages niçois).

Gilles &#39;SO- stop being evil&#39; · Answer

Python a eu une fonction unicode intégrée depuis la version 2.0.

#!/usr/bin/env python2 import sys for line in sys.stdin: try: unicode(line, 'utf-8') except UnicodeDecodeError: sys.stdout.write(line)

Dans Python 3, unicode a été plié en str . Il doit être passé un comme des octets) object , ici les objets buffer sous-jacents pour les descripteurs standard .

#!/usr/bin/env python3 import sys for line in sys.stdin.buffer: try: str(line, 'utf-8') except UnicodeDecodeError: sys.stdout.buffer.write(line)

Grzegorz Wierzowiecki · Answer

Je suis tombé sur un problème similaire (détail dans la section "Contexte") et suis arrivé avec la solution ftfy_line_by_line.py suivante:

#!/usr/bin/env python3 import ftfy, sys with open(sys.argv[1], mode='rt', encoding='utf8', errors='replace') as f: for line in f: sys.stdout.buffer.write(ftfy.fix_text(line).encode('utf8', 'replace')) #print(ftfy.fix_text(line).rstrip().decode(encoding="utf-8", errors="replace"))

Utiliser encode + replace + ftfy pour corriger automatiquement Mojibake et d'autres corrections.

Le contexte

J'ai collecté> 10 Go CSV de métadonnées de base du système de fichiers en utilisant le script gen_basic_files_metadata.csv.sh suivant, qui fonctionne essentiellement:

find "${path}" -type f -exec stat --format="%i,%Y,%s,${hostname},%m,%n" "{}" \;

Le problème que j'ai eu était avec le codage incohérent des noms de fichiers sur les systèmes de fichiers, provoquant UnicodeDecodeError lors d'un traitement ultérieur avec python ( csvsql pour être plus précis).

Par conséquent, j'ai appliqué le script ftfy ci-dessus, et il a fallu

Veuillez noter ftfy est assez lent, le traitement de ces> 10 Go a pris:

real 147m35.182s user 146m14.329s sys 2m8.713s

tandis que sha256sum pour comparaison:

real 6m28.897s user 1m9.273s sys 0m6.210s

sur processeur Intel (R) Core (TM) i7-3520M à 2,90 GHz + 16 Go RAM (et données sur disque externe)