Conversion de UTF-8 à ISO-8859-1 en Java - Comment le conserver sous forme d'octet unique

Question

J'essaye de convertir une chaîne encodée en Java dans UTF-8 en ISO-8859-1. Disons par exemple, dans la chaîne "âabcd" "â" est représenté dans ISO-8859-1 par E2. En UTF-8, il est représenté par deux octets. C3 A2 je crois. Lorsque je fais un getbytes (encodage) puis que je crée une nouvelle chaîne avec les octets au codage ISO-8859-1, je reçois deux caractères différents. Ã ¢. Y a-t-il un autre moyen de le faire afin de garder le caractère identique, c'est-à-dire âabcd?

Adam Rosenfield · Answer

Si vous utilisez des codages de caractères autres que UTF-16, vous ne devriez pas utiliser Java.lang.String ni la primitive char - vous ne devriez utiliser que des tableaux byte[] ou des objets ByteBuffer. Ensuite, vous pouvez utiliser Java.nio.charset.Charset pour convertir entre les encodages:

Charset utf8charset = Charset.forName("UTF-8"); Charset iso88591charset = Charset.forName("ISO-8859-1"); ByteBuffer inputBuffer = ByteBuffer.wrap(new byte[]{(byte)0xC3, (byte)0xA2}); // decode UTF-8 CharBuffer data = utf8charset.decode(inputBuffer); // encode ISO-8559-1 ByteBuffer outputBuffer = iso88591charset.encode(data); byte[] outputData = outputBuffer.array();

Joachim Sauer · Answer

byte[] iso88591Data = theString.getBytes("ISO-8859-1");

Fera le tour. D'après votre description, il semble que vous essayiez de "stocker une chaîne ISO-8859-1". Les objets de chaîne en Java sont toujours implicitement codés en UTF-16. Il n'y a aucun moyen de changer cet encodage.

Ce que vous pouvez faire, cependant, est d’obtenir les octets qui constituent un autre encodage (en utilisant la méthode .getBytes () comme indiqué ci-dessus).

Pete Kirkham · Answer

En commençant par un ensemble d'octets qui codent une chaîne à l'aide de UTF-8, crée une chaîne à partir de ces données, puis obtient des octets codant la chaîne dans un codage différent:

 byte[] utf8bytes = { (byte)0xc3, (byte)0xa2, 0x61, 0x62, 0x63, 0x64 }; Charset utf8charset = Charset.forName("UTF-8"); Charset iso88591charset = Charset.forName("ISO-8859-1"); String string = new String ( utf8bytes, utf8charset ); System.out.println(string); // "When I do a getbytes(encoding) and " byte[] iso88591bytes = string.getBytes(iso88591charset); for ( byte b : iso88591bytes ) System.out.printf("%02x ", b); System.out.println(); // "then create a new string with the bytes in ISO-8859-1 encoding" String string2 = new String ( iso88591bytes, iso88591charset ); // "I get a two different chars" System.out.println(string2);

ceci sort correctement les chaînes et les octets iso88591:

âabcd e2 61 62 63 64 âabcd

Ainsi, votre tableau d'octets n'a pas été associé au codage correct:

 String failString = new String ( utf8bytes, iso88591charset ); System.out.println(failString);

Les sorties

Ã¢abcd

(soit ça, soit vous venez d'écrire les octets utf8 dans un fichier et de les lire ailleurs comme iso88591)

K&#229;re Jonsson · Answer

C'est ce dont j'avais besoin:

public static byte[] encode(byte[] arr, String fromCharsetName) { return encode(arr, Charset.forName(fromCharsetName), Charset.forName("UTF-8")); } public static byte[] encode(byte[] arr, String fromCharsetName, String targetCharsetName) { return encode(arr, Charset.forName(fromCharsetName), Charset.forName(targetCharsetName)); } public static byte[] encode(byte[] arr, Charset sourceCharset, Charset targetCharset) { ByteBuffer inputBuffer = ByteBuffer.wrap( arr ); CharBuffer data = sourceCharset.decode(inputBuffer); ByteBuffer outputBuffer = targetCharset.encode(data); byte[] outputData = outputBuffer.array(); return outputData; }

Frizz1977 · Answer

Pour l'encodage des fichiers ...

public class FRomUtf8ToIso { static File input = new File("C:/Users/admin/Desktop/pippo.txt"); static File output = new File("C:/Users/admin/Desktop/ciccio.txt"); public static void main(String[] args) throws IOException { BufferedReader br = null; FileWriter fileWriter = new FileWriter(output); try { String sCurrentLine; br = new BufferedReader(new FileReader( input )); int i= 0; while ((sCurrentLine = br.readLine()) != null) { byte[] isoB = encode( sCurrentLine.getBytes() ); fileWriter.write(new String(isoB, Charset.forName("ISO-8859-15") ) ); fileWriter.write("
"); System.out.println( i++ ); } } catch (IOException e) { e.printStackTrace(); } finally { try { fileWriter.flush(); fileWriter.close(); if (br != null)br.close(); } catch (IOException ex) { ex.printStackTrace(); } } } static byte[] encode(byte[] arr){ Charset utf8charset = Charset.forName("UTF-8"); Charset iso88591charset = Charset.forName("ISO-8859-15"); ByteBuffer inputBuffer = ByteBuffer.wrap( arr ); // decode UTF-8 CharBuffer data = utf8charset.decode(inputBuffer); // encode ISO-8559-1 ByteBuffer outputBuffer = iso88591charset.encode(data); byte[] outputData = outputBuffer.array(); return outputData; } }

Paul Vargas · Answer

Si l'encodage est correct dans la chaîne, vous n'avez pas besoin d'en faire plus pour obtenir les octets d'un autre encodage.

public static void main(String[] args) throws Exception { printBytes("â"); System.out.println( new String(new byte[] { (byte) 0xE2 }, "ISO-8859-1")); System.out.println( new String(new byte[] { (byte) 0xC3, (byte) 0xA2 }, "UTF-8")); } private static void printBytes(String str) { System.out.println("Bytes in " + str + " with ISO-8859-1"); for (byte b : str.getBytes(StandardCharsets.ISO_8859_1)) { System.out.printf("%3X", b); } System.out.println(); System.out.println("Bytes in " + str + " with UTF-8"); for (byte b : str.getBytes(StandardCharsets.UTF_8)) { System.out.printf("%3X", b); } System.out.println(); }

Sortie:

Bytes in â with ISO-8859-1 E2 Bytes in â with UTF-8 C3 A2 â â

Chadi · Answer

En plus de la réponse d'Adam Rosenfield, j'aimerais ajouter que ByteBuffer.array() renvoie le tableau d'octets sous-jacent du tampon, qui n'est pas nécessairement "coupé" jusqu'au dernier caractère. Des manipulations supplémentaires seront nécessaires, telles que celles mentionnées dans ceci réponse; en particulier:

byte[] b = new byte[bb.remaining()] bb.get(b);