web-dev-qa-db-fra.com

Conversion de wstring en chaîne encodée en UTF-8

J'ai besoin de convertir entre wstring et string. J'ai compris que l'utilisation de la facette codecvt devrait suffire, mais cela ne semble pas fonctionner pour l'environnement local utf-8.

Mon idée est que, lorsque je lis un fichier encodé en utf-8 en caractères, un caractère utf-8 est lu en deux caractères normaux (c'est ainsi que fonctionne utf-8). J'aimerais créer cette chaîne utf-8 à partir de la représentation de wstring pour la bibliothèque que j'utilise dans mon code.

Est-ce que quelqu'un sait comment le faire?

J'ai déjà essayé ceci:

  locale mylocale("cs_CZ.utf-8");
  mbstate_t mystate;

  wstring mywstring = L"čřžýáí";

  const codecvt<wchar_t,char,mbstate_t>& myfacet =
    use_facet<codecvt<wchar_t,char,mbstate_t> >(mylocale);

  codecvt<wchar_t,char,mbstate_t>::result myresult;  

  size_t length = mywstring.length();
  char* pstr= new char [length+1];

  const wchar_t* pwc;
  char* pc;

  // translate characters:
  myresult = myfacet.out (mystate,
      mywstring.c_str(), mywstring.c_str()+length+1, pwc,
      pstr, pstr+length+1, pc);

  if ( myresult == codecvt<wchar_t,char,mbstate_t>::ok )
   cout << "Translation successful: " << pstr << endl;
  else cout << "failed" << endl;
  return 0;

qui renvoie 'échec' pour la langue cs_CZ.utf-8 et fonctionne correctement pour la langue cs_CZ.iso8859-2.

18
Trakhan

Le code ci-dessous pourrait vous aider :)

#include <codecvt>
#include <string>

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.from_bytes(str);
}

// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.to_bytes(str);
}
68
skyde

Quelle est votre plateforme? Notez que Windows ne prend pas en charge les paramètres régionaux UTF-8, ce qui peut expliquer pourquoi vous échouez.

Pour cela, vous pouvez utiliser MultiByteToWideChar / WideCharToMultiByte sous Windows et iconv sous Linux. Vous pourrez peut-être utiliser un peu de boost magique pour le faire de manière indépendante de la plate-forme, mais je ne l'ai pas essayé moi-même et je ne peux donc rien ajouter à propos de cette option.

4
hillel

Vous pouvez utiliser le convertisseur utf_to_utf de boost pour obtenir le format de caractère à stocker dans std :: string.

std::string myresult = boost::locale::conv::utf_to_utf<char>(mywstring);
0
Avinash