Je cherche une petite bibliothèque C pour gérer les chaînes utf8.
Plus précisément, le fractionnement basé sur des délimiteurs unicode pour une utilisation avec des algorithmes de stemming.
Des articles connexes ont suggéré:
ICU http://www.icu-project.org/ (Je l'ai trouvé trop volumineux à mes fins sur les appareils embarqués)
UTF8-CPP: http://utfcpp.sourceforge.net/ (Excellent, mais C++ pas C)
Quelqu'un a-t-il trouvé des petites bibliothèques indépendantes de la plate-forme pour gérer les chaînes unicode (n'a pas besoin de faire de naturalisation).
Une bibliothèque agréable et légère que j'utilise avec succès est tf8proc .
Il y a aussi MicroUTF-8 .
UTF-8 est spécialement conçu pour que de nombreuses fonctions de chaîne orientées octets continuent de fonctionner ou ne nécessitent que des modifications mineures.
La fonction strstr
de C, par exemple, fonctionnera parfaitement tant que ses deux entrées sont des chaînes UTF-8 valides et terminées par null. strcpy
fonctionne très bien tant que sa chaîne d'entrée commence à une limite de caractères (par exemple la valeur de retour de strstr
).
Vous n'avez donc peut-être même pas besoin d'une bibliothèque distincte!