web-dev-qa-db-fra.com

Quels sont les caractères Unicode non BMP les plus courants en utilisation réelle?

D'après votre expérience, quels caractères Unicode, points de code, plages en dehors du BMP (plan multilingue de base) sont les plus courants jusqu'à présent? Ce sont ceux qui nécessitent 4 octets en UTF-8 ou substituts en UTF -16.

Je m'attendais à ce que la réponse soit des caractères chinois et japonais utilisés dans les noms mais non inclus dans les jeux de caractères multi-octets CJK les plus répandus, mais sur le projet sur lequel je travaille le plus, le Wiktionnaire anglais, nous avons constaté que le Alphabet gothique est beaucoup plus courant jusqu'à présent.

[~ # ~] mise à jour [~ # ~]

J'ai écrit quelques outils logiciels pour numériser des Wikipédias entiers à la recherche de caractères non BMP et j'ai été surpris que même dans l'alphabet gothique Wikipédia japonais, il soit le plus courant. Cela est également vrai dans Wikipedia chinois, mais il y avait aussi de nombreux caractères chinois utilisés jusqu'à 50 ou 70 fois, y compris "????", "????" et "????".

99
hippietrail

Les emoji sont de loin les personnages non BMP les plus courants. ????, autrement connu sous le nom de U + 1F602 FACE WITH TEARS OF JOY, est le plus courant sur le flux public de Twitter. Il survient plus fréquemment que le tilde!

91
rspeer

Excellente question!

La réponse est les lettres mathématiques. En décembre dernier, j'ai analysé l'intégralité du corpus PubMed Open Access et j'ai trouvé ces chiffres pour les caractères astraux.

Le premier nombre dans les figures ci-dessous est le nombre de copies de chaque point de code donné que j'ai trouvé dans l'ensemble du corpus. Tout d'abord, cependant, pour vous donner une idée des fréquences relatives, voici les dix premiers points de code trans-ASCII de ce corpus:

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

Et voici maintenant les points de code trans-BMP, par ordre décroissant de fréquence:

     544 U+01D49E ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹????›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹????›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹????›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹????›  GC=Co    <private use character>
       1 U+01D4B8 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹????›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹????›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

Je souhaite vraiment savoir ce qu'ils utilisaient pour faire U + 100002. :(

Si ceux-ci n'apparaissent pas dans votre navigateur, vous devez installer police Symbola de George Douros . Il contient également tous les points de code Unicode 6.0.0 amusants.

59
tchrist

Pour moi, les symboles alphanumériques mathématiques qui sont utilisés pour la composition mathématique avec des polices OpenType telles que Cambria Math.

9
Philipp