web-dev-qa-db-fra.com

Quelle est la gamme complète de caractères chinois en Unicode?

U + 4E00..U + 9FFF fait partie de l’ensemble complet, mais pas tous

75
omg

Vous trouverez peut-être une liste complète via le CJK Unicode FAQ } _ (qui inclut les caractères "chinois, japonais et coréen")

Le document " East Asian Script } _" mentionne:

Blocs contenant des idéogrammes han

Les caractères idéographiques Han se trouvent dans cinq blocs principaux du standard Unicode, tels que indiqué dans le tableau 12-2

Tableau 12-2. Blocs contenant des idéogrammes han

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Remarque: les plages de blocs peuvent évoluer dans le temps: la dernière est en Idéogrammes CJK Unified .

Voir aussi Wikipedia:

91
VonC

Unicode a actuellement 74605 caractères CJK. Les caractères CJK incluent non seulement les caractères utilisés par le chinois, mais également les kanji japonais, le coréen Hanja et le vietnamien Chu Nom . Certains caractères CJK sont pas caractères chinois.

1) 20941 caractères du bloc CJK Unified Ideographs } _.

Code points U + 4E00 à U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 caractères du bloc CJKUI Ext A _.

Points de code U + 3400 à U + 4DB5 . Unicode 3.0 (1999). 

3) 42711 caractères du bloc CJKUI Ext B .

Points de code U + 20000 à U + 2A6D6. Unicode 3.1 (2001). 

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 caractères du bloc CJKUI Ext C .

Points de code U + 2A700 à U + 2B734 . Unicode 5.2 (2009).

4) 222 caractères du bloc CJKUI Ext D .

Points de code U + 2B740 à U + 2B81D . Unicode 6.0 (2010).

5) Bloc CJKUI Ext E.

Arrive bientôt

Si ce qui précède ne suffit pas, jetez un œil à problèmes connus . Amusez-vous =)

45
Pacerier

Les plages exactes pour caractères chinois (à l'exception des extensions) sont [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC]

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement est un bloc Unicode contenant une alternative, formes souvent positionnelles des radicaux Kangxi. Ce sont des en-têtes utilisés index de dictionnaire et autres collections d’idéogrammes CJK organisées par coup radical. 

  1. [\u3190-\u319f]

Kanbun est un bloc Unicode contenant des caractères d'annotation utilisés dans Copies japonaises de textes chinois classiques, pour indiquer l'ordre de lecture.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A est un bloc Unicode contenant rare Idéogrammes han.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs est un bloc Unicode contenant le plus commun Les idéogrammes CJK utilisés en chinois et en japonais modernes.

Pour les détails, veuillez vous référer à ici , et les extensions sont fournies dans d’autres réponses. 

15
lerner

Unicode version 11.0.0

En Unicode, les scripts chinois, japonais et coréen (CJK) partagent un arrière-plan commun, communément appelé caractères CJK.

Ces plages contiennent souvent des points de code non attribués ou réservés (suck as U + 2E9A, U + 2EF4 - 2EFF), 

Caractères chinois

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • Dans le bloc Idéogrammes unifiés CJK, je remarque que de nombreuses réponses utilisent la limite supérieure 9FCC, mais U + 9FCD () est bien un caractère chinois. Et tous les caractères de ce bloc sont des caractères chinois (également utilisés en japonais ou en coréen, etc.).
  • La plupart des caractères de CJK Unified Ideograohs Ext (sauf Ext F, 17% seulement de Ext F sont des caractères chinois) sont des caractères chinois traditionnels, qui sont rarement utilisés en Chine.
  • Est la forme de caractère chinois de zéro et est toujours utilisé aujourd'hui

Par conséquent, la plage est

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

Caractères CJK mais jamais utilisés en chinois

Ils sont commun Han utilisé uniquement pour la compatibilité.

Il est presque impossible de les voir apparaître dans des livres, articles, écrits, etc. chinois.

tous les caractères ici correspondent aux caractères chinois identiques aux glyphes . Comme 金 (U + F90A) et (U + 91D1), ils sont identiques dans Glyph.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

CJK symboles connexes

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • certains blocs tels que Hangul Compatibility Jamo sont abandonnés car sans relation avec le chinois.
  • Kangxi Radicals n'est pas des caractères chinois, c'est un composant graphique d'un caractère chinois, il est spécialement utilisé pour exprimer des radicaux, par exemple. ⼻ (U + 2F3B) et (U + 5F73), (U + 2EDC) et (U + 98DE)

Une autre ponctuation courante apparaît en chinois

C’est une gamme étendue, certaines ponctuations n’ont peut-être jamais été utilisées, certaines ponctuations telles que ……”“ sont tellement utilisées en chinois.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Il existe également de nombreux symboles liés au chinois, tels que Yijing Hexagram Symbols ou Kanbun, mais il ne fait pas partie du sujet. J'écris des caractères non-chinois dans CJK pour avoir une meilleure explication de ce que sont les caractères chinois. Et les plages ci-dessus couvrent déjà presque tous les caractères apparaissant en écriture chinoise, à l'exception des mathématiques et de la notation spécialisée.

Supplémentaire

CJK Symboles et ponctuation

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Formulaires demi-largeur et pleine largeur

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Référer

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (en chinois langue., remarquez la barre latérale droite)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8 % E6% 84% 8F% E6% 96% 87% E5% AD% 97 (Remarquez le tableau du bas)
  3. http://www.unicode.org
3
rambler

Les blocs de code Unicode fournis par les autres couvrent certainement la plupart des caractères Unicode chinois, mais vérifiez également certains de ces autres blocs de code.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Voir ma discussion plus complète ici . Et ce site est pratique pour naviguer dans Unicode.

1
Suragch

Pour résumer, cela ressemble à ceux-ci:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
0
Lance Pollard