U + 4E00..U + 9FFF fait partie de l’ensemble complet, mais pas tous
Vous trouverez peut-être une liste complète via le CJK Unicode FAQ } _ (qui inclut les caractères "chinois, japonais et coréen")
Le document " East Asian Script } _" mentionne:
Blocs contenant des idéogrammes han
Les caractères idéographiques Han se trouvent dans cinq blocs principaux du standard Unicode, tels que indiqué dans le tableau 12-2
Tableau 12-2. Blocs contenant des idéogrammes han
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
Remarque: les plages de blocs peuvent évoluer dans le temps: la dernière est en Idéogrammes CJK Unified .
Voir aussi Wikipedia:
Unicode a actuellement 74605 caractères CJK. Les caractères CJK incluent non seulement les caractères utilisés par le chinois, mais également les kanji japonais, le coréen Hanja et le vietnamien Chu Nom . Certains caractères CJK sont pas caractères chinois.
Code points U + 4E00 à U + 9FCC.
Points de code U + 3400 à U + 4DB5 . Unicode 3.0 (1999).
Points de code U + 20000 à U + 2A6D6. Unicode 3.1 (2001).
Points de code U + 2A700 à U + 2B734 . Unicode 5.2 (2009).
Points de code U + 2B740 à U + 2B81D . Unicode 6.0 (2010).
Si ce qui précède ne suffit pas, jetez un œil à problèmes connus . Amusez-vous =)
Les plages exactes pour caractères chinois (à l'exception des extensions) sont [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC]
CJK Radicals Supplement est un bloc Unicode contenant une alternative, formes souvent positionnelles des radicaux Kangxi. Ce sont des en-têtes utilisés index de dictionnaire et autres collections d’idéogrammes CJK organisées par coup radical.
Kanbun est un bloc Unicode contenant des caractères d'annotation utilisés dans Copies japonaises de textes chinois classiques, pour indiquer l'ordre de lecture.
CJK Unified Ideographs Extension-A est un bloc Unicode contenant rare Idéogrammes han.
CJK Unified Ideographs est un bloc Unicode contenant le plus commun Les idéogrammes CJK utilisés en chinois et en japonais modernes.
Pour les détails, veuillez vous référer à ici , et les extensions sont fournies dans d’autres réponses.
Unicode version 11.0.0
En Unicode, les scripts chinois, japonais et coréen (CJK) partagent un arrière-plan commun, communément appelé caractères CJK.
Ces plages contiennent souvent des points de code non attribués ou réservés (suck as U + 2E9A, U + 2EF4 - 2EFF),
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
Par conséquent, la plage est
[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]
Ils sont commun Han utilisé uniquement pour la compatibilité.
Il est presque impossible de les voir apparaître dans des livres, articles, écrits, etc. chinois.
tous les caractères ici correspondent aux caractères chinois identiques aux glyphes . Comme 金 (U + F90A) et (U + 91D1), ils sont identiques dans Glyph.
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
C’est une gamme étendue, certaines ponctuations n’ont peut-être jamais été utilisées, certaines ponctuations telles que ……”“
sont tellement utilisées en chinois.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
Il existe également de nombreux symboles liés au chinois, tels que Yijing Hexagram Symbols ou Kanbun, mais il ne fait pas partie du sujet. J'écris des caractères non-chinois dans CJK pour avoir une meilleure explication de ce que sont les caractères chinois. Et les plages ci-dessus couvrent déjà presque tous les caractères apparaissant en écriture chinoise, à l'exception des mathématiques et de la notation spécialisée.
CJK Symboles et ponctuation
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
Formulaires demi-largeur et pleine largeur
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
Les blocs de code Unicode fournis par les autres couvrent certainement la plupart des caractères Unicode chinois, mais vérifiez également certains de ces autres blocs de code.
Voir ma discussion plus complète ici . Et ce site est pratique pour naviguer dans Unicode.
Pour résumer, cela ressemble à ceux-ci:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]