web-dev-qa-db-fra.com

Liste de personnages visuellement similaires, pour détecter les attaques d'usurpation et d'ingénierie sociale

J'essaie de détecter attaques homographes et d'autres attaques lorsqu'un attaquant utilise un nom de domaine usurpé qui ressemble visuellement à un nom de domaine de confiance (par exemple, bankofthevvest.com au lieu de bankofthewest.com).

Existe-t-il un dictionnaire ou une base de données de caractères visuellement similaires pouvant être utilisés par programmation?

Par exemple, si je recherche "l", je voudrais récupérer une liste indiquant que "l" est visuellement similaire à "1" et "i" (au moins dans certaines polices). Si je recherche "w", cela pourrait me dire qu'il est visuellement similaire à "vv" (dans certaines polices). Si je recherche "d", cela pourrait me dire qu'il est visuellement similaire à "cl" (dans certaines polices). Au moins pour l'instant, je me concentre sur la similitude visuelle entre les caractères ASCII. C'est bien d'ignorer Unicode. (Cependant, c'est un bonus supplémentaire s'il y a une liste qui sait également quels caractères Unicode sont visuellement similaire à chaque ASCII caractère.)

Si une telle chose existe déjà, je voudrais éviter de réinventer la roue. Une telle liste existe-t-elle déjà?

Voici ce que j'ai trouvé jusqu'à présent:

22
D.W.

Essayez de chercher sous le terme "homoglyphe" au lieu de "homographe".

Par exemple, cela pourrait être ce que vous vouliez:

https://codebox.net/pages/homoglyph-detection

Il contient du code et des dictionnaires.

9
J Kimball