Quel est le meilleur algorithme de correspondance floue (Fuzzy Logic, N-Gram, Levenstein, Soundex ....,) pour traiter plus de 100 000 enregistrements en moins de temps?
Je vous suggère de lire les articles de Navarro mentionnés dans la section Références de l'article Wikipédia intitulée Correspondance approximative de chaîne . Prendre votre décision sur la base de recherches réelles est toujours mieux que sur les suggestions d'étrangers au hasard. Surtout si la performance sur un ensemble connu de disques est importante pour vous.
Cela dépend massivement de vos données. Certains enregistrements peuvent être mieux mis en correspondance que d'autres. Par exemple, le code postal est un format défini et peut donc être comparé d'une manière différente aux chaînes normales. Les personnes peuvent être appariées sur les initiales et la date de naissance, ou d'autres combinaisons, etc.