Dans Apache Solr, pourquoi avons-nous toujours besoin de préférer le champ de chaîne au champ de texte si les deux résolvent des fins?
Comment la chaîne ou le texte affecte-t-il les paramètres tels que la taille de l'index, la lecture de l'index, la création de l'index?
Les champs définis par défaut dans le schéma solr sont très différents.
String
stocke un mot/une phrase sous forme de chaîne exacte sans effectuer de tokenisation, etc.
Text
effectue généralement la tokenisation et le traitement secondaire (comme les minuscules, etc.). Utile pour tous les scénarios lorsque nous voulons faire correspondre une partie d'une phrase.
Si l'exemple suivant, "This is a sample sentence"
, est indexé dans les deux champs, nous devons rechercher exactement le texte This is a sample sentence
pour obtenir un hit du champ string
, alors qu'il peut suffire de rechercher sample
(ou même samples
avec stemmning activé) pour obtenir un hit du text
champ.