La formule pour IDF est log (N/df t) au lieu de simplement N/df t.
Où N = nombre total de documents dans la collection et df t = fréquence des documents du terme t.
Le journal serait utilisé parce qu'il "atténue" l'effet des FDI. Qu'est-ce que ça veut dire?
Aussi, pourquoi utilisons-nous la pondération de la fréquence logarithmique pour la fréquence des termes comme on le voit ici:
La réponse de Debasis est correcte. Je ne sais pas pourquoi il a voté contre.
Voici l'intuition: si la fréquence des termes pour le mot "ordinateur" dans doc1 est 10 et dans doc2 20, nous pouvons dire que doc2 est plus pertinent que doc1 pour l'ordinateur "Word".
Cependant, si la fréquence du terme du même mot, "ordinateur", pour doc1 est de 1 million et doc2 est de 2 millions, à ce stade, il n'y a plus beaucoup de différence en termes de pertinence car ils contiennent tous les deux un nombre très élevé pour le terme 'ordinateur'.
Tout comme la réponse de Debasis, l'ajout de log consiste à atténuer l'importance d'un terme qui a une fréquence élevée, par ex. En utilisant le journal de base 2, le nombre de 1 million sera réduit à 19,9!
Nous ajoutons également 1 au log (tf) car lorsque tf est égal à 1, le log (1) est nul. En ajoutant un, nous distinguons entre tf = 0 et tf = 1.
J'espère que cela t'aides!
Ce n'est pas nécessairement le cas que plus l'occurrence d'un terme dans un document est plus la pertinence ... la contribution de la fréquence des termes à la pertinence du document est essentiellement une fonction sub-linéaire ... d'où le log pour approximer ce sub-linéaire fonction...
la même chose s'applique également à idf ... une fonction idf linéaire peut augmenter trop les scores du document avec des termes idf élevés (qui pourraient être des termes rares en raison d'erreurs d'orthographe) ... une fonction sublinéaire fonctionne beaucoup mieux ...