- Het vector model (II): Het wegen van woorden.
De tf.idf: hoe meer een woord voorkomt -
in des te minder documenten -
-hoe beter het fungeert als zoekwoord.
- De berekening is heel eenvoudig:
het aantal malen dat het woord in het document staat noemen we de term-frequency tf.
- het aantal documenten waarin dat woord voorkomt noemden we de document frequency of df.
- en we delen de tf door de df: tf/df of tf.idf.