Module ayant pour objectif de repérer pour chaque docObject des objets similaires.
Ce module met en oeuvre une technique de dédoublonnage à base de shingles et de comparaison d'empreintes (fingerprints). Cette méthode s'inspire de l'expérience d'Altavista en 1999 décrite dans cet article.
L'algoritms de similarité pour le repérage de doublons incertains est expliqué ici
Note : Contrairement au module co-deduplicate, qui détecte des doublons "certains" (fiables à 100%), les doublons repérés par co-similarity
sont considérés comme "incertains" ("near duplicates" en anglais) et doivent être validés par un être humain.
Préalablement à l'exécution du module co-similarity
, les docObjects doivent donc avoir été traités par le module co-deduplicate (étapes 1 et 2 précédentes)
Le module co-similarity ne met donc réellement en oeuvre que les étapes 3 et 4.