Skip to content

conditor-project/co-similarity

Repository files navigation

Build Status

co-similarity

Module ayant pour objectif de repérer pour chaque docObject des objets similaires.

Principes

Ce module met en oeuvre une technique de dédoublonnage à base de shingles et de comparaison d'empreintes (fingerprints). Cette méthode s'inspire de l'expérience d'Altavista en 1999 décrite dans cet article.

L'algoritms de similarité pour le repérage de doublons incertains est expliqué ici

Note : Contrairement au module co-deduplicate, qui détecte des doublons "certains" (fiables à 100%), les doublons repérés par co-similarity sont considérés comme "incertains" ("near duplicates" en anglais) et doivent être validés par un être humain.

Prérequis

Préalablement à l'exécution du module co-similarity, les docObjects doivent donc avoir été traités par le module co-deduplicate (étapes 1 et 2 précédentes)

Le module co-similarity ne met donc réellement en oeuvre que les étapes 3 et 4.

About

👭 module de dédoublonnage incertain des notices

Resources

License

Stars

Watchers

Forks

Packages

No packages published