O problema que é abordado neste repositorio é este.
Uma das soluções existentes para esse problema esta presente no artigo Murat Sariyar, Andreas Borg, Klaus Pommerening: Controlling false match rates in record linkage using extreme value theory. Journal of Biomedical Informatics, 2011 (in press).
O problema foi solucionado de 3 formas diferentes:
-
Decision Tree
-
KNN
-
Neural Network
Cada uma das soluções possuem seus próprios contextos, dependências e nootebooks. É possível verificá-las em em suas pastas.
Os dados do problema estão aqui.
Baixe o data set e coloque seu conteúdo na pasta:
data
Extraia todos os dados para esta pasta.
- Todos os arquivos
.csv
são ignorados no.gitignore
pois o dataset contém mais de 200MB de tamanho.
Para verificar a solução siga este tutorial para instalar seu virtualenv de python.
Após ter seu ambiente de desenvolvimento configurado execute o seguinte comando:
pip install -r requirements.txt
A documentação e interpretação do problema está aqui.
A principal referência para a solução do problema foi a documentação do scikit-learn
Os seguintes links também foram úteis: