Skip to content

SkyNetRecruits/record_linkage_comparison_patterns_data_set

Repository files navigation

SOLUÇÃO: Record Linkage Comparison Patterns Data Set

O problema que é abordado neste repositorio é este.

Soluções existentes

Uma das soluções existentes para esse problema esta presente no artigo Murat Sariyar, Andreas Borg, Klaus Pommerening: Controlling false match rates in record linkage using extreme value theory. Journal of Biomedical Informatics, 2011 (in press).

O problema foi solucionado de 3 formas diferentes:

  • Decision Tree

  • KNN

  • Neural Network

Cada uma das soluções possuem seus próprios contextos, dependências e nootebooks. É possível verificá-las em em suas pastas.

Dados

Os dados do problema estão aqui.

Baixe o data set e coloque seu conteúdo na pasta:

data

Extraia todos os dados para esta pasta.

  • Todos os arquivos .csv são ignorados no .gitignore pois o dataset contém mais de 200MB de tamanho.

Ambiente

Para verificar a solução siga este tutorial para instalar seu virtualenv de python.

Após ter seu ambiente de desenvolvimento configurado execute o seguinte comando:

pip install -r requirements.txt

Documentação

A documentação e interpretação do problema está aqui.

Referências

Decision Tree

KNN

Neural Network

A principal referência para a solução do problema foi a documentação do scikit-learn

Os seguintes links também foram úteis:

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published