SOLUÇÃO: Record Linkage Comparison Patterns Data Set

O problema que é abordado neste repositorio é este.

Soluções existentes

Uma das soluções existentes para esse problema esta presente no artigo Murat Sariyar, Andreas Borg, Klaus Pommerening: Controlling false match rates in record linkage using extreme value theory. Journal of Biomedical Informatics, 2011 (in press).

O problema foi solucionado de 3 formas diferentes:

Decision Tree
KNN
Neural Network

Cada uma das soluções possuem seus próprios contextos, dependências e nootebooks. É possível verificá-las em em suas pastas.

Dados

Os dados do problema estão aqui.

Baixe o data set e coloque seu conteúdo na pasta:

data

Extraia todos os dados para esta pasta.

Todos os arquivos .csv são ignorados no .gitignore pois o dataset contém mais de 200MB de tamanho.

Ambiente

Para verificar a solução siga este tutorial para instalar seu virtualenv de python.

Após ter seu ambiente de desenvolvimento configurado execute o seguinte comando:

pip install -r requirements.txt

Documentação

A documentação e interpretação do problema está aqui.

Referências

Decision Tree

KNN

Neural Network

A principal referência para a solução do problema foi a documentação do scikit-learn

Os seguintes links também foram úteis:

Name		Name	Last commit message	Last commit date
Latest commit History 71 Commits
data		data
decision_tree		decision_tree
k_nearest_neighbors		k_nearest_neighbors
neural_network		neural_network
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
pre_processing.ipynb		pre_processing.ipynb
pre_processing.slides.html		pre_processing.slides.html

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SOLUÇÃO: Record Linkage Comparison Patterns Data Set

Soluções existentes

Dados

Ambiente

Documentação

Referências

Decision Tree

KNN

Neural Network

About

Releases

Packages

Contributors 5

Languages

License

SkyNetRecruits/record_linkage_comparison_patterns_data_set

Folders and files

Latest commit

History

Repository files navigation

SOLUÇÃO: Record Linkage Comparison Patterns Data Set

Soluções existentes

Dados

Ambiente

Documentação

Referências

Decision Tree

KNN

Neural Network

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 5

Languages

Packages