Clusterização no teste de treinamento
Pre-release
Pre-release
- clusterização para comparação de arquivos da pasta
textos_teste
durante o treinamento, aguardando pelo menos 5min para cada teste, com resultado gravado no arquivocomparacao_arquivos.log
- inclusão do valor REMOVIDO na coluna vocab caso o termo esteja na lista de termos removidos do treinamento
- cache de curadoria com extensão diferente do cache de treinamento, permitindo rodar a curadoria do treinamento mesmo com o treinamento ocorrendo. O cache de curadoria é removido ao final do processamento da curadoria.
- o cache de curadoria é diferente pois usa a tokenização básica para análise de todos os termos dos documentos