Releases: luizanisio/Doc2VecFacil
Procedure de agrupamento SingleStore
Revisão do texto e inclusão da procedure de agrupamento de exemplo para uso no SingleStore.
Documentação e correção de criação de pasta
Ajustes na documentação e criação da pasta do modelo quando ela não existe e o treino é iniciado.
Agrupamento, tags e pequenos ajustes
Possibilidade de rotular documentos tags
para aproximação de vetores no treinamento.
Otimizações no agrupamento e inclusão opcional do início do texto no arquivo de agrupamento.
Curadoria e singularização
- correção da singularização (primeiro avalia os fragmentos maiores de singularização)
- otimizações e melhorias na curadoria
- revisão da documentação
Comparação de documento com ele mesmo e exemplos
- Inclusão de uma comparação do documento com ele mesmo nos logs de treinamento
- inclusão de exemplos de criação de tabelas e views no singlestore para uso de vetores
- pequenos ajustes na documentação
Clusterização no teste de treinamento
- clusterização para comparação de arquivos da pasta
textos_teste
durante o treinamento, aguardando pelo menos 5min para cada teste, com resultado gravado no arquivocomparacao_arquivos.log
- inclusão do valor REMOVIDO na coluna vocab caso o termo esteja na lista de termos removidos do treinamento
- cache de curadoria com extensão diferente do cache de treinamento, permitindo rodar a curadoria do treinamento mesmo com o treinamento ocorrendo. O cache de curadoria é removido ao final do processamento da curadoria.
- o cache de curadoria é diferente pois usa a tokenização básica para análise de todos os termos dos documentos
Otimizações, pequenas correções e melhoria da curadoria
Foram feitas algumas otimizações, correções na tokenização com a singularição de termos e diversas melhorias na planilha de curadoria.
Atualização da documentação
Atualização da documentação e possibilidade de criar as sugestões dos ngramas com -treino
para analisar os textos da pasta textos_treino
Simplificação da geração da planilha de curadoria
Melhor descrição dos passos para o treinamento e simplificação da geração da planilha de curadoria.
Primeira verão funcional
Versão funcional desde a criação do vocab até o treinamento do modelo e carga do modelo para vetorização.
Melhorias ainda serão feitas durante o desenvolvimento do serviço exemplo com vetorização e indexação automática junto com uma interface de pesquisa e agrupamento de documentos.