Skip to content

Releases: luizanisio/Doc2VecFacil

Procedure de agrupamento SingleStore

07 Feb 16:32
866086a
Compare
Choose a tag to compare
Pre-release

Revisão do texto e inclusão da procedure de agrupamento de exemplo para uso no SingleStore.

Documentação e correção de criação de pasta

20 Nov 18:28
86f3844
Compare
Choose a tag to compare

Ajustes na documentação e criação da pasta do modelo quando ela não existe e o treino é iniciado.

Agrupamento, tags e pequenos ajustes

19 Nov 15:10
8e05720
Compare
Choose a tag to compare
Pre-release

Possibilidade de rotular documentos tags para aproximação de vetores no treinamento.
Otimizações no agrupamento e inclusão opcional do início do texto no arquivo de agrupamento.

Curadoria e singularização

20 Oct 12:22
4eb109b
Compare
Choose a tag to compare
Pre-release
  • correção da singularização (primeiro avalia os fragmentos maiores de singularização)
  • otimizações e melhorias na curadoria
  • revisão da documentação

Comparação de documento com ele mesmo e exemplos

18 Oct 00:25
862fad6
Compare
Choose a tag to compare
  • Inclusão de uma comparação do documento com ele mesmo nos logs de treinamento
  • inclusão de exemplos de criação de tabelas e views no singlestore para uso de vetores
  • pequenos ajustes na documentação

Clusterização no teste de treinamento

16 Oct 10:08
560f878
Compare
Choose a tag to compare
Pre-release
  • clusterização para comparação de arquivos da pasta textos_teste durante o treinamento, aguardando pelo menos 5min para cada teste, com resultado gravado no arquivo comparacao_arquivos.log
  • inclusão do valor REMOVIDO na coluna vocab caso o termo esteja na lista de termos removidos do treinamento
  • cache de curadoria com extensão diferente do cache de treinamento, permitindo rodar a curadoria do treinamento mesmo com o treinamento ocorrendo. O cache de curadoria é removido ao final do processamento da curadoria.
    • o cache de curadoria é diferente pois usa a tokenização básica para análise de todos os termos dos documentos

Otimizações, pequenas correções e melhoria da curadoria

13 Oct 18:17
30f70f2
Compare
Choose a tag to compare

Foram feitas algumas otimizações, correções na tokenização com a singularição de termos e diversas melhorias na planilha de curadoria.

Atualização da documentação

11 Oct 23:28
eb53aeb
Compare
Choose a tag to compare
Pre-release

Atualização da documentação e possibilidade de criar as sugestões dos ngramas com -treino para analisar os textos da pasta textos_treino

Simplificação da geração da planilha de curadoria

11 Oct 16:50
6ff09d4
Compare
Choose a tag to compare

Melhor descrição dos passos para o treinamento e simplificação da geração da planilha de curadoria.

Primeira verão funcional

11 Oct 00:32
a06cb9c
Compare
Choose a tag to compare
Pre-release

Versão funcional desde a criação do vocab até o treinamento do modelo e carga do modelo para vetorização.
Melhorias ainda serão feitas durante o desenvolvimento do serviço exemplo com vetorização e indexação automática junto com uma interface de pesquisa e agrupamento de documentos.