Usamos word embeddings para analisar as proposições legislativas do Congresso Nacional.
Para evitar conflitos entre as versões das bibliotecas Python:
python -m venv environment
source environment/bin/activate
pip install -r requirements.txt
Após o download dos arquivos das proposições:
python scripts/extrator_justificativas.py --source <path> > justificativas.csv
Caso não queira o nome das colunas no resultado, use a flag --no-header
.
O arquivo resultante conterá as seguintes colunas:
arquivo
: Nome do arquivo pdf cujo conteúdo foi extraídoid
: Identificador da proposiçãonumero
: Número da proposiçãotipo
: Tipo da proposiçãotexto_anterior
: Texto anterior à justificativajustificativa
: A justificativa extraída.