From 7c5e6610ab2c301f668c55483b056853f788be7b Mon Sep 17 00:00:00 2001 From: DaniloCTM <42286412+DaniloCTM@users.noreply.github.com> Date: Wed, 29 Nov 2023 21:00:57 -0300 Subject: [PATCH] [edit] Mudando a forma de salvar os dados MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Agora todos os dados coletados são salvos em um único arquivo .json --- src/readpdf.py | 29 ++++++++++++++++------------- 1 file changed, 16 insertions(+), 13 deletions(-) diff --git a/src/readpdf.py b/src/readpdf.py index 6bef26e..549f19a 100644 --- a/src/readpdf.py +++ b/src/readpdf.py @@ -13,7 +13,6 @@ save_path = os.path.join(diretorio_atual, 'dados') #nome da lista com os arquivos de pdf -nome_arquivo = file_path linhas = [] with open(nome_arquivo, "r", encoding="utf-8") as arquivo_txt: @@ -41,20 +40,24 @@ if (resultados == []): padrao = r'COMISSÃO DE LICITAÇÃ O(.*?)Código Identificador: (\w+)' resultados = re.findall(padrao, text, re.DOTALL) - - j = 0 + for resultado in resultados: + print("Dado encontrado!") + texto_encontrado = resultado[0].strip() codigo_identificador = resultado[1] - print("-" * 100) - print(texto_encontrado) - j += 1 + #Extrair Codigo - print("Código Identificador:", codigo_identificador) - dados[codigo_identificador] = texto_encontrado + dados_json = [{ + "Titulo PDF": pdf_name, + "Texto encontrado:": texto_encontrado, + "Código identificador": codigo_identificador + }] - #as informações de cada pdf serão salvas em um arquivo com o mesmo nome do pdf mas com a extensão JSON - nome_arquivo = f"{save_path}/{pdf_name}.json" - - with open(nome_arquivo, "w", encoding="utf-8") as arquivo_json: - json.dump(dados, arquivo_json, ensure_ascii=False,indent=2) \ No newline at end of file + with open(f'{save_path}/data.json', 'r', encoding="utf-8") as arquivo_json: + old_json = json.load(arquivo_json) + + old_json.append(dados_json) + + with open(f'{save_path}/data.json', "w", encoding="utf-8") as arquivo_json: + json.dump(old_json, arquivo_json, ensure_ascii=False,indent=2) \ No newline at end of file