Skip to content

Commit

Permalink
Merge pull request #109 from unb-mds/Danilo
Browse files Browse the repository at this point in the history
[edit] Mudando a forma de salvar os dados
  • Loading branch information
Carlos-kadu authored Nov 30, 2023
2 parents 5a5d526 + 7c5e661 commit 7938ef0
Showing 1 changed file with 16 additions and 13 deletions.
29 changes: 16 additions & 13 deletions src/readpdf.py
Original file line number Diff line number Diff line change
Expand Up @@ -13,7 +13,6 @@
save_path = os.path.join(diretorio_atual, 'dados')

#nome da lista com os arquivos de pdf
nome_arquivo = file_path
linhas = []

with open(nome_arquivo, "r", encoding="utf-8") as arquivo_txt:
Expand Down Expand Up @@ -41,20 +40,24 @@
if (resultados == []):
padrao = r'COMISSÃO DE LICITAÇÃ O(.*?)Código Identificador: (\w+)'
resultados = re.findall(padrao, text, re.DOTALL)

j = 0

for resultado in resultados:
print("Dado encontrado!")

texto_encontrado = resultado[0].strip()
codigo_identificador = resultado[1]
print("-" * 100)
print(texto_encontrado)
j += 1

#Extrair Codigo
print("Código Identificador:", codigo_identificador)
dados[codigo_identificador] = texto_encontrado
dados_json = [{
"Titulo PDF": pdf_name,
"Texto encontrado:": texto_encontrado,
"Código identificador": codigo_identificador
}]

#as informações de cada pdf serão salvas em um arquivo com o mesmo nome do pdf mas com a extensão JSON
nome_arquivo = f"{save_path}/{pdf_name}.json"

with open(nome_arquivo, "w", encoding="utf-8") as arquivo_json:
json.dump(dados, arquivo_json, ensure_ascii=False,indent=2)
with open(f'{save_path}/data.json', 'r', encoding="utf-8") as arquivo_json:
old_json = json.load(arquivo_json)

old_json.append(dados_json)

with open(f'{save_path}/data.json', "w", encoding="utf-8") as arquivo_json:
json.dump(old_json, arquivo_json, ensure_ascii=False,indent=2)

0 comments on commit 7938ef0

Please sign in to comment.