Gerador de Dataset para Processamento de Linguagem Natural

Descrição

Este repositório tem o intuito de gerar um dataset simples, com um conjunto de frases extraídas do Twitter, por meio da API disponibilizada pelo próprio Twitter.

Módulos

main.py
É responsável por comandar todos os outros módulos.
call_stream.py
Unicamente invocado para fazer as chamadas de ativação da stream.
stream.py
O módulo é ativado e tem uma função call back que retorna todo tweet que chega na pesquisa.
auth.py
Unicamente para autenticar as chaves da API.
aux_mod.py
São funções que auxiliam módulos maiores, retornam listas de pontuação, stopwords e strings tokenizadas.
twitter_data_cleaner.py
Esse módulo remove todas as informações que não são utilizados para a analise:
- remove_stopwords
- remove_user
- remove_URL
- remove_emoji
- remove_hashtag
- remove_punct
config.env
As chaves de acesso da API do twitter e a palavra chave a ser pesquisada, podem ser acessadas por meio desse arquivo.

O fluxo de software se dá por essa primeira imagem:

Twitter API

Para poder utilizar a API vocÊ precisa das chaves que são disponibilizadas a partir do momento que você cria o projeto.

I/O

Input No arquivo config.env é possível editar a palavra que quer basear seu dataset em WORDKEY. As outras variáveis são chaves que são disponibilizadas pela API do Twitter, e são necessárias no processo de autenticação.

WORDKEY= CONSUMER_KEY= CONSUMER_SECRET_KEY= ACESS_TOKEN= ACESS_SECRET_TOKEN=
Output O arquivo cria um arquivo CSV e popula o arquivo com os tweets que vão chegando, até que sofra uma interrupção do teclado (Ctrl+C).

1 | tweet exemplo 1

2 | tweet exemplo 2

pip install

Para que baixar todas as bibliotecas utilizadas basta copiar a linha abaixo:
pip install tweepy nltk unidecode python-dotenv

Contribua com o repositório :)

Qualquer tipo de contribuição é bem vinda, desde dicas até pull requests.

git clone https://github.com/otaviodantas/NLP-generator-dataset.git

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.gitignore		.gitignore
README.md		README.md
auth.py		auth.py
config.env		config.env
main.py		main.py
stopword.py		stopword.py
stream.py		stream.py
to_csv.py		to_csv.py
twitter_data_cleaner.py		twitter_data_cleaner.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Gerador de Dataset para Processamento de Linguagem Natural

Descrição

Módulos

Twitter API

I/O

1 | tweet exemplo 1

2 | tweet exemplo 2

pip install

Contribua com o repositório :)

About

Releases 1

Packages

Languages

otaviodantas/NLP-generator-dataset

Folders and files

Latest commit

History

Repository files navigation

Gerador de Dataset para Processamento de Linguagem Natural

Descrição

Módulos

Twitter API

I/O

1 | tweet exemplo 1

2 | tweet exemplo 2

pip install

Contribua com o repositório :)

About

Resources

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages