Skip to content

Conceitos

Laercio Serra edited this page May 27, 2024 · 26 revisions

Como dar poderes aos usuários

O que isso quer dizer? Quer dizer que, agora, os usuários também poderão tomar decisões.

Mas, vamos pensar no seguinte: o quanto estes usuários serão eficientes em tomar decisões, se eles não possuírem os dados e as informações necessárias?

Implementar um depósito de dados integrados (data warehouse), é uma forma eficiente de entregar esses dados.

Esse “poder”, possibilita que os usuários, controlem o seu próprio destino – não recorrendo aos especialistas de TI, para obter dados e informações.

O uso de ferramentas para a análise e exploração de dados, a partir de um data warehouse, dá aos usuários este “poder”. Com o data warehouse, o usuário passa a ter acesso aos dados de forma fácil e rápido, podendo ainda trabalhar de uma forma nunca antes imaginado. Assim, novas informações são produzidas e descobertas. E, ainda, surge uma nova forma de pensar e agir dentro da empresa.

De posse dessa liberdade de acessar os dados, e produzir os relatórios sobre o que se deseja, o time de TI fica livre para construir outras aplicações.

Dar “poder” ao usuário, é ter a possibilidade de transformar a empresa em uma empresa mais dinâmica, ágil e criativa. E a melhor forma de viabilizar isso, é criando uma infra-estrutura de dados para entregar estes dados.

Entendendo o que é Big Data

O termo "Big Data" tem sido usado para descrever conjuntos de dados que são tão grandes que os meios tradicionais de armazenamento de dados, gestão, pesquisa, análise e processamento tornou-se um grande desafio. Big Data é caracterizado pela magnitude da informação digital que pode vir de muitas fontes e formatos de dados (estruturados e não-estruturados). Além disso, os dados podem ser processados ​​e analisados ​​para encontrar ideias e padrões usados ​​para tomar decisões com base nas informações.

Big Data, é definido como o conjunto de soluções tecnológicas que lidam com dados digitais em: volume, variedade e velocidade sem precedentes. Estas tecnologias também permitem analisar qualquer tipo de informação digital em tempo real, sendo fundamental para a tomada de decisão.

Aplicação prática do Big Data

Quem assistiu ao filme “Moneyball” (O homem que mudou o jogo)?

O filme apresenta como um gerente de um time de beisebol usa os dados coletados e as análises geradas, para reunir um elenco de primeira linha sem gastar muito.

Um filme que retrata bem a realidade do mundo corporativo, apesar de ser baseado no esporte.

Data Lake versus Data Warehouse

O Data Warehouse é um conjunto de dados baseado em assuntos integrados, não voláteis, variáveis em relação ao tempo, e destinado a auxiliar em decisões de negócios. Diferentemente do Data Lake que se baseia em um grande volume de dados, voláteis ou não, com maior velocidade.

Todos os dados que uma organização gera, são coletados e armazenados em um Data Lake. Permitindo posteriormente, que os usuários se preocupem em como usá-los. Neste sentido, são mais escaláveis do que o Data Warehouse.

Os dados estruturados no Data Warehouse, buscam entregar respostas para perguntas conhecidas. Enquanto que no Data Lake, na sua grande totalidade, os dados não estão estruturados e buscam entregar respostas para perguntas muitas vezes desconhecidas (business discovery).

GML Data Warehouse

Para usar as ferramentas de análise e exploração de dados GML BI Community Edition, antes é preciso baixar o banco de dados. Este banco de dados (Data Warehouse), é um conjunto de dados baseado no CNPJ das empresas (ativas e inativas) no Brasil. São aproximadamente 6M de empresas e o tamanho do arquivo é de aproximadamente 500MB.

Esses dados estão armazenados em um banco de dados OLAP, chamado DuckDB. E estão disponíveis para acesso e uso, somente através destas ferramentas.

O DuckDB é um sistema de gerenciamento de banco de dados SQL OLAP, que foi projetado para oferecer suporte a cargas de trabalho de consulta analítica, também conhecidas como processamento analítico online (OLAP). Essas cargas de trabalho são caracterizadas por consultas complexas e de execução relativamente longa que processam partes significativas do conjunto de dados armazenado, por exemplo: agregações em tabelas inteiras ou junções entre várias tabelas grandes. Espera-se que as alterações nos dados também sejam de grande escala, com várias linhas sendo anexadas ou grandes porções de tabelas sendo alteradas ou adicionadas ao mesmo tempo.

Para oferecer suporte eficiente a essa carga de trabalho, é essencial reduzir a quantidade de ciclos de CPU gastos por valor individual. O estado da arte em gerenciamento de dados para conseguir isso são os mecanismos de execução de consultas vetorizadas ou just-in-time. O DuckDB contém um mecanismo de execução de consultas vetorizadas em colunas, onde as consultas ainda são interpretadas, mas um grande lote de valores (um “vetor”) é processado em uma operação. Isso reduz muito a sobrecarga presente em sistemas tradicionais, como PostgreSQL, MySQL ou SQLite, que processam cada linha sequencialmente. A execução de consulta vetorizada leva a um desempenho muito melhor em consultas OLAP.

GML Data Lake

O GML Data Warehouse, é uma parte do GML Data Lake (banco de dados completo). Este banco de dados contém mais de 30 milhões de empresas.

Para ter acesso e usar este banco de dados completo, você precisa escolher um Plano e utilizar a nossa Solução Cloud.

Ou você pode fazer contato, para saber mais sobre listas segmentadas que estejam mais adequado às suas necessidades.