-
Notifications
You must be signed in to change notification settings - Fork 9
/
aula01-datascience.Rmd
184 lines (130 loc) · 9.25 KB
/
aula01-datascience.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
---
title: "IF1015 -- Introdução a Ciência dos Dados"
subtitle: "Aula01 -- O que é Ciência dos Dados?"
author: "Renato Vimieiro <br> rv2 [em] cin.ufpe.br"
date: "março -- 2017"
output:
ioslides_presentation:
footer: "Copyright (c) 2017, Renato Vimieiro"
css: mytemplate.css
widescreen: true
smart: true
self_contained: false
# mathjax: local
bibliography: reference.bib
fig_caption: true
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE)
```
## Dilúvio de dados (1/2)
- Houve uma evolução drástica da infraestrutura para armanezagem e coleta de dados nos últimos 15 anos
- Praticamente todas as instituições coletam dados sobre seus processos e clientes
- Estima-se que 90% de todos os dados disponíveis no mundo hoje foram coletados nos últimos 5 anos
> A IBM estimou que, em 2012, 2.5 bilhões de gigabytes eram produzidos diariamente, sendo 75% dos dados não estruturados (texto, voz, vídeo e imagens) (Wall, 2014)
## Dilúvio de dados (2/2)
- De acordo com um estudo da EMC (Burn-Murdoch, 2012), a quantidade de dados armazenado em 2012 era de **2.8 ZB**, com projeções de chegar a **40 ZB em 2020**
- Contudo, o mesmo estudo revela que, dentre esses mesmos **2.8 ZB de dados**, apenas **0.5%** foram analisados
- Esse contexto mostra a necessidade eminente de usar os dados coletados para extrair informação e conhecimento. Isto é, esse é o contexto que surge *Data Science*
## Oportunidades nos dados
- A análise de dados para se obter vantagens competitivas não é algo novo
- Empresas já contratavam times de estatísticos e/ou atuários desde o início do século passado
- A mudança para os dias de hoje está na inviabilidade da análise manual desses dados
- Os computadores modernos possibilitaram automatizar o cruzamento de dados, o que, consequentemente, permitiu que análises mais profundas fossem realizadas
## Data Science, Data Mining, Machine Learning, Business Intelligence ...
- A formalização do processo (semi)automatizado de análise de dados tem recebido diferentes nomes ao longo dos anos
- Muitos dos métodos classificados como de Data Mining, também são classificados como de Aprendizado de Máquinas
- Há ainda interseções (ou sobreposições) com Business Intelligence, que muitas vezes inclui métodos de data mining/machine learning e outras técnicas da área de Banco de Dados
- Mais recentemente, o processo de análise de dados tem sido conhecido como Data Science
## Vantagens competitivas da análise de dados
- Para exemplificar as vantagens competitivas que a análise sistemática de dados pode trazer, veremos alguns casos reais de sua aplicação
- São eles:
- Previsão do consumo de itens em situações de emergência
- Antecipação da possibilidade de troca de cia telefônicas
- Avaliação de crédito
## Previsão do consumo de itens em situações de emergência (1/2)
- Em 2004, um ciclone tropical (Furacão Frances) se formou nas águas do Atlântico entre a América do Sul e África, cruzando o Caribe em direção ao Atlântico norte
- Dada a previsão de que o furacão atingiria a Flórida, os executivos do Wal-Mart decidiram testar algumas das suas novas armas para análise de dados (Hays, 2004)
- Usando dados de outro furacão (Charley) que atingira a costa sul dos EUA no mesmo ano, eles queriam prever quais itens seriam consumidos para reforçar o estoque em suas lojas
## Previsão do consumo de itens em situações de emergência (2/2)
- Qual o comportamento esperado numa situação como esta?
- Aumento no consumo de água mineral ou de pilhas?
- Aumento no consumo de um determinado DVD?
- A análise dos dados mostrou que há um aumento nas vendas de:
<div class="centered">
<img src="http://cdn.alleywatch.com/wp-content/uploads/2014/07/beer-and-pop-tarts.jpg"
alt="Wal-Mart previsão furacão Frances" height="58%" width="55%">
</div>
## Previsão de churn em telecomunicações (1/3)
- Número de telefones celulares em relação a população de acordo com o Banco Mundial
<div class="centered">
<img src="http://blogs.worldbank.org/publicsphere/files/publicsphere/Johanna/Screen%20Shot%202013-07-24%20at%2012.23.41%20PM%20copy.jpg"
alt="Número de celulares em relação a população" height="58%" width="55%">
</div>
## Previsão de churn em telecomunicações (2/3)
- O mercado de telefonia móvel já está saturado na maioria dos lugares
- Estudos mostram que no Brasil já existem cerca de 250 milhões de usuários
- Oportunidades reduzidas de conquistar novos clientes
- Operadoras lutam para manter seus clientes e evitar migrações para outras empresas (**churn**)
## Previsão de churn em telecomunicações (3/3)
- Esse cenário oferece uma excelente oportunidade para entender o motivo da troca e, assim,
tentar manter o cliente antes que o contrato expire
- Várias empresas de telecomunicações possuem grandes equipes de cientistas de dados para
estudar esse e outros problemas como fraude, planejamento de capacidade, melhoria na satisfação de clientes, ...
## Análise de crédito (1/3)
- Na década de 1990, Richard Fairbank e Nigel Morris revolucionaram a indústria de crédito
- Eles propuseram flexibilizar as linhas de crédito (inicialmente via cartões de crédito) para os clientes de instituições financeiras
- Anteriormente, as taxas e valores dos cartões de crédito eram fixos, e os clientes eram somente aprovados ou reprovados
## Análise de crédito (2/3)
- A proposta de Fairbank e Morris era usar as informações dos clientes para prever o risco de inadimplência e ajustar os valores consequentemente
- O problema era que as instituições financeiras não possuíam essa informação
- Após várias tentativas fracassadas, eles convenceram um pequeno banco (Signet Bank) a coletar esses dados para realizar a modelagem
## Análise de crédito (3/3)
- A coleta de dados resultou em prejuízos para o banco inicialmente, mas depois as taxas de inadimplência decaíram substancialmente, aumentando o lucro da instituição
- Esse processo foi estendido a outras linhas de crédito e é o padrão das indústria atualmente
- De fato, essa linha de raciocínio de aprimorar a experiência dos usuários é usada pelas gigantes da internet (Amazon, Google, Facebook, etc.)
## Perfil de um cientista de dados
- Vimos que data science é a sistematização da análise de dados
- Assim, qual o perfil de um cientista de dados
- De acordo com [Drew Conway](http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram), o profissional deve possuir o seguinte perfil
<div class="centered">
<img src="https://static1.squarespace.com/static/5150aec6e4b0e340ec52710a/t/51525c33e4b0b3e0d10f77ab/1364352052403/Data_Science_VD.png?format=750w"
alt="Perfil de um cientista de dados" height="38%" width="35%">
</div>
## Data Science não é Big Data
- Há uma frequente associação entre Data Science e Big Data
- Essa associação não implica que ambos sejam a mesma coisa
- Data Science é o processo de análise
- Big Data é: ?????
## Big Data
- Big data, apesar de ser um termo muito usado, não possui uma definição precisa
- Em linhas gerais, entende-se que o termo expressa grandes volumes de dados estruturados ou não
- Muitas vezes é associado aos 3 V's
- **Volume**: grande quantidade de dados coletados de diferentes fontes
- **Velocidade**: dados de streaming (tempo real), ocorrendo atualizações constantes
- **Variedade**: mistura de dados de diferentes tipos; estruturados, não-estruturados; emails, texto, áudio, vídeo, ...
## O ecossistema de data science
- Vimos que o perfil de um cientista de dados exige diferentes proficiências
- No entanto, a pessoa normalmente possui uma área de formação básica que, certamente, ainda não é em data science
- Pessoas com diferentes formações vão escolher diferentes ferramentas de trabalho
- Diferentes empresas também ofertam diferentes ferramentas
## O ecossistema de data science
- Se fizermos uma busca pelo ecossistema de data science, encontramos
<div class="centered">
<a href=https://www.datameer.com/wp-content/uploads/2016/06/matt_turck_big_data_landscape_v11r.png target="_blank">
<img src="https://www.datameer.com/wp-content/uploads/2016/06/matt_turck_big_data_landscape_v11r.png"
alt="Ecossistema de data science" height="58%" width="55%"></a>
</div>
## O ecossistema de data science
- Existem outras imagens que mostram esquematicamente a divisão das ferramentas necessárias
<div class="centered">
<a href="https://cdn.datafloq.com/cms/os_big_data_open_source_tools-v2.png" target="_blank">
<img src="https://cdn.datafloq.com/cms/os_big_data_open_source_tools-v2.png"
alt="Ecossistema resumido de data science" height="68%" width="65%"></a>
</div>
## Referências
<font size=3>
Wall, M. (2014) *Big Data: Are you ready for blast-off?*. BBC News. http://www.bbc.com/news/business-26383058
Burn-Murdoch, J. (2012) *Study: less than 1% of the world's data is analysed, over 80% is unprotected*. The Guardian. https://www.theguardian.com/news/datablog/2012/dec/19/big-data-study-digital-universe-global-volume
Hays, C. L. (2004) *What Wal-Mart Knows About Customers' Habits*. The New York Times. http://www.nytimes.com/2004/11/14/business/yourmoney/what-walmart-knows-about-customers-habits.html
</font>