-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
d06628c
commit 519fa89
Showing
2 changed files
with
117 additions
and
12 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,43 @@ | ||
# Data Sampling | ||
|
||
## Data Sampling이란 | ||
|
||
- 큰 데이터 집합에서 작은 부분 집합을 추출하는 프로세스 | ||
- 통계 및 데이터 분석 분야에서 사용되는 일반적인 기술로, 데이터의 일부분을 조사하고 전체 데이터 집합에 대한 결론을 도출하는데 활용한다. | ||
- 큰 데이터 집합을 다 볼 수는 없을 때가 있다. 이 중에 Data Sampling을 통해 작은 집합을 추출할 수 있다면, 이 집합으로 전체 데이터가 이렇겠구나 라는 통찰력을 얻을 수 있고, 계산 저장 등 공간을 줄이는데에도 도움이 된다. | ||
|
||
## Data Sampling의 목적 | ||
|
||
위에 정의에서도 살짝 언급되었지만, 그래서ㅐ Data Sampilng을 하는 이유는 | ||
|
||
- 자원 및 시간 절약: 전체 데이터 집합을 처리하거나 분석하는 데 걸리는 시간과 자원을 절약. 대규모 데이터 집합에서 무작위로 추출된 샘플은 대부분의 데이터를 다루지 않아도 결과를 얻을 수 있음 | ||
- 데이터 테스트: 더 많은 데이터를 수집하기 전에 시스템 및 | ||
알고리즘을 테스트 가능 | ||
|
||
## Data Sampling의 종류 | ||
|
||
1. Random Sampling | ||
|
||
- 무작위로 데이터 집합에서 샘플을 선택하는 방법 | ||
- 랜덤하기 때문에 편향이 적음 | ||
|
||
2. Stratified Sampling | ||
|
||
- 데이터를 계층적으로 분류한 뒤, 그 계층에서 샘플을 추출 | ||
- 계측의 특성을 반영해서 추출하고 싶을때 사용 | ||
|
||
3. Cluster Sampling | ||
|
||
- 데이터를 여러 그룹 또는 cluster로 나누고, 몇 개의 cluster를 무작위로 선택한 후 선택된 cluster 내의 모든 데이터를 포함하는 방법. | ||
- 데이터가 고루 분포되지 않은 경우에 유용 | ||
|
||
4. weight Sampling | ||
|
||
- 데이터 포인트에 가중치를 할당하고 이러한 가중치를 기반으로 샘플을 추출하는 방법 | ||
- 데이터 포인트에 할당된 가중치는 해당 데이터 포인트의 중요성을 나타내며, 중요한 데이터는 더 자주 선택될 가능성이 높음 | ||
- 불균형 데이터 분포를 가진경우 잘 활용됨 | ||
|
||
5. Importance Sampling | ||
|
||
- 확률 분포에 기반한 통계 샘플링 기법. | ||
- 베이지안 추론, 몬테 카를로 시뮬레이션, 결합 확률 분포의 추정 등 |
519fa89
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
MODEL METRICS
Training variance explained: 33.0%
Test variance explained: 32.0%
Data viz