Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

데이터 시각 #3

Open
Jangchanhi opened this issue Apr 7, 2023 · 0 comments
Open

데이터 시각 #3

Jangchanhi opened this issue Apr 7, 2023 · 0 comments

Comments

@Jangchanhi
Copy link
Owner

데이터 시각화 : 데이터를 시각화하여 데이터의 분포나 특성 확인, 방대한 양의 데이터를 빠르게 보고 유의미한 특성을 찾아내는 중요한 작업

Matplotlib : 파이썬에서 데이터를 차트나 플롯으로 그려주는 가장 많이 사용되는 데이터 시각화 패키지

  1. 라인 Plot
  2. 바차트
  3. 파이차트
  4. 히스토그램
  5. Box plot
  6. Scatter Plot

차트 그리기
[1] plt.figure() : 시각화 그림을 표시할 영역 지정
[2] plt.plot() : 시각화 차트 및 값 지정
[3] plt.show() : 시각화 출력

선 그래프(Line Plot) 그리기 : plt.plot(data)

  • 수치의 변화를 선으로 이어서 그려줌
  • 시간에 따른 데이터의 변화 추세를 볼 때 사용

산점도 그리기 plt.scatter(x,y)

  • 키와 몸무게 같은 두 값 간의 관계를 표현
  • 두 값이 양의 상관관계인지 음의 상관관계인지를 파악할 수 없음
  • X와 Y 값을 지정해야 함

히스토그램 그리기 : plt.hist(x)

  • 수치형 데이터의 분포를 나타냄
  • 빈도, 빈도밀도, 확률 등의 분포를 그릴 때 사용
  • 구간 값(bins)을 정해주지 않으면 10개 구간으로 나누어 그래프를 그려 줌

박스 그래프 그리기 : plt.boxplot(x)

  • 수치적 자료를 표현하는 그래프
  • 수치적 자료로부터 얻어낸 통계량인 5가지 요약 수치를 가지고 그래프를 만듦
    5가지 수치 => [최소값(가장 하단), 제 1사분위값(가운데 박스 하단), 제 2사분위값, 제 3사분위값(박스 상단), 최대값(가장 상단)], [노란색 선 => 중앙값]

막대 그래프 그리기 : plt.bar(x, height)

  • 범주형 데이터의 수치를 요약해서 보여줌
  • 일반적으로 가로,세로 누적, 그룹화 된 막대 그래프 등을 사용함

Seaborn : matplotlib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지 -> 기본적인 시각화 기능은 Matplotlib 패키지에 의존

Matplotlib vs Seaborn

  1. Matplotlib
  • 기본적인 시각적 개체를 만드는데 사용
  • 기본적이고 단순한 디스플레이
  • numpy와 pandas만으로 다양한 시각화 가능
  • 복잡하고 긴 구문, 여러개의 시각화 한번에 열 수 있음
  • 강력하고 유연, 사용자 기능 정의 쉬움
  1. Seaborn
  • 주로 통계 그래프를 만드는데 사용
  • 시각적인 요소가 가미된 디스플레이
  • numpy와 pandas 뿐만 아니라 matplotlib도 사용해야함
  • 쉽고 간단한 구문
  • 메모리 부족문제로 다중 시각화하는데 실패할 수 있음
  • 비교적 덜 유연하고 사용자 기능 정의 어려움

[1] Scatter plot : sns.scatterplot(x,y)

  • 두 값이 어떤 관계에 있는지 분포를 확인할 수 잇음
  • x와 y값을 지정해야함

[2] Cat plot : sns.catplot(x,y,col or row)

  • 색상(hue)과 열(col) 또는 행(row) 등을 동시에 사용하여 3개 이상의 카테고리 값에 의한 분포 변화를 보여줌

[3] LM Plot : sns.lmplot(x,y)

  • 산점도에 회귀선을 그려주어 하나의 값에 따라 다른 값이 어떻게 변하는지를 예측할 수 있음

[4] count plot : sns.countplot(x)

  • 항목 별 갯수를 확인할 때 사용함, 연속형 / 범주형 변수에 적용 가능

[5] box plot : sns.boxplot(x,y)

  • 수치적 자료를 표현하는 그래프
  • 수치적 자료로부터 얻어낸 통계량인 5가지 요약 수치를 가지고 그래프를 만듦
    <5가지 수치> 최소값, 제 1,2,3 사분위값, 최대값

[6] violin plot : sns.violinplot(x,y)

  • boxplot과 모양은 비슷하지만 밀집도를 함께 볼 수 있어 데이터 탐색에 유용하게 사용할 수 있다.

[7] join Plot : sns.jointplot(x,y)

  • 산점도와 count Plot을 한번에 보여주는 그래프
  • 데이터의 분포와 상관관계를 한번에 볼 수 잇어 데이터 탐색에 장점이 있음
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant