EDA-탐색적 데이터 분석¶
- 데이터를 이해하는 과정
- 데이터를 그래프적으로 보여주는 것
- 방대한 양의 자료를 분석하여 한눈에 볼 수 있도록 도표나 차트 등으로 정리하는 것
시각화 차트 5가지¶
- 순위 / 비교 : bar chart( 막대그래프 )
- 부분과 전체 : pie chart( 도넛차트 )
- 트랜트(추세) : line chart( 주식시장, 환율변동 등 )
- 상관관계 : 산포터(스캐터플롯(x,y좌표를 점으로 찍은것)), 히트맵(열과 행으로 색으로 표현) (나이가 증가함에 세포수는 줄어든다)
- 분포 : 히스토그램, box plot. (데이터들이 퍼저있는 정도)
- 우선적으로는 Matplotlib에 대해서 배우고 시본을 배울 것이다. 이유는 matplotlib의 진화된 형태가 시본이 된다. 그래서 matplotlib에 대해 먼저 배우도록 하자. 조금더 이쁘게 나오는게 시본이다.
In [2]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
# 경고 메세지를 숨겨주는 warnings
import warnings
In [3]:
# 한글 설정
plt.rc("font", family="Malgun Gothic")
# 시각화 기본 사이즈 정의
plt.rcParams["figure.figsize"] = (5, 3) #(가로, 세로)
In [4]:
x = [1,2,3,4,5,6,7,8,9,10]
y = [0, -0.5, -1.6 ,3 ,2.9 ,1.8 ,6, 6.4, 6.6, 10.4]
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
[0, -0.5, -1.6, 3, 2.9, 1.8, 6, 6.4, 6.6, 10.4]
In [6]:
# line 형태로 출력
plt.plot(x, y)
[<matplotlib.lines.Line2D at 0x193ab7db050>]
In [8]:
# 분포를 점으로 찍어서 출력
plt.scatter(x, y)
<matplotlib.collections.PathCollection at 0x193abf3ec10>
In [9]:
# bar 차트로 출력
plt.bar(x, y)
<BarContainer object of 10 artists>
- figure : 그래프를 그리기 위한 틀
- axis : figure안에 그려질 틀의 속성을 지정하는 값
- axis가 가지고 있는 요소
- set_title : 그래프의 제목 부분
- gird : 틀을 바둑판 처럼 생성
- legend : 범례
- x axis label : 가로축 이름
- y axis label : 세로축 이름
- tick : 눈금
- tick label : 눈금에 글자
- major tick label : 긴 눈금이 들어가는 부분
- minor tick : 짧은 눈금
plt.subplots(nrows, ncols)¶
- plt.subplots를 사용하면 2개의 객체를 돌려준다
- figure, axis
In [13]:
data_1_x = [1,2,3]
data_1_y = [3,6,9]
data_2_x = [1,2,3]
data_2_y = [2,5,9]
plt.plot(data_1_x, data_1_y)
plt.plot(data_2_x, data_2_y)
# 타이틀(제목) 설정, 폰트 사이즈 설정
plt.title("타이틀 예시", fontsize=20)
Text(0.5, 1.0, '타이틀 예시')
In [15]:
# 그래프의 크기를 다시 지정하여 출력
fig, ax = plt.subplots(figsize=(10, 3))
ax.plot(data_1_x, data_1_y)
ax.plot(data_2_x, data_2_y)
Text(0.5, 1.0, '타이틀')
In [17]:
plt.plot(data_1_x, data_1_y)
plt.plot(data_2_x, data_2_y)
# x축을 90도 회전
# y축을 45도 회전
In [21]:
# 그래프의 크기를 다시 지정하여 출력
fig, ax = plt.subplots(figsize=(10, 3))
ax.plot(data_1_x, data_1_y)
ax.plot(data_2_x, data_2_y)
ax.tick_params(axis="y", rotation=30)
ax.tick_params(axis="x", rotation=90)
In [20]:
plt.plot(data_1_x, data_1_y)
plt.plot(data_2_x, data_2_y)
# 범례 설정
plt.legend(["legend1", "22222"], fontsize=10)
In [23]:
# 그래프의 크기를 다시 지정하여 출력
fig, ax = plt.subplots(figsize=(10, 3))
# 범례 이름 설정 1111, 2222
ax.plot(data_1_x, data_1_y, label='1111')
ax.plot(data_2_x, data_2_y, label='2222')
# 범례 사이즈 설정
ax.tick_params(axis="y", rotation=30)
ax.tick_params(axis="x", rotation=90)
In [27]:
# 데이터를 1행, 2열로 출력
# 행 하나에 그래프가 2개 들어감
fg, ax = plt.subplots(1,2, figsize=(10,3))
ax[0].plot(data_1_x, data_1_y)
ax[1].scatter(x, y)
<matplotlib.collections.PathCollection at 0x193af1d7c10>
In [28]:
# 데이터를 2행, 1열로 출력
# 행 하나에 그래프가 2개씩 2줄 들어감
fg, ax = plt.subplots(2,2, figsize=(10,3))
# 위치를 [][] 로 표시
ax[0][0].plot(x, y)
ax[1][1].scatter(x, y)
<matplotlib.collections.PathCollection at 0x193af2d7c10>
In [30]:
# 데이터를 2행, 1열로 출력
# 행 하나에 그래프가 2개씩 2줄 들어감
fg, ax = plt.subplots(2,2, figsize=(10,3))
# 위치를 [][] 로 표시
ax[0][0].plot(x, y)
ax[1][1].scatter(x, y)
t_x = [10, 20, 30]
# pie 차트 출력
ax[0][1].pie(t_x, labels=["일", "이", "삼"])
h = [1, 1, 2, 3, 4, 5, 6, 7, 8, 9]
ax[1][0].hist(h, bins=9)
(array([2., 1., 1., 1., 1., 1., 1., 1., 1.]), array([1. , 1.88888889, 2.77777778, 3.66666667, 4.55555556, 5.44444444, 6.33333333, 7.22222222, 8.11111111, 9. ]), <BarContainer object of 9 artists>)
Seaborn ( https://seaborn.pydata.org/ )¶
- matplotlib을 기반으로 한 시각화 라이브러리
- 다양한 색상과 차트를 지원
- matplotlib보다 디자인적으로 우위를 가지고 있다
In [5]:
import seaborn as sns
In [6]:
# seaborn 에서 기본으로 제공해주는 dataset 인 tips
#지불한 총 요금, 팁, 성별, 흡연, 날짜, 시간, 사이즈를 가지고 있다
tips = sns.load_dataset('tips')
total_bill | tip | sex | smoker | day | time | size | |
0 | 16.99 | 1.01 | Female | No | Sun | Dinner | 2 |
1 | 10.34 | 1.66 | Male | No | Sun | Dinner | 3 |
2 | 21.01 | 3.50 | Male | No | Sun | Dinner | 3 |
3 | 23.68 | 3.31 | Male | No | Sun | Dinner | 2 |
4 | 24.59 | 3.61 | Female | No | Sun | Dinner | 4 |
... | ... | ... | ... | ... | ... | ... | ... |
239 | 29.03 | 5.92 | Male | No | Sat | Dinner | 3 |
240 | 27.18 | 2.00 | Female | Yes | Sat | Dinner | 2 |
241 | 22.67 | 2.00 | Male | Yes | Sat | Dinner | 2 |
242 | 17.82 | 1.75 | Male | No | Sat | Dinner | 2 |
243 | 18.78 | 3.00 | Female | No | Thur | Dinner | 2 |
244 rows × 7 columns
In [36]:
# 요일 확인
['Sun', 'Sat', 'Thur', 'Fri'] Categories (4, object): ['Thur', 'Fri', 'Sat', 'Sun']
In [38]:
# 요일 별로 그룹화해서 몇 명이 왔는지 카운트
total_bill | tip | sex | smoker | time | size | |
day | ||||||
Thur | 62 | 62 | 62 | 62 | 62 | 62 |
Fri | 19 | 19 | 19 | 19 | 19 | 19 |
Sat | 87 | 87 | 87 | 87 | 87 | 87 |
Sun | 76 | 76 | 76 | 76 | 76 | 76 |
In [39]:
group = tips.groupby("day").count()['total_bill']
# list 형으로 형변환
x = list(group.index)
y = list(group) # 갯수만 얻어옴
# 요일별 방문 사람 수 시각화
plt.bar(x, y)
<BarContainer object of 4 artists>
In [67]:
# 요일 별 총 금액 확인
group = tips.groupby("day")['total_bill'].sum()
# list 형으로 형변환
x = list(group.index)
y = list(group) # 갯수만 얻어옴
# 요일별 금액 확인
plt.bar(x, y)
<BarContainer object of 4 artists>
In [68]:
# 요일 별 총 금액 확인
group = tips.groupby("day")['total_bill'].sum()
# list 형으로 형변환
x = list(group.index)
y = list(group) # 갯수만 얻어옴
# 요일별 금액 확인
sns.barplot(x=x, y=y)
<Axes: >
In [43]:
total_bill | tip | size | |||||||||||||||||||
count | mean | std | min | 25% | 50% | 75% | max | count | mean | ... | 75% | max | count | mean | std | min | 25% | 50% | 75% | max | |
day | |||||||||||||||||||||
Thur | 62.0 | 17.682742 | 7.886170 | 7.51 | 12.4425 | 16.20 | 20.1550 | 43.11 | 62.0 | 2.771452 | ... | 3.3625 | 6.70 | 62.0 | 2.451613 | 1.066285 | 1.0 | 2.0 | 2.0 | 2.0 | 6.0 |
Fri | 19.0 | 17.151579 | 8.302660 | 5.75 | 12.0950 | 15.38 | 21.7500 | 40.17 | 19.0 | 2.734737 | ... | 3.3650 | 4.73 | 19.0 | 2.105263 | 0.567131 | 1.0 | 2.0 | 2.0 | 2.0 | 4.0 |
Sat | 87.0 | 20.441379 | 9.480419 | 3.07 | 13.9050 | 18.24 | 24.7400 | 50.81 | 87.0 | 2.993103 | ... | 3.3700 | 10.00 | 87.0 | 2.517241 | 0.819275 | 1.0 | 2.0 | 2.0 | 3.0 | 5.0 |
Sun | 76.0 | 21.410000 | 8.832122 | 7.25 | 14.9875 | 19.63 | 25.5975 | 48.17 | 76.0 | 3.255132 | ... | 4.0000 | 6.50 | 76.0 | 2.842105 | 1.007341 | 2.0 | 2.0 | 2.0 | 4.0 | 6.0 |
4 rows × 24 columns
In [49]:
fig, axes = plt.subplots(1, 2, figsize=(10,3))
# palette : 색상 설정
# ci : 분포 삭제
sns.barplot(x="day", y="total_bill", data=tips, palette="deep", ax=axes[1], ci=None)
<Axes: xlabel='day', ylabel='total_bill'>
Seaborn 그래프( https://seaborn.pydata.org/tutorial/function_overview.html )¶
그래프를 그리고자 할때는 속성값이 수치형인지, 카테고리형(범주형)인지를 파악 후 선택하는 것이 좋다
- relplot : 관계를 나타내고자 할때 사용한다
- scatterplot : 산포도(x,y를 점으로 표현)
- lineplot : 선 그래프
- displot : 분포를 나타내고자 할때 사용한다
- relplot : 관계를 나타내고자 할때 사용한다
카테고리형(범주형) 남자, 여자 등 분류가 정해져 있는 데이터
- catplot : 카테고리형(범주형)을 표현할때 사용하며, 남자, 여자 등 분류가 정해져 있는 데이터 이용할 때 사용한다
In [50]:
total_bill | tip | sex | smoker | day | time | size | |
0 | 16.99 | 1.01 | Female | No | Sun | Dinner | 2 |
1 | 10.34 | 1.66 | Male | No | Sun | Dinner | 3 |
2 | 21.01 | 3.50 | Male | No | Sun | Dinner | 3 |
3 | 23.68 | 3.31 | Male | No | Sun | Dinner | 2 |
4 | 24.59 | 3.61 | Female | No | Sun | Dinner | 4 |
In [52]:
# 판매량 당 팁 발생 확인
sns.relplot(x = "total_bill", y = "tip", data = tips)
<seaborn.axisgrid.FacetGrid at 0x193b2af9ed0>
In [54]:
# hue 를 사용해서 요일 별로 그룹화하여 시각화해줌
sns.relplot(x = "total_bill", y = "tip", hue="day", data = tips)
<seaborn.axisgrid.FacetGrid at 0x193b905c250>
In [55]:
# 날짜 별로 그래프를 분리
sns.relplot(x = "total_bill", y = "tip", hue="day", data = tips, col="day")
<seaborn.axisgrid.FacetGrid at 0x193b9091710>
In [58]:
# scatterplot 을 사용해서도 요일 별로 그래프를 분류할 수 있다
sns.scatterplot(x = "total_bill", y = "tip", hue="day", data = tips)
<Axes: xlabel='total_bill', ylabel='tip'>
In [62]:
# scatterplot 의 타이틀 지정 ( 변수로 그래프를 저장하여 타이틀 지정해야 함 )
g = sns.scatterplot(x = "total_bill", y = "tip", hue="day", data = tips)
g.set_title("scatter test", fontsize=20, color="blue")
Text(0.5, 1.0, 'scatter test')
In [63]:
# lineplot 을 사용하여 선으로 그래프를 표현
g = sns.lineplot(x = "total_bill", y = "tip", hue="day", data = tips)
In [70]:
# titanic 에 대한 dataset 도 seaborn 에서 기본 제공
t = sns.load_dataset("titanic")
survived | pclass | sex | age | sibsp | parch | fare | embarked | class | who | adult_male | deck | embark_town | alive | alone | |
0 | 0 | 3 | male | 22.0 | 1 | 0 | 7.2500 | S | Third | man | True | NaN | Southampton | no | False |
1 | 1 | 1 | female | 38.0 | 1 | 0 | 71.2833 | C | First | woman | False | C | Cherbourg | yes | False |
2 | 1 | 3 | female | 26.0 | 0 | 0 | 7.9250 | S | Third | woman | False | NaN | Southampton | yes | True |
3 | 1 | 1 | female | 35.0 | 1 | 0 | 53.1000 | S | First | woman | False | C | Southampton | yes | False |
4 | 0 | 3 | male | 35.0 | 0 | 0 | 8.0500 | S | Third | man | True | NaN | Southampton | no | True |
In [74]:
# 연령별 탑승 수 확인
# color 를 skyblue 로 변환
sns.histplot(x="age", data=t, bins=10, color="skyblue")
<Axes: xlabel='age', ylabel='Count'>
In [80]:
# sns.barplot(x="sex", y="tip", data=tips)
r = sns.barplot(x=tips["sex"], y=tips["tip"])
r.set_xlabel("성별", fontsize=10)
r.set_ylabel("팁", fontsize=10)
Text(0.5, 1.0, 'bar')
In [84]:
sns.boxplot(x="day", y="tip", data=tips)
<Axes: xlabel='day', ylabel='tip'>
In [86]:
# 담배를 피는 사람과 피지 않는 사람의 팁 차이 를 요일별로 확인
sns.boxplot(x="day", y="tip", hue="smoker", data=tips)
<Axes: xlabel='day', ylabel='tip'>
In [92]:
# 각 컬럼의 상관관계를 확인
# tip 이 올라갈때 total_bill 이 올라가면
# 수치가 1과 가깝게 나옴
total_bill | tip | size | |
total_bill | 1.000000 | 0.675734 | 0.598315 |
tip | 0.675734 | 1.000000 | 0.489299 |
size | 0.598315 | 0.489299 | 1.000000 |
In [98]:
# 각 컬럼의 상관관계를 시각화 ( heatmap 사용 )
# annot = True : 수치를 숫자로 나타내준다
# 수치가 0.7 이상이면 서로 깊은 연관관계가 있다
sns.heatmap(tips.corr(numeric_only=True), annot=True)
<Axes: >
In [99]:
In [100]:
pip install seaborn --upgrade
In [8]:
# 각 컬럼의 상관관계를 시각화 ( heatmap 사용 )
# annot = True : 수치를 숫자로 나타내준다
# 수치가 0.7 이상이면 서로 깊은 연관관계가 있다
sns.heatmap(tips.corr(numeric_only=True), annot=True)
# seaborn 으로 heatmap 그리는데 annot=True 를 설정해도
# 맨 윗줄 한 줄만 숫자가 나타남
# seaborn 버전 0.12.2 에서 자주 발생하는 문제라 함
# 버전을 0.13.2 로 올린 뒤 우측 상단의 Python 3 (ipykernel) 부분
# 클릭해서 커널 다시 재실행 후 시작하니 정상 작동
<Axes: >
