import pandas as pd

# 가상의 데이터임
# food_a, food_b, food_c 는 음식점이라고 가정
# 각 값들은 배달 소요시간을 의미
df = pd.read_csv("../data_set/2.데이터 클린징/food.csv")
df.head()

df.mean()

food_a    47.407407
food_b    51.037037
food_c    42.407407
dtype: float64

# 기초 통계 값을 제공
df.describe()

# mean : 평균 값
# std : 표준 편차
# min : 최소 값
# max : 최대 값

# 50% 값 : 중위수 ( 중앙값 )
# 25% 값 : 그래프의 Q1 값
# 75% 값 : 그래프의 Q3 값

import numpy as np
test_median = [1,2,3,4,5,6,7,8,9,1000];
print('평균 : ', np.mean(test_median))
print('중위수(중앙 값) : ', np.median(test_median))

평균 :  104.5
중위수(중앙 값) :  5.5

a_m = np.median( df['food_a'] )
b_m = np.median( df['food_b'] )
c_m = np.median( df['food_c'] )

print("a의 중위수 : ", a_m)
print("b의 중위수 : ", b_m)
print("c의 중위수 : ", c_m)

a의 중위수 :  46.0
b의 중위수 :  30.0
c의 중위수 :  31.0

# 그래프로 표현해주는 matpolotlib.pyplot
# 출력되는 120 의 값이 이상치이고
# 80 이 최대 이상치, 20 이 최소 이상치, 노란선이 median(중위수)
# 사각형의 윗선이 Q3, 사각형의 아랫선이 Q1
# 사각형 위의 선은 최대 이상치
# 사각형 아래 선은 최소 이상치

import matplotlib.pyplot as plt
plt.boxplot(df['food_a'])
plt.show()

# 15와 -4 에 해당하는 값이 각각 이상치로 출력되며
# 중위 값은 노란 선
# 사각형의 윗선이 Q3, 아랫선이 Q1
# 사각형 위의 선은 최대 이상치
# 사각형 아래 선은 최소 이상치

test_median = [-4,2,3,4,5,6,7,8,9,15]
df_test = pd.DataFrame(test_median)
plt.boxplot( df_test[0] )
plt.show()

df_test.describe()

# 25% 에 해당하는 값을 가져온다 ( Q1 지점 )
q1 = df_test.describe().loc['25%']

# 75% 에 해당하는 값을 가져온다 ( Q3 지점 )
q3 = df_test.describe().loc['75%']

q1, q3

(0    3.25
 Name: 25%, dtype: float64,
 0    7.75
 Name: 75%, dtype: float64)

# iqr 값은 q3 - q1
iqr = q3 - q1

# 최소 이상치 구하기
lower = q3 - iqr * 1.5

# 최대 이상치 구하기
upper = q1 + iqr * 1.5

iqr, lower, upper

# lower(최소 이상치) 미만 값과 upper(최대 이상치) 초과 값을
# 이상치로 판단하여 치환 혹은 삭제를 진행한다

(0    4.5
 dtype: float64,
 0    1.0
 dtype: float64,
 0    10.0
 dtype: float64)

# lower(최소 이상치) 보다 크거나 같으면 True 출력
# false 면 이상치
df_test >= lower

# upper(최대 이상치) 보다 작거나 같으면 True 출력
# false 면 이상치
df_test <= upper

# True 인 데이터들만 가져오겠다
# 이상치를 제외한 데이터들을 가져온다
df_test = df_test[(df_test >= lower) & (df_test <= upper)]
df_test

# NaN 의 값을 중위수(중앙값) 으로 변경 후 저장
df_test.replace(to_replace = np.nan, value=df_test.describe().loc['50%'], inplace=True)
df_test

# 그래프로 출력 ( 이상치가 없어졌음 )
plt.boxplot( df_test )
plt.show()

import pandas as pd

df = pd.read_csv("../data_set/2.데이터 클린징/test1.csv")
df

# 중복 값이 True 로 처리된다
df.duplicated()

0    False
1     True
2    False
3    False
4    False
5     True
dtype: bool

# 중복 데이터의 갯수 구하기
df.duplicated().sum()

0

# 중복 데이터 삭제
df.drop_duplicates(inplace=True)
df

df.duplicated().sum()

0

# reset_index(drop=True) 는 index 를 재정의해준다
# 위에서 중복데이터를 삭제해 index 에 빈 값이 생긴걸
# 순서대로 다시 정렬해준다
df.reset_index(drop=True)

import pandas as pd
df = pd.read_csv("../data_set/2.데이터 클린징/test2.csv")
df

# sklearn.preprocessing 의 LabelEncoder 클래스를 import
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

# LabelEncoder 에 name 을 학습시킨 뒤
le.fit(df['name'])

# transform 을 통해 문자를 숫자로 학습한 값을 다시 df['name'] 으로
# 대입한다
df['name'] = le.transform(df['name'])
df

# fit_transform() 으로 한꺼번에 처리할 수도 있다
# color 의 문자 값을 학습시켜 숫자로 변환한뒤
# c-1 컬럼을 생성하여 넣어준 것
df['c-1'] = le.fit_transform(df['color'])
df

df['color'].unique(), df['c-1'].unique()

(array(['red', 'yellow', 'green'], dtype=object), array([1, 2, 0]))

# 직접 red 를 10 으로, yellow 를 20 으로, green 을 30으로 지정
item = {'red':10, 'yellow':20, 'green':30}
df['c-2'] = df['color'].map(item)
df

# 새로운 Dataset 추가
df=pd.DataFrame({
    'id':[302,504,708,103,343,565],
    'name':['Watch','Camera','Phone','Shoes','Laptop','Bed'],
    'cost':["300","400","350","100","1000","400"],
    'flt':["30.1","40.1","35.1","10.1","10.1","40.1"]
    
})
df

# 원본 데이터를 복제하여 df_copy 에 저장
df_copy = df.copy()

# 데이터 타입을 확인
# cost 가 눈에 보이는 값은 숫자이지만 문자형태로 저장되어 있음
# flt 도 동일
df_copy.dtypes

id       int64
name    object
cost    object
flt     object
dtype: object

# to_numeric() 으로 정수 형태로 변환한 뒤
# 다시 저장하여 타입 확인
df_copy['cost'] = pd.to_numeric(df_copy['cost'])
df_copy.dtypes

id       int64
name    object
cost     int64
flt     object
dtype: object

# to_numeric() 으로 실수(float) 형태로 변환한 뒤
# 다시 저장하여 타입 확인
df_copy['flt'] = pd.to_numeric(df_copy['flt'])
df_copy.dtypes

id        int64
name     object
cost      int64
flt     float64
dtype: object

# 원본 데이터를 복제하여 df_copy 에 저장
df_copy = df.copy()
df_copy.dtypes

id       int64
name    object
cost    object
flt     object
dtype: object

# astype 을 사용하여 자료형을 변환할 수도 있다
df_copy['flt'] = df_copy['flt'].astype(float)
df_copy['cost'] = df_copy['cost'].astype(int)
df_copy.dtypes

id        int64
name     object
cost      int32
flt     float64
dtype: object

# 원본 데이터를 복제하여 df_copy 에 저장
df_copy = df.copy()
df_copy.dtypes

id       int64
name    object
cost    object
flt     object
dtype: object

# 한번에 지정한 모든 컬럼의 데이터를 형변환
df_copy[['cost','flt']] = df_copy[['cost','flt']].apply(pd.to_numeric)
df_copy.dtypes

id        int64
name     object
cost      int64
flt     float64
dtype: object

# 새로운 Dataset 추가
data = {'A':[1, 2, 3],  'B':[4, 5, 6], 'C':[7, 8, 9] }
df = pd.DataFrame(data)
df

import numpy as np
# 모든 합을 구해준다
np.sum( df ), np.sum(df['A'])

(A     6
 B    15
 C    24
 dtype: int64,
 6)

df.sum(), df['B'].sum()

(A     6
 B    15
 C    24
 dtype: int64,
 15)

# apply 는 모든 값들을 한번에 처리할 때 사용한다
df.apply( np.sum )

A     6
B    15
C    24
dtype: int64

	food_a	food_b	food_c
count	27.000000	27.000000	27.000000
mean	47.407407	51.037037	42.407407
std	20.267935	110.789295	64.268822
min	20.000000	5.000000	5.000000
25%	38.000000	20.000000	20.000000
50%	46.000000	30.000000	31.000000
75%	57.000000	41.500000	45.500000
max	120.000000	600.000000	350.000000

	0
count	10.000000
mean	5.500000
std	4.972145
min	-4.000000
25%	3.250000
50%	5.500000
75%	7.750000
max	15.000000

	0
0	NaN
1	2.0
2	3.0
3	4.0
4	5.0
5	6.0
6	7.0
7	8.0
8	9.0
9	NaN

	0
0	5.5
1	2.0
2	3.0
3	4.0
4	5.0
5	6.0
6	7.0
7	8.0
8	9.0
9	5.5

[머신러닝] 데이터 전처리 ( 시계열 ) (0)	2024.05.23
[머신러닝] 데이터 전처리 ( 원 핫 인코딩 ) (0)	2024.05.23
[머신러닝] 모델 생성 및 평가 (0)	2024.05.23
[머신러닝] 데이터 전처리( 결측값 대체, 치환, 삭제 ) (1)	2024.05.22
[머신러닝] Jupyter Notebook(Anaconda3) 설치 및 데이터 처리(pandas) 기본 코드 (1)	2024.05.22

전영호의 개발 블로그

[머신러닝] 데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 )

데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 )

이상치 데이터 처리

이상치 데이터¶

중복 데이터 처리

문자 데이터 처리

문자 데이터¶

LabelEncder¶

astype¶

'BE > 머신러닝(ML)' 카테고리의 다른 글

+ Recent posts

티스토리툴바

	id	name	cost	flt
0	302	Watch	300	30.1
1	504	Camera	400	40.1
2	708	Phone	350	35.1
3	103	Shoes	100	10.1
4	343	Laptop	1000	10.1
5	565	Bed	400	40.1