import pandas as pd
df = pd.read_csv("../data_set/2.데이터 클린징/group_sample.csv")
df

# class 컬럼을 기준으로 그루핑
df_class = df.groupby(['class'])
df_class

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000029EFA338BD0>

# 원하는 그룹을 확인하고자 할때
# get_group() 을 사용
df_class.get_group("A")

# 각 그룹의 평균을 구하는 방법
# numeric_only 속성을 True 로 넣어
# 문자 값을 제외한 숫자만 평균을 구한다
df_class.mean( numeric_only = True )

# 여러 기준으로 그룹화 가능
df.groupby(['class', 'sex'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000029E850A38D0>

# 여러 기준으로 그룹화된 그룹의 각 평균을 출력
df.groupby(['class', 'sex']).mean()

# 수학의 평균만 출력
df_class[['math']].mean()

# class 별로 묶인 것들의 갯수를 확인
df_class.count()

import numpy as np

# numpy 를 사용해 수학의 최댓값과 영어의 최솟값을 구함
df_class.agg( { 'math':'max', 'english':'min' } )

# 최댓값, 최솟값을 다른 형태로 출력
df_class.agg({'math':'max', 'english':'min'})

# 수학의 합, 영어의 평균을 출력
df_class.agg({'math':'sum', 'english':'mean'})

# 수학의 합과 최댓값을 둘 다 구하고 영어의 평균을 구함
df_class.agg({'math': ['sum', 'max'], 'english':'mean'})

import pandas as pd
dates = ['2021-01-01','2021-03-01','2021-05-01']
df = pd.DataFrame(dates, columns=['date'])
df

# info() : 데이터 정보를 상세하게 출력
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    3 non-null      object
dtypes: object(1)
memory usage: 156.0+ bytes

# 기존에 있던 date 컬럼의 값(문자열로 저장되어 있는)을
# datetime 형식으로 변환하여 new_date 컬럼을 추가해서
# 거기에 데이터를 집어넣음
df['new_date'] = pd.to_datetime(df['date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   date      3 non-null      object        
 1   new_date  3 non-null      datetime64[ns]
dtypes: datetime64[ns](1), object(1)
memory usage: 180.0+ bytes

# datetime 은 각 년, 월, 일 을 뽑아서 사용할 수 있음
df['year'] = df['new_date'].dt.year
df['month'] = df['new_date'].dt.month
df['day'] = df['new_date'].dt.day
df

# 새로운 Dataset 추가
dates = [1,2,3]
df = pd.DataFrame(dates, columns=['date'])
df

for i in df['date']:
    print(i * 10)

10
20
30

# lambda 를 사용
# x 에 각 테이터가 매개변수로 들어가며
# x 값 * 10 의 값을 return 으로 가지고 나온다
df['date'] = df['date'].apply( lambda x : x*10 )
df

# 새로운 Dataset 추가
dates = ['2021-01-01','2021-03-01','2021-05-01']
df = pd.DataFrame(dates, columns=['date'])
df

df.dtypes

date    object
dtype: object

# date 컬럼의 전체 값을 datetime 자료형으로 변환하여 date 변수에 저장
date = df['date'].apply( lambda x : pd.to_datetime(x) )
date

0   2021-01-01
1   2021-03-01
2   2021-05-01
Name: date, dtype: datetime64[ns]

# 요일은 dayofweek 으로 표현 ( 0:월 ~ 6:일 까지 숫자로 변환 )
df['year'] = date.apply( lambda x : x.year )
df['month'] = date.apply( lambda x : x.month )
df['day'] = date.apply( lambda x : x.day )
df['요일'] = date.apply( lambda x : x.dayofweek )
df

# x 에 대입된 값이 2보다 크면 1111 return

df['month'] = df['month'].apply ( lambda x : 1111 if x > 2 else x )
df

# 자기 자신에게 데이터 저장이 불가함... loc 를 사용해야 한다
df[ ( df['year'] == 2021 ) & ( df['month'] == 1111 ) ]['요일'] = \
        df[ ( df['year'] == 2021 ) & ( df['month'] == 1111 ) ]['요일'].apply ( lambda x : 1111 if x > 2 else x )
df

C:\Users\user\AppData\Local\Temp\ipykernel_11252\104542716.py:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[ ( df['year'] == 2021 ) & ( df['month'] == 1111 ) ]['요일'] = \

# loc 를 활용하여 데이터를 저장
df.loc[ ( df['year'] == 2021 ) & ( df['month'] == 1111 ), '요일'] = \
        df[ ( df['year'] == 2021 ) & ( df['month'] == 1111 ) ]['요일'].apply ( lambda x : 1111 if x > 2 else x )
df

df_test = df[['date', 'year']]
df_test

# dataframe 안의 값을 dictionary 자료형으로 변경해준다
# 키와 값으로 매칭
df_test = df_test.to_dict("list")
df_test

{'date': ['2021-01-01', '2021-03-01', '2021-05-01'],
 'year': [2021, 2021, 2021]}

df_test['date']

['2021-01-01', '2021-03-01', '2021-05-01']

df_test['date'][0]

'2021-01-01'

df_date = df_test['date']
df_year = df_test['year']
print( len(df_date) ) # 길이 확인

for i in range( len(df_date) ):
    print( df_date[i], " : ", df_year[i] )

3
2021-01-01  :  2021
2021-03-01  :  2021
2021-05-01  :  2021

import pandas as pd
df = pd.DataFrame({
    'city': ['부산', '부산', '인천', '제주', '서울'],
    'number':['051', '051', '032', '064', '02'],
    'int' : [1,2,3,4,5]
})
df

df.dtypes

city      object
number    object
int        int64
dtype: object

# 문자 형태만 숫자로 변환한다
df_d = pd.get_dummies( df, dtype=int )
df_d

df = pd.DataFrame({
    'fruit': ['망고', '바나나', '사과', '앵두'],
})
df

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
le.fit( df['fruit'] )
df['number'] = le.transform(df['fruit'])
df

import pandas as pd

df = pd.read_csv("../data_set/2.데이터 클린징/loan_train_quiz_cleaning.csv")
df.head()

df.columns

Index(['Loan_ID', 'Gender', 'Married', 'Dependents', 'Education',
       'Self_Employed', 'ApplicantIncome', 'CoapplicantIncome', 'LoanAmount',
       'Loan_Amount_Term', 'Credit_History', 'Property_Area', 'Loan_Status'],
      dtype='object')

features = ['Gender', 'Married', 'Dependents', 'Education',
       'Self_Employed', 'ApplicantIncome', 'CoapplicantIncome', 'LoanAmount',
       'Loan_Amount_Term', 'Credit_History', 'Property_Area']
label = 'Loan_Status'
# Loan_Status : 대출이 가능한지 불가능한지 여부

# features 는 결과에 요인을 주는 요소
# label 은 알고자 하는 결과 값
X, y = df[features], df[label]

y

0      1
1      0
2      1
3      1
4      1
      ..
609    1
610    1
611    1
612    1
613    0
Name: Loan_Status, Length: 614, dtype: int64

X

# 전체 데이터 갯수와 컬럼 갯수 확인
df.shape

(614, 13)

from sklearn.model_selection import train_test_split

# 학습용 데이터로 80% 를 할당
# 검증용 데이터로 20% 를 할당
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

X_train.shape, X_test.shape, len(y_train), len(y_test)

((491, 11), (123, 11), 491, 123)

# 데이터를 학습 시킨다
# X(요소)일 경우 y(결과) 가 나온다 를 학습 시킨다
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier()
dtc.fit(X_train, y_train)

DecisionTreeClassifier()

DecisionTreeClassifier()

# 테스트용으로 빼놓은 20% 의 요소를 집어넣어
# 예측값을 가져와 pred 변수에 저장 후 출력
pred = dtc.predict(X_test)
pred

array([1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1,
       0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1,
       1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1,
       0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1], dtype=int64)

y_test

75     0
278    1
512    1
217    1
154    1
      ..
573    0
503    0
120    1
352    1
230    1
Name: Loan_Status, Length: 123, dtype: int64

# score 함수를 사용하여
# 테스트 용 변수와 결과 값을 넣었을 때
# 정답률을 도출할 수 있음
dtc.score(X_test, y_test)

0.7479674796747967

from sklearn.metrics import accuracy_score

# accuracy_score 를 사용해서 정답률을 확인할 수도 있다
accuracy_score(pred, y_test)

0.7479674796747967

# 새로운 Dataset 을 가져옴
# 결과 값(대출 가능 여부)이 없는 데이터
# 이 데이터는 실제 학습된 머신에 데이터를 집어넣어 결과 값을 사용할 경우를
# 가정하고 가져온 데이터이다
# 고객의 정보를 기준으로 대출이 나올지 안나올지 확인해보기
df_test = pd.read_csv("../data_set/2.데이터 클린징/loan_test_cleaning.csv")
df_test.head(3)

# Loan_ID 컬럼을 제외한 값이 X_test 에 저장된다
features = ['Gender', 'Married', 'Dependents', 'Education',
       'Self_Employed', 'ApplicantIncome', 'CoapplicantIncome', 'LoanAmount',
       'Loan_Amount_Term', 'Credit_History', 'Property_Area']
X_test = df_test[features]
X_test

# 예측 정답을 가져와서 처리한다
y_test = dtc.predict(X_test)
y_test

array([0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1,
       0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1,
       0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1,
       0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0,
       0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0,
       1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0,
       1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1,
       0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1,
       1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1,
       1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1], dtype=int64)

# 결과 값을 다시 Dataset 에 넣었음
# 다수의 고객이 발생했다고 가정하면
# 결과 값을 한번에 도출하여 처리하기 때문에
# 해당 상황을 가정하고 test 진행하였음
df_test['Loan_Status'] = y_test
df_test

# 현재 유저의 상황을 user 라는 변수에 담아
# 예측 값을 출력하여 고객에게 전달
user = [[1,1,0,0,0,5720,0,110.0,360.0,1.0,2]]
dtc.predict(user)

C:\Users\user\anaconda3\Lib\site-packages\sklearn\base.py:439: UserWarning: X does not have valid feature names, but DecisionTreeClassifier was fitted with feature names
  warnings.warn(

array([0], dtype=int64)

if dtc.predict(user)[0] == 1:
    print("대출이 가능")
else:
    print("은행에 문의하세요")

은행에 문의하세요

C:\Users\user\anaconda3\Lib\site-packages\sklearn\base.py:439: UserWarning: X does not have valid feature names, but DecisionTreeClassifier was fitted with feature names
  warnings.warn(

import pandas as pd

# 가상의 데이터임
# food_a, food_b, food_c 는 음식점이라고 가정
# 각 값들은 배달 소요시간을 의미
df = pd.read_csv("../data_set/2.데이터 클린징/food.csv")
df.head()

df.mean()

food_a    47.407407
food_b    51.037037
food_c    42.407407
dtype: float64

# 기초 통계 값을 제공
df.describe()

# mean : 평균 값
# std : 표준 편차
# min : 최소 값
# max : 최대 값

# 50% 값 : 중위수 ( 중앙값 )
# 25% 값 : 그래프의 Q1 값
# 75% 값 : 그래프의 Q3 값

import numpy as np
test_median = [1,2,3,4,5,6,7,8,9,1000];
print('평균 : ', np.mean(test_median))
print('중위수(중앙 값) : ', np.median(test_median))

평균 :  104.5
중위수(중앙 값) :  5.5

a_m = np.median( df['food_a'] )
b_m = np.median( df['food_b'] )
c_m = np.median( df['food_c'] )

print("a의 중위수 : ", a_m)
print("b의 중위수 : ", b_m)
print("c의 중위수 : ", c_m)

a의 중위수 :  46.0
b의 중위수 :  30.0
c의 중위수 :  31.0

# 그래프로 표현해주는 matpolotlib.pyplot
# 출력되는 120 의 값이 이상치이고
# 80 이 최대 이상치, 20 이 최소 이상치, 노란선이 median(중위수)
# 사각형의 윗선이 Q3, 사각형의 아랫선이 Q1
# 사각형 위의 선은 최대 이상치
# 사각형 아래 선은 최소 이상치

import matplotlib.pyplot as plt
plt.boxplot(df['food_a'])
plt.show()

# 15와 -4 에 해당하는 값이 각각 이상치로 출력되며
# 중위 값은 노란 선
# 사각형의 윗선이 Q3, 아랫선이 Q1
# 사각형 위의 선은 최대 이상치
# 사각형 아래 선은 최소 이상치

test_median = [-4,2,3,4,5,6,7,8,9,15]
df_test = pd.DataFrame(test_median)
plt.boxplot( df_test[0] )
plt.show()

df_test.describe()

# 25% 에 해당하는 값을 가져온다 ( Q1 지점 )
q1 = df_test.describe().loc['25%']

# 75% 에 해당하는 값을 가져온다 ( Q3 지점 )
q3 = df_test.describe().loc['75%']

q1, q3

(0    3.25
 Name: 25%, dtype: float64,
 0    7.75
 Name: 75%, dtype: float64)

# iqr 값은 q3 - q1
iqr = q3 - q1

# 최소 이상치 구하기
lower = q3 - iqr * 1.5

# 최대 이상치 구하기
upper = q1 + iqr * 1.5

iqr, lower, upper

# lower(최소 이상치) 미만 값과 upper(최대 이상치) 초과 값을
# 이상치로 판단하여 치환 혹은 삭제를 진행한다

(0    4.5
 dtype: float64,
 0    1.0
 dtype: float64,
 0    10.0
 dtype: float64)

# lower(최소 이상치) 보다 크거나 같으면 True 출력
# false 면 이상치
df_test >= lower

# upper(최대 이상치) 보다 작거나 같으면 True 출력
# false 면 이상치
df_test <= upper

# True 인 데이터들만 가져오겠다
# 이상치를 제외한 데이터들을 가져온다
df_test = df_test[(df_test >= lower) & (df_test <= upper)]
df_test

# NaN 의 값을 중위수(중앙값) 으로 변경 후 저장
df_test.replace(to_replace = np.nan, value=df_test.describe().loc['50%'], inplace=True)
df_test

# 그래프로 출력 ( 이상치가 없어졌음 )
plt.boxplot( df_test )
plt.show()

import pandas as pd

df = pd.read_csv("../data_set/2.데이터 클린징/test1.csv")
df

# 중복 값이 True 로 처리된다
df.duplicated()

0    False
1     True
2    False
3    False
4    False
5     True
dtype: bool

# 중복 데이터의 갯수 구하기
df.duplicated().sum()

0

# 중복 데이터 삭제
df.drop_duplicates(inplace=True)
df

df.duplicated().sum()

0

# reset_index(drop=True) 는 index 를 재정의해준다
# 위에서 중복데이터를 삭제해 index 에 빈 값이 생긴걸
# 순서대로 다시 정렬해준다
df.reset_index(drop=True)

import pandas as pd
df = pd.read_csv("../data_set/2.데이터 클린징/test2.csv")
df

# sklearn.preprocessing 의 LabelEncoder 클래스를 import
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

# LabelEncoder 에 name 을 학습시킨 뒤
le.fit(df['name'])

# transform 을 통해 문자를 숫자로 학습한 값을 다시 df['name'] 으로
# 대입한다
df['name'] = le.transform(df['name'])
df

# fit_transform() 으로 한꺼번에 처리할 수도 있다
# color 의 문자 값을 학습시켜 숫자로 변환한뒤
# c-1 컬럼을 생성하여 넣어준 것
df['c-1'] = le.fit_transform(df['color'])
df

df['color'].unique(), df['c-1'].unique()

(array(['red', 'yellow', 'green'], dtype=object), array([1, 2, 0]))

# 직접 red 를 10 으로, yellow 를 20 으로, green 을 30으로 지정
item = {'red':10, 'yellow':20, 'green':30}
df['c-2'] = df['color'].map(item)
df

# 새로운 Dataset 추가
df=pd.DataFrame({
    'id':[302,504,708,103,343,565],
    'name':['Watch','Camera','Phone','Shoes','Laptop','Bed'],
    'cost':["300","400","350","100","1000","400"],
    'flt':["30.1","40.1","35.1","10.1","10.1","40.1"]
    
})
df

# 원본 데이터를 복제하여 df_copy 에 저장
df_copy = df.copy()

# 데이터 타입을 확인
# cost 가 눈에 보이는 값은 숫자이지만 문자형태로 저장되어 있음
# flt 도 동일
df_copy.dtypes

id       int64
name    object
cost    object
flt     object
dtype: object

# to_numeric() 으로 정수 형태로 변환한 뒤
# 다시 저장하여 타입 확인
df_copy['cost'] = pd.to_numeric(df_copy['cost'])
df_copy.dtypes

id       int64
name    object
cost     int64
flt     object
dtype: object

# to_numeric() 으로 실수(float) 형태로 변환한 뒤
# 다시 저장하여 타입 확인
df_copy['flt'] = pd.to_numeric(df_copy['flt'])
df_copy.dtypes

id        int64
name     object
cost      int64
flt     float64
dtype: object

# 원본 데이터를 복제하여 df_copy 에 저장
df_copy = df.copy()
df_copy.dtypes

id       int64
name    object
cost    object
flt     object
dtype: object

# astype 을 사용하여 자료형을 변환할 수도 있다
df_copy['flt'] = df_copy['flt'].astype(float)
df_copy['cost'] = df_copy['cost'].astype(int)
df_copy.dtypes

id        int64
name     object
cost      int32
flt     float64
dtype: object

# 원본 데이터를 복제하여 df_copy 에 저장
df_copy = df.copy()
df_copy.dtypes

id       int64
name    object
cost    object
flt     object
dtype: object

# 한번에 지정한 모든 컬럼의 데이터를 형변환
df_copy[['cost','flt']] = df_copy[['cost','flt']].apply(pd.to_numeric)
df_copy.dtypes

id        int64
name     object
cost      int64
flt     float64
dtype: object

# 새로운 Dataset 추가
data = {'A':[1, 2, 3],  'B':[4, 5, 6], 'C':[7, 8, 9] }
df = pd.DataFrame(data)
df

import numpy as np
# 모든 합을 구해준다
np.sum( df ), np.sum(df['A'])

(A     6
 B    15
 C    24
 dtype: int64,
 6)

df.sum(), df['B'].sum()

(A     6
 B    15
 C    24
 dtype: int64,
 15)

# apply 는 모든 값들을 한번에 처리할 때 사용한다
df.apply( np.sum )

A     6
B    15
C    24
dtype: int64

import pandas as pd

df = pd.read_csv("../data_set/2.데이터 클린징/nan.csv")
df
# 데이터가 없는 경우 NaN 으로 처리됨

df.head(2)

df.tail(2)

# 데이터가 결측치인 경우 True 를 출력
df.isnull()

# 컬럼 별 결측치 확인
df.isnull().sum()

data1    0
data2    0
data3    0
nan_1    3
nan_2    5
dtype: int64

df.shape

(6, 5)

# isnull 과 반대인 notnull
# 결측치는 true, 값이 있는 경우 false
df.notnull()

# 컬럼 별 결측치 확인
# isnull() 이 훨씬 직관적임!!!
df.notnull().sum()

data1    6
data2    6
data3    6
nan_1    3
nan_2    1
dtype: int64

df.isnull().sum()

data1    0
data2    0
data3    0
nan_1    3
nan_2    5
dtype: int64

df

# 결측치가 있는 값을 가진 행을 모두 삭제
df.dropna()

# 결측치가 있는 열을 삭제
df.dropna( axis = 1 )

# nan_1 컬럼에 결측치가 있는 데이터만 출력
df[ df['nan_1'].isnull() ]

# nan_1 컬럼에 결측치가 없는 데이터만 출력
df[ df['nan_1'].notnull() ]

# nan_1 에 해당하는 열이 삭제된다
del df['nan_1']
df

df = pd.read_csv("../data_set/2.데이터 클린징/nan.csv")
df

# 결측 값을 모두 0으로 변환
df.fillna(value=0)

# 평균값으로 치환
# df.mean() 이 평균을 구하는 코드이다
df.fillna(df.mean())

# 중앙값, 최빈값 확인
data = {'v1':[12,12,17,1,3,6,6,7,10],
       'v2':[1,3,6,6,6,7,7,12,12] }
df_test = pd.DataFrame(data)
df_test

# 중위 수를 구해준다 ( 자동으로 데이터를 정렬해서 구해준다 )
# 중위 수는 정렬했을 때 가운데 있는 값
# 만약 데이터의 갯수가 짝수인 경우 중앙에 위치한 2 수의 평균을 출력함
df_test.median()

v1    7.0
v2    6.0
dtype: float64

# sort_values() 를 사용하면 정렬이 가능하다
df_test['v1'].sort_values()

3     1
4     3
5     6
6     6
7     7
8    10
0    12
1    12
2    17
Name: v1, dtype: int64

# 최빈 값 구하기 ( 가장 많이 사용된 데이터를 출력 )
df_test.mode()

# 각 컬럼의 데이터 별로 몇 번씩 사용되었는지 value_counts() 로 확인
df_test['v2'].value_counts()

v2
6     3
7     2
12    2
1     1
3     1
Name: count, dtype: int64

# 각 컬럼의 데이터 별로 몇 번씩 사용되었는지 value_counts() 로 확인
df_test['v1'].value_counts()

v1
12    2
6     2
17    1
1     1
3     1
7     1
10    1
Name: count, dtype: int64

df

df.median()

data1    6.0
data2    7.0
data3    9.5
nan_1    1.7
nan_2    1.0
dtype: float64

# 결측치를 중앙 값으로 치환
df.fillna(df.median())

# 최빈 값 구하기
df.mode()

df.fillna(df.mode())

# 0번째 인덱스만 가져온다
df.mode().loc[0]

data1    3.0
data2    4.0
data3    2.0
nan_1    1.2
nan_2    1.0
Name: 0, dtype: float64

# 최빈값으로 결측값을 치환
df.fillna(df.mode().loc[0])

df

# pad : 결측 데이터의 이전 값으로 치환
df.fillna( method = 'pad' )

C:\Users\user\AppData\Local\Temp\ipykernel_4076\4292871891.py:2: FutureWarning: DataFrame.fillna with 'method' is deprecated and will raise in a future version. Use obj.ffill() or obj.bfill() instead.
  df.fillna( method = 'pad' )

# pad : 결측 데이터의 다음 값으로 치환
df.fillna( method = 'bfill' )

C:\Users\user\AppData\Local\Temp\ipykernel_4076\1765903578.py:2: FutureWarning: DataFrame.fillna with 'method' is deprecated and will raise in a future version. Use obj.ffill() or obj.bfill() instead.
  df.fillna( method = 'bfill' )

# 유일한 값을 뽑아준다
df['nan_1'].unique()

array([1.7, nan, 2.4, 1.2])

df

# 값이 2인 데이터를 200 으로 치환
df.replace(to_replace=2, value=200)

# 값이 결측값인 데이터를 replace 를 사용하여 치환
# numpy 를 import 후 nan(결측값)을 확인하여 사용
import numpy as np
df.replace(to_replace=np.nan, value='변경')

# nan_1 의 nan 데이터만 치환
# inlplace 를 사용하여 자기 자신에게 반영 ( 변경 값을 다시 자기 자신에게 저장 )
import numpy as np
df.replace(to_replace={'nan_1':np.nan}, value='변경', inplace=True)

df

# 서울시에서 제공한 데이터셋으로 연습
df = pd.read_csv('../data_set/2.데이터 클린징/bicycle.csv')
df.head()

# 총 423 개의 데이터가 존재
# 12개의 컬럼 존재
df.shape

(423, 12)

# 대여소 번호가 646인 데이터만 출력
df["대여소번호"] == 646

0       True
1       True
2       True
3       True
4      False
       ...  
418    False
419    False
420    False
421    False
422    False
Name: 대여소번호, Length: 423, dtype: bool

df[df["대여소번호"] == 646]

df.loc[df["대여소번호"] == 646]

# 대여소번호가 646인 값들 중 대여거치대, 반납일시 column 만 출력
df.loc[df["대여소번호"] == 646, ['대여거치대', '반납일시']]

# 대여소번호가 646인 데이터들 중 값이 빈 것들의 합
df.loc[df["대여소번호"] == 646].isnull().sum()

자전거번호      0
대여일시       0
대여소번호      0
대여소명       0
대여거치대      2
반납일시       0
반납대여소번호    0
반납대여소명     0
반납거치대      1
이용시간       3
이용거리       2
나이         0
dtype: int64

df[df["대여소번호"] == 646]['이용거리'].fillna(789.789)

0     1100.000
1     1420.000
2      789.789
3     1380.000
5     1350.000
6     1390.000
8     1160.000
9     1060.000
10    1300.000
11    1060.000
12     789.789
13    1140.000
14    1220.000
15    1370.000
16    1350.000
17    1350.000
18    1130.000
19    1330.000
21    1310.000
22    1380.000
24    1070.000
Name: 이용거리, dtype: float64

df.loc[df["대여소번호"] == 646 , '이용거리'].fillna(111.111)

0     1100.000
1     1420.000
2      111.111
3     1380.000
5     1350.000
6     1390.000
8     1160.000
9     1060.000
10    1300.000
11    1060.000
12     111.111
13    1140.000
14    1220.000
15    1370.000
16    1350.000
17    1350.000
18    1130.000
19    1330.000
21    1310.000
22    1380.000
24    1070.000
Name: 이용거리, dtype: float64

# 결측 값을 반영
df.loc[df["대여소번호"] == 646, '이용거리'] = df.loc[df["대여소번호"] == 646 , '이용거리'].fillna(111.111)
df.loc[df["대여소번호"] == 646, '이용거리']

0     1100.000
1     1420.000
2      111.111
3     1380.000
5     1350.000
6     1390.000
8     1160.000
9     1060.000
10    1300.000
11    1060.000
12     111.111
13    1140.000
14    1220.000
15    1370.000
16    1350.000
17    1350.000
18    1130.000
19    1330.000
21    1310.000
22    1380.000
24    1070.000
Name: 이용거리, dtype: float64

# df 내에 대여소 번호가 646인 데이터들 중 이용거리의 결측값이 있던 데이터들이
# 모두 치환되어 결측값이 존재하지 않게 됨
df.loc[df["대여소번호"] == 646].isnull().sum()

자전거번호      0
대여일시       0
대여소번호      0
대여소명       0
대여거치대      2
반납일시       0
반납대여소번호    0
반납대여소명     0
반납거치대      1
이용시간       3
이용거리       0
나이         0
dtype: int64

	student_no	science	english	math
class
A	2.5	61.50	94.75	46.25
B	6.5	58.25	84.25	77.50
C	9.5	30.00	95.50	35.00

		student_no	science	english	math
class	sex
A	m	2.5	54.0	98.0	40.0
A	w	2.5	69.0	91.5	52.5
B	m	6.5	71.5	89.5	65.0
B	w	6.5	45.0	79.0	90.0
C	w	9.5	30.0	95.5	35.0

	math
class
A	46.25
B	77.50
C	35.00

[머신러닝] 시각화 ( mataplotlib, seaborn ) (0)	2024.05.24
[머신러닝] 실습 예제 및 풀이 (1)	2024.05.23
[머신러닝] 데이터 전처리 ( 시계열 ) (1)	2024.05.23
[머신러닝] 데이터 전처리 ( 원 핫 인코딩 ) (0)	2024.05.23
[머신러닝] 모델 생성 및 평가 (0)	2024.05.23

[머신러닝] 실습 예제 및 풀이 (1)	2024.05.23
[머신러닝] 데이터 전처리 ( 그룹 ) (0)	2024.05.23
[머신러닝] 데이터 전처리 ( 원 핫 인코딩 ) (0)	2024.05.23
[머신러닝] 모델 생성 및 평가 (0)	2024.05.23
[머신러닝] 데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 ) (0)	2024.05.23

	student_no	class	science	english	math	sex
0	1	A	50	98	50	m
1	2	A	60	97	60	w
2	3	A	78	86	45	w
3	4	A	58	98	30	m
4	5	B	65	80	90	w
5	6	B	98	89	50	m
6	7	B	45	90	80	m
7	8	B	25	78	90	w
8	9	C	15	98	20	w
9	10	C	45	93	50	w

	date	new_date	year	month	day
0	2021-01-01	2021-01-01	2021	1	1
1	2021-03-01	2021-03-01	2021	3	1
2	2021-05-01	2021-05-01	2021	5	1

	Loan_ID	Gender	Married	Dependents	Education	Self_Employed	ApplicantIncome	CoapplicantIncome	LoanAmount	Loan_Amount_Term	Credit_History	Property_Area	Loan_Status
0	0	1	0	0	0	0	5849	0.0	128.0	360.0	1.0	2	1
1	1	1	1	1	0	0	4583	1508.0	128.0	360.0	1.0	0	0
2	2	1	1	0	0	1	3000	0.0	66.0	360.0	1.0	2	1
3	3	1	1	0	1	0	2583	2358.0	120.0	360.0	1.0	2	1
4	4	1	0	0	0	0	6000	0.0	141.0	360.0	1.0	2	1

	Loan_ID	Gender	Married	Dependents	ApplicantIncome	CoapplicantIncome	LoanAmount	Loan_Amount_Term	Credit_History	Property_Area
0	0	1	1	0	5720	0	110.0	360.0	1.0	2
1	1	1	1	1	3076	1500	126.0	360.0	1.0	2
2	2	1	1	2	5000	1800	208.0	360.0	1.0	2

	food_a	food_b	food_c
count	27.000000	27.000000	27.000000
mean	47.407407	51.037037	42.407407
std	20.267935	110.789295	64.268822
min	20.000000	5.000000	5.000000
25%	38.000000	20.000000	20.000000
50%	46.000000	30.000000	31.000000
75%	57.000000	41.500000	45.500000
max	120.000000	600.000000	350.000000

	0
count	10.000000
mean	5.500000
std	4.972145
min	-4.000000
25%	3.250000
50%	5.500000
75%	7.750000
max	15.000000

	id	name	cost	flt
0	302	Watch	300	30.1
1	504	Camera	400	40.1
2	708	Phone	350	35.1
3	103	Shoes	100	10.1
4	343	Laptop	1000	10.1
5	565	Bed	400	40.1

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	False	False	False	False	True
1	False	False	False	True	True
2	False	False	False	False	True
3	False	False	False	True	True
4	False	False	False	False	True
5	False	False	False	True	False

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	city	number	int
0	부산	051	1
1	부산	051	2
2	인천	032	3
3	제주	064	4
4	서울	02	5

	int	city_부산	city_서울	city_인천	city_제주	number_02	number_032	number_051	number_064
0	1	1	0	0	0	0	0	1	0
1	2	1	0	0	0	0	0	1	0
2	3	0	0	1	0	0	1	0	0
3	4	0	0	0	1	0	0	0	1
4	5	0	1	0	0	1	0	0	0

	fruit
0	망고
1	바나나
2	사과
3	앵두

	fruit	number
0	망고	0
1	바나나	1
2	사과	2
3	앵두	3

	student_no	class	science	english	math	sex
0	1	A	50	98	50	m
1	2	A	60	97	60	w
2	3	A	78	86	45	w
3	4	A	58	98	30	m
4	5	B	65	80	90	w
5	6	B	98	89	50	m
6	7	B	45	90	80	m
7	8	B	25	78	90	w
8	9	C	15	98	20	w
9	10	C	45	93	50	w

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	0.0
1	3	4	2	0.0	0.0
2	3	4	8	2.4	0.0
3	9	10	11	0.0	0.0
4	12	10	14	1.2	0.0
5	15	16	17	0.0	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.700000	1.0
1	3	4	2	1.766667	1.0
2	3	4	8	2.400000	1.0
3	9	10	11	1.766667	1.0
4	12	10	14	1.200000	1.0
5	15	16	17	1.766667	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	1.0
1	3	4	2	1.7	1.0
2	3	4	8	2.4	1.0
3	9	10	11	1.7	1.0
4	12	10	14	1.2	1.0
5	15	16	17	1.7	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	1.0
1	3	4	2	1.7	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	1.0
1	3	4	2	1.2	1.0
2	3	4	8	2.4	1.0
3	9	10	11	1.2	1.0
4	12	10	14	1.2	1.0
5	15	16	17	1.2	1.0

분류 전체보기

데이터 전처리 ( 그룹 )

'BE > 머신러닝(ML)' 카테고리의 다른 글

데이터 전처리 ( 시계열 )

시계열 데이터¶

'BE > 머신러닝(ML)' 카테고리의 다른 글

데이터 전처리 ( 원 핫 인코딩 )

원 핫 인코딩

원-핫 인코딩¶

'BE > 머신러닝(ML)' 카테고리의 다른 글

모델 생성 및 평가

변수¶

'BE > 머신러닝(ML)' 카테고리의 다른 글

데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 )

이상치 데이터 처리

이상치 데이터¶

중복 데이터 처리

문자 데이터 처리

문자 데이터¶

LabelEncder¶

astype¶

'BE > 머신러닝(ML)' 카테고리의 다른 글

데이터 전처리 ( 결측값 대체, 치환, 삭제 )

결측 데이터 처리

결측 데이터¶

결측치¶

결측치 처리 방법¶

결측치 확인 함수¶

결측치 대체 / 제거¶

제거¶

대체(치환)¶

replace¶

실습 예제 1

실습 예제 2

'BE > 머신러닝(ML)' 카테고리의 다른 글

환경 세팅

실습 예제

머신러닝 예시

'BE > 머신러닝(ML)' 카테고리의 다른 글

매핑 어노테이션 종류

@Column 속성

@Enumerated 속성

@Temporal 속성

'BE > JPA' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

	student_no	class	science	english	math	sex
0	1	A	50	98	50	m
1	2	A	60	97	60	w
2	3	A	78	86	45	w
3	4	A	58	98	30	m
4	5	B	65	80	90	w
5	6	B	98	89	50	m
6	7	B	45	90	80	m
7	8	B	25	78	90	w
8	9	C	15	98	20	w
9	10	C	45	93	50	w

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	0.0
1	3	4	2	0.0	0.0
2	3	4	8	2.4	0.0
3	9	10	11	0.0	0.0
4	12	10	14	1.2	0.0
5	15	16	17	0.0	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	1.0
1	3	4	2	1.7	1.0
2	3	4	8	2.4	1.0
3	9	10	11	1.7	1.0
4	12	10	14	1.2	1.0
5	15	16	17	1.7	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	1.0
1	3	4	2	1.7	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	1.0
1	3	4	2	1.2	1.0
2	3	4	8	2.4	1.0
3	9	10	11	1.2	1.0
4	12	10	14	1.2	1.0
5	15	16	17	1.2	1.0

	data1	data2	data3	nan_1	nan_2
0	0	1	2	1.7	NaN
1	3	4	2	NaN	NaN
2	3	4	8	2.4	NaN
3	9	10	11	NaN	NaN
4	12	10	14	1.2	NaN
5	15	16	17	NaN	1.0