import pandas as pd
import warnings
warnings.filterwarnings("ignore")

df = pd.read_csv("../data_set/4.분류/apple_quality.csv")
df.head()

df["Quality"].unique()

array(['good', 'bad', nan], dtype=object)

df.isnull().sum()

A_id           1
Size           1
Weight         1
Sweetness      1
Crunchiness    1
Juiciness      1
Ripeness       1
Acidity        0
Quality        1
dtype: int64

df.shape

(4001, 9)

# 결측치가 있는 행을 모두 삭제
df.dropna(axis=0, inplace=True)

# 삭제 완료
df.isnull().sum()

A_id           0
Size           0
Weight         0
Sweetness      0
Crunchiness    0
Juiciness      0
Ripeness       0
Acidity        0
Quality        0
dtype: int64

df.columns

Index(['A_id', 'Size', 'Weight', 'Sweetness', 'Crunchiness', 'Juiciness',
       'Ripeness', 'Acidity', 'Quality'],
      dtype='object')

# 변수 ( features )
f = ['Size', 'Weight', 'Sweetness', 'Crunchiness', 'Juiciness',
       'Ripeness', 'Acidity']

# 정답 ( label )
l = 'Quality'

X, y = df[f], df[l]
X, y

(          Size    Weight  Sweetness  Crunchiness  Juiciness  Ripeness  \
 0    -3.970049 -2.512336   5.346330    -1.012009   1.844900  0.329840   
 1    -1.195217 -2.839257   3.664059     1.588232   0.853286  0.867530   
 2    -0.292024 -1.351282  -1.738429    -0.342616   2.838636 -0.038033   
 3    -0.657196 -2.271627   1.324874    -0.097875   3.637970 -3.413761   
 4     1.364217 -1.296612  -0.384658    -0.553006   3.030874 -1.303849   
 ...        ...       ...        ...          ...        ...       ...   
 3995  0.059386 -1.067408  -3.714549     0.473052   1.697986  2.244055   
 3996 -0.293118  1.949253  -0.204020    -0.640196   0.024523 -1.087900   
 3997 -2.634515 -2.138247  -2.440461     0.657223   2.199709  4.763859   
 3998 -4.008004 -1.779337   2.366397    -0.200329   2.161435  0.214488   
 3999  0.278540 -1.715505   0.121217    -1.154075   1.266677 -0.776571   
 
            Acidity  
 0     -0.491590483  
 1     -0.722809367  
 2      2.621636473  
 3      0.790723217  
 4      0.501984036  
 ...            ...  
 3995   0.137784369  
 3996   1.854235285  
 3997  -1.334611391  
 3998  -2.229719806  
 3999   1.599796456  
 
 [4000 rows x 7 columns],
 0       good
 1       good
 2        bad
 3       good
 4       good
         ... 
 3995     bad
 3996    good
 3997     bad
 3998    good
 3999    good
 Name: Quality, Length: 4000, dtype: object)

from sklearn.model_selection import train_test_split

# 학습용 70프로 할당
# 테스트용 30프로 할당
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

print("총 갯수 : ", X.shape, y.shape)
print("학습 갯수 : ", X_train.shape, y_train.shape)
print("테스트 갯수 : ", X_test.shape, y_test.shape)

총 갯수 :  (4000, 7) (4000,)
학습 갯수 :  (2800, 7) (2800,)
테스트 갯수 :  (1200, 7) (1200,)

from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()

# 문제와 정답 학습시키기
kn.fit(X_train, y_train)

# 테스트용으로 예측한 정답과 실제 정답을 비교한
# 정답률을 확인
# 90% 정답률 확인
kn.score(X_test, y_test)

0.9083333333333333

import sklearn.svm as svm
# linear(선형) 구조로 알고리즘을 학습
svm_linear = svm.SVC(kernel="linear")

# SVM 알고리즘을 사용하여 학습
svm_linear.fit(X_train, y_train)

# 테스트 결과
svm_linear.score(X_test, y_test)

0.7516666666666667

import sklearn.svm as svm
# rbf(비선형) 구조로 알고리즘을 학습
svm_linear = svm.SVC(kernel="rbf")

# SVM 알고리즘을 사용하여 학습
svm_linear.fit(X_train, y_train)

# 테스트 결과
svm_linear.score(X_test, y_test)

0.9091666666666667

# 학습 결과 비선형 알고리즘이 해당 데이터에서는
# 더 정확한 예측 값을 가져오므로 비선형 알고리즘을
# 사용해야 한다.... 라는 결론 도출

from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier()

# 학습
dt.fit(X_train, y_train)

# 정확도 확인
dt.score(X_test, y_test)

0.82

# probability=True : soft voting 시 참, 거짓이 아닌 확률을 참 : 70%, 거짓 : 30%
# 확률로 나타내준다
s = svm.SVC( kernel="rbf", probability=True )

s.fit(X_train, y_train)

k = KNeighborsClassifier()
k.fit(X_train, y_train)

d = DecisionTreeClassifier()
d.fit(X_train, y_train)

DecisionTreeClassifier()

DecisionTreeClassifier()

from sklearn.ensemble import VotingClassifier

# VotinClassifier 객체를 생성하여 각 알고리즘을 추합해서
# 알고리즘의 예측 값들을 가져와 결론을 도출할 수 있다
# soft voting 설정
vo = VotingClassifier( estimators=[("svc",s), ("knn",k), ("DecisionTree",d)], voting="soft")
vo.fit(X_train, y_train)

print("svm : ", s.score(X_test, y_test))
print("kn : ", k.score(X_test, y_test))
print("d : ", d.score(X_test, y_test))
print("vo : ", vo.score(X_test, y_test))

svm :  0.9091666666666667
kn :  0.9083333333333333
d :  0.8125
vo :  0.8933333333333333

# VotinClassifier 객체를 생성하여 각 알고리즘을 추합해서
# 알고리즘의 예측 값들을 가져와 결론을 도출할 수 있다
# hard voting 설정
vo = VotingClassifier( estimators=[("svc",s), ("knn",k), ("DecisionTree",d)], voting="hard")
vo.fit(X_train, y_train)

print("svm : ", s.score(X_test, y_test))
print("kn : ", k.score(X_test, y_test))
print("d : ", d.score(X_test, y_test))
print("vo : ", vo.score(X_test, y_test))

svm :  0.9091666666666667
kn :  0.9083333333333333
d :  0.8125
vo :  0.9075

from sklearn.ensemble import RandomForestClassifier

# 모델 생성
rfc = RandomForestClassifier()

# 모델 학습
rfc.fit(X_train, y_train)

# 학습 결과 테스트
rfc.score(X_test, y_test)

0.8991666666666667

from sklearn.ensemble import GradientBoostingClassifier

# 모델 생성
gbc = GradientBoostingClassifier()

# 모델 학습
gbc.fit(X_train, y_train)

# 학습 결과 테스트
gbc.score(X_test, y_test)

0.8666666666666667

df.head(2)

s.predict([[-3.970049, -2.512336, 5.346330, -1.012009, 1.844900, 0.32984, -0.491590483]])

array(['good'], dtype=object)

y_test = [0,1,1,0,0,0,1,1,1,1] #실제 정답
y_pred = [1,0,0,0,0,0,1,1,1,1]  #예측 정답

from sklearn.metrics import accuracy_score

# 단순히 몇개를 맞췄는지 확인하는 accuracy_score
# 아래와 같이 사용하면 % 로 정답률을 알려줌
acc = accuracy_score(y_test, y_pred)
acc

0.8

# 암인지 아닌지에 대한 Dataset
# 1 : 암에 걸림, 0 : 암에 걸리지 않음
y_test = [1,1,0,1,1,1,1,1,1,1] #실제 정답
y_pred = [0,1,1,1,1,1,1,1,1,1] #예측 정답

# 80% 정답률을 확인
acc = accuracy_score(y_test, y_pred)
acc

0.8

y_test = [0,0,0,1,1,1,1,1,1,1] #실제 정답
y_pred = [1,1,1,1,1,1,1,1,1,1] #예측 정답

from sklearn.metrics import recall_score

# 모델 생성 및 훈련
recall = recall_score(y_test, y_pred)
recall

# 실제 정답이 1 즉, 의미 있는 결과 값이 나온것에 대한
# 정답률만을 출력....
# 0 에 대한 정답률은 출력하지 않음
# 고로 0 : 암에 걸리지 않음, 1 : 암에 걸림 이라면
# 암에 걸린 사람들에 대한 예측 결과만 100% 로 맞추고
# 암에 걸리지 않은 사람들에 대한 예측결과는 50% 로 맞췄다면
# 결과는 100% 로 출력된다

1.0

y_test = [1,1,1,1,1,1,1,1,1,1] #실제 스팸 문자
y_pred = [0,0,0,1,1,1,1,1,1,1] #예측 스팸 문자

recall = recall_score(y_test, y_pred)
recall

0.7

y_test = [0,0,0,1,1,1,1,1,1,1] #실제 스팸 문자
y_pred = [1,1,1,1,1,1,1,1,1,1] #예측 스팸 문자

recall = recall_score(y_test, y_pred)
recall

# 메일의 경우는 recall 로 처리하면 안된다...
# 정답률이 100% 로 나오기 때문에 실제 스팸 문자가 아닌데
# 스팸 문자로 처리될 수 있기 때문...!!!

1.0

y_test = [1,1,1,1,1,1,1,1,1,1] #실제 스팸 문자
y_pred = [0,0,0,1,1,1,1,1,1,1] #예측 스팸 문자

from sklearn.metrics import precision_score
p = precision_score(y_test, y_pred)
p

# 정밀도를 기준으로 판단은 예측 값이 1인 경우의 정답률만을 확인
# 고로, 예측한 스팸 문자가 실제로 스팸문자 인지만 확인하여
# 정답률을 출력한다....

# 스팸메일이 아닌 문자로 예측한 문자에 대한 정답률은 확인하지 않는다

1.0

y_test = [0,0,1,1,1,1,1,1,1,1] #실제 스팸 문자
y_pred = [1,1,0,1,1,1,1,1,1,1] #예측 스팸 문자

p = precision_score(y_test, y_pred)
p

# 스팸문자라고 예측한 값이 실제 스팸문자가 아닌 경우가 생겼기 때문에
# 예측 정답률이 1.0 이 아니게 된다

0.7777777777777778

y_test = [0,0,1,1,1,1,1,1,1,1] #실제 스팸 문자
y_pred = [1,1,1,1,1,1,1,1,1,1] #예측 스팸 문자

from sklearn.metrics import f1_score

acc = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
pre = precision_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print("accuracy(정확도) : ", acc)
print("recall(재현율) : ", recall)
print("precision(정밀도) : ", pre)
print("f1 score : ", f1)

# f1 은 recall 과 precision 의 결과를 혼합해서 정답률을 출력한다

accuracy(정확도) :  0.8
recall(재현율) :  1.0
precision(정밀도) :  0.8
f1 score :  0.888888888888889

[머신러닝] 회귀 및 평가지표 (0)	2024.05.27
[머신러닝] 과적합 및 하이퍼파라미터 (0)	2024.05.27
[머신러닝] 탐색적 데이터분석 ( EDA, 표준화, 가중치 ) (0)	2024.05.24
[머신러닝] 시각화 ( mataplotlib, seaborn ) (0)	2024.05.24
[머신러닝] 실습 예제 및 풀이 (1)	2024.05.23

전영호의 개발 블로그

[머신러닝] 지도학습 ( 분류, 회귀 ), 평가지표 선택하는 방법

지도학습 ( 분류, 회귀 ), 평가지표 선택하는 방법

실습 예제 모음

머신러닝 종류¶

사이킷 런¶

알고리즘 선택 방법¶

Kneighbors(K-최근접 이웃 알고리즘)¶

Ensemble(앙상블)¶

train_test_split¶

시나리오¶

사과 품질 분류하기¶

SVM(Support Vector Machine)¶

DecisionTree¶

Voting(보팅)¶

RandomForest(랜덤포레스트)¶

부스팅(Boosting)¶

Classification Metric¶

Accuracy(정확도)¶

재현율(recall)¶

정밀도(precision)¶

평가지표 선택하기¶

'BE > 머신러닝(ML)' 카테고리의 다른 글

+ Recent posts

티스토리툴바

	A_id	Size	Weight	Sweetness	Crunchiness	Juiciness	Ripeness	Acidity	Quality
0	0.0	-3.970049	-2.512336	5.346330	-1.012009	1.844900	0.329840	-0.491590483	good
1	1.0	-1.195217	-2.839257	3.664059	1.588232	0.853286	0.867530	-0.722809367	good
2	2.0	-0.292024	-1.351282	-1.738429	-0.342616	2.838636	-0.038033	2.621636473	bad
3	3.0	-0.657196	-2.271627	1.324874	-0.097875	3.637970	-3.413761	0.790723217	good
4	4.0	1.364217	-1.296612	-0.384658	-0.553006	3.030874	-1.303849	0.501984036	good