본문 바로가기

BE/머신러닝(ML)

(15)
[머신러닝] 군집 ( 고객분류 ) 군집 ( 고객분류 )   군집(clustering)¶레이블이 없는 데이터에 레이블을 부여하고자 할때 사용비지도 학습으로 유사한 정도에 따라 다수의 객체를 그룹으로 만들때 사용군집을 통해 레이블을 선정하여 지도학습으로 변경군집의 개수 지정하는 방법감으로(해당 그룹의 개수를 미리 알고 있는 경우)평가지표로 확인(실루엣 지표 적용( -1 ~ 1사이, 1에 가까울수록 좋다)그래프 그려서 눈으로 확인k-means¶k-means은 군집화(clustering)에서 가장 일반적으로 사용되는 알고리즘거리기반 군집화다. 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법k-means 파라미터¶n_clusters : 가장 중요한 파라미터로 군집화할 개수를 정의한다.init : 초기에 군집 ..
[머신러닝] 변수 선택법 ( feature selection ) 변수 선택법 ( feature selection )   feature selection(변수 선택법)¶필요한 변수만 선택하여 모델의 예측력을 높이거나 과적합을 줄이는 것알고리즘의 정확도가 유사하다면 변수의 개수가 적을수록 속도가 빠르다방법단변량(filter) : 특정 컬럼이 또 다른 컬럼과 상관관계가 있는지 확인하는 방법전진/후진 선택법(wrapper) : 컬럼을 하나씩 추가하며 점수 확인 / 하나씩 빼며 점수 확인RFE : 사이킷런에서 제공하는 라이브러리를 이용하여 변수의 중요도를 확인하여 변수를 선택하는 방법embed(임베드) : 알고리즘의 성질 이용알고리즘 내부에서 각 feature 구송 요소들이 얼마나 사용 되었는지를 알아보는 방식알고리즘들을 이용해 변수의 중요도를 파악, 중요도 낮은 컬럼은 지울..
[머신러닝] 회귀 및 평가지표 회귀 및 평가지표  사진이 포함되어 있으므로 pdf 로 확인 회귀¶독립변수가 종속변수에 영향을 미치는지 알아보고자 할 때 사용연속형 변수들에 대해 두 변수 사이의 적합도를 측정단순회귀하나의 종속변수와 하나의 독립변수 사이의 관계 분석다중회귀하나의 종속변수와 여러 독립변수 사이의 관계 분석In [ ]:# 회귀란? 최적의 선을 찾는것...!!!# 최적의 선이랑 예측 값의 선....# 예측 값의 선으로 부터 결과 값들의 거리가 작을수록 좋은 예측이다회귀 평가지표¶MSE(Mean Squared Error)(평균 제곱 오차)예측값과 실제값의 차이에 대한 제곱에 대하여 평균을 낸 값회귀 문제에서 가장 많이 사용하는 성능 지표모델을 평가하는 평가 지표로 오차를 나타내는 식이므로 수치가 적을 수록 좋은 모델다른 모델과..
[머신러닝] 과적합 및 하이퍼파라미터 과적합 및 하이퍼파라미터 1. 과적합 및 스케일링과적합 : 과적합 또는 과대적합은 기계 학습에서 학습 데이터를 과하게 학습하는 것을 뜻한다. 일반적으로 학습 데이터는 실제 데이터의 부분 집합이므로 학습 데이터에 대해서는 오차가 감소하지만 실제 데이터에 대해서는 오차가 증가하게 된다.  2. 하이퍼 파라미터하이퍼 파라미터 : 하이퍼 파라미터는 최적의 훈련 모델을 구현하기 위해 모델에 설정하는 변수로 학습률 ( Leraning Rate ), 에포크 수 ( 훈련 반복 횟수 ), 가중치 초기화 등을 결정할 수 있다. 이러한 하이퍼 파라미터 튜닝 기법을 적용하면 훈련 모델의 최적의 값들을 찾을 수 있다.   이미지가 포함되어 있으므로 pdf 로 확인할 것   과적합 및 스케일링과대적합과 과소적합¶과대적합(over..
[머신러닝] 지도학습 ( 분류, 회귀 ), 평가지표 선택하는 방법 지도학습 ( 분류, 회귀 ), 평가지표 선택하는 방법 - 사용 이미지들 -  사용된 이미지가 많으므로 pdf 파일을 다운로드 받아서 봐야한다   실습 예제 모음 혹시 몰라 HTML 형식으로도 업로드... 머신러닝 종류¶지도학습 알고리즘주요 목적은 레이블(정답)이 있는 훈련 데이터로 모델을 학습하여 예측할 때 사용분류(classification)독립변수(문제)에 의하여 종속변수(정답)가 딱 떨어지는 값일 때예) 스펨메일, 은행에서 대출 승인/거절, 생존 중 살았다/죽었다. 등..회귀(regression)임의의 숫자를 맞추는 것.어떤 사람의 나이, 농작물의 수확량, 주가 가격 등을 예측In [ ]: In [ ]: 사이킷 런¶사이킷런은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리파이썬 기반의 ..
[머신러닝] 탐색적 데이터분석 ( EDA, 표준화, 가중치 ) 탐색적 데이터 분석 ( DEA, 표준화, 가중치 )  In [1]:import pandas as pdIn [15]:# sep = "\t" : tab 을 기준으로 데이터를 가지고 옴df = pd.read_csv("../data_set/3.시각화/report.txt", sep="\t")df.head()Out[15]:기간대분류분류운동을 할 충분한 시간이 없어서함께 운동을 할 사람이 없어서운동을 할 만한 장소가 없어서운동을 싫어해서운동을 할 충분한 비용이 없어서기타02019서울시서울시46.85.04.337.35.21.412019성별남자52.44.44.932.44.91.122019성별여자42.55.63.941.05.41.732019연령별10대55.34.83.932.63.5-42019연령별20대46.04.24.53..
[머신러닝] 시각화 ( mataplotlib, seaborn ) 시각화  EDA-탐색적 데이터 분석¶데이터를 이해하는 과정시각화¶데이터를 그래프적으로 보여주는 것방대한 양의 자료를 분석하여 한눈에 볼 수 있도록 도표나 차트 등으로 정리하는 것시각화 차트 5가지¶순위 / 비교 : bar chart( 막대그래프 )부분과 전체 : pie chart( 도넛차트 )트랜트(추세) : line chart( 주식시장, 환율변동 등 )상관관계 : 산포터(스캐터플롯(x,y좌표를 점으로 찍은것)), 히트맵(열과 행으로 색으로 표현) (나이가 증가함에 세포수는 줄어든다)분포 : 히스토그램, box plot. (데이터들이 퍼저있는 정도)Matplotlib¶https://matplotlib.org/ -> Tutorialshttps://matplotlib.org/ -> Tutoria..
[머신러닝] 실습 예제 및 풀이 실습 예제 및 풀이 참고 : 버전이 올라감에 따라 numpy 를 import 하여 사용해야 하던 np.max, np.min, np.sum 등이 기본 내장 함수로 변경됨               비밀번호 : 댓글

728x90