[머신러닝] 데이터 전처리 ( 시계열 )
데이터 전처리 ( 시계열 ) 시계열 데이터¶시계열 데이터시간의 흐름에 따라 데이터의 변화를 분석 및 예측하는데 사용되는 데이터타임스탬프(timestamp) : 특정 시점(시간)을 의미하는 자료형기능to_datetime : 데이터를 시간 자료형으로 변환시켜주는 함수to_period : 날짜 데이터의 년, 월, 일 등을 가져올 수 있다.옵션freq를 이용하여 각각의 날짜 정보를 얻어올 수 있다freq = A(년), M(월), D(일)D지정시 2020-01-01까지 나오며, M지정시 2020-01, A지정시 2020까지 나온다.Datetimeindex자료형dt객체를 제공하며, dt.year, dt.month, dt.day, dt.hour, dt.minute, dt.second...등을 제공한다자세한 정보는 ..
[머신러닝] 데이터 전처리 ( 원 핫 인코딩 )
데이터 전처리 ( 원 핫 인코딩 ) 원 핫 인코딩 원-핫 인코딩¶원-핫 인코딩은 사람이 이해하는 언어를 컴퓨터가 쉽게 이해할 수 있도록 행렬로 표현한다문자단어가 존재하는 곳은 1로 아닌 곳은 0으로 한다구조를 행열 형태로 변경하여 데이터가 존재하는 곳에만 1로 표시하는 방법 방법In [14]:import pandas as pddf = pd.DataFrame({ 'city': ['부산', '부산', '인천', '제주', '서울'], 'number':['051', '051', '032', '064', '02'], 'int' : [1,2,3,4,5]})dfOut[14]:citynumberint0부산05111부산05122인천03233제주06444서울025In [15]:df.dtypesOut[15..
[머신러닝] 데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 )
데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 ) 이상치• 다른 데이터보다 아주 작거나 큰 값을 말한다• 데이터를 분석할 때 이상치는 의사결정에 영향을 미칠 수 있다• 그러므로 이상치는 제거하거나 치환처리한다 이상치 데이터 처리 이상치 데이터¶이상치IQR의 1.5배 또는 3배의 차이가 나면 이상치라고 표현한다다른 데이터보다 아주 작거나 큰 값을 말한다데이터를 분석할 때 이상치는 의사결정에 영향을 미칠 수 있다.이상치 처리제거오타, 오류, 비상식적 값들은 단순히 제거한다치환평균, 최빈값, 중앙값(중위수)이상치 구하기1/4 분위값 25%, 2/4 분위값 중앙값(median), 3/4 분위값 75%IQR = Q3(3사분위) - Q1(1사분위)최대 이상치 = Q3(3사분위) + IQR * 1.5(3...