본문 바로가기

BE

(81)
[머신러닝] 실습 예제 및 풀이 실습 예제 및 풀이 참고 : 버전이 올라감에 따라 numpy 를 import 하여 사용해야 하던 np.max, np.min, np.sum 등이 기본 내장 함수로 변경됨               비밀번호 : 댓글
[머신러닝] 데이터 전처리 ( 그룹 ) 데이터 전처리 ( 그룹 )  In [1]:import pandas as pddf = pd.read_csv("../data_set/2.데이터 클린징/group_sample.csv")dfOut[1]:student_noclassscienceenglishmathsex01A509850m12A609760w23A788645w34A589830m45B658090w56B988950m67B459080m78B257890w89C159820w910C459350wIn [2]:# class 컬럼을 기준으로 그루핑df_class = df.groupby(['class'])df_classOut[2]:<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000029EFA338BD0&..
[머신러닝] 데이터 전처리 ( 시계열 ) 데이터 전처리 ( 시계열 )  시계열 데이터¶시계열 데이터시간의 흐름에 따라 데이터의 변화를 분석 및 예측하는데 사용되는 데이터타임스탬프(timestamp) : 특정 시점(시간)을 의미하는 자료형기능to_datetime : 데이터를 시간 자료형으로 변환시켜주는 함수to_period : 날짜 데이터의 년, 월, 일 등을 가져올 수 있다.옵션freq를 이용하여 각각의 날짜 정보를 얻어올 수 있다freq = A(년), M(월), D(일)D지정시 2020-01-01까지 나오며, M지정시 2020-01, A지정시 2020까지 나온다.Datetimeindex자료형dt객체를 제공하며, dt.year, dt.month, dt.day, dt.hour, dt.minute, dt.second...등을 제공한다자세한 정보는 ..
[머신러닝] 데이터 전처리 ( 원 핫 인코딩 ) 데이터 전처리 ( 원 핫 인코딩 ) 원 핫 인코딩 원-핫 인코딩¶원-핫 인코딩은 사람이 이해하는 언어를 컴퓨터가 쉽게 이해할 수 있도록 행렬로 표현한다문자단어가 존재하는 곳은 1로 아닌 곳은 0으로 한다구조를 행열 형태로 변경하여 데이터가 존재하는 곳에만 1로 표시하는 방법 방법In [14]:import pandas as pddf = pd.DataFrame({ 'city': ['부산', '부산', '인천', '제주', '서울'], 'number':['051', '051', '032', '064', '02'], 'int' : [1,2,3,4,5]})dfOut[14]:citynumberint0부산05111부산05122인천03233제주06444서울025In [15]:df.dtypesOut[15..
[머신러닝] 모델 생성 및 평가 모델 생성 및 평가    In [1]:import pandas as pdIn [2]:df = pd.read_csv("../data_set/2.데이터 클린징/loan_train_quiz_cleaning.csv")df.head()Out[2]:Loan_IDGenderMarriedDependentsEducationSelf_EmployedApplicantIncomeCoapplicantIncomeLoanAmountLoan_Amount_TermCredit_HistoryProperty_AreaLoan_Status001000058490.0128.0360.01.021111110045831508.0128.0360.01.000221100130000.066.0360.01.021331101025832358.0120.0360.01..
[머신러닝] 데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 ) 데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 ) 이상치• 다른 데이터보다 아주 작거나 큰 값을 말한다• 데이터를 분석할 때 이상치는 의사결정에 영향을 미칠 수 있다• 그러므로 이상치는 제거하거나 치환처리한다   이상치 데이터 처리 이상치 데이터¶이상치IQR의 1.5배 또는 3배의 차이가 나면 이상치라고 표현한다다른 데이터보다 아주 작거나 큰 값을 말한다데이터를 분석할 때 이상치는 의사결정에 영향을 미칠 수 있다.이상치 처리제거오타, 오류, 비상식적 값들은 단순히 제거한다치환평균, 최빈값, 중앙값(중위수)이상치 구하기1/4 분위값 25%, 2/4 분위값 중앙값(median), 3/4 분위값 75%IQR = Q3(3사분위) - Q1(1사분위)최대 이상치 = Q3(3사분위) + IQR * 1.5(3...
[머신러닝] 데이터 전처리( 결측값 대체, 치환, 삭제 ) 데이터 전처리 ( 결측값 대체, 치환, 삭제 )     결측 데이터 처리결측치 확인 > 결측치 확인 후 대체 및 제거 > 결측치 반영 확인( 데이터의 양이 많을 경우 결측치를 제거, 데이터의 양이 적을 경우 대체 )  결측 데이터¶결측치¶누락되거나 문제가 있는 데이터를 의미한다데이터 입력시 인코딩 또는 네트워크 문제, 공란 등의 이유로 무엇인지 판단하기 어려운 데이터판다스에서는 결측값을 NaN(Not a Number)으로 표기하며 None, 공백도 결측치로 사용된다결측치 처리 방법¶결측치 확인결측치 대체 / 제거결측치 반영 확인결측치 확인 함수¶isnull() : 결측치 True, 유효 데이터 False 반환notnull() : 결측치 False, 유효 데이터 True 반환In [1]:import pan..
[머신러닝] Jupyter Notebook(Anaconda3) 설치 및 데이터 처리(pandas) 기본 코드 환경 세팅 jupyter notebook 설치 - 아나콘다에서 제공하는 하나의 툴※ 파이썬 설치가 되어있어야 함 ※ 기존에 설치되어 있던 anaconda3 를 삭제하고 진행   Distribution | AnacondaAnaconda's open-source Distribution is the easiest way to perform Python/R data science and machine learning on a single machine.www.anaconda.com   data_set 다운로드 출처 : https://github.com/ChoHeeWon00/data_set GitHub - ChoHeeWon00/data_setContribute to ChoHeeWon00/data_set devel..

728x90