본문 바로가기

분류 전체보기

(190)
[머신러닝] 탐색적 데이터분석 ( EDA, 표준화, 가중치 ) 탐색적 데이터 분석 ( DEA, 표준화, 가중치 )  In [1]:import pandas as pdIn [15]:# sep = "\t" : tab 을 기준으로 데이터를 가지고 옴df = pd.read_csv("../data_set/3.시각화/report.txt", sep="\t")df.head()Out[15]:기간대분류분류운동을 할 충분한 시간이 없어서함께 운동을 할 사람이 없어서운동을 할 만한 장소가 없어서운동을 싫어해서운동을 할 충분한 비용이 없어서기타02019서울시서울시46.85.04.337.35.21.412019성별남자52.44.44.932.44.91.122019성별여자42.55.63.941.05.41.732019연령별10대55.34.83.932.63.5-42019연령별20대46.04.24.53..
[머신러닝] 시각화 ( mataplotlib, seaborn ) 시각화  EDA-탐색적 데이터 분석¶데이터를 이해하는 과정시각화¶데이터를 그래프적으로 보여주는 것방대한 양의 자료를 분석하여 한눈에 볼 수 있도록 도표나 차트 등으로 정리하는 것시각화 차트 5가지¶순위 / 비교 : bar chart( 막대그래프 )부분과 전체 : pie chart( 도넛차트 )트랜트(추세) : line chart( 주식시장, 환율변동 등 )상관관계 : 산포터(스캐터플롯(x,y좌표를 점으로 찍은것)), 히트맵(열과 행으로 색으로 표현) (나이가 증가함에 세포수는 줄어든다)분포 : 히스토그램, box plot. (데이터들이 퍼저있는 정도)Matplotlib¶https://matplotlib.org/ -> Tutorialshttps://matplotlib.org/ -> Tutoria..
[머신러닝] 실습 예제 및 풀이 실습 예제 및 풀이 참고 : 버전이 올라감에 따라 numpy 를 import 하여 사용해야 하던 np.max, np.min, np.sum 등이 기본 내장 함수로 변경됨               비밀번호 : 댓글
[머신러닝] 데이터 전처리 ( 그룹 ) 데이터 전처리 ( 그룹 )  In [1]:import pandas as pddf = pd.read_csv("../data_set/2.데이터 클린징/group_sample.csv")dfOut[1]:student_noclassscienceenglishmathsex01A509850m12A609760w23A788645w34A589830m45B658090w56B988950m67B459080m78B257890w89C159820w910C459350wIn [2]:# class 컬럼을 기준으로 그루핑df_class = df.groupby(['class'])df_classOut[2]:<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000029EFA338BD0&..
[머신러닝] 데이터 전처리 ( 시계열 ) 데이터 전처리 ( 시계열 )  시계열 데이터¶시계열 데이터시간의 흐름에 따라 데이터의 변화를 분석 및 예측하는데 사용되는 데이터타임스탬프(timestamp) : 특정 시점(시간)을 의미하는 자료형기능to_datetime : 데이터를 시간 자료형으로 변환시켜주는 함수to_period : 날짜 데이터의 년, 월, 일 등을 가져올 수 있다.옵션freq를 이용하여 각각의 날짜 정보를 얻어올 수 있다freq = A(년), M(월), D(일)D지정시 2020-01-01까지 나오며, M지정시 2020-01, A지정시 2020까지 나온다.Datetimeindex자료형dt객체를 제공하며, dt.year, dt.month, dt.day, dt.hour, dt.minute, dt.second...등을 제공한다자세한 정보는 ..
[머신러닝] 데이터 전처리 ( 원 핫 인코딩 ) 데이터 전처리 ( 원 핫 인코딩 ) 원 핫 인코딩 원-핫 인코딩¶원-핫 인코딩은 사람이 이해하는 언어를 컴퓨터가 쉽게 이해할 수 있도록 행렬로 표현한다문자단어가 존재하는 곳은 1로 아닌 곳은 0으로 한다구조를 행열 형태로 변경하여 데이터가 존재하는 곳에만 1로 표시하는 방법 방법In [14]:import pandas as pddf = pd.DataFrame({ 'city': ['부산', '부산', '인천', '제주', '서울'], 'number':['051', '051', '032', '064', '02'], 'int' : [1,2,3,4,5]})dfOut[14]:citynumberint0부산05111부산05122인천03233제주06444서울025In [15]:df.dtypesOut[15..
[머신러닝] 모델 생성 및 평가 모델 생성 및 평가    In [1]:import pandas as pdIn [2]:df = pd.read_csv("../data_set/2.데이터 클린징/loan_train_quiz_cleaning.csv")df.head()Out[2]:Loan_IDGenderMarriedDependentsEducationSelf_EmployedApplicantIncomeCoapplicantIncomeLoanAmountLoan_Amount_TermCredit_HistoryProperty_AreaLoan_Status001000058490.0128.0360.01.021111110045831508.0128.0360.01.000221100130000.066.0360.01.021331101025832358.0120.0360.01..
[머신러닝] 데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 ) 데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 ) 이상치• 다른 데이터보다 아주 작거나 큰 값을 말한다• 데이터를 분석할 때 이상치는 의사결정에 영향을 미칠 수 있다• 그러므로 이상치는 제거하거나 치환처리한다   이상치 데이터 처리 이상치 데이터¶이상치IQR의 1.5배 또는 3배의 차이가 나면 이상치라고 표현한다다른 데이터보다 아주 작거나 큰 값을 말한다데이터를 분석할 때 이상치는 의사결정에 영향을 미칠 수 있다.이상치 처리제거오타, 오류, 비상식적 값들은 단순히 제거한다치환평균, 최빈값, 중앙값(중위수)이상치 구하기1/4 분위값 25%, 2/4 분위값 중앙값(median), 3/4 분위값 75%IQR = Q3(3사분위) - Q1(1사분위)최대 이상치 = Q3(3사분위) + IQR * 1.5(3...

728x90