import pandas as pd
dates = ['2021-01-01','2021-03-01','2021-05-01']
df = pd.DataFrame(dates, columns=['date'])
df

# info() : 데이터 정보를 상세하게 출력
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    3 non-null      object
dtypes: object(1)
memory usage: 156.0+ bytes

# 기존에 있던 date 컬럼의 값(문자열로 저장되어 있는)을
# datetime 형식으로 변환하여 new_date 컬럼을 추가해서
# 거기에 데이터를 집어넣음
df['new_date'] = pd.to_datetime(df['date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   date      3 non-null      object        
 1   new_date  3 non-null      datetime64[ns]
dtypes: datetime64[ns](1), object(1)
memory usage: 180.0+ bytes

# datetime 은 각 년, 월, 일 을 뽑아서 사용할 수 있음
df['year'] = df['new_date'].dt.year
df['month'] = df['new_date'].dt.month
df['day'] = df['new_date'].dt.day
df

# 새로운 Dataset 추가
dates = [1,2,3]
df = pd.DataFrame(dates, columns=['date'])
df

for i in df['date']:
    print(i * 10)

10
20
30

# lambda 를 사용
# x 에 각 테이터가 매개변수로 들어가며
# x 값 * 10 의 값을 return 으로 가지고 나온다
df['date'] = df['date'].apply( lambda x : x*10 )
df

# 새로운 Dataset 추가
dates = ['2021-01-01','2021-03-01','2021-05-01']
df = pd.DataFrame(dates, columns=['date'])
df

df.dtypes

date    object
dtype: object

# date 컬럼의 전체 값을 datetime 자료형으로 변환하여 date 변수에 저장
date = df['date'].apply( lambda x : pd.to_datetime(x) )
date

0   2021-01-01
1   2021-03-01
2   2021-05-01
Name: date, dtype: datetime64[ns]

# 요일은 dayofweek 으로 표현 ( 0:월 ~ 6:일 까지 숫자로 변환 )
df['year'] = date.apply( lambda x : x.year )
df['month'] = date.apply( lambda x : x.month )
df['day'] = date.apply( lambda x : x.day )
df['요일'] = date.apply( lambda x : x.dayofweek )
df

# x 에 대입된 값이 2보다 크면 1111 return

df['month'] = df['month'].apply ( lambda x : 1111 if x > 2 else x )
df

# 자기 자신에게 데이터 저장이 불가함... loc 를 사용해야 한다
df[ ( df['year'] == 2021 ) & ( df['month'] == 1111 ) ]['요일'] = \
        df[ ( df['year'] == 2021 ) & ( df['month'] == 1111 ) ]['요일'].apply ( lambda x : 1111 if x > 2 else x )
df

C:\Users\user\AppData\Local\Temp\ipykernel_11252\104542716.py:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[ ( df['year'] == 2021 ) & ( df['month'] == 1111 ) ]['요일'] = \

# loc 를 활용하여 데이터를 저장
df.loc[ ( df['year'] == 2021 ) & ( df['month'] == 1111 ), '요일'] = \
        df[ ( df['year'] == 2021 ) & ( df['month'] == 1111 ) ]['요일'].apply ( lambda x : 1111 if x > 2 else x )
df

df_test = df[['date', 'year']]
df_test

# dataframe 안의 값을 dictionary 자료형으로 변경해준다
# 키와 값으로 매칭
df_test = df_test.to_dict("list")
df_test

{'date': ['2021-01-01', '2021-03-01', '2021-05-01'],
 'year': [2021, 2021, 2021]}

df_test['date']

['2021-01-01', '2021-03-01', '2021-05-01']

df_test['date'][0]

'2021-01-01'

df_date = df_test['date']
df_year = df_test['year']
print( len(df_date) ) # 길이 확인

for i in range( len(df_date) ):
    print( df_date[i], " : ", df_year[i] )

3
2021-01-01  :  2021
2021-03-01  :  2021
2021-05-01  :  2021

	date
0	100
1	200
2	300

[머신러닝] 실습 예제 및 풀이 (1)	2024.05.23
[머신러닝] 데이터 전처리 ( 그룹 ) (0)	2024.05.23
[머신러닝] 데이터 전처리 ( 원 핫 인코딩 ) (0)	2024.05.23
[머신러닝] 모델 생성 및 평가 (0)	2024.05.23
[머신러닝] 데이터 전처리 ( 이상치, 중복 데이터, 문자 데이터 ) (0)	2024.05.23

전영호의 개발 블로그

[머신러닝] 데이터 전처리 ( 시계열 )

데이터 전처리 ( 시계열 )

시계열 데이터¶

'BE > 머신러닝(ML)' 카테고리의 다른 글

+ Recent posts

티스토리툴바

	date	new_date	year	month	day
0	2021-01-01	2021-01-01	2021	1	1
1	2021-03-01	2021-03-01	2021	3	1
2	2021-05-01	2021-05-01	2021	5	1