(BigData Analysis 도전기) Kaggle Pandas Tutorial (6. Renaming and Combining)
by 줌코딩
Introduction
- 많은 경우 데이터의 column값 등의 naming이 맘에 들지 않을 때가 있다.
- 이 때를 위해서 어떻게 이름들을 바꿀 수 있을지 배워보도록 하겠다.
Renaming
- index나 column의 이름을 바꾸는 함수로는
rename()
이 있다.- column points를 score로 바꿀려면 다음과 같이 하면 된다.
reviews.rename(columns={'points':'score'})
Combining
- 두개의 dataset을 합칠 때 쓰는 함수는 여러개가 있다
concat()
,join()
,merge()
등의 함수가 있다.- 필드가 같은 경우에 합친다면 concat() 함수를 사용하면 된다.
canadian_youtube = pd.read_csv("../input/youtube-new/CAvideos.csv")
british_youtube = pd.read_csv("../input/youtube-new/GBvideos.csv")
pd.concat([canadian_youtube, british_youtube])
- 다른 field가 섞여있더라도 그냥 합치고 싶지만 각각 어디서 온 데이터인지 명시해주고 싶다면
join()
을 사용하면 된다.
left = canadian_youtube.set_index(['title', 'trending_date'])
right = british_youtube.set_index(['title', 'trending_date'])
left.join(right, lsuffix='_CAN', rsuffix='_UK')
- 이때 left에서 온 column은 _CAN가 끝에 붙고 right에서 온 column은 _UK가 붙게 되어 살짝의 구분이 들어간다.
느낀점
- 판다스는 아직 많이 낯설다…
- 그래도 일단 입문이 목적이었으니까 내일은 geospartial 강의를 들으면서 내가 배운 내용을 활용해보자!!
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
Subscribe via RSS