Introduction

  • 많은 경우 데이터의 column값 등의 naming이 맘에 들지 않을 때가 있다.
  • 이 때를 위해서 어떻게 이름들을 바꿀 수 있을지 배워보도록 하겠다.

Renaming

  • index나 column의 이름을 바꾸는 함수로는 rename()이 있다.
  • column points를 score로 바꿀려면 다음과 같이 하면 된다.
reviews.rename(columns={'points':'score'})

Combining

  • 두개의 dataset을 합칠 때 쓰는 함수는 여러개가 있다
  • concat(),join(), merge() 등의 함수가 있다.
  • 필드가 같은 경우에 합친다면 concat() 함수를 사용하면 된다.
canadian_youtube = pd.read_csv("../input/youtube-new/CAvideos.csv")
british_youtube = pd.read_csv("../input/youtube-new/GBvideos.csv")

pd.concat([canadian_youtube, british_youtube])
  • 다른 field가 섞여있더라도 그냥 합치고 싶지만 각각 어디서 온 데이터인지 명시해주고 싶다면 join()을 사용하면 된다.
left = canadian_youtube.set_index(['title', 'trending_date'])
right = british_youtube.set_index(['title', 'trending_date'])

left.join(right, lsuffix='_CAN', rsuffix='_UK')
  • 이때 left에서 온 column은 _CAN가 끝에 붙고 right에서 온 column은 _UK가 붙게 되어 살짝의 구분이 들어간다.

느낀점

  • 판다스는 아직 많이 낯설다…
  • 그래도 일단 입문이 목적이었으니까 내일은 geospartial 강의를 들으면서 내가 배운 내용을 활용해보자!!