• (BigData Analysis 도전기) Kaggle Geospatial Analysis Tutorial (2. Coordinate Reference Systems)

    Introduction 지구의 표면을 그린 맵은 보통 2차원으로 표현된다. 하지만 우리가 알고있듯이 지구는 3차원으로 되어있다. 때문에 우리는 map projection이라는 함수를 사용해서 지구 전체를 표현해야한다. map projection은 꼭 100퍼 정확한 것은 아니다. >* 각 projection은 용도에 따라 distort되기도 한다. 우리는 coordinate reference system(CRS)를 이용해서 지구상의 실제 위치 정보를 보여주도록 하겠다. Setting the...


  • (BigData Analysis 도전기) Kaggle Geospatial Analysis Tutorial (1. Your First Map)

    Geospatial Analysis 드디어 Pandas 강의를 마치고 본격적으로 Geospatial Analysis 강의이다. Geospatial data란 데이터에 지리적인 위치 정보가 있는 것이다. 이런 정보들을 분석해서 시각화 하는 방법에 대해서 알아보자. Introduction 이번 course를 통해서 지리 데이터를 처리하고 시각화하는 방법에 대해서 배워볼 것이다. 이와 함께, 실생활에서 접할 수 있는 다음과 같은 문제들에 대한 solution을 또한...


  • (BigData Analysis 도전기) Kaggle Pandas Tutorial (6. Renaming and Combining)

    Introduction 많은 경우 데이터의 column값 등의 naming이 맘에 들지 않을 때가 있다. 이 때를 위해서 어떻게 이름들을 바꿀 수 있을지 배워보도록 하겠다. Renaming index나 column의 이름을 바꾸는 함수로는 rename()이 있다. column points를 score로 바꿀려면 다음과 같이 하면 된다. reviews.rename(columns={'points':'score'}) Combining 두개의 dataset을 합칠 때 쓰는 함수는 여러개가 있다 concat(),join(), merge()...


  • (BigData Analysis 도전기) Kaggle Pandas Tutorial (5. Data Types and Missing Values)

    Introduction 이번 tutorial을 통해서는 data의 형태를 조사하는 방법에 대해서 배울 것이다. 또 entry를 어떻게 찾고 바꿀 수 있는지도 배워볼 것이다. Dtypes DataFrame과 Series에 들어있는 Column의 데이터 타입을 dtype이라고 한다. dtype을 통해 특정 column의 type이 뭔지 확인 할 수 있다. dtypes를 통해 그냥 DataFrame 전체에 있는 column의 type을 확인할 수도 있다....


  • (BigData Analysis 도전기) Kaggle Pandas Tutorial (4. Grouping and Sorting)

    Introduction 이전 강의에서 배웠던 maps는 DataFrame과 Series에 있는 값을 하나의 값으로 변환해 낼 수 있었다. 하지만, 때로는 우리는 데이터를 하나로 묶거나 그룹별로 어떠한 일을 하기를 원한다. 우리는 이러한 일을 groupby()를 통해 하게 될 것이다. 그리고 이 강의를 통해 데이터에 index를 줄 수 있는 여러 복잡한 방법을 소개하고 데이터를 sorting하는 방법을...