본문 바로가기

전처리2

공공데이터포탈 Open API 활용법 - 국내 시.도별 코로나19 확진자 발생 현황 데이터 시각화 ( Python, Pandas, Plotly ) 공공데이터포탈 Open API 활용 국내 시.도별 코로나19 확진자 발생 현황 데이터 시각화 공공데이터포털은 국내 각 기관이 다루는 데이터를 통합하여 사용하기 편리하게 제공하는 포털사이트이다. 코로나19(COVID-19)와 관련한 데이터도 제공한다. 이번 블로그에서는 국내 코로나19 현황 데이터를 사용하여 일별 국내 총 확진자 추이, 국내 시.도별 확진자 추이 정보를 시각화 라이브러리, Plotly를 사용하여 차트로 표현해 본다. 배워 볼 것 - 공공데이터포털 OpenAPI 사용방법 - 데이터 전처리 - 데이터 시각화 ( Bar, Pie, Map(공간정보) ) 개발 환경 - Python 3.9 - Pandas 1.2.0 - plotly 4.14.3 - requests 2.25.1 - beautifulso.. 2021. 3. 15.
Pandas - Null Data 처리방법 ( ffill, bfill, mean, interpolate 차이 그래프 비교 ) 머신러닝, 빅데이터 사용에 있어 데이터 전처리 과정은 필수 과정이다. 누락된 데이터는 없는지 데이터는 어떤 형태로 존재하고 있는지 면밀히 확인해야 `처리` 과정에서 문제를 사전에 차단할 수 있다. Null 처리는 전처리 과정에서 무엇보다 중요하다. Pandas 에서 null 데이터를 어떻게 처리하는지 알아보도록 한다. Pandas에서 처리하는 Null 데이터 - numpy.NaN, numpy.NaT, None Pandas에서는 numpy.inf ( infinity ), '' (empty string)은 Null이 아닌것으로 취급한다. 개발 환경 - Python 3.9 - Pandas 1.2.0 테스트 DataFrame 준비 df = pd.DataFrame(dict(age=[np.NaN, np.NaN, 6.. 2021. 3. 5.