본문 바로가기

pandas5

python - 랜덤 범주형(Categorical) 데이터 생성하기 ( numpy ) np.random.choice 함수를 사용하여 Categorical data를 랜덤으로 생성합니다. np.random.choice random_data = np.random.choice( a=['a', 'b', 'c', 'd'], size=687, p=[0.1, 0.2, 0.3, 0.4] # 합이 1이 아닌 경우 오류 ) unique, counts = np.unique(random_data, return_counts=True) counts = (counts / len(random_data) * 100).round(2) for _class, _count in zip(unique, counts): print(_class, _count)output a .. 2022. 12. 7.
Python 데이터 시각화 - 상관관계(correlation) 분석, Heatmap (with Matplotlib, seaborn ) 데이터 상관관계 시각화 Pandas dataframe 구조의 데이터를 사용하여 데이터 간의 상관관계(correlation)를 확인해보고 이를 Heatmap으로 시각화하여 표현해보자. 샘플데이터는 Plotly에서 제공하는 샘플 데이터를 사용하도록 한다. 상관관계 분석(Correlation Analysis) 상관관계 분석은 두 개이상의 변수 사이에 존재하는 상호 연관성 존재와 그 강도를 측정하는 방법이다. 개발환경 - Pandas 3.9.0 - Jupyter-lab 3.0 - Plotly 4.14.3 - matplotlib 3.2.2 - seaborn 0.11.1 임포트 라이브러리 # Data import numpy as np import pandas as pd # Visualization import ma.. 2021. 3. 30.
Pandas - Null Data 처리방법 ( ffill, bfill, mean, interpolate 차이 그래프 비교 ) 머신러닝, 빅데이터 사용에 있어 데이터 전처리 과정은 필수 과정이다. 누락된 데이터는 없는지 데이터는 어떤 형태로 존재하고 있는지 면밀히 확인해야 `처리` 과정에서 문제를 사전에 차단할 수 있다. Null 처리는 전처리 과정에서 무엇보다 중요하다. Pandas 에서 null 데이터를 어떻게 처리하는지 알아보도록 한다. Pandas에서 처리하는 Null 데이터 - numpy.NaN, numpy.NaT, None Pandas에서는 numpy.inf ( infinity ), '' (empty string)은 Null이 아닌것으로 취급한다. 개발 환경 - Python 3.9 - Pandas 1.2.0 테스트 DataFrame 준비 df = pd.DataFrame(dict(age=[np.NaN, np.NaN, 6.. 2021. 3. 5.
Pandas - 컬럼의 고유 값 및 고유값 count 찾기 - 이런저런 방법들! Pandas 내장 함수를 사용하여 컬럼의 고유 값을 찾고 해당 고유 값의 전체 수를 출력해 본다. 실행환경 - Python 3.9 - Pandas 1.2.0 데이터 준비 import pandas as pd data = pd.read_csv('https://bit.ly/fish_csv') 데이터는 7개의 물고기 종류에 대한 데이터를 갖고 있다. data # OUTPUT SpeciesWeightLengthDiagonalHeightWidth 0Bream242.025.430.011.52004.0200 1Bream290.026.331.212.48004.3056 2Bream340.026.531.112.37784.6961 3Bream363.029.033.512.73004.4555 4Bream430.029.034.01.. 2021. 3. 3.