반응형
LOADING DATA
import pandas as pd
df = pd. read_csv('data/GOOG.csv')

# 상위 지정값 노출. ( )안에 아무것도 표시하지 않으면 디폴트 파라미터는 5로 설정되어 있다.
.head()

# 하위 지정값 노출. ( )안에 아무것도 표시하지 않으면 디폴트 파라미터는 5로 설정되어 있다.
.tail()

데이터프레임의 행과 열을 보여준다
.shape

# 컬럼별 갯수, 평균, 표준편차 최소값 가우시안 분포, 최대값을 순서대로 보여준다
.discribe()

# 컬럼의 정보
.info()
# PANDAS에서 object는 문자열을 나타낸다

카테고리컬 데이터
(Categorical Data)
반복되는 데이터
갯수가 정해져있고 정해져있는 갯수에 데이터를 채워넣는것
df = pd.read_csv('data/fake_company.csv')

# 중복되지 않는 데이터의 개수
.nunique()

# 중복되지 않은 데이터 보기
.unique()

카테고리컬 데이터의, 각 데이터별로 묶어서 처리하는 방법

# 각 년도별로 연봉 총합 구하라
df.groupby('Year')['Salary'].sum()

# 년도별, 부서별로 연봉은 총 얼마씩 지급하였는지 구하세요
df.groupby(['Year','Department'])['Salary'].sum()

# 년도별 연봉 총합과 평균을 구하세요
import numpy as np
df.groupby('Year')['Salary'].agg( [np.sum, np.mean, np.std] )

# 컬럼의 데이터 별로 몇개씩 있는가
.value_counts()
.count()


반응형
'Library > PANDAS' 카테고리의 다른 글
| PYTHON PANDAS - SORTING & ORDERING & CANCATENATING (0) | 2022.05.02 |
|---|---|
| PYTHON PANDAS - PANDAS OPERATIONS & APPLYING FUNCTION (0) | 2022.04.28 |
| PYTHON PANDAS - NaN (0) | 2022.04.28 |
| PYTHON PANDAS - DATA FRAME CHANGE & APPEND & DELETE (0) | 2022.04.28 |
| PYTHON PANDAS - DATA FRAME ACCESSING (0) | 2022.04.28 |