본문 바로가기

Library/PANDAS

PYTHON PANDAS - Loading Data & Categorical Data

반응형
LOADING DATA

 

 

 

import pandas as pd
df = pd. read_csv('data/GOOG.csv')

# 상위 지정값 노출. ( )안에 아무것도 표시하지 않으면 디폴트 파라미터는 5로 설정되어 있다.

.head()

 

# 하위 지정값 노출. ( )안에 아무것도 표시하지 않으면 디폴트 파라미터는 5로 설정되어 있다.

.tail()

 

데이터프레임의 행과 열을 보여준다

.shape

 

 

# 컬럼별 갯수, 평균, 표준편차 최소값 가우시안 분포, 최대값을 순서대로 보여준다

.discribe()

 

# 컬럼의 정보

.info()

# PANDAS에서 object는 문자열을 나타낸다

 

 

 

 

카테고리컬 데이터

(Categorical Data)

 

 

 

반복되는 데이터

 

갯수가 정해져있고 정해져있는 갯수에 데이터를 채워넣는것

 

 

df = pd.read_csv('data/fake_company.csv')

 

# 중복되지 않는 데이터의 개수

.nunique()

# 중복되지 않은 데이터 보기

.unique()

 

 

 

카테고리컬 데이터의, 각 데이터별로 묶어서 처리하는 방법

 

 

 

# 각 년도별로 연봉 총합 구하라

df.groupby('Year')['Salary'].sum()

 

 

# 년도별, 부서별로 연봉은 총 얼마씩 지급하였는지 구하세요

df.groupby(['Year','Department'])['Salary'].sum()

 

 

# 년도별 연봉 총합과 평균을 구하세요

import numpy as np
df.groupby('Year')['Salary'].agg( [np.sum, np.mean, np.std] )

 

# 컬럼의 데이터 별로 몇개씩 있는가

.value_counts()
.count()

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형