본문 바로가기

Library/MATPLOTLIB

MATPLOTLIB - 상관분석 & BIVARIATE (여러개의 변수) VISUALIZATION 방법

반응형
상관분석

 

 

 

 

상관관계란

 

[ 비례관계, 반비례 관계, 아무관계 없음 ]

 

비례관계, 반비례 관계를 통해 x축과 y축의 관계를 분석 할 수 있다.

 

 

 

상관계수

 

상관계수는 -1부터 1까지의 값을 갖는다.

 

1일 때 완벽한 양의 상관관계가 되고,

 

-1일 때 완벽한 음의 상관관계가 된다.

 

0이라면 별다른 상관관계가 없음을 의미한다.

 

상관계수가 0.1 이하면 관계가 없고, 0.3 이하면 약한관계다.

 

 

 

 

 

상관계수를 수치로 나타내

 

상관 분석을 할 수 있다.

 

사용 코드 및 예시

 

.corr()

df[['displ','comb']].corr()

 

 

 

Scatterplots

 

 

 

두 컬럼간의 관계를 차트로 나타내는 방법

 

 

# 두 컬럼간의 관계를 표현하는 차트

plt.scatter(data=df, x= 'displ', y= 'comb' )

plt.title('Displ Vs Comb')
plt.xlabel('displacement (L) ')
plt.ylabel('Combined Fuel Eft(mpg)')

plt.show()

df[['displ','comb']].corr()

 

위와 같이 상관계수와 차트 비교를 통해 정확환 관계를 파악 할 수 있다.

 

 

 

 

 

regplot

 

 

 

# 2. seaborn의 regplot 를 이용하는 방법

# reg의 뜻은>?? regression(회귀) : 데이터에 fitting 한다는 의미!
sb.regplot(data=df, x='displ', y='comb')

plt.title('Displ Vs Comb')
plt.xlabel('displacement (L) ')
plt.ylabel('Combined Fuel Eft(mpg)')

plt.show()

 

 

 

pair plot

 

sb.pairplot(data=df, vars=['displ','comb'])
plt.show()

 

 

 

 

HEAT MAPS

 

 

 

스케터는 여러데이터가 한군데 뭉치면 보기 힘들다

 

따라서, 그럴경우 HEAT MAPS을 사용하면 밀도를 나타는데 좋다.

 

 

 

 

 

HISTORY 2D를 이용한 HEATMAPS CHART

plt.hist2d(data=df, x='displ', y= 'comb', cmin=0.5, cmap='viridis_r', bins=20)
plt.colorbar()

plt.title('배기량과 연비관계')
plt.xlabel('displacement (L) ')
plt.ylabel('Combined Fuel Eft(mpg)')

plt.show()

 

 

 

 

 

PANDAS를 이용한 HEAT MPAS CHART

 

 

plt.figure(figsize=(10,8))
sb.heatmap(data= crime1 , cmap = 'RdPu', annot = True, fmt = '.1f', linewidths=0.8)

plt.title('검거율')
plt.xlabel('검거율 종류')
plt.ylabel('검거율')

plt.show()

 

 

 

 

 

 

 

반응형