본문 바로가기

반응형

Library/PANDAS

(11)
PYTHON PANDAS - resample() resample( ) resample함수는 타임시리즈 데이터를 처리하는데 사용한다. 즉, resample함수를 처리하려면 datetime64로 되어있어야 처리 할 수 있다. 이 함수를 통해서, 년단위, 월단위 등등으로 묶어서 처리가 가능해진다. 또한 freq설정을 통해 원하는 값으로 조절이 가능하다. freq는 아래 링크에 자세한 내용이 있다. https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries-offset-aliases Time series / date functionality — pandas 1.4.2 documentation To localize these dates to a time zone (assi..
PYTHON PANDAS - 시간처리 PANDAS에서 시간처리 from datetime import datetime # 기존에 알고있던 PYTHON 시간처리 방법 from datetime import datetime someday = datetime(2022, 5 ,11) someday.isoformat() someday.strftime('%A') someday.weekday() 문자열을 시간처리 할때 date_str = '2022-05-21' from dateutil.parser import parse someday = parse(date_str) someday.weekday() Numpy 라이브러리 시간처리 방법 기존의 파이썬 datetime 을 보강하기 위해, date 의 array 도 처리할 수 있게 numpy 에서 64-bit 로 ..
PYTHON PANDAS - Pivot Table Pivot Table 피봇팅 한다. 즉 컬럼의 값을 열로 만드는것. # Name을 Index로 평균값이 나온다. pd.pivot_table(df , index=['Name']) # Name이 Index로 설정되어 더한 값이 나온다. # 디폴트 값은 위처럼 평균 pd.pivot_table(df,index=['Name'] , aggfunc= np.sum) # pivot table로 max값을 구할땐 알파벳도 max값이 나올수 있으니 주의해야한다. pd.pivot_table(df,index=['Name'] , aggfunc= np.max) # 매니저로 묶고 Rep로 합을 구한 데이터 출력 pd.pivot_table(df, index=['Manager', 'Rep'], aggfunc=np.sum) # 지정한 컬..
PYTHON PANDAS - DATA FRAME PLOT (CHART) DATA FRAME PLOT PANDAS의 DATA FRAME에서도 차트기능을 제공한다. .plot() data_result.plot() plt.show() data_result[['외국인','고령자']].plot() plt.show() data_result[['외국인','고령자']].plot(kind= 'bar') plt.show() data_result['소계'].plot(kind= 'bar') plt.show() plt.figure(figsize=(10,8)) data_result['소계'].plot(kind= 'barh') plt.show() sorting data_result['소계'].sort_values(ascending=False).plot(kind= 'bar') plt.show() 예시문..
PYTHON PANDAS - SORTING & ORDERING & CANCATENATING SORTING df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) df # 경력을 오름차순으로 정렬 df.sort_values('Years of Experience') # 내림차순으로 정렬 df.sort_values('Years of Experience', ascending= False) # 이름과 경력으로 정렬하되, # 이름은 내림차순, 경력은 오름차순으로 정렬 df.sort_values( ['Employee Name','Years of ..
PYTHON PANDAS - PANDAS OPERATIONS & APPLYING FUNCTION PANDAS OPERATIONS df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) df # 경력이 3년 이상인 사람의 데이터를 가져오시오 df['Years of Experience'] >= 3 # 경력이 3년 이상인 사람의, 이름과 시급 정보를 가져오시오 df.loc[ df['Years of Experience'] >= 3 , [ 'Employee Name' , 'Salary [$/h]' ] ] # 경력이 3년 이상이고, 8년 이하인 사람..
PYTHON PANDAS - Loading Data & Categorical Data LOADING DATA import pandas as pd df = pd. read_csv('data/GOOG.csv') # 상위 지정값 노출. ( )안에 아무것도 표시하지 않으면 디폴트 파라미터는 5로 설정되어 있다. .head() # 하위 지정값 노출. ( )안에 아무것도 표시하지 않으면 디폴트 파라미터는 5로 설정되어 있다. .tail() 데이터프레임의 행과 열을 보여준다 .shape # 컬럼별 갯수, 평균, 표준편차 최소값 가우시안 분포, 최대값을 순서대로 보여준다 .discribe() # 컬럼의 정보 .info() # PANDAS에서 object는 문자열을 나타낸다 카테고리컬 데이터 (Categorical Data) 반복되는 데이터 갯수가 정해져있고 정해져있는 갯수에 데이터를 채워넣는것 df =..
PYTHON PANDAS - NaN NaN import pandas as pd # We create a list of Python dictionaries items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7}, {'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}] df = pd.DataFrame(data= items2, index= ['store 1','store 2', 'store 3']) NaN 이 얼마나..

반응형