본문 바로가기

반응형

Machine Learning

(19)
Machine Learning - ITEM-BASED COLLABORATIVE FILTER ITEM-BASED COLLABORATIVE FILTER 사용자의 평점을 이용하여 아이템 간의 유사도를 활용하는 추천 시스템이다. 추천 항목에 대한 사람들의 등급을 사용하여 계산 된 품목 간의 유사성 즉, 상관 관계( 상관계수 )를 기반으로하는 추천 필터링 시스템의 한 형태 영화 추천 예시를 통해 .corr() / .corrwith( ) 활용에 대해 알아보자 영화 하나에 대한, ITEM-BASED COLLABORATIVE FILTERING 수행 movie_titles_df.shape movies_rating_df.groupby('user_id')['user_id'].count() movies_rating_df.corr() movies_rating_df 피봇 테이블을 하여, 콜라보레이티브 필터링 포맷으로 ..
Machine Learning - error_bad_line & EDA & datetime64 & dt속성사용법 시카고 범죄율을 예측을 통해 error_bad_line & EDA & datetime64 & Pandas Series의 dt속성 사용법을 알아보자 import pandas as pd import numpy as np import matplotlib.pyplot as plt import random import seaborn as sns from fbprophet import Prophet df_1 = pd.read_csv('Chicago_Crimes_2005_to_2007.csv', error_bad_lines=False, index_col=0) df_2 = pd.read_csv('Chicago_Crimes_2008_to_2011.csv', error_bad_lines=False, index_col=0)..
Machine Learning - FaceBook Prophet Library Prophet Library Prophet은 페이스북에서 공개한 Seasonal time series data를 분석할 수 있는 딥러닝 라이브러리다. 정확도가 높고 빠르며 직관적인 파라미터로 모델 수정이 용이하다는 장점을 갖고 있다. prophet을 사용하기 위해서는 데이터의 ds(datestamp)와, 수치로 작성된 데이터자료(y)가 필요하다. 적정 기간 동안의 시세를 알고 있다면 추후 변동될 시세를 예측 할 수 있는 것이다. # import libraries import pandas as pd import numpy as np import matplotlib.pyplot as plt import random import seaborn as sns from fbprophet import Prophet ..
Machine Learning - WordCloud Visualizing WordCloud Visualizing ex) 스팸 이메일에는 어떤 단어들이 많이 들어있는지 Visualizing from wordcloud import wordcloud, STOPWORDS 워드 클라우드를 사용하려면 판다스의 스팸컬럼에 저장된 문자열을, 리스트로 먼저 받아오고 리스트에 있는 문자열을 다 합쳐서 하나의 문자열로 만들어준다. spam_email_list = spam['text'].tolist() spam_email = ''.join(spam_email_list) spam_email my_stopwords = STOPWORDS my_stopwords.add('subject') from PIL import Image img = Image.open('as.png') img 틀을잡아줄 이미지는 배..
Machine Learning - CountVectorizer (analyzer) Count Vectorizer 의미없는 구두점도 제거했고, 의미없는 단어도 제거 했으면, 이제는 남아있는 단어들을 숫자로 바꿔줘야 한다. 단어를 숫자로 바꿔주는것을 벡터라이징 이라고 한다. from sklearn.feature_extraction.text import CountVectorizer sample_data = ['This is the first document', 'I loved them', 'This document is the second document', 'I am loving you', 'And this is the third one'] vec = CountVectorizer() X = vec.fit_transform(sample_data) X = X.toarray() X vec.ge..
Machine Learning - 구두점 & STOPWORDS(불용어) & Pipe Lining 쉼표, 마침표 등의 구두점 제거 방법 Test = 'Hello Mr. Future. I am so happy to be learning AI now~' import string string.punctuation 위의 문장에서, 글자를 앞에서부터 하나씩 가져와서, 구두점인지 확인한 후, 구두점이 아닌 문자만 리스트로 저장 # 결과 예시) [ 'H', 'e', 'l', ... 'M', 'r', ' ','F' ... ] Test_punc_removed = [] for char in Test : if char not in string.punctuation : Test_punc_removed.append( char ) 컴프리핸션을 이용해 코드를 작성 [ char for char in Test if char not..
Machine Learning - GridSearchCV GridSearchCV hyper parameter 하이퍼파라미터 사람이 설정해줘야 되는 값이고, 어떤 값을 설정해야 똑똑한 인공지능이 나올지는 아무도 모른다. param_grid = { 'C' : [0.1, 1, 10, 100] , 'kernel' : ['linear', 'rdf', 'poly'], 'gamma' : [1, 0.1, 0.01]} from sklearn.model_selection import GridSearchCV grid = GridSearchCV( SVC() , param_grid , refit=True, verbose=4 ) grid.fit(X_train, y_train) best_classifier = grid.best_estimator_ y_pred = best_classifi..
Machine Learning - Word Cloud (Stopwords) Word Cloud 데이터셋은 아마존의 알렉사 제품에 대한, 3000개의 리뷰로 되어 있습니다. 컬럼은 rating, date, variation, verified_reviews, feedback data set : www.kaggle.com/sid321axn/amazon-alexa-reviews Word Cloud를 이용하여 유저들이 어떤 단어를 많이 사용 하였는지 시각화 해보자 프로젝트를 위해 아나콘다 프롬프트를 실행하고 다음을 인스톨하자 conda install -c conda-forge wordcloud # import libraries import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as s..

반응형