본문 바로가기

DataScience/Recommendation System5

추천시스템의 고질적인 문제 추천시스템은 고질적인 문제가 있습니다. 바로 rating에 대한 정보가 부족한 문제입니다. 사실 이는 너무나도 당연한 문제입니다. 세상에는 너무나 많은 아이템있는 반면에 그걸 사용할 수 있는 유저와 유저의 시간은 제한되어있기 때문입니다. 뿐만 아니라 아이템을 소비한 유저 중 소수만이 평가를 하기에 평가 데이터는 대부분 sparse할 수 밖에 없습니다. 즉, 추천시스템이 필요한 이유와 고질적인 문제가 동일한 이유에서 비롯되는 것입니다. 아이템의 수 >>>>> 소비할 수 있는 유저의 수 이 외에도 cold start problem이 존재합니다. 새로 추가된 유저나 아이템은 rating 정보가 없기 때문에 발생하는 문제입니다. 이러한 문제들을 해결하기 위해 다양한 방법론이 등장했는데요, 이는 다음에 정리하겠습.. 2023. 7. 11.
추천시스템의 고전적 방법들 저는 영상을 보는걸 워낙 좋아해 유튜브, 넷플릭스, 티빙, 디즈니플러스와 같은 OTT를 즐겨 사용하는데, " 어떻게 이런 걸 추천해주는걸까? " 라는 궁금증이 있었고 이에 대해 공부를 하고 있습니다. 저는 추천시스템이 참 매력적이라고 생각합니다. 유저에게 가장 큰 영향을 끼치면서, 회사와 유저에게 모두 윈-윈인 방법이기 때문입니다. 우리가 소비할 수 있는 제품보다 훨씬 더 많은 제품이 있는 상황에서 무엇이 나에게 적합한지 필터링을 해줘 맘 편히 선택을 할 수 있게 되어 좋고, 회사는 이를 통해 유저가 제품을 더 구입하거나 오래 머물러있게 되니 좋습니다. 추천시스템에는 많은 방법들이 있는데, 결국 이것들은 "어떻게 유저에게 좋은 제품을 소개시켜줄까?"에 대한 답들입니다. 여러 답 중 고전적인 방법들에 대해.. 2023. 7. 7.
왜 추천시스템에는 filtering 이라는 이름이 붙을까? 추천시스템으로 유명한 content-based filtering, collaborative filtering과 같은 알고리즘에는 왜 filtering이라는 이름이 붙을까요? 추천시스템이 왜 필요한지에 대해 생각해보면 좋을 것 같습니다. 넷플릭스에 들어가보면 정말 많은 콘텐츠들이 있지만, 뭘 봐야할지 모르겠다는 생각이 듭니다. 역설적으로 볼게 너무 많아서 뭘 봐야할지 모르겠는 상황입니다. 이처럼 우리는 우리가 콘텐츠를 소비할 수 있는 양보다 훨씬 더 많은 콘텐츠를 접하게 됩니다. 소비할 수 있는 콘텐츠의 양 2023. 7. 7.
CF (movie) / (1) - 기본 개념 CF(Collaborative Filtering)는 다른 사람의 평가를 이용해 새로운 아이템을 추천하는 방식입니다. 크게 User-based CF와 Item-based CF로 구분됩니다. 이 두 개의 개념은 동일하나 Item-based CF가 연산량이 더 적어 대규모 추천시스템 환경에 더 적합하다고 합니다. CF의 개념은 뭔지, 왜 아이템 기반 CF가 더 연산량이 적은지에 대해 이야기 해보겠습니다. 1. CF의 개념 유저기반 CF를 기준으로 이야기하겠습니다. CF를 한 마디로 정의하자면 다음과 같습니다. " 나와 비슷하게 영화를 평가한 유저들을 이용해 내가 아직 평가하지 않은 영화의 평점을 예측하는 것. " 내가 액션영화에서 높은 평점을 주고 로맨스에 낮은 평점을 주는 패턴이 있다면, 이와 비슷한 패턴을.. 2023. 7. 4.
CB ( Content-Based filtering ) - 내가 재밌게 본 영화와 비슷한 영화 찾기 https://github.com/mkk4726/CB-movie GitHub - mkk4726/CB-movie: Content-based filtering about movie Content-based filtering about movie . Contribute to mkk4726/CB-movie development by creating an account on GitHub. github.com 해당 깃헙에서 관련 코드들을 찾아볼 수 있습니다. 내용 기반 필터링 ( CB )는, 비슷한 아이템을 추천한다는 기본적인 아이디어를 가지고 추천을 합니다. 주로 텍스트 정보가 많은 제품 ( ex: 뉴스 , 책 ) 등을 분석하여 추천할 때 많이 이용되는 기술입니다. 이를 통해 유저가 좋게 평가한 제품과 비슷한 제.. 2023. 7. 2.