추천시스템은 고질적인 문제가 있습니다.
바로 rating에 대한 정보가 부족한 문제입니다.
사실 이는 너무나도 당연한 문제입니다.
세상에는 너무나 많은 아이템있는 반면에 그걸 사용할 수 있는 유저와 유저의 시간은 제한되어있기 때문입니다.
뿐만 아니라 아이템을 소비한 유저 중 소수만이 평가를 하기에 평가 데이터는 대부분 sparse할 수 밖에 없습니다.
즉, 추천시스템이 필요한 이유와 고질적인 문제가 동일한 이유에서 비롯되는 것입니다.
아이템의 수 >>>>> 소비할 수 있는 유저의 수
이 외에도 cold start problem이 존재합니다.
새로 추가된 유저나 아이템은 rating 정보가 없기 때문에 발생하는 문제입니다.
이러한 문제들을 해결하기 위해 다양한 방법론이 등장했는데요, 이는 다음에 정리하겠습니다.
추가로 추천시스템은 4가지 제약사항이 존재합니다.
연산량의 제약, 도메인에 따라 다른 최적화 모델, 비즈니스 목표 차이, no ground truth
먼저 연산량의 제약인데요, 추천시스템은 서비스의 끝 단에서 사용되어 유저에게 제공됩니다.
따라서 계산할 수 있는 시간에 제약이 있고, 유저의 수가 많은 서비스에서는 복잡한 모델을 쓸 수가 없습니다.
유튜브를 보는데 추천동영상이 나오는데 5초가 걸린다면 꽤나 불편한 감정을 느낄 것입니다.
또한 도메인에 따라 최적화된 모델이 달라집니다.
가장 대표적인 예로 네이버쇼핑이나 멜론이 있습니다.
대부분의 사람이 노래를 들을 때 best seller를 선호하고, 이를 이길 수 있는 알고리즘은 많지 않습니다.
즉, 멜론에서는 탑100을 사용하고 쇼핑에서는 판매량 순이나 인기순으로 정렬해서 보기를 선호하지 추천을 받길 원하지 않는 다는 것입니다.
이처럼 도메인에 따라 최적화된 모델이 달라질 수 있습니다.
비즈니스 목표에 따라 추천시스템이 달라질 수 있습니다.
추천시스템의 목표가 클릭 전환 비율이 높은 걸 선호하는지, 구매로 전환되는 비율이 높은 걸 선호하는지에 따라 추천시스템은 다르게 적용될 것입니다.
마지막으로 no ground truth 문제입니다.
정확한 정답이 없다는 것으로, 소비자도 자기가 뭘 좋아하는지 모르기 때문에 발생하는 문제입니다.
사실 유튜브를 사용하면서 어떤 것을 좋아해서 보기보다는, 추천해줘서 보는 경우가 많습니다.
이처럼 소비자는 자기의 성향을 정확히 파악하지 못하는 경우가 많습니다.
출처
그림1: https://analyticsindiamag.com/cold-start-problem-in-recommender-systems-and-its-mitigation-techniques/
'DataScience > Recommendation System' 카테고리의 다른 글
추천시스템의 고전적 방법들 (1) | 2023.07.07 |
---|---|
왜 추천시스템에는 filtering 이라는 이름이 붙을까? (0) | 2023.07.07 |
CF (movie) / (1) - 기본 개념 (0) | 2023.07.04 |
CB ( Content-Based filtering ) - 내가 재밌게 본 영화와 비슷한 영화 찾기 (0) | 2023.07.02 |
댓글