알고리즘은 온라인 서비스 기획자가 목적한 결과를 도출하기 위한 과정을 의미합니다. 알고리즘은 온라인 서비스 플랫폼 위에서 데이터를 기반으로 작동하며 결과 데이터를 출력합니다. 그런데 추천 알고리즘 작동의 기반이 되는 데이터는 플랫폼 특성을 탑니다.
왜 추천을 하는가?
제가 온라인 서비스를 기획하면서 추천 알고리즘의 핵심은 왜 추천을 해야 하는가에 대한 질문에서 시작하였습니다. 인스타그램, 아마존 같은 온라인 서비스들도 아마도 추천의 이유와 달성하고자 하는 목표에서 추천 알고리즘이 개발되었으리라 생각합니다. 온라인 서비스의 알고리즘은 상황과 결과에 대한 도달의 길을 설계하는 작업이기 때문입니다.
인스타그램은 더 많은 사용자가 생기고, 이들이 더 많은 시간 서비스를 이용하게 하기 위해 추천을 사용할 것입니다. 만약 이 과정에서 팔로워와 좋아요, 댓글이 중요한 과정 지표가 된다면 알고리즘에 반영이 될 것입니다. 이를 통해 우리는 인스타그램 피드에 노출되는 콘텐츠를 통해 알고리즘을 추정할 수 있습니다. 그것은 특정 개인의 성향과 상관없습니다. 추천 알고리즘은 개인의 취향과 플랫폼의 의도로 구성되기 때문입니다.
이것은 왜 인스타그램이 각각의 사용자에게 추천을 할까에서 알고리즘이 나오기 때문입니다. 10분을 인스타그램 사용에 쓰고 있는 사용자가 자신의 취향 콘텐츠만 즐긴다면 11분 볼 수 있는 콘텐츠의 존재를 영원히 모를 수 있습니다. 그리고 10분 즐기는 콘텐츠 유형만 반복된다면 익숙함으로 10분은 9분이 될 것입니다.
그래서 인스타그램은 그 사용자가 더 많이 인스타그램을 사용할 수 있게 취향인 콘텐츠와 연관되는 다른 콘텐츠. 비슷한 유형의 취향을 지닌 다른 유저가 즐긴 다른 유형의 콘텐츠와 함께 인스타그램 데이터가 말하는 일반적으로 사용량이 많은 콘텐츠를 추천하게 됩니다.
추천을 위해 무엇이 필요한가?
추천을 위해 사용자 취향을 알아야 합니다. 사용자 취향은 온라인 서비스 내에서 활동 데이터에 기반하여 규정합니다.
추천은 사용자가 자주 이용한 콘텐츠의 관련 콘텐츠로 이루어질 수 있습니다. 관련 콘텐츠 개념에는 명박한 관련성과 카테고리 관련성으로 구분하여 볼 수 있습니다. 명백한 관련성은 누가 보더라도 관련성이 있는 콘텐츠를 의미하고, 카테고리 관련성은 해당 온라인 서비스 콘텐츠 구분/관리 기준에 의해 연결되는 콘텐츠를 의미합니다. 이 또한 사용자의 데이터를 통해 개인성을, 콘텐츠 데이터를 기반으로는 관계성을 측정합니다. 명백한 콘텐츠 관련성은 온라인 서비스 내 발생하는 데이터에 의해 뒤집힐 수 있습니다. 카테고리 관련성 또한 각 온라인 서비스마다 다를 수 있습니다. 생성 데이터가 다를 수 있게 때문입니다.
비슷한 취향 사용자가 즐긴 콘텐츠를 추천하기 위해서는 어떤 취향 사용자를 비슷하다고 할 수 있는가에 대한 범위 규정이 필요합니다. 이 또한 온라인 서비스 내에서의 사용자 데이터를 기반으로 규정합니다. 여기서 데이터는 저장. 관리하는 콘텐츠 방식에 영향을 받고 범위는 각 온라인 서비스 카테고리에 영향을 받습니다. 가장 정확할 것이라 생각되는 같은 콘텐츠를 즐긴 사용자를 비슷한 취향이라 정의할 수도 있지만 사용자의 콘텐츠 이용 횟수가 많아질수록 같은 콘텐츠를 즐길 수는 줄어들 것입니다. 그리고 추천에 의해 강제로 같은 콘텐츠가 노출되어 같은 콘텐츠를 즐기게 되었다면 실제 같은 콘텐츠를 즐긴 사용자라 하기 어렵습니다.
목적 달성이 안 되는 추천의 효용성
많은 경우 추천은 기대했던 결과를 가져오지 못할 수도 있고, 힘들게 알고리즘을 만들어 진행한 추천이 직관적으로 만든 추천에 비해 크게 좋은 결과를 못 낼 수도 있습니다. 항상 어떤 행동의 결과가 차이가 있기 위해서는 일정 이상 행동의 차이가 있어야 결과 차이를 인지할 수 있게 됩니다. 그 이하 행동 차이에서는 결과 차이가 거의 없는 경우가 대부분입니다.
추천 알고리즘 개발에서도 이는 똑같이 적용될 수 있습니다. 대부분 결과의 차이를 내는 알고리즘의 정확성을 모릅니다. 이를 파악할 수 있는 것은 추천 알고리즘 진행에 따른 피드백 데이터뿐입니다.
추천 알고리즘이 효과를 못 보았다고 해도 피드백 데이터를 확보했다면 알고리즘 설계와 운영의 성과는 70% 이상 있었던 것입니다. 피드백 데이터에는 온라인 서비스 사용자의 특성이 숨겨져 있기 때문입니다.
댓글