2021년 10월 20일 수요일

유튜브 추천 시스템에 대하여

작성자: 크리스토스 굿로, 유튜브 엔지니어링 부사장 

유튜브의 추천 시스템이 잘 작동할 때, 전 세계 수십억 명의 사용자에게 재미있고 교육적이며 영감을 주는 콘텐츠를 제공합니다. 제게는 오늘날 기술이 직면하고 있는 윤리적 문제를 탐구하는 강의나 어릴 때 봤던 서던캘리포니아 대학의 미식축구 경기 하이라이트 그렇습니다. 제 큰딸의 경우 브이로그브라더스(Vlogbrothers)의 영상을 보며 함께 웃고 커뮤니티에서 활동하기도 합니다. 큰아들은 추천 시스템을 통해 알게 된 3블루1브라운(3Blue1Brown)의 애니메이션 설명을 통해 선형대수학을 더 잘 이해할 수 있었으며, KSI 영상을 보며 휴식을 취했습니다. 

제 가족의 경우에서 알 수 있듯이 거의 모든 동영상에는 적합한 시청자가 존재하며, 추천 시스템의 역할은 바로 이러한 시청자를 찾는 것입니다. 사서의 도움 없이 방대한 도서관에서 모든 도서를 찾는 것이 얼마나 어려울지 생각해 보세요. 맞춤 동영상은 채널 구독이나 검색보다 전체 유튜브 시청률의 훨씬 더 많은 부분을 차지합니다. 저는 10년 넘게 유튜브에서 추천 시스템을 구축해온 사람으로서 맞춤 동영상이 모든 사용자의 유튜브 경험에 없어서는 안 될 부분이 되었다는 데 자부심을 느낍니다. 하지만 맞춤 동영상을 신비한 블랙박스처럼 여기는 경우가 많습니다. 이에 추천 시스템이 어떻게 작동하고, 어떻게 발전해왔으며, 그리고 왜 저희가 책임감 있는  맞춤 동영상을 제공하는 것에 최우선 순위를 두고 있는지에 대한 이유를 설명해 드리려고 합니다.


유튜브의 추천 시스템이란


유튜브의 추천 시스템은 사용자가 보고 싶은 영상을 찾고 가치를 얻을 수 있도록 돕는다는 단순한 원칙에 기반하고 있습니다. 맞춤 동영상은 두 곳, 즉 홈페이지와 '다음 동영상' 패널에서 찾을 수 있습니다. 홈페이지는 유튜브를 열면 처음 보게 되는 공간으로 개인화된 맞춤 동영상,  구독, 최신 뉴스 및 정보가 함께 표시됩니다. 동영상을 시청하면 '다음 동영상' 패널이 표시되어 현재 시청 중인 콘텐츠를 기반으로 추가 콘텐츠와 사용자가 관심을 가질 만한 다른 동영상을 추천합니다.
 
2008년, 처음 추천 시스템을 구축하기 시작했을 때는 추천 경험이 지금과는 완전히 달랐습니다. 주로 요리 동영상을 시청하는 사용자가 있다고 가정해 보겠습니다. 이 사용자에게 조회수가 가장 많다는 이유로 최신 스포츠 동영상과 뮤직 비디오를 추천한다면 무척 답답하지 않을까요? 초창기 유튜브의 모습이 이러했습니다. 시스템에서 인기도를 기준으로 동영상 순위를 매겨 '인기 급상승 동영상' 페이지 하나를 만들었습니다. 하지만 이러한 동영상을 시청하는 사람들은 많지 않았고, 검색 또는 플랫폼 외부에서 공유된 링크를 통해 유튜브 시청률의 대부분이 발생했습니다. 


유튜브 추천 시스템은 모든 사람이 각자의 시청 습관을 가지고 있다는 것에서 출발합니다. 그리고 사용자와 유사한 다른 사용자들의 시청 습관을 비교하여 이를 활용해 사용자가 시청하고 싶어할 만한 다른 콘텐츠를 추천합니다. 만약 여러분이 테니스 동영상을 좋아하는 경우, 재즈 동영상을 한 번도 시청한 적이 없더라도 시스템에서 동일한 테니스 동영상을 좋아하는 다른 사용자가 재즈 동영상도 즐겨 보는 것을 인식한다면 여러분에게 재즈 동영상을 추천할 수 있습니다(뉴스 및 정보 등의 카테고리에서는 이 기능이 다르게 작동할 수 있으며 관련 내용은 추후 자세히 다룰 예정입니다). 몇 년 전 유튜브 추천 시스템이 제 큰딸에게 타일러 오클리(Tyler Oakley)의 동영상을 추천했는데, 당시 브이로그브라더스를 시청한 많은 사용자가 해당 동영상을 시청했기 때문입니다. 나중에 제 딸은 타일러 오클리의 팬미팅에도 참석할 정도로 열성 팬이 되었습니다.

현재 유튜브 시스템은 수십억 개의 동영상을 분류하여 사용자의 특정 관심분야에 맞는 콘텐츠를 추천합니다. 예를 들어 제가 오래된 USC 미식축구 하이라이트를 시청하자 추천 시스템에서 이를 인식하고 그 당시의 다른 스포츠 하이라이트를 찾아줬습니다. 맞춤 동영상이 아니었다면 이러한 동영상이 있는지조차 몰랐을 것입니다. 다른 플랫폼과 달리 유튜브는 소셜 네트워크를 통해 시청자와 콘텐츠를 연결하지 않습니다. 유튜브 추천 시스템의 성공 여부는 사용자가 시청하기를 원하는 동영상을 정확히 예측하는 데 달려 있습니다

그렇지만 이러한 정보를 유튜브와 공유하기를 원하지 않는 사용자도 있습니다. 그래서 데이터를 얼마나 제공할지 결정할 수 있는 제어 기능을 마련했습니다. 사용자는 언제든지 유튜브 검색 및 시청 기록을 일시 중지하거나 수정, 삭제할 수 있습니다.



맞춤 동영상을 개인화하는 방법




이러한 맞춤형 큐레이션을 위해 유튜브의 추천 시스템은 작업 '지침'에 따라 운영됩니다. 추천 시스템은 신호라고 부르는 정보를 매일 800억 개 이상 학습하며 계속 발전하고 있습니다. 이를 더 명확하게 설명하는 것은 시스템에 공급되는 모든 데이터를 이해해야 하기 때문에, 추천 시스템에 대한 공식을 나열하는 것만큼 간단하지 않습니다. 클릭수, 시청 시간, 설문조사 답변, 공유, 좋아요와 싫어요 등을 비롯한 여러 신호를 조합하여 시스템에 사용자 만족도에 대한 정보를 제공합니다. 
 
  • 클릭수: 동영상 클릭은 해당 동영상이 만족스럽다는 강력한 표현입니다. 시청하고 싶지 않은 콘텐츠를 클릭하지는 않을 것이기 때문입니다. 
하지만 2011년, 저희는 동영상을 클릭했다고 해서 실제로 시청했다는 의미는 아니라는  점을 알게 되었습니다. 그 해의 윔블던 경기 하이라이트를 검색했다고 가정해 보겠습니다. 페이지를 스크롤하다 경기 장면을 보여준다는 내용의 썸네일과 제목을 사용한 영상 중 하나를 클릭합니다. 그렇지만 한 사람이 침실에서 경기에 대해 이야기하는 동영상이었습니다. 다음 동영상 패널에서 시스템이 추천한 동영상을 클릭했지만 다른 팬이 경기에 대해 말하는 영상이었습니다. 여러 동영상을 계속하여 클릭한 끝에 마침내 시청하고 싶은 경기 영상이 포함된 동영상을 추천받습니다. 이러한 점을 반영하여 2012년에 시청 시간을 신호에 추가했습니다.
 
  • 시청 시간: 어떤 동영상을 얼마나 오랫동안 시청했는지를 나타내는 시청 시간은 시청할 가능성이 가장 높은 콘텐츠에 대한 개인화된 신호를 시스템에 제공합니다. 따라서 테니스 팬이 윔블던 하이라이트 클립을 20분간 시청한 반면 경기 분석 동영상은 몇 초만 봤다면, 사용자가 하이라이트 동영상을 시청하는 것을 더 가치 있게 여긴다고 생각할 수 있습니다. 
처음 시청 시간을 추천 시스템에 포함한 직후에는 조회수가 20% 감소했습니다. 하지만 저희는 시청자에게 보다 큰 가치를 전달하는 것이 더 중요하다고 확인했습니다. 하지만 시청 시간이라고 해서 모두 동일한 가치를 지니지는 않습니다. 저는 가끔 새로운 언어를 배우거나 요리법 영상을 보는 대신, 밤 늦게까지 깨어 아무 동영상이나 시청합니다. 유튜브는 사용자가 동영상을 보는 데 쓴 시간을 후회하지 않기를 바랍니다. 따라서 유튜브에서 보내는 시간을 통해 얻는 가치를 측정해야 한다는 결론을 내렸습니다.
 
  • 설문조사 답변: 사용자가 시청한 콘텐츠에 만족하는지 확인하기 위해 가치 있다고 판단되는 동영상을 시청하는 데 쓴 시간, 즉 '가치 있는 시청 시간'을 측정하고 있습니다. 사용자 설문조사를 통해 시청한 동영상을 별 1개에서 5개로 평가하도록 요청하고 있으며 이 측정항목을 통해 콘텐츠가 얼마나 만족스러웠는지 파악하고 있습니다. 별 1~2개로 평가한 영상의 경우 낮은 평점을 준 이유를 묻습니다. 마찬가지로 동영상에 별 4~5개의 평점을 주면 이유, 즉 영감을 받았거나 의미가 있었는지를 물어봅니다. 별표 4~5개로 평가한 동영상만 가치 있는 시청 시간으로 집계됩니다. 
물론, 모든 사용자가 시청한 모든 동영상에 대한 설문조사에 응하지는 않습니다. 유튜브는 확보한 설문조사 답변을 바탕으로, 모든 사용자의 잠재적인 답변을 예측하기 위해 머신러닝 모델을 학습시켰습니다. 이러한 예측 정확성을 테스트하기 위해 일부 설문조사 답변은 의도적으로 학습을 보류합니다. 이렇게 하면 항상 시스템에서 실제 답변을 얼마나 정확하게 예측하는지를 모니터링할 수 있습니다. 
 
  • 공유, 좋아요, 싫어요: 일반적으로 자신이 공유하거나 좋아요 표시한 동영상에 더 만족감을 느낄 가능성이 높습니다. 이 정보를 사용해 이후 동영상을 공유하거나 좋아요 표시할 가능성을 예측합니다. 동영상에 싫어요를 표시한다면 즐겨 시청하는 콘텐츠가 아닐 가능성이 높다는 신호입니다.
맞춤 동영상과 마찬가지로 각 신호의 중요도는 사용자에 따라 다릅니다. 별표 1~2개로 평가한 동영상을 포함해 어떤 동영상이든 시청하면 공유하는 사용자라면 시스템에서 콘텐츠를 추천할 때 공유에 큰 비중을 두지 않습니다. 이 때문에 유튜브 시스템은 정해진 공식을 따르기보다는 시청 습관의 변화에 따라 역동적으로 발전합니다. 

 

책임감 있는 맞춤 동영상 제공에 집중
 
클릭수, 조회수, 시청 시간, 사용자 설문조사, 공유, 좋아요, 싫어요는 유튜브를 찾는 대부분의 사용자가 시청하는 음악 및 엔터테인먼트와 같은 주제의 맞춤 동영상을 추천하는 데 효과적입니다. 하지만 시간이 지나면서 뉴스와 정보를 얻기 위해 유튜브를 찾는 시청자가 점점 늘고 있습니다. 속보나 복잡한 과학 연구와 같은 주제의 경우에는 정보의 질과 맥락이 훨씬 더 중요합니다. '지구가 평평하다'고 주장하는 동영상에 만족을 표하는 사용자도 있지만 그렇다고 해서 이러한 저품질의 콘텐츠를 추천하고 싶지는 않습니다. 
 
이 때문에 추천 시스템은 책임감 있는 플랫폼을 유지하는 데 중요한 역할을 합니다. 시스템은 시청자를 양질의 정보와 연결해 주고 문제의 소지가 있는 콘텐츠를 볼 가능성을 최소화합니다. 또한 유튜브에서 어떤 콘텐츠가 허용되고 어떤 것들이 허용되지 않는지를 판단하는 강력한 커뮤니티 가이드를 보완하는 역할도 합니다.
 
2011년부터 품질이 낮은 콘텐츠를 다수가 시청하는 일이 없도록 제한하기 위해 추천 시스템을 사용해왔습니다. 즉, 선정적이거나 폭력적인 동영상을 식별하기 위한 기준을 세우고 이러한 콘텐츠가 추천되지 않도록 조치했습니다. 이후 2015년에는 선정적인 타블로이드 콘텐츠가 홈페이지에 표시된다는 사실을 알게 되어 순위를 내리는 조치를 취했습니다. 그로부터 1년 뒤에는 동영상에서 위험한 상황에 놓인 미성년자가 등장할 가능성을 예측하고 맞춤 동영상에서 이를 삭제하기 시작했습니다. 그리고 2017년, 추천 시스템이 소외된 커뮤니티에도 공정하게 작동하도록 LGTBQ+ 커뮤니티와 같이 보호되어야 하는 집단에 대한 시스템의 공정성을 지원하는 머신러닝을 평가하기 시작했습니다.
 
최근 몇 년간 잘못된 정보가 증가함에 따라 문제가 있는 잘못된 정보와 정책 위반 경계선상에 있는 콘텐츠를 포함하도록 추천 시스템의 사용 방식을 확대했습니다. 정책 위반 경계선상에 있는 콘텐츠란 문제의 소지가 있으나 커뮤니티 가이드를 위반하지는 않는 콘텐츠를 의미합니다. 여기에는 음모론 동영상('달 착륙은 조작되었다') 또는 잘못된 정보를 퍼뜨리는 기타 콘텐츠('오렌지 주스로 암을 치료할 수 있다')가 포함됩니다.
 
이를 위해 기준을 사용하여 동영상이 '공신력 있는지’ 또는 '정책 위반 경계선상에 있는지'를 파악하고 있습니다. 이러한 분류는 각 채널 또는 동영상에 포함된 정보의 품질을 평가하는 평가자를 통해 이루어집니다. 이 평가자들은 전 세계에서 모집되었으며, 공개적으로 이용되는 상세한 등급 가이드라인을 바탕으로 한 교육을 받습니다. 또한 건강 정보가 포함된 콘텐츠의 경우에는 의사와 같은 인증받은 전문가를 활용하고 있습니다.
 
평가자는 몇 가지 주요 질문을 통해 공신력을 판단합니다. 약속한 내용을 제공하거나 목적을 달성한 콘텐츠인지, 동영상의 목적을 달성하려면 어떤 전문성이 필요한지, 동영상 속 화자와 해당 채널의 평판은 어떤지, 동영상의 주요 주제(예: 뉴스, 스포츠, 역사, 과학 등)는 무엇인지, 내용이 풍자를 의도하고 있는지 등을 비롯해 이러한 질문의 답변에 따라 영상의 공신력을 결정합니다. 점수가 높은 영상일수록 뉴스 및 정보 콘텐츠로 더 많이 홍보됩니다. 

정책 위반 경계선상에 있는 콘텐츠를 판단하기 위해 평가자는 콘텐츠의 부정확성, 오해의 소지 또는 사기성 정보, 몰이해 또는 편협성, 유해성 또는 해를 입힐 가능성을 비롯해 이 외에 여러 요인을 평가합니다. 결과를 조합하여 동영상에 피해를 줄 수 있는 잘못된 정보가 있거나 정책 위반 경계선상에 있을 확률을 점수로 매깁니다. 정책 위반 경계선상에 있는 것으로 분류된 동영상은 추천 시스템에서 순위를 내립니다.
 
이후 평가자가 시스템을 학습시켜 결정을 모델링하면, 그들의 평가를 유튜브 전반의 모든 동영상으로 확대합니다.

 
맞춤 동영상에 대한 일반적인 질문에 대한 답변
 
맞춤 동영상은 시청자에게 마음에 들 만한 콘텐츠를 소개하고 크리에이터가 새로운 시청자들과 소통할 수 있도록 돕는 것을 비롯해 전체 커뮤니티에 중요한 역할을 합니다. 사회 전체적으로 봤을 때도 피해를 줄 수 있는 잘못된 정보의 확산을 막도록 돕는 의미 있는 역할을 할 수 있습니다. 클릭수, 시청 시간, 사용자 설문조사, 공유, 좋아요, 싫어요는 시스템에 정보를 제공하는 중요한 신호이지만 그보다는 유튜브 커뮤니티와 사회에 대한 책임을 다하려는 저희의 노력이 더욱 중요합니다. 

 
추천 시스템과 관련해 자주 받는 몇 가지 질문이 더 있습니다. 이에 대한 궁금증도 해소되어야 한다고 생각합니다.
 
  1.  정책 위반 경계선상에 있는 콘텐츠에 대한 참여가 가장 많나요?

설문조사 및 피드백에 따르면 대부분의 시청자가 정책 위반 경계선상에 있는 콘텐츠가 추천되는 것을 원하지 않으며, 많은 사람들이 이에 대해 불쾌함과 반감을 느끼는 것을 확인되었습니다. 실제로 외설적인 타블로이드 유형 콘텐츠의 순위를 내리자 2.5개월 만에 시청 시간이 제한을 두기 전보다 0.5% 증가했습니다.
 
또한 정책 위반 경계선상의 콘텐츠가 다른 유형의 콘텐츠보다 평균적으로 참여도가 높다는 근거도 본 적이 없습니다. 지구가 평평하다고 주장하는 콘텐츠를 예로 들겠습니다. 지구가 둥글다고 말하는 동영상보다 지구가 평평하다고 주장하는 동영상이 더 많이 업로드되지만, 평균적으로 지구가 평평하다고 주장하는 동영상의 조회수는 훨씬 적습니다. 설문조사에 따르면 유튜브에서 극소수의 시청자만이 정책 위반 경계선상에 있는 콘텐츠에 만족을 표했습니다. 유튜브는 추천 시스템을 통해 이러한 콘텐츠가 넓은 시청자층에 도달하지 못하도록 하는데 많은 시간과 비용을 투자해왔습니다. 현재 정책 위반 경계선상의 콘텐츠는 구독하지 않은 맞춤 동영상 외의 출처에서 대부분의 조회수를 얻고 있습니다. 
 
  2.  유튜브에서 정책 위반 경계선상에 있는 콘텐츠의 시청 시간이 늘고 있나요?

대다수에게 정책 위반 경계선상에 있는 콘텐츠는 유튜브에서 유익한 시간을 보내기 위한 기준에 부합하지 않습니다. 이 때문에 2019년에 처음으로 추천 시스템에서 정책 위반 경계선상에 있는 콘텐츠의 순위를 내리기 시작했습니다. 그 결과 미국에서 구독하지 않은 채널 및 맞춤 동영상에서 정책 위반 경계선상에 있는 콘텐츠의 시청 시간이 70% 감소했습니다. 현재 추천 시스템을 통해 정책 위반 경계선상의 콘텐츠를 이용하는 경우는 1%도 안 됩니다.
 
  3.  추천 시스템이 시청자를 점점 더 극단적인 콘텐츠로 유도하나요?

앞서 설명드렸듯 맞춤 동영상에서 품질이 낮은 정보의 순위를 적극적으로 내리고 있습니다. 뿐만 아니라 관심을 가질 만한 주제의 공신력 있는 동영상을 시청자에게 표시하는 조치도 취하고 있습니다. 코로나19 백신에 대한 동영상을 시청한다고 가정하겠습니다. 다음 동영상 패널에 복스(Vox)나 블룸버그 퀵테이크(Bloomberg Quicktake)와 같이 공신력 있는 출처의 동영상이 표시되며 백신에 대한 잘못된 정보가 포함된 동영상(시스템에서 감지 가능한 경우)은 표시되지 않을 것입니다. 
 
코로나19 관련 뉴스 및 설명 동영상 외에도 시청 기록을 토대로 새러데이 나잇 라이브(Saturday Night Live)의 스케치나 슈퍼 마리오 효과를 다룬 테드x 토크(TEDx Talk) 등 다른 주제의 맞춤 설정된 콘텐츠를 추천받게 됩니다. 이처럼 개인화된 다양성을 통해 시청자는 같은 유형의 동영상만 반복해서 이용하지 않고 새로운 주제와 형식을 접할 수 있습니다. 
 
기술 플랫폼이 정책 위반 경계선상에 있는 콘텐츠 시청에 미치는 영향을 다루는 독립 연구가 늘고 있습니다. 아직 진행 중인 연구도 많지만 최근 발표된 논문에서는 유튜브 추천 시스템이 실제로 시청자를 극단적인 콘텐츠로 유도하지 않는다는 결론을 내리고 있습니다. 오히려 유튜브 뉴스 및 정치 관련 콘텐츠 이용에는 온라인 습관에서 볼 수 있는 개인적 취향이 더 반영됩니다.
 
  4.  정책 위반 경계선상에 있는 콘텐츠도 수익을 창출하나요?

우선, 광고주 친화적인 콘텐츠 가이드라인을 통해 정책 위반 경계선상에 있는 많은 콘텐츠의 수익 창출을 금지하고 있습니다. 많은 광고주가 유튜브에서 이러한 유형의 콘텐츠와 관련되고 싶지 않다는 의견을 밝혔으며 해당 콘텐츠에 광고 게재를 제외하는 광고주도 많습니다. 즉, 정책 위반 경계선상에 있는 동영상을 시청할 때마다 수익 창출 기회를 놓치게 된다는 것을 의미하며, 이는 유튜브의 실질적인 수익 손실로 이어집니다. 마찬가지로 이러한 유형의 콘텐츠는 불신을 낳고 광고 파트너뿐만 아니라 대중, 언론, 정책 입안자들의 우려를 가져옵니다. 실제로 책임을 다하기 위해 노력할수록 유튜브와 전체 크리에이터 경제도 성장했습니다. 책임감 있는 활동은 비즈니스에 유익합니다.
 
그럼에도 불구하고 정책 위반 경계선상에 있는 콘텐츠를 단순히 삭제하지 않는 이유는 무엇일까요? 잘못된 정보는 빠르게 전파되고 발전하는 경향이 있습니다. 테러아동 안전과 같은 영역과는 달리 종종 명확한 합의도 부족합니다. 또한 잘못된 정보는 개인적인 관점이나 배경에 따라 다를 수도 있습니다. 때로는 논란의 소지가 있거나 심지어 불쾌감을 주는 콘텐츠가 남아 있기도 합니다. 따라서 신뢰할 수 있는 맞춤 동영상을 제공하는데 집중하고 시스템에서 이러한 콘텐츠를 광범위하게 추천하지 않도록 유의미한 조치를 취하고 있습니다.
 
전체적으로 보면 책임감 있는 맞춤 동영상을 제공하기 위한 모든 노력이 실질적인 결과를 얻고 있습니다. 공신력 있는 뉴스의 시청 시간이 크게 증가했고 정책 위반 경계선상에 있는 콘텐츠의 시청률은 줄었습니다. 그렇다고 해서 문제가 해결되었다는 것은 아닙니다. 지속적인 개선을 위해서는 시스템을 개선하고 투자해야 합니다. 유튜브의 목표는 맞춤 동영상에서 발생하는 정책 위반 경계선상에 있는 콘텐츠의 조회수를 유튜브 전체 조회수의 0.5% 미만으로 유지하는 것입니다. 
 
유튜브의 사명은 평범한 사람들이 자신의 목소리를 낼 수 있게 돕고 더 큰 세상과 만나게 하는 것입니다. 유튜브는 제 가족의 삶에 엄청난 변화를 가져왔습니다. 관용과 공감에 대한 가르침을 다룬 동영상은 제 큰 딸의 성격에 많은 긍정적 영향을 미쳤습니다. 제 아들은 선형대수학 수업에서 힘든 문제를 풀 수 있게 되었습니다. 저 역시 기술 윤리 분야의 리더들이 진행하는 강의에서 의미있는 내용과 맥락을 배웠습니다. 그리고 개방성을 지키기 위한 노력을 통해 새로운 목소리와 아이디어를 얻을 수 있었습니다. 마르케스 브라운리(Marques Brownlee), 모스틀리새인(MostlySane) 또는 니키튜토리얼(NikkieTutorials)과 같은 크리에이터는 그들의 전문성과 공개적인 지지, 솔직함으로 수백만 명의 시청자에게 영감을 주고 있습니다. 
 
여러분 모두의 의견 덕분에 추천 시스템은 매일 발전하고 있지만 더욱더 개선될 수 있습니다. 유튜브팀과 함께 여러분께 가장 유용하고 가치 있는 경험을 제공하기 위해 최선을 다하겠습니다. 


*이 블로그는 유튜브 글로벌 블로그(영문)에도 게재되었습니다.