ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 넷플릭스 양자이론, 빅데이터 분석이 아닌 데이터 창출의 힘
    산업 - ICT and more 2018. 7. 24. 17:52

    넷플릭스 양자이론(Netflix quantum theory)? 오랜만에 KT경제경영연구소에서 들었더니 눈에 들어왔다. ‘뭐지?’ 하고 보고서를 읽어 내려갔다.

    가상의 장르에 대한 가상의 영화. Illustration by Darth.

    간단히 말해서, ‘콘텐츠 정보를 더 이상 불가능한 수준까지 쪼갠다는 의미란다. The Atlantic이라는 미국잡지의 Alexis C. Madrigal 기자에 따르면 넷플릭스는 영화를 76,897 장르로 분류할 있다고 한다. 이게 어떻게 가능할까? 비밀은 바로 수많은 인력을 동원한 '노가다' 시스템이다. 토드 옐린(Todd Yellin) 넷플릭스 제품 혁신 부사장은 2016 IT동아와의 인터뷰에서 이렇게 얘기했다.

    "넷플릭스에 신작이 입고되면 내부의 콘텐츠 팀이 해당 영화, 드라마, 애니메이션을 일일이 감상한다. 다음 엑셀 스프레드 시트에 해당 영화와 관련 있다고 생각되는 모든 태그(꼬리표) 입력한다. 태그는 엄청 많이, 그리고 되도록 자세하게 입력한다."

    이렇게 태그를 기록한 메타데이터(metadata) 영화 한편을 기준으로 36페이지나 된다고 한다. 이것이 바로넷플릭스 양자이론이다.

    그러면 태그는 어떻게 사용될까? 토드 옐린 부사장의 말을 들어보자.

    "사용자가 처음 넷플릭스에 가입하면 자신의 취향에 맞는 콘텐츠 3개를 고르게 된다. 3개의 콘텐츠에 붙은 태그를 바탕으로 컴퓨터 알고리즘이 사용자 취향에 맞는 콘텐츠를 찾아준다. 태그의 일치도가 높은 콘텐츠가 우선 노출된다. 이후 사용자가 넷플릭스의 콘텐츠를 많이 감상하면 감상할 수록 더욱 정확한 결과가 나온다. 머신러닝을 바탕으로 넷플릭스의 클라우드 컴퓨팅 시스템이 수많은 태그를 일일이 대조한 후 사용자 취향에 맞는 콘텐츠를 찾아준다."

    때문에 넷플릭스의 메인화면은 사용자마다 다르다. 12500만 명의 넷플릭스 가입자가 있으면, 12500만 개의 넷플릭스 메인화면이 존재한다.

    [그림] 넷플릭스 양자이론장르 생성 공식에 활용되는 세부내용

    자료: Netflix (황설욱, ‘미디어 시장 동향 및 시사점’, <KT경제경영연구소>, 2018.05.18에서 재인용)

     

    콘텐츠 추천 알고리즘

    넷플릭스의 추천시스템은 사용자 개인 데이터뿐만 아니라 지역에서 수집한 사용자집단(클러스터)의 데이터도 활용된다. 어떤 지역에서 어떤 장르의 콘텐츠를 선호하는지 분석한 후 현지 사용자의 추천시스템에 반영하는 식이다. 예를 들어 애니메이션의 선호도가 높은 일본 사용자에겐 신작 애니메이션도 추천하고, 러브 코미디의 선호도가 높은 한국 사용자에겐 신작 러브 코미디도 추천하는 식이다. 이처럼 항목간 유사성과 함께 자료 안에 내재한 패턴을 이용하는 넷플릭스의 콘텐츠 추천 알고리즘을 전문용어로는 모델기반협력필터링(Model-based Collaborative filtering)이라고 한다.

    고전적인 콘텐츠 추천 알고리즘에는 협업필터링(Collaborative filtering)과 콘텐츠기반필터링(Content-based filtering)이 있다. 전자는 대규모의 기존 사용자 행동정보를 분석하여 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 항목을 추천하는 방식이다. 가장 흔한 예는 교보문고에서 미시경제학을 구입한 고객이 거시경제학을 구입하는 경우가 많으면 미시경제학을 구입하는 고객에게 거시경제학을 추천하는 방식이다. 그런데 이 책이 신간이라면 문제가 생긴다. 추천에 사용할 정보가 쌓일 때까지 추천이 곤란한 것이다. 이런 현상을 Cold Start라고 한다.

    협업필터링에서는 Cold Start가 생기지 않는다. 협업필터링이 사용자의 행동기록을 이용하는 방식이라면 콘텐츠기반필터링은 콘텐츠의 항목 자체를 분석해 추천하기 때문이다. 예를 들어 음악을 추천하기 위해 음악 자체를 분석하여 유사한 음악을 추천하는 방식이다. 판도라(Pandora)의 경우, 신곡이 출시되면 음악을 분석하여 장르, 비트, 음색 등 약 400여 항목의 특성을 추출한다. 그리고 사용자로부터는 ‘like’를 받은 음악의 특색을 바탕으로 해당 사용자의 프로파일을 준비한다. 이러한 음악의 특성과 사용자 프로파일을 비교함으로써 사용자가 선호할 만한 음악을 제공하게 된다.

    빅데이터 이전에 전략 먼저다

    넷플릭스의 양자이론을 조사하면서 필자가 휴대폰 제조업체에 다닐 때 일이 떠올랐다. 당시 스마트폰이 나오면서 운영체제, 앱스토어, , 서드파트, 콘텐츠 등등, 많은 것들이 새로 생겨났고, 원래 있던 것도 작동메커니즘이 바뀌었다. 필자가 있던 경영전략팀에서는 전략적 선택을 내려야 했다. 휴대폰 제조회사인 우리는 과연 어디까지 관여해야 하는가? 우리도 Apple이나 Google, 블랙베리처럼 자체 OS를 개발해야 하는가? 아마존이나 삼성처럼 자체 앱스토어를 가져가야 하는가? 우리가 자체 OS나 앱스토어를 가져가지 않는다면 이 새로운 생태계의 헤게모니 싸움에서 어떻게 제 목소리를 낼 수 있을까?

    양자이론과 관련된 것만 얘기해보면 우리의 결정사항 중 하나는 Analytics는 꼭 가져가야 한다는 것이었다. 휴대폰 제조사는 사용자들이 휴대폰을 사용하는 모습에 대한 수많은 자료를 수집할 수 있다. 당장에는 별 쓸모 없더라도 모아둔 자료가 사용자 편의성을 높이는데 사용되거나 새로운 사업을 만드는데 도움이 될 것이라는 판단이었다. 생각은 좋았는데 결과적으로 신통치 않았다. 어떤 데이터를 모을지, 그리고 이 데이터를 어떻게 관리할지 그 다음 단계를 게을리했기 때문이다. 필요하다는 것은 알면서도 구체적으로 어디에 어떻게 쓸지를 정하지 못했기에 흐지부지되는 것은 정해진 운명이었다.

    반면 넷플릭스는 수많은 인력과 시간을 들이는 노가다 작업으로 기존 영화산업에서 누구도 가지지 못한 자료를 만들어 냈다. 이것이 축적되고 누구나 함께 이용할 수 있는 데이터와 결합해서 아무도 흉내내지 못하는 넷플릭스만의 차별적 경쟁력을 만들어 냈다.

    빅데이터에서 중요한 것은 빅데이터 자체가 아니다. 진짜 중요한 것은 남들이 만들지 못하는 우리 회사만 수집하는 고유한 데이터 세트를 만들어 내는 것이다. 이것이 축적되고 누구나 함께 이용할 수 있는 데이터와 결합해서 누구도 흉내내지 못하는 차별적 경쟁력을 만들어 낸다. 넷플릭스의 양자이론에서 우리가 놀라야 하는 것은 7만개가 넘는 영화장르 분류가 아니다. 백만개가 넘는 장르라도 경쟁력을 만드는데 도움이 안된다면 쓸모 없다. 진짜 놀라야 하는 것은 이것이 저절로 주어지는 데이터로 만들어 낸 것이 아니라 필요에 의해서 돈과 시간을 들여 자체적으로 만들어낸 데이터에 의해 만들어졌다는 것이다. 남들도 따라할 수 있는 데이터라면 차별적 경쟁력을 갖는데 큰 도움이 안된다.

    빅데이터 분석에 대한 얘기가 난무한다. 그런데 데이터 창출에 대한 얘기는 잘 들리지 않는다. 분명한 전략적 목표를 가지고 사려 깊이 설계하여 생성하고 오랜 기간 축적한 데이터가 차별적 경쟁력을 가져다 준다. 분석에만 치중하고 있는가? 한 발 물러서서 크게 보라. 우리는 어디서 경쟁력을 확보할 것인가, 그 경쟁력 확보를 위해서는 어떤 데이터가 필요한가? 이 데이터는 어떻게 확보할 것인가?

     

    [참고자료]

    황설욱, ‘미디어 시장 동향 및 시사점’, <KT경제경영연구소>, 2018.05.18

    Alexis C. Madrigal, ‘How Netflix Reverse Engineered Hollywood,’ The Atlantic, Jan 2, 2014
    https://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hollywood/282679/

    강용일, ‘[넷플릭스 랩스데이] 넷플릭스 추천 시스템의 비밀: '노가다' '머신러닝’, IT동아, 2016-03-21

    서용원, ‘콘텐츠 추천 알고리즘의 진화’, 방송트렌드&인사이트, <한국콘텐츠진흥원>, 2016 4 5, Vol. 05

     

Designed by Tistory.