본문 바로가기

깊이 보기 승강기 기술

검색의 시대가 지고 추천의 시대가 뜬다

검색의 시대가 지고 추천의 시대가 뜬다

정리. 편집부 자료제공. 삼성전자 뉴스룸

불과 얼마 전, 이를테면 1990년대만 해도 사람들은 ‘검색의 시대’를 살았다. 누군가가 수(手)작업으로 완성해 놓은 카테고리와 디렉토리를 훑어본 후 그 안에 들어가 정보를 찾는 데 익숙했다. 야후(Yahoo!)가 앞장섰던 디렉토리 서비스가 대표적 예다. 이런 종류의 서비스는 사람들이 실제로 관심 갖는 키워드를 중요하게 다룬다는 점에서 미덕을 갖췄고 편리하기도 했다. 하지만 인터넷이 성장하며 정보량이 폭발적으로 늘자 금세 ‘규모(Scale)’의 벽에 부딪쳤다.

‘내가 뭘 아는지’ 가늠 못하는 현대인, 갈수록 검색 어려워해

1990년대 말, 알타비스타(Altavista), 라이 코스(Lycos), 인포시크(Infoseek) 등 수많 은 브랜드가 쏟아지며 인터넷 검색 엔진 시장은 춘추전국시대를 맞이했다. 급증하 는 정보량을 고려할 때 이는 지극히 자연 스러운 일이었다. 하지만 몇몇이 책상에 앉아 세상 사람 모두의 관심사를 디렉토 리로 구분하거나, 엄청난 규모의 정보를 카테고리로 나누는 일은 이미 효용 면에 서 수명을 다했다. 그런 의미에서 1997년 구글의 등장은 가히 혁신적이었다. 검색 속도와 정확성의 수준을 확연히 올려놓으 며 검색 시장의 새 국면을 열었기 때문이 다. 구글의 검색 결과는 사람이 분류한 디 렉토리 안에 저장된 정보처럼 사용자가 찾는 키워드와 관련성이 높았다. ‘페이지랭크(Pagerank)’란 알고리즘으로 무장한 구글이 천하를 평정하자 기존 디 렉토리 서비스는 빠른 속도로 폐기됐다. 이후 검색의 시대가 본격적으로 시작됐 다. ‘인터넷을 사용한다’는 말은 곧 ‘인터넷 으로 검색한다’와 동의어였고, 그 마저도 대부분은 구글 검색을 의미했다. 검색은 모든 곳에 존재했다. 한쪽에선 구글 검색 으로 원하는 정보를 누가 빨리 찾는지 겨루 는 대회가 열렸고 다른 쪽에선 검색엔진 최 적화나 인터넷 검색 광고 등 관련 사업과 생태계가 꽃피었다. 사람들은 하루에도 수 십 번씩 검색을 수행하고 결과를 확인하며 지식을 확장해갔다. 당신이 뭔가를 검색하려 한다면 일단 검색 대상을 한두 개 단어로 표현해야 한다. 하 지만 오늘날 인류에게 그건 상당히 어려운 얘기다. 인터넷 안에 짐작조차 어려울 만 큼 많은 정보와 서비스, 상품이 존재하기 때문이다. 이런 상황에서 사람들은 자신이 뭘 아는지 좀처럼 가늠하지 못한다. 하지만 사람들이 미처 느끼지 못하는 새, 검색의 독주는 슬그머니 끝났다. 그 틈을 비집고 들어온 건 ‘추천’이었다. 디렉토리 서비스가 검색에 자리를 내어준 것처럼 몇 해 전부터 검색은 추천과 공존을 서서히 꾀 하고 있다. 이렇게 생각해보자. 당신이 뭔 가를 검색하려 한다면 일단 검색 대상을 한 두 개 단어로 표현해야 한다. 찾고 있는 게 구체적으로 무엇인지 이미 알고 있어야 한 단 뜻이다. 구글이 처음 등장한 1990년대 말이라면 충분히 가능한 설정이었다. 하지 만 오늘날 인류에게 그건 상당히 어려운 얘 기다. 인터넷 안에 짐작조차 어려울 만큼 많은 정보(데이터)와 서비스, 상품이 존재 하기 때문이다. 이런 ‘정보의 바다’에서 사 람들은 자신이 뭘 아는지(모르는지) 좀처 럼 가늠하지 못한다.

추천시스템은 사용자를 행으로, 항목을 열로 하는 ‘희소 행렬’

추천시스템(Recommender systems)은 오래 전부터 수많은 웹사이트에서 활발하 게 사용되고 있다. 아마존 전자상거래 서비 스, 넷플릭스 영화 스트리밍 서비스, 구글 뉴스 서비스, 스포티파이(Spotify) 음악 스 트리밍 서비스 등이 대표적인 사례다. 적용 분야도 금융·보험·헬스케어·(온라인)광 고 등에 한정됐던 초기와 달리 현대인의 일 상 곳곳에 자연스레 스며들고 있다. 2000 년대 도처에 검색이 있었듯 2010년대엔 사 방에 추천이 있다. 물론 차이는 존재한다. 검색은 텍스트 입력이 필요한 검색 창을 전 제로 하므로 눈에 잘 보이지만 추천은 웬만 해선 눈에 띄지 않는다. 검색은 사용자가 입력한 키워드를 기준으 로 그것과 관련성 높은 문서를 찾아 보여주 는 형태다. 반면, 추천은 사용자가 좋아할 거라고 예측되는 항목을 컴퓨터가 알아서 예측한 후 제시되는 결과다. 검색보다 훨씬 넓고 깊은 데이터 분석을 필요로 하므로 검 색보다 인공지능에 좀 더 가깝다. 검색에서 핵심이 되는 데이터 모델은 입력 된 키워드, 그리고 그에 상응하는 문서다. 인터넷에 존재하는 대다수 정보가 문서 단 위로 조직되기 때문이다. 반면 추천에서 중 요한 데이터 모델은 사용자와 항목이다. 이 때 사용자란 이름·성별·나이 등 단순 속성 의 집합체가 아니다. 과거 어떤 제품을 선 호하고 구매했는지, 무슨 링크를 클릭했는 지 등 ‘행위’ 관련 정보를 모아 놓은 형태다. 또 항목은 영화·음악·도서, 혹은 상품·서 비스 등 컴퓨터가 사용자에게 권할 수 있는 전부를 아우르는 개념이다. 추천시스템 알고리즘은 크게 ‘협업 필터링 (Collaborative filtering)’과 ‘콘텐츠 기반 필터링(Content based filtering)’으로 나 뉘며, 앞서 언급한 대로 사용자와 항목 관 련 정보를 기반으로 작동된다. 사용자를 행 (row)에, 항목을 열(column)에 각각 놓은 행렬(matrix)을 떠올리면 쉽다. 각 칸은 특 정 항목에 대한 사용자의 평점을 담고 있 다. 일단 이 행렬은 거대하다. 아마존·구 글·넷플릭스 등의 인터넷 서비스 가입(사 용)자 수, 그리고 각각의 서비스가 판매하 는 상품 종류를 생각하면 그 크기를 어느 정도 예측할 수 있다. 심지어 이 행렬에서 대부분의 칸은 아무런 값을 가지지 않는다. 한 명의 사용자가 구매(혹은 평가)하는 상 품 수는 전체와 비교했을 때 극도로 제한돼 있기 때문이다. 따라서 추천시스템이 다루 는 행렬은 대부분의 칸이 비어 있는 ‘희소 행렬(sparse matrix)’이다.

‘사이트 방문 없이도 작동하는’ 추천 알고리즘

결국 추천시스템은 이처럼 비어 있는 칸에 들어갈 값을 예측하는 엔지니어링이다. 다 양한 행렬 계산과 통계학 방법을 동원, 발 전을 거듭해온 추천시스템은 최근 신경망 (neural network)과 딥러닝을 등에 업고 계산 측면에서 한층 정확해졌다. 속도도 눈에 띄게 향상됐다. 내가 애용하는 음악 서비스이기도 한 스포티파이 역시 딥러닝 을 활용하기 시작하며 추천 음악에 대한 사 용자(물론 필자도 포함돼 있다) 반응이 전 보다 좋아졌단 후문이다. 한 시대를 풍미했던 야후 디렉토리 서비스 는 이미 오래전 구글 검색에 자리를 내줬 다. 그리고 오늘날 검색은 추천과 공존한 다. 시장에 안착한 기업 중 추천시스템을 적극적으로 활용하지 않는 곳은 찾아보기 힘들 정도다. 추천시스템의 질이 향상될수 록 사람들은 점점 더 검색 기능을 사용하지 않게 될 것이다. 아닌 게 아니라 매번 정확 한 키워드를 떠올려야 하는 검색은 추천에 비하면 꽤 귀찮다. 그런데 이 상황, 생각하 기에 따라서는 야후 디렉토리 서비스의 부 활처럼 느껴진다. 커튼 뒤에서 작업하는 존재가 사람이 아니라 컴퓨터 알고리즘이 란 사실, 전보다 훨씬 정교한데다 스케일 문제도 거의 없다는 사실만 빼면 말이다. 추천은 아직 ‘웹사이트 방문’이란 사용자 행위를 필요로 한다. 하지만 앞으로의 추 천 알고리즘은 채팅봇·메시지·SNS 등 다 양한 인터페이스를 활용, 지금보다 훨씬 전방위적으로 확산될 것이다. 당장 떠오르 는 모델만 해도 여럿이다. 목적과 예산에 맞춰 계획을 수립해주는 여행 플래너, 계 절과 장소에 맞춰 입을 옷을 대신 선택해주 는 의류 코디네이터, 취향과 다이어트 식 단을 기반으로 매일 먹을 음식을 결정해주 는 푸드 가이드, 학습 계획을 세워주고 진 행을 돕는 학습 에이전트 등. ‘추천의 시대’ 를 살아가는 당신 앞에 곧 펼쳐질 서비스의 면면이다.