구글뉴스의 뉴스 추천 알고리즘 정리

구글뉴스 캡쳐

구글뉴스의 뉴스 추천 알고리즘을 알아보기 위해 구글이 2010년에 발표한 논문을 찾아 정리했습니다. 논문제목은 클릭 행동에 기반해 개인화된 뉴스 추천Personalized News Recommendation Based on Click Behavior)입니다

구글 뉴스와 같은 뉴스 웹사이트에서는 개별 사용자들의 관심사에 맞게 콘텐츠를 제공하는 것이 사용자 경험과 참여를 증진시키는 데 중요한 역할을 합니다. 구글이 연구한 사용자들의 뉴스 관심사를 예측하고 맞춤형 뉴스 추천을 제공하는 방법에 대해 알아보겠습니다. 

인사이트 및 사실 확인

인사이트

  • 뉴스 추천 알고리즘과 클릭률(CTR : Click-Through Rate)은 직접적으로 관련됐습니다. CTR은 뉴스 추천 알고리즘이 얼마나 효과적인지를 평가하는 데 사용되는 중요한 지표 중 하나입니다
  • 뉴스의 클릭률이 중요하다는 것은 기자가 뉴스의 헤드라인에 기사의 ‘키워드’를 정확하게 배치하는 것이 중요하다는 말입니다. 다만, 본문과 관련 없는 키워드를 악용하게 될 경우 낚시기사(clickbait)로 인지될 가능성이 있습니다.
  • 뉴스가 나왔을때 초반 클릭률이 높다면 해당 뉴스의 추천 가능성이 높아집니다. 이는 구글 뉴스와 구글 디스커버 추천 가능성이 높아질 수 있다는 말입니다.

사실 확인

  • 구글뉴스는 뉴스 기사를 카테고리로 보여주지만 실제 분류 방법은 뉴스의 텍스트를 기반으로 함
  • 뉴스에 대한 사용자 관심은 단기와 장기의 두 개 유형. 단기는 최신뉴스, 장기 관심은 실제 사용자 관심사항
  • 사용자는 검색할 때 목적성을 가지지만, 뉴스 사이트에 방문할때는 ‘재미있는 것을 보여줘’라는 태도를 가짐. 큰 뉴스 이벤트에 따라 영향을 받음

논문 내용 정리

사용자의 관심사와 뉴스 트렌드 이해하기

연구의 첫 번째 단계에서 팀은 사용자의 클릭 행동을 분석하여 시간이 지남에 따라 사용자의 뉴스 관심사에 대한 통찰을 얻었습니다. 이 분석에서 사용자들의 뉴스 관심사가 정적이 아닌 것으로 나타났으며, 시간이 지남에 따라 변화하는 것으로 나타났습니다. 더욱이, 연구원들은 사용자들의 관심사가 지역적인 뉴스 트렌드에 영향을 받는 것을 발견했습니다. 예를 들어, 특정 지역의 사용자들은 주요 스포츠 이벤트 기간에 스포츠 뉴스에 높은 관심을 보일 수 있습니다.

사용자의 현재 뉴스 관심사를 예측하기

로그 분석에서 얻은 인사이트를 바탕으로 연구원들은 사용자들의 현재 뉴스 관심사를 효과적으로 예측하기 위한 베이지안 프레임워크를 개발했습니다. 이 프레임워크는 뉴스 추천에 필요한 두 가지 주요 요소를 모델링하는 데 중점을 둡니다. 사용자의 진정한 관심사와 현재 의 지역 뉴스 트렌드를 반영하는 것입니다. 사용자의 진정한 관심사는 사용자들의 과거 클릭 행동에서 유추되며, 현재 뉴스 트렌드의 영향력은 단기적인 효과를 나타내며 시간이 지남에 따라 변화하는 요소입니다. 베이지안 프레임워크를 통해 시스템은 사용자들의 진정한 뉴스 관심사와 현재의 지역 뉴스 트렌드를 결합하여 사용자들의 현재 뉴스 관심사를 예측할 수 있습니다. 이를 통해 사용자에게 더욱 흥미로운 뉴스를 제공하고 사용자 만족도를 향상시키는데 기여합니다.

베이지안 프레임워크를 적용한 뉴스 추천 시스템은 다음과 같은 절차를 따릅니다:

  • 사용자의 과거 뉴스 클릭 기록 분석: 사용자의 과거 뉴스 클릭 기록을 분석하여 사용자의 진정한 뉴스 관심사를 추정합니다. 이를 통해 사용자가 어떤 뉴스 카테고리에 관심을 가지고 있는지 파악합니다.
  • 현재 뉴스 트렌드 분석: 사용자의 현재 위치를 기준으로 일정 기간 동안의 뉴스 클릭 분포를 계산하여 현재 뉴스 트렌드를 파악합니다. 이를 통해 해당 위치에서 인기 있는 뉴스 카테고리를 파악합니다
  • 사용자의 뉴스 관심사 예측: 사용자의 진정한 뉴스 관심사와 현재 뉴스 트렌드를 조합하여 사용자의 뉴스 관심사를 예측합니다. 이를 통해 해당 사용자가 현재 관심을 가지고 있을 가능성이 높은 뉴스 카테고리를 파악합니다.
  • 뉴스 추천: 사용자의 뉴스 관심사 예측 결과를 기반으로 해당 사용자에게 적절한 뉴스를 추천합니다. 이를 통해 사용자의 관심사에 맞춘 맞춤형 뉴스 추천을 제공합니다.

※ 베이지안 프레임워크(Bayesian framework)란?
– 베이지안 프레임워크는 확률적 추론을 기반으로 하는 통계적 모델링 방법으로, 불확실성을 다루고 원하는 결과를 추정하는 데 사용됨. 이 프레임워크는 베이즈 정리에 기반하여 확률을 업데이트하고 추론하는 과정을 통해 정보를 합리적으로 결합. 베이지안 프레임워크는 다양한 분야에서 활용되고 있으며, 머신 러닝, 인공 지능, 통계학, 의학, 경제학 등 다양한 분야에서 문제 해결에 유용하게 활용. 이러한 접근 방법은 불확실한 정보를 처리하고 의사 결정을 지원하는데 유용하며, 복잡한 문제를 다루는데 활용성이 높은 기술로 평가됨
※ 베이지안 프레임워크의 특징
– 사전 확률 설정: 사전 정보를 기반으로 추정하고자 하는 사건이 발생할 확률을 사전 확률로 설정. 이는 이전 경험, 도메인 지식 또는 기존 데이터를 바탕으로 할 수 있음
– 새로운 데이터 추가: 새로운 데이터가 수집되면 사전 확률에 해당 데이터를 결합하여 사후 확률을 계산. 이 과정은 베이즈 정리를 이용
– 확률적 추론: 결과는 확률적으로 제시되며, 불확실성을 포함한 다양한 가능성을 고려. 이를 통해 정확성과 불확실성을 모두 고려하여 결론을 도출.
– 업데이트 가능: 새로운 데이터가 수집될 때마다 확률을 업데이트하여 추론 개선 가능. 이를 통해 계속해서 학습하고 발전하는 모델을 구축 가능
– 유연성과 일반성: 베이지안 프레임워크는 다양한 문제에 적용될 수 있으며, 다양한 데이터 유형과 도메인에 적용할 수 있는 일반성을 가짐.

구글뉴스의 뉴스 추천 알고리즘

뉴스 관심사 예측을 기반으로 구글은 맞춤형 뉴스 추천 알고리즘을 구현했습니다. 이 알고리즘은 정보 필터링과 협업 필터링이라는 두 가지 주요 요소를 사용하여 뉴스 기사를 순위로 매깁니다. 정보 필터링은 사용자의 베이지안 프레임워크를 사용한 예측된 관심사에 기반하며, 협업 필터링은 관심사가 유사한 다른 사용자들의 추천을 고려합니다.


▲ 더 알아보기 : 협업 필터링과 정보 필터링
– 협업 필터링 방법(collaborative filtering mechanism)은 1. 사용자의 뉴스 클릭과 평가 데이터를 분석해 특정 사용자와 비슷한 관심사를 가진 다른 사용자들을 찾고 2. 그들이 좋아하는 콘텐츠를 추천하는 것. 단점은 다른 사용자가 아직 읽지 않은 뉴스를 추천할 수 없어 최신뉴스의 추천에 시차가 발생하는 콜드 스타트와 대부분의 사용자에 관심있는 뉴스(예를 들면 연예뉴스)가 관심없는 사용자에도 추천된다는 것 등이 있음
– 정보 필터링 방법((informationfiltering mechanism)은 사용자의 뉴스 클릭 기록을 분석하여 사용자의 진정한 뉴스 관심사를 추정. 이를 통해 사용자가 어떤 뉴스 카테고리에 관심을 가지고 있는지 파악

실시간 트래픽 실험과 결과

결합된 뉴스 추천 알고리즘의 효과를 평가하기 위해 연구원들은 구글 뉴스의 일부 실시간 트래픽에 대한 실험을 진행했습니다. 사용자들은 무작위로 제어 그룹과 테스트 그룹으로 나누어졌습니다. 제어 그룹은 기존의 협업 필터링 방법을 사용하고, 테스트 그룹은 새로운 결합 방법을 사용했습니다. 실험은 34일 동안 진행되었으며, 클릭 스루유율(CTR)과 구글 뉴스 홈페이지의 CTR, 그리고 구글 뉴스 웹사이트 방문 빈도와 같은 세 가지 지표를 사용하여 성능을 측정했습니다.

구글의 연구는 개인화된 뉴스 추천 알고리즘이 성과가 있다는 것을 보여주고 있습니다. 사용자들의 진정한 관심사를 이해하고 지역 뉴스 트렌드를 고려함으로써 알고리즘은 뉴스 추천의 품질을 크게 향상시켰습니다. 이러한 기술은 사용자들의 관심사와 일치하는 콘텐츠를 제공하여 뉴스 소비를 효율적이고 즐겁게 만들어 줍니다.

본 기사의 원문은 여기서 볼 수 있습니다.

거북이미디어연구소

getough@gmail.com
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

이제는 AGI를 준비해야 할 시기

이제는 생성형 인공지능을 뛰어넘는 범용 인공지능을 언급하는 시대가 도래하고 있어요. 여러 분야에 두루 쓰이는 인공지능이라면 인공지능을 필요로 하는 기업들의 까다로운 입맛에 잘 맞춰줄 수 있지 않을까요?

쿠팡은 와우 멤버십 가격을 왜 올린 걸까요?

작년 연말 기준으로 쿠팡 와우 멤버십 회원 수는 약 1,400만 명으로 알려져 있습니다. 2021년 말 무려 70%나 와우 멤버십 가격을 올렸을 때도, 회원 수가 줄기는커녕 더욱 늘어났는데요. 다만 이제는 현재 수준의 혜택으로 이 이상 멤버십 회원 수를 키우는 건 어렵다고 판단한 것이 아닐까 싶습니다. 그래서 결국 수익 확대의 길을 택하게 된 것일 거고요.

형편없는 글 솜씨 때문에 직장생활이 힘겹다면?

비즈니스 글쓰기는 다릅니다. 기본적인 3가지 원칙을 지켜 반복 훈련하면 글 솜씨를 훨씬 발전시킬 수 있는데요. 그럼 상사 속 터지게 만드는 대표적인 비즈니스 글 3가지 유형을 살펴보고, 이런 글을 쓰지 않기 위해 명심해야 할 세 가지 원칙을 확인해볼까요?

티빙은 왜 한국프로야구 온라인 중계권을 샀을까?

왜 티빙은 3년 계약에 1,300억이 넘는 큰 금액을 투자해서 이 권리를 구매했을까요? 3년에 1,300억은 1년에 400억이 훨씬 넘는 금액을 투자한 것인데 그만큼의 가치가 있는걸까요? 기존에 온라인 중계권을 가지고 있던 네이버와 통신사 등의 컨소시엄보다 더 큰 금액을 투자해서 티빙은 무엇을 얻고자 하는걸까요?