한국언론진흥재단, 빅카인즈 기사 기반 AI 언어모델 ‘KPF-BERT’ 공개

한국언론진흥재단은 ‘언론사를 위한 언어정보 자원 개발’ 사업의 결과물인 ‘KPF-BERT’를 23일 공개했다.

‘KPF-BERT’는 구글에서 개발한 다국어 언어모델인 ‘BERT(Bidirectional Encoder Representations from Transformers)’를 한국언론진흥재단이 보유한 빅카인즈 기사 데이터를 활용해 학습시킨 결과물이다. 구글이 2018년 발표한 ‘BERT’는 앞의 단어들을 참조해 다음에 나올 단어를 예측하는 방식이었던 기존의 단방향 언어 모델과 달리 문장에서 예측해야 할 단어 이후의 단어들까지 양방향으로 참조해 그 의미를 더욱 잘 이해하는 방식으로 학습돼 인공지능과 자연어 처리 분야에서 획기적 기술 개선을 이루어냈다.

인공지능을 활용한 뉴스 추천배열, 자동작성, 요약, 댓글관리, 오탈자 및 비문 교정, 비슷한 주제 기사 묶기, 외신 자동 번역 등 언론 영역에서 인공지능 기술의 도입 및 적용 필요성이 증가하고 있지만, 언론사 자체적인 기술 개발은 여러 가지 이유로 인해 어려운 상황이다. ‘KPF-BERT’는 재단이 보유한 2000년부터 2021년 8월까지 빅카인즈 기사 약4,0000만 건(20년치 8,158만 건 중 1차 정제 후 약 4,000만 건)을 학습해 언론사 및 뉴스 기사 활용 기술에 최적화되도록 개선했다. 

‘KPF-BERT’ 구축 내용과 활용을 위한 안내 내용은 한국언론진흥재단 깃허브(https://github.com/KPFBERT/)에 모두 공개돼 있다. 

이번에 공개된 ‘KPF-BERT’를 활용하면 단순 맞춤법 검사를 넘어 문맥과 의미를 고려한 맞춤법 검사기, 입력하는 연속된 문장에서 해당 시점에 가장 적절한 단어를 추천하는 단어 자동완성 모델, 1차 완성된 기사에서 문장 간 또는 문장 내 어울리지 않는 표현이나 어휘는 물론 문법적 오류 검출, 뉴스 댓글 등에서의 혐오 표현을 검출하고 순화해 표현하는 모델, 관심 사안에 대한 기사의 긍정·부정 등의 논조 파악 모델, 협찬기사 및 정보 전달을 가장한 광고 등의 광고성 기사 검출 모델 등의 개발을 기대할 수 있다.

김광우 기자

kimnoba@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

“여행 경비도 외화로 바로 정산”…트래블월렛 친구간송금 600만건 넘었다

트래블월렛은 ‘친구간송금’ 서비스가 출시 1년 8개월 만에 누적 이용 건수 600만 건을 넘어섰다고 15일 밝혔다. 누적 이용자 수는 200만 명을 기록했다.

전기차 보조금, 판매 실적보다 공급망·안전이 먼저...테슬라·BYD도 심사대 오른다

전기차 보조금 기준이 7월부터 달라진다. 공급망·안전관리 등 5개 분야 13개 항목 평가에서 60점 이상을 받아야 보급사업 참여 가능. 테슬라는 통과 유력, BYD는 공급망 항목이 변수.

“코딩 몰라도 금융 AI 실무 경험”…PFCT, AI 신용평가 아카데미 4기 모집

AI 금융기술 기업 피에프씨테크놀로지스(PFCT)는 금융 AI 실무 인재 양성을 위한 ‘제4회 PFCT AI 신용평가 아카데미’ 참가자를 모집한다고 13일 밝혔다. 모집 기간은 이날부터 31일까지다. 참가 대상은 AI 금융기술에 관심 있는 대학생, 대학원생 및 졸업생이며 참가비는 전액 무료다.

AI가 상품 찾고 결제까지…플래티어, ‘에이전틱 커머스’ AX 백서 발간

AI가 고객 대신 상품을 탐색하고 비교한 뒤 결제까지 수행하는 커머스 환경이 현실화되면서, 이커머스 기업의 경쟁 전략도 기능 단위의 AI 도입을 넘어 전사적 AI 전환으로 이동하고 있다. 단순 추천 알고리즘이나 챗봇 적용만으로는 변화 속도를 따라가기 어려워졌고, 기업 운영 구조 자체를 AI 중심으로 재편해야 한다는 요구가 커지고 있다.