카카오브레인, 이미지 생성 모델 ‘RQ-Transformer’ 깃허브에 공개

‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이라는 텍스트 조건에 의해 생성된 샘플 이미지. (이미지=카카오브레인)

카카오브레인이 지난해 12월에 공개한 초거대 멀티모달(multimodal) AI ‘minDALL-E(민달리)의 업그레이드 버전인 이미지 생성 모델 ‘RQ-Transformer’를 최대 오픈소스 커뮤니티 깃허브(GitHub) 에 공개했다고 19일 밝혔다.

39억 개의 매개변수(파라미터)로 구성된 ‘RQ-Transformer’는 3000만 쌍의 텍스트-이미지를 학습한 text-to-image AI 모델로, 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상시킨 것이 특징이다. 카카오브레인이 공개한 RQ-Transformer는 공개된 이미지 생성 모델 중 국내 최대 크기의 이미지 생성 모델이며, 이를 공공 목적을 위해 공개했다는 점에서 AI 커뮤니티에 기여가 클 것으로 기대를 모으고 있다.

‘RQ-Transformer’는 카카오브레인의 초거대 멀티모달(multimodal) AI ‘minDALL-E(민달리)’의 업그레이드 버전으로, ‘minDALL-E’ 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다. 특히 ‘minDALL-E’의 경우 미국의 인공지능 개발 기업 ‘오픈AI(OpenAI)’가 공개한 ‘DALL-E’를 재현하는 것에 가까웠던 것에 반해, ‘RQ-Transformer’의 경우는 카카오브레인 만의 독자적인 기술로 개발됐다.

또 고해상도의 이미지를 2차원의 코드맵으로 표현하는 기존 기술과 달리 ‘RQ-Transformer’는 3차원의 코드맵으로 표현된 이미지를 순차적으로 예측해 생성하도록 학습된 이미지 생성 모델이다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적어, 높은 품질의 이미지를 저해상도의 코드맵으로 표현하는 것 또한 특징 중 하나다. 이를 통해 ‘RQ-Transformer’는 기존 이미지 생성 모델보다 적은 계산 비용과 높은 이미지 생성 속도를 달성할 수 있다.

대규모 데이터셋을 바탕으로 학습된 ‘RQ-Transformer’는 처음보는 텍스트의 조합을 이해하고, 이에 대응되는 이미지를 생성할 수 있다.

황정호 기자

jhh@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

PFCT, 중금리 대출 부실 예측 AI 특허 등록…에어팩 기술 독창성 인정

AI 기술금융사 피에프씨테크놀로지스(PFCT)가 금융 특화 버티컬 AI 인프라 ‘에어팩(AIRPACK)’에 적용한 중금리 대출 부실 리스크 예측 기술로 특허를 등록했다. PFCT는 이번 특허 등록을 통해 에어팩의 핵심 기술 구현 방식과 독창성을 추가로 인정받았다고 30일 밝혔다.

다쏘시스템, 파리상테 캠퍼스와 유럽 소버린 헬스케어 생태계 구축 협력

버추얼 트윈·소버린 클라우드 기반으로 디지털 헬스 스타트업 지원 3D익스피리언스 랩·OUTSCALE 프로그램 연계해 아이디어 단계부터 산업화까지 지원 다쏘시스템이 프랑스 디지털 헬스...

5G냐 LTE냐, 이제 몰라도 된다...통신 3사 '통합요금제' 전환 완료 수순

LGU+가 6월 1일 통합요금제를 선제 출시한 데 이어 KT·SKT도 7월 합류한다. 수백 종 요금제가 16~18종으로 줄고, 월 2만원대 저가 요금제에도 데이터 안심 옵션이 기본 적용된다. 소비자가 알아야 할 핵심 변화 정리.

'메모리 칩 하나로 메타·테슬라 밟았다'…마이크론, AI 광풍에 시총 1.4조 달러 돌파

오래전 PC 성능을 끌어올리려던 이들이 찾던 작은 메모리 카드 제조사가 실리콘밸리의 거대 공룡들을 제치고 섰다. 아이다호주 보이시에 본사를 둔 메모리 반도체 제조업체 마이크론 테크놀로지(Micron Technology)가 6월 25일 장중 시가총액 1조 3980억 달러를 기록하며 메타(Meta)의 1조 3920억 달러와 테슬라(Tesla)를 순간적으로 추월했다.