-
멀티모달 대형언어모델이 GPT-4V를 뛰어넘다
멀티모달 대형 언어모델이란 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 초대형 언어모델을 말한다. 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준초대형모델들이 만들어지고 있으나 학계에서는 이런 개발이 쉽지 않았다. KAIST 연구진이 오픈AI의 GPT-4V와 구글의 제미나이-프로(Gemini-Pro)를 뛰어넘는 멀티모달 대형언어모델을 개발하여 화제다.
우리 대학 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4V 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.
노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다고 밝혔다.
연구팀이 개발한 첫번째 기술인 ‘콜라보(CoLLaVO)’는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증해 보였다.
해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 새롭게 제안했다.
또한 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 ‘듀얼 큐로라(Dual QLoRA)’를 제안했다. 이를 통해, 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 밝혔다.
두 번째 대형언어모델인 ‘모아이(MoAI)’는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들어졌다고 밝혔다.
이는 기존 멀티모달 대형언어모델이 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 지적하며 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.
노용만 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있으며, 모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것이다”이라고 언급했다.
연구팀이 개발한 멀티모달 대형언어모델인 콜라보(CoLLaVO)와 모아이(MoAI)는 KAIST 전기및전자공학부 이병관 박사과정이 제1 저자로 참여하고 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다.
콜라보(CoLLaVO)는 자연어 처리(NLP) 분야 최고의 국제 학회인 ‘Findings of the Association for Computational Linguistics(ACL Findings) 2024’에 5월 16일 자로 학회에 승인받았고, 모아이(MoAI)는 컴퓨터 비전 최고의 국제 학회인 ‘European Conference on Computer Vision(ECCV) 2024’학회 승인 결과를 기다리고 있다고 밝혔다.
한편 이번 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부의 지원을 받아 수행됐다.
[1] CoLLaVO 데모 GIF 영상
https://github.com/ByungKwanLee/CoLLaVO
[2] MoAI 데모 GIF 영상
https://github.com/ByungKwanLee/MoAI
2024.06.20
조회수 1357
-
융합의과학원 자문위원단 발족
우리 대학은 융합의과학원 설립을 위해 의학 및 제약·바이오업계 관련 산학연 주요 인사로 구성된 ‘융합의과학원 자문위원단’ 발족식과 함께 킥오프(Kick-Off) 미팅을 27일 오후 서울에서 가졌다.
한용만 융합의과학원 설립추진단장(생명과학과 교수)의 사회로 진행된 발족식은 신성철 총장의 인사말에 이어 융합의과학원 설립추진 경과보고 및 토론 순으로 진행됐는데 김수현 대외부총장을 비롯해 김보원 기획처장·김인준 의과학대학원장 등 학교 관계자와 자문위원들이 참석했다.
‘융합의과학원 자문위원단’에는 김광수 美 하버드 의대 교수를 포함해 명승재 아산생명과학연구원 의생명연구소장, 송민호 충남대병원장, 신희영 서울대병원 교수, 신희섭 기초과학연구원(IBS) 인지및사회성연구단장, 임영혁 삼성서울병원 연구부원장, 유욱준 한국과학기술한림원 총괄부원장, 장양수 연세대 의과대학장, 전신수 카톨릭의대 의생명산업연구원장 등 학계 인사 9명이 참여하고 있다.
이밖에 산업계 인사로는 권세창 한미약품 대표·박한오 ㈜바이오니아 대표·전승호 대웅제약 대표·정현호 메디톡스 대표 등 4명이, 연구계 인사로 김장성 한국생명공학연구원장, 한국뇌연구원장을 지낸 김경진 DGIST 석좌교수와 송창우 안전성평가연구소장 등 모두 16명으로 구성됐다.
‘융합의과학원 자문위원단’은 우리 대학이 행정중심복합도시 공동캠퍼스에 문을 열 예정인 융합의과학원의 설립 및 운영 등에 필요한 제반 사항을 자문한다.
한편 융합의과학원의 행정중심복합도시 공동캠퍼스 입주를 위해 작년 5월 행복도시건설청과 합의각서(MOA)를 체결한 우리 대학은 올해 말까지 공동캠퍼스 입주를 위한 법적 절차를 마무리 짓고 2022년부터 교수 50여 명과 학생 500여 명 규모의 대학원 과정을 시작할 계획이다.
2019.02.28
조회수 9077
-
육군-KAIST, 합의각서 체결 및 육군4.0 특별연수과정 개최
〈 신 성 철 총장, 김 용 우 육군 참모총장 〉
우리 대학과 육군이 산, 학, 연의 연구개발 역량을 공유하고 전력 증강에 기여할 수 있는 ‘육군 4.0 특별 연수과정’ 교육과정을 개설하고 육군-KAIST 간 합의각서(MOA)를 체결했다.
이번 교육과 합의각서 체결을 통해 4차 산업혁명을 선도하는 KAIST와 육군의 긴밀한 협력으로 선진화된 전투발전 시스템 구축의 계기가 될 것으로 기대된다.
우리 대학은 신성철 총장과 김용우 육군참모총장 참석 하에 7일 오후 2시에 육군-KAIST 간 합의각서를 체결했다. 협약을 통해 양 기관은 육군연구소 설치 및 운영, 교육과정 개설, 학-군 간 협력 방안 등을 논의 및 추진한다.
3월 5일부터 9일까지 퓨전홀에서 진행되는 육군 4.0 특별 연수과정은 육군본부, 교육사령부, 군수사령부 등의 육군 간부 150여 명이 참가하는 교육과정이다.
4차 산업혁명을 통해 현대전에서 발생할 수 있는 상황과 접할 수 있는 최첨단 장비들을 교육해 군 전투력 증진에 기여할 것으로 보인다.
▲1일차는 ‘4차 산업혁명 핵심기술과 국방혁신’, ‘인공지능과 딥러닝 이해’ ▲2일차는 ‘빅데이터의 활용가능성’, ‘사이버 정보전쟁’ ▲3일차는 ‘드론 및 무인항공기 기술과 발전방향’, ‘군집드론 통신 및 플랫폼’ ▲4일차는 ‘자율주행기술의 발전방향’, ‘뇌공학의 이해’ ▲5일차(3.9,금)는 ‘4차 산업혁명과 뇌과학 응용기술의 미래’순으로 진행된다.
김수현 안보융합연구원장은 “이번 협약과 육군 4.0 특별 연수과정을 통해 우리 대학과 육군은 지능화·무인화·자동화 등 4차 산업혁명의 핵심기술을 미래 전장에 활용하기 위한 다양한 교류, 협력 프로그램을 함께 기획하고 운영할 계획이며, 우리 군의 전투발전 역량을 증진시킬 좋은 기회가 될 것으로 기대한다”고 말했다.
2018.03.07
조회수 9423