MiniGPT-4
https://github.com/Vision-CAIR/MiniGPT-4
사우디아라비아 킹 압둘라 과학기술대학교(King Abdullah University of Science and Technology)의 연구팀에서 Facebook의 LLaMA를 기반으로 미세 조정된 모델인 Vicuna-13B와 BLIP-2 비전 언어 모델을 결합하여 업로드된 이미지에 대해 ChatGPT 스타일의 대화를 수행할 수 있는 모델을 만들었습니다. 이 데모는 매우 인상적이며, MiniGPT-4의 경우 45MB의 weight를 다운로드할 수 있습니다. 하지만 훨씬 더 큰 Vicuna 및 LLaMA weight가 필요할 수 있습니다.
소개
MiniGPT-4는 단 하나의 프로젝션 레이어를 사용하여 BLIP-2의 프로즌 비주얼 인코더를 프로즌 LLM인 Vicuna와 정렬합니다.
두 단계로 MiniGPT-4를 훈련합니다. 첫 번째 전통적인 사전 훈련 단계는 4대의 A100을 사용하여 10시간 동안 약 5백만 개의 정렬된 이미지-텍스트 쌍을 사용하여 훈련합니다. 첫 번째 단계가 끝나면 Vicuna는 이미지를 이해할 수 있습니다. 하지만 Vicuna의 생성 능력은 크게 영향을 받습니다.
이 문제를 해결하고 사용성을 개선하기 위해 모델 자체와 ChatGPT가 함께 고품질 이미지-텍스트 쌍을 생성하는 새로운 방법을 제안합니다. 이를 기반으로 작지만(총 3500쌍) 고품질의 데이터 세트를 생성합니다.
두 번째 미세 조정 단계에서는 이 데이터셋을 대화 템플릿에서 학습시켜 생성 안정성과 전반적인 사용성을 크게 개선합니다. 놀랍게도 이 단계는 계산 효율이 매우 높으며, 단일 A100으로 약 7분밖에 걸리지 않습니다.
MiniGPT-4는 GPT-4에서 시연된 것과 유사한 많은 새로운 비전 언어 기능을 제공합니다.
Upvoted! Thank you for supporting witness @jswit.
[2023/4/18] DATED NIXIEE DAILY REPORT
https://www.steemit.com/@nixiee-fund/2023-4-18-dated-nixiee-daily-report
@nixiee-fund님이 당신을 멘션하였습니다.
멘션을 받고 싶거나 받지 않으시려면 댓글을 남겨주세요. 빠른 시일내에 반영하도록 하겠습니다.
!sdbot ironman vs batman
created by @sdbot - @wonsama

!sdbot A koala eating a burger at McDonald's
created by @sdbot - @wonsama

!sdbot Watercolor style, woman with fluttering long skirt standing on a windy hill, background larger than woman.
created by @sdbot - @wonsama

!sdbot Laptop Screen Zoom, AI App Screen, Illustration
created by @sdbot - @wonsama

!sdbot 3d render of a cute thin young woman, red blush, wearing casual clothes, small smile, relaxing on a couch, cuddling up under a blanket, cozy living room, medium shot, 8k, octane render, trending on artstation, art by artgerm, unreal engine 5, hyperrealism, hyperdetailed, ultra realistic
created by @sdbot - @wonsama
