MiniGPT-4steemCreated with Sketch.

in NutBox3 years ago (edited)

https://github.com/Vision-CAIR/MiniGPT-4

사우디아라비아 킹 압둘라 과학기술대학교(King Abdullah University of Science and Technology)의 연구팀에서 Facebook의 LLaMA를 기반으로 미세 조정된 모델인 Vicuna-13B와 BLIP-2 비전 언어 모델을 결합하여 업로드된 이미지에 대해 ChatGPT 스타일의 대화를 수행할 수 있는 모델을 만들었습니다. 이 데모는 매우 인상적이며, MiniGPT-4의 경우 45MB의 weight를 다운로드할 수 있습니다. 하지만 훨씬 더 큰 Vicuna 및 LLaMA weight가 필요할 수 있습니다.

소개

MiniGPT-4는 단 하나의 프로젝션 레이어를 사용하여 BLIP-2의 프로즌 비주얼 인코더를 프로즌 LLM인 Vicuna와 정렬합니다.
두 단계로 MiniGPT-4를 훈련합니다. 첫 번째 전통적인 사전 훈련 단계는 4대의 A100을 사용하여 10시간 동안 약 5백만 개의 정렬된 이미지-텍스트 쌍을 사용하여 훈련합니다. 첫 번째 단계가 끝나면 Vicuna는 이미지를 이해할 수 있습니다. 하지만 Vicuna의 생성 능력은 크게 영향을 받습니다.
이 문제를 해결하고 사용성을 개선하기 위해 모델 자체와 ChatGPT가 함께 고품질 이미지-텍스트 쌍을 생성하는 새로운 방법을 제안합니다. 이를 기반으로 작지만(총 3500쌍) 고품질의 데이터 세트를 생성합니다.
두 번째 미세 조정 단계에서는 이 데이터셋을 대화 템플릿에서 학습시켜 생성 안정성과 전반적인 사용성을 크게 개선합니다. 놀랍게도 이 단계는 계산 효율이 매우 높으며, 단일 A100으로 약 7분밖에 걸리지 않습니다.
MiniGPT-4는 GPT-4에서 시연된 것과 유사한 많은 새로운 비전 언어 기능을 제공합니다.

Sort:  

Upvoted! Thank you for supporting witness @jswit.

[2023/4/18] DATED NIXIEE DAILY REPORT
https://www.steemit.com/@nixiee-fund/2023-4-18-dated-nixiee-daily-report

@nixiee-fund님이 당신을 멘션하였습니다.
멘션을 받고 싶거나 받지 않으시려면 댓글을 남겨주세요. 빠른 시일내에 반영하도록 하겠습니다.

!sdbot ironman vs batman

!sdbot A koala eating a burger at McDonald's

!sdbot Watercolor style, woman with fluttering long skirt standing on a windy hill, background larger than woman.

!sdbot Laptop Screen Zoom, AI App Screen, Illustration

!sdbot 3d render of a cute thin young woman, red blush, wearing casual clothes, small smile, relaxing on a couch, cuddling up under a blanket, cozy living room, medium shot, 8k, octane render, trending on artstation, art by artgerm, unreal engine 5, hyperrealism, hyperdetailed, ultra realistic

Coin Marketplace

STEEM 0.10
TRX 0.32
JST 0.033
BTC 112794.62
ETH 4046.42
USDT 1.00
SBD 0.65