Déplier le sommaire Replier le sommaire
L’essor rapide des modèles langage multimodaux (LMM) ouvre un nouveau chapitre dans la saga de l’intelligence artificielle générative. Ce récit, illustré par le GPT-4 Vision d’OpenAI, trouve une dimension nouvelle avec l’arrivée de LLaVA 1.5, une étoile montante dans le ciel open source. Plongeons au cœur de cette dynamique où innovation rime avec accessibilité.
LLaVA 1.5 : Une réponse open source à GPT-4 Vision
Le monde de l’intelligence artificielle générative est en ébullition avec l’émergence des grands modèles multimodaux (LMM), incarnés par des initiatives comme GPT-4 Vision d’OpenAI. Ces modèles révolutionnent notre interaction avec les systèmes d’IA, en y intégrant textes et images.
Néanmoins, la nature fermée et commerciale de certaines de ces technologies peut entraver leur adoption universelle. C’est dans ce contexte que la communauté open source entre en scène, propulsant le modèle LLaVA 1.5 comme une alternative prometteuse à GPT-4 Vision.
La mécanique des LMM
Les LMM opèrent grâce à une architecture multicouche. Ils associent un modèle pré-entraîné pour coder les éléments visuels, un grand modèle de langage (LLM) pour décrypter et répondre aux instructions de l’utilisateur, et un connecteur multimodal pour faire le lien entre vision et langage.
Leur formation s’opère en deux temps : un premier round d’alignement vision-langage, suivi d’un réglage fin pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, est souvent gourmand en ressources computationnelles et nécessite une base de données riche et précise.
Les atouts de LLaVA 1.5
LLaVA 1.5 mise sur le modèle CLIP pour l’encodage visuel et Vicuna pour le langage. Le modèle original, LLaVA, exploitait les versions texte de ChatGPT et GPT-4 pour le réglage visuel, générant ainsi 158 000 exemples de formation.
À lire IA et société : la révolution technologique en marche
LLaVA 1.5 va plus loin en connectant le modèle de langage et l’encodeur visuel via un perceptron multicouche (MLP), enrichissant sa base de données de formation avec des questions-réponses visuelles. Cette mise à jour, qui comprend environ 600 000 exemples, a permis à LLaVA 1.5 de surpasser d’autres LMM open source sur 11 des 12 benchmarks multimodaux.
L’avenir des LMM open source
La démonstration en ligne de LLaVA 1.5, accessible à tous, expose des résultats prometteurs, même avec un budget serré. Cependant, une mise en garde subsiste : l’utilisation des données générées par ChatGPT restreint son usage à des fins non commerciales.
Malgré cette limitation, LLaVA 1.5 ouvre une fenêtre sur l’avenir des LMM open source. Sa rentabilité, l’évolutivité dans la génération de données de formation, et l’efficacité dans le réglage des instructions visuelles font de lui un prélude aux innovations à venir.
LLaVA 1.5 n’est que la première note d’une mélodie qui résonnera au rythme des avancées de la communauté open source. En anticipant des modèles plus efficaces et accessibles, nous pouvons envisager un futur où la technologie IA générative sera à la portée de tous, dévoilant ainsi le potentiel illimité de l’intelligence artificielle.