La course à l'IA devrait reprendre de plus belle en cette rentrée de septembre 2023. Après avoir présenté aux éditeurs de presse Genesis, Google s'apprête à dévoiler un nouveau modèle de fondation différent de LaMDA, la technologie actuellement en place derrière Bard. Le nouveau large language model (LLM) sera nommé Gemini, un mot latin signifiant "jumeaux". Le projet est né de la fusion des équipes de Google Brain et DeepMind.

En développement depuis plusieurs mois, Gemini pourrait être dévoilé au public très prochainement. Selon une source proche du projet relayée par The Information, Google prévoit de mettre en production le modèle d'ici l'automne. YouTube, Google Book, Google Search, Google Scholar… Pour son entraînement, Gemini pourrait avoir bénéficié de l'immense dataset de Google.

Un modèle entraîné par renforcement

Ses capacités seraient supérieures à celles de GPT-4, affirmait Demis Hassabis, directeur général de DeepMind, quelques semaines après la conférence annuelle de Google pour les développeurs. Gemini aurait des capacités supérieures à GPT-4. Pour atteindre de telles performances, les équipes de Google ont entraîné le modèle avec des techniques similaires utilisées lors du développement d'AlphaGo. Pour rappel, AlphaGo est le premier programme informatique à avoir réussi à battre un joueur humain au jeu de Go en 2017. Le programme était développé par les équipes de DeepMind, lorsqu'elles n'étaient pas encore sous le commandement de Google.

Par ailleurs, comme GPT-3 et GPT-4, Gemini a été entraîné par reinforcement learning. Lors de cette phase, l'IA apprend grâce à des récompenses et des malus, basées sur les actions qu'elle effectue. Cette rétroaction permet d'affiner la compréhension du modèle, de manière similaire à la façon dont un humain apprend de ses erreurs et de ses réussites. Cette méthode est rudement efficace car elle permet de développer des modèles adaptatifs capables de s'ajuster à des tâches complexes et variées. LaMDA, le précédent modèle de Google, avait quant à lui été entraîné par apprentissage supervisé.

Un modèle multimodal poussé

Selon la source de The Information, plus qu'un simple modèle de langage, Gemini serait par défaut multimodal. Il serait possible de fournir à l'IA en entrée du texte, des images ou encore des vidéos. Ces derniers mois, les modèles d'IA actuellement en production ont commencé à implanter des fonctions de multimodalité. Pour autant, l'utilisation reste basique et ne permet pas encore de traiter des tâches complexes. Le modèle constituerait un gap majeur en comparaison des modèles multimodaux actuels.

Selon cette source, dans un premier temps, Google pourrait présenter Gemini sous la forme d'une mise à jour de Google Bard ou via l'introduction d'un tout nouveau chatbot basé sur le modèle, toujours selon The Information. La technologie pourrait ensuite être proposée aux clients de Google Cloud Platform avant d'être déployée via la suite Google Workspace. Une sortie de Gemini à l'automne traduirait la volonté de Google de rester dans la course à l'IA. Selon les analystes, il est probable qu'OpenAI dévoile GPT-4.5, une version améliorée de GPT-4 entre septembre et octobre. Enfin, GPT-5 pourrait voir le jour en fin d'année ou, plus probablement, au cours du premier trimestre 2024.


Source link