Début décembre Google a lancé sa nouvelle IA (une de plus me direz-vous) nommée Gemini. Cette dernière apparaît pourtant comme innovante sur plusieurs points qui induisent de fait un risque juridique accru.

Qu'est-ce que Gemini ?

Google parle d'une nouvelle génération de modèles d'IA, inspirée par la façon dont les utilisateurs et les personnes de manière générale comprennent et interagissent sur leur environnement. En ce sens, Google voit Gemini comme un outil intuitif, une aide ou un assistant expert. Gemini est ainsi considéré par Google comme le modèle le plus performant et le plus général construit par le géant américain.

Le point « clutch » de Gemini se trouve dans sa conception. Il a en effet été conçu dès le départ pour être multimodal, et plus précisément pour généraliser et comprendre, exploiter et combiner  de manière transparente différents types d'informations, notamment le texte, le code, l'audio, l'image et la vidéo.

Gemini peut alors, par exemple, instantanément analyser une image complexe et décrire ce qui en ressort. Google présente alors un « dessin à relier » complexe de crabe et Gemini arrive instantanément à visualiser et retranscrire le résultat final :

1410486a.jpg

Capture d'écran de la présentation de Gemini

Un concurrent de ChatGPT ?

Selon Google, « Gemini surpasse les performances de l'état de l'art sur une série de points de référence, y compris le texte et le codage ». Et par « Etat de l'art » Google prend bien entendu pour référence GPT4 car c'est leur seul élément de comparaison crédible à l'heure actuelle.

En ce sens, Google indique que « de la compréhension naturelle d'images, de sons et de vidéos au raisonnement mathématique, les performances de Gemini Ultra dépassent les résultats actuels de l'état de l'art sur 30 des 32 critères de référence académiques largement utilisés dans la recherche et le développement de grands modèles de langage ».

Selon Google, avec un score MMLU de 90%, Gemini est le premier modèle à dépasser les « experts humains » dans ce domaine. Ce résultat est plutôt impressionnant quand on sait que les tests MMLU utilisent une combinaison de 57 sujets tels que les mathématiques, la physique, l'histoire, le droit, la médecine et l'éthique pour tester à la fois la connaissance globale et les capacités de résolution de problèmes.

A ce titre, Google indique que Gemini a été créé pour qu'il soit nativement pré-entraîné sur le multimodal lui permettant de comprendre et de raisonner de manière transparente  sur toutes sortes de données, bien mieux que les modèles multimodaux existants, et ses capacités sont à la pointe de la technologie dans presque tous les domaines.

Google met donc en exergue les capacités suivantes :

  • Raisonnement sophistiqué: Les capacités sophistiquées de raisonnement multimodal de Gemini peuvent aider à comprendre des informations écrites et visuelles complexes.
  • Compréhension des textes, images, audio et plus encore: Gemini a été conçu pour reconnaître et comprendre simultanément du texte, des images, du son et d'autres éléments. Il comprend donc mieux les informations complexes et peut répondre à des questions portant sur des sujets compliqués.
  • Codage expert: Gemini peut comprendre, expliquer et générer du code de haute qualité dans les langages de programmation les plus populaires au monde, tels que Python, Java, C++ et Go.

Gemini à l'épreuve du RGPD ?

Nous avons déjà abordé la question de la protection des données et de ChatGPT dans un précèdent article.

Gemini ne faisant pas exception, ce dernier doit bien entendu être en conformité avec la réglementation sur les données à caractère personnel  dans la mesure où, à l'instar de ChatGPT, un immense volume de données est traité par Gemini.

Cette mise en conformité passe notamment par la mise en place de mesures techniques et organisationnelles2 associées.

Toutefois, contrairement à ChatGPT 4, Gemini semble développer un module intéressant d'analyse visuelle en temps réel.

Gemini peut par exemple analyser son environnement et deviner en temps réel sous quelle main se cache une pièce près que cette dernière ait été manipulée (le milieu du bonneteau n'a qu'à bien se tenir !).

L'analyse vidéo semble alors pouvoir être faite en temps réel. Pour autant, les types de données traités par ces derniers ne divergent pas des données traitées par des IA comme ChatGPT 4 (Images, vidéos, etc).

En revanche, en dehors de toute exception domestique3, on pourrait légitimement s'interroger sur l'information4 des personnes concernées en cas d'utilisation en temps réel de Gemini via un dispositif comme des lunettes, un smartphone, etc.

Il conviendra alors de porter une grande attention à la manière dont Gemini est déployé pour s'assurer que ce dernier soit pleinement transparent vis-à-vis des personnes concernées.

Gemini à l'épreuve de l'IA Act?

A l'instar de ChatGPT, Gemini pourrait être considéré, à date, comme un « système d'IA à finalité générale5 » et même, plus spécifiquement, comme une « IA générative6 » au sens de la dernière version du projet d'IA Act.

Cette qualification impliquerait notamment pour Google :

  • De mettre en place des mesures de sécurité techniques et organisationnelles adéquates ;
  • De faire preuve d'une certaine transparence;
  • De mettre en place des garanties appropriées contre la production de contenus qui sont en violation du droit de l'Union ;
  • De documenter et de mettre à la disposition du public un résumé suffisamment détaillé de l'utilisation des données d'entraînement protégées par la législation sur le droit d'auteur.

On dit que l'évolution technologique va de pair avec la concurrence, force est de constater que Gemini nous montre son envie d'être un acteur majeur de l'IA générative. Reste à voir si Gemini sera à la hauteur des attentes qu'il génère dans la mesure où des voix se sont élevées pour remettre en cause la véracité des modalités qu'il présente. A méditer…

Footnotes

1. Massive multitask language understanding

2. Article 32 of the GDPR

3. Recital 18 of the GDPR: the GDPR "does not apply to the processing of personal data carried out by a natural person in the course of strictly personal or domestic activities, and therefore unrelated to a professional or commercial activity. Personal or household activities could include the exchange of correspondence and maintaining an address book, or the use of social media and online activities that take place in the course of these activities."

4. Articles 12 to 14 of the GDPR

5. Article 3 of the draft AI Act: "an AI system model that is trained on a large data set at scale, that is designed for generality of results, and that can be adapted to a wide range of distinct tasks"

6. Article 28b of the draft AI Act: "AI systems specifically intended to generate, with different levels of autonomy, content such as complex texts, images, audio or video content"

The content of this article is intended to provide a general guide to the subject matter. Specialist advice should be sought about your specific circumstances.