
FAMÍLIA DE MODELS GEMINI
Una mirada profunda a larquitectura, rendiment i capacitats de la IA multimodal de Google.
Descripció General: El Cervell Multimodal Natiu
A diferència de models que uneixen components, Gemini va ser dissenyat des de zero per comprendre i raonar fluidament a través de diverses modalitats d'informació de manera simultània. És una única IA cohesiva, no una col·lecció de parts.
Text
Imatges
Àudio
Vídeo
Codi
Fites Clau
L'evolució de Gemini ha estat ràpida i ha introduït millores significatives en arquitectura i capacitat en un curt període.
Desembre 2023
Llançament de Gemini 1.0 (Pro, Ultra, Nano).
Febrer 2024
Llançament de Gemini 1.5 Pro amb arquitectura MoE.
Rendiment de Vanguardia: Superant Límits
Gemini 1.0 Ultra va establir un nou estàndard en la comprensió massiva de llenguatges multitasca (MMLU), una mètrica clau que avalua el coneixement i la capacitat de resolució de problemes.
90.0%
Puntuació a MMLU
Primer model a superar el rendiment a nivell d expert humà.
El Salt Quàntic a la Finestra de Context
La finestra de context defineix quanta informació pot processar un model en una sola consulta. Gemini 1.5 Pro, amb la seva arquitectura de Barreja d'Experts (MoE), representa un avenç monumental, permetent l'anàlisi de bases de codi completes, llibres sencers o llargs enregistraments de vídeo d'una sola vegada.
Domini a Benchmarks
El model ha demostrat un rendiment d'avantguarda (State-of-the-Art) a la gran majoria dels benchmarks acadèmics més utilitzats per avaluar LLMs. De 32 proves clau, és el líder a 30.
Arquitectura i Eficiència
-
⚙️
Base Transformer: Optimitzada per a la màxima escalabilitat i eficiència.
-
⚡️
Infraestructura TPU: Co-dissenyat per executar-se als Tensor Processing Units (TPUs) de Google, aconseguint major velocitat i menor cost.
-
🌍
Petjada de Carboni Reduïda: Entrenat a centres de dades que operen amb un alt percentatge d'energia lliure de carboni.
Seguretat i Ètica
-
🛡️
Avaluacions Exhaustives: Proves adversàries ("red teaming") per identificar i mitigar riscos de biaixos i toxicitat.
-
🚫
Classificadors de Seguretat: Filtres actius per prevenir la generació de contingut que violi les polítiques dús.
-
💧
SynthID Watermarking: Incrusta una marca d'aigua digital imperceptible en imatges generades per identificar-les com a creades per IA.

