Google Gemini 1.5 Pro: 1 milion tokenů pro hodinové video nebo 700 000 slov

Google odhalil svůj nejnovější AI: Gemini 1.5 Pro. Tento model je pokračovatelem úspěšného Gemini 1.0 Pro a přináší s sebou několik významných vylepšení. Co však všechny zaujalo nejvíce, je obrovské kontextové okno s kapacitou až milionu tokenů. 

Audioverze na Spotify



Když to převedeme do běžného jazyka, mluvíme o schopnosti modelu zapamatovat si přibližně 700 000 slov nebo 30 000 řádků kódu při generování odpovědí. To je 35krát více než u předchozí verze modelu. Gemini 1.5 Pro také exceluje v multimodálních úlohách, schopných zpracovat až 11 hodin zvuku nebo hodinu videa.



DEMO ukázka v češtině.
Překlad videa a dabing pomocí služby  https://elevenlabs.io/

Nicméně, každá mince má dvě strany. Výrazně větší kontextové okno s sebou přináší výzvu v podobě zvýšené latence, kde odpověď může trvat od 20 sekund do minuty. Google ale ujišťuje, že na řešení tohoto problému intenzivně pracuje.



Gemini 1.5 Pro je momentálně ve fázi experimentálního vývoje a je k dispozici jen omezenému počtu uživatelů prostřednictvím AI Studio a Google Vertex AI. Pro širší veřejnost je připravena verze s kontextovým oknem 128 000 tokenů, což je stále impozantní číslo, které se vyrovná i špičkovým modelům, jako je GPT-4-Turbo od OpenAI.

Generální ředitel Google, Sundar Pichai, v blogovém příspěvku zdůraznil, že nová generace modelů Gemini přináší dramatická zlepšení a umožňuje zpracovat rekordní množství informací. To otvírá dveře k novým možnostem a umožňuje vývojářům vytvářet ještě užitečnější aplikace a modely.

Gemini 1.5 Pro se nejenže pyšní širším kontextovým oknem, ale také kvalitou srovnatelnou s modelem Gemini Ultra, přičemž vyžaduje méně výpočetního výkonu. To je díky nové architektuře, která využívá menší expertní modely pro různé úkoly.

Demis Hassabis, generální ředitel Google DeepMind, podotkl, že Gemini 1.5 Pro exceluje v testech na komplexních panelech hodnocení, předčí 1.0 Pro ve 87 % benchmarků a dosahuje kvality srovnatelné s 1.0 Ultra. Model také ukazuje působivé schopnosti učení v kontextu, což znamená, že se může naučit novou dovednost z informací poskytnutých v dlouhém textu bez dalšího dolaďování.

A to je vše, co jsme pro vás dnes připravili. Google Gemini 1.5 Pro definitivně posouvá hranice toho, co je možné v oblasti umělé inteligence, a my se nemůžeme dočkat, až uvidíme, jaké nové možnosti a aplikace toto technologické průlomy přinesou. Děkujeme vám za poslech a těšíme se na vás u další epizody.