V posledních hodinách se objevilo mnoho informací o DeepSeek R1, které se dostaly do úplně všude. Bohužel se s nimi váže i spousta nepřesností a dezinformací. Pokusím se objasnit několik základních faktů a vyvrátit některé časté mýty.
1. Cena trénování DeepSeek R1
Ne, trénink DeepSeek R1 nestál pouze 6 milionů dolarů. Ačkoliv se to objevilo v některých zprávách, skutečná cena za výpočetní výkon potřebný pro základní model (bez použití reinforcement learningu) byla rovna GPU hodinám v hodnotě přibližně 5,5 milionu dolarů. To však nezahrnuje další náklady na ablační experimenty, menší testy, generování dat a celkové trénování DeepSeek R1. Skutečné náklady jsou tedy mnohem vyšší.
2. DeepSeek není vedlejší projekt
Další mylná představa je, že DeepSeek R1 je vedlejším projektem nějaké menší společnosti. To však není pravda. DeepSeek je plně podporován a vlastněn hedgeovým fondem High-Flyer, který sídlí v Číně. Tento fond v roce 2020 spravoval aktiva ve výši přes 7 miliard dolarů a mezi jeho talenty patří olympijští medailisté v matematice, fyzice a informatice. DeepSeek není tedy žádným amatérským projektem, ale velkým podnikem s obrovskými investicemi a kapacitami.
3. DeepSeek R1 a výpočetní kapacity
Mnozí lidé si myslí, že DeepSeek R1 běží na několika GPU. To je však daleko od pravdy. DeepSeek používá přibližně 50 000 GPU, což jsou ohromné výpočetní kapacity, které umožňují trénovat takto náročný model.
4. Skutečný model DeepSeek R1
Skutečný model DeepSeek R1 je MoE (Mixture of Experts) model s 671 miliardami parametrů. K jeho trénování je zapotřebí více než 16x 80GB paměti (což odpovídá 16 H100 GPU). Tento model je skutečnou špičkou v oblasti AI a jeho výkony jsou velmi silné.
5. Destilované verze DeepSeek
DeepSeek nabízí několik "destilovaných" verzí modelu, ale tyto nejsou to samé jako skutečný DeepSeek R1. Tyto verze jsou vylepšené varianty modelů Qwen a Llama na 800 000 vzorcích a nevyužívají reinforcement learning. Nejmenší verze, která má 1,5 miliardy parametrů, je schopná běžet i na lokálním hardware, ale její výkon se nijak neblíží tomu, co nabízí DeepSeek R1.
Destilované = destilace znalostí = Knowledge distillation. Jde o techniku, při které se velký, složitý model (teacher model) využívá k trénování menšího, jednoduššího modelu (student model), aby byl schopen dosáhnout podobných výsledků jako původní model, ale s nižšími nároky na výpočetní výkon.
Například u DeepSeek R1 je teacher model obrovský model s 671 miliardami parametrů, který je velmi přesný, ale náročný na výpočetní výkon. Destilované verze jsou menší modely (např. s 1,5 miliardy parametrů), které se od něj naučily, jak předpovídat výsledky, a jsou optimalizované pro nasazení na méně výkonném hardwaru nebo při lokálním použití.
6. Hostovaná verze DeepSeek
Pokud používáte hostovanou verzi DeepSeek R1, například na stránkách chat.deepseek.com, měli byste si být vědomi, že vaše data mohou být použita k trénování nových modelů. To je součástí podmínek služby DeepSeek, a proto je důležité věnovat pozornost těmto informacím před použitím služby.
7. Význam Open Science a Open Source
DeepSeek také podporuje Open Science a Open Source, což má dlouhodobý přínos pro celou komunitu. Hugging Face se například podílí na vývoji plně otevřeného reprodukčního pipeline, což umožní dalším výzkumníkům a vývojářům efektivně reprodukovat a testovat modely v open-source prostředí.
8. Bezpečnost lokálního spuštění DeepSeek R1 Použití destilovaných verzí DeepSeek R1 na lokálním hardwaru prostřednictvím nástrojů, jako jsou Ollama nebo GPT4All, může být bezpečné, pokud jsou splněny tyto podmínky:
DeepSeek R1 je výkonný a pokročilý model, který přináší mnoho nových možností v oblasti AI. Je však důležité oddělit fakta od mýtů, které se šíří okolo něj. Je to projekt s obrovskými finančními a výpočetními kapacitami, a jeho vývoj není jen vedlejším podnikáním, jak by se mohlo zdát. Pokud chcete mít přesné informace, je dobré se držet ověřených zdrojů a vyhnout se dezinformacím, které mohou tento pokročilý model zjednodušovat nebo zkreslovat.