DeepSeek R1: Fakta a Mýty

 V posledních hodinách se objevilo mnoho informací o DeepSeek R1, které se dostaly do úplně všude. Bohužel se s nimi váže i spousta nepřesností a dezinformací. Pokusím se objasnit několik základních faktů a vyvrátit některé časté mýty.




1. Cena trénování DeepSeek R1

Ne, trénink DeepSeek R1 nestál pouze 6 milionů dolarů. Ačkoliv se to objevilo v některých zprávách, skutečná cena za výpočetní výkon potřebný pro základní model (bez použití reinforcement learningu) byla rovna GPU hodinám v hodnotě přibližně 5,5 milionu dolarů. To však nezahrnuje další náklady na ablační experimenty, menší testy, generování dat a celkové trénování DeepSeek R1. Skutečné náklady jsou tedy mnohem vyšší.

2. DeepSeek není vedlejší projekt

Další mylná představa je, že DeepSeek R1 je vedlejším projektem nějaké menší společnosti. To však není pravda. DeepSeek je plně podporován a vlastněn hedgeovým fondem High-Flyer, který sídlí v Číně. Tento fond v roce 2020 spravoval aktiva ve výši přes 7 miliard dolarů a mezi jeho talenty patří olympijští medailisté v matematice, fyzice a informatice. DeepSeek není tedy žádným amatérským projektem, ale velkým podnikem s obrovskými investicemi a kapacitami.

3. DeepSeek R1 a výpočetní kapacity

Mnozí lidé si myslí, že DeepSeek R1 běží na několika GPU. To je však daleko od pravdy. DeepSeek používá přibližně 50 000 GPU, což jsou ohromné výpočetní kapacity, které umožňují trénovat takto náročný model.

4. Skutečný model DeepSeek R1

Skutečný model DeepSeek R1 je MoE (Mixture of Experts) model s 671 miliardami parametrů. K jeho trénování je zapotřebí více než 16x 80GB paměti (což odpovídá 16 H100 GPU). Tento model je skutečnou špičkou v oblasti AI a jeho výkony jsou velmi silné.

5. Destilované verze DeepSeek

DeepSeek nabízí několik "destilovaných" verzí modelu, ale tyto nejsou to samé jako skutečný DeepSeek R1. Tyto verze jsou vylepšené varianty modelů Qwen a Llama na 800 000 vzorcích a nevyužívají reinforcement learning. Nejmenší verze, která má 1,5 miliardy parametrů, je schopná běžet i na lokálním hardware, ale její výkon se nijak neblíží tomu, co nabízí DeepSeek R1.

Destilované = destilace znalostí = Knowledge distillation. Jde o techniku, při které se velký, složitý model (teacher model) využívá k trénování menšího, jednoduššího modelu (student model), aby byl schopen dosáhnout podobných výsledků jako původní model, ale s nižšími nároky na výpočetní výkon.

Například u DeepSeek R1 je teacher model obrovský model s 671 miliardami parametrů, který je velmi přesný, ale náročný na výpočetní výkon. Destilované verze jsou menší modely (např. s 1,5 miliardy parametrů), které se od něj naučily, jak předpovídat výsledky, a jsou optimalizované pro nasazení na méně výkonném hardwaru nebo při lokálním použití.

6. Hostovaná verze DeepSeek

Pokud používáte hostovanou verzi DeepSeek R1, například na stránkách chat.deepseek.com, měli byste si být vědomi, že vaše data mohou být použita k trénování nových modelů. To je součástí podmínek služby DeepSeek, a proto je důležité věnovat pozornost těmto informacím před použitím služby.

7. Význam Open Science a Open Source

DeepSeek také podporuje Open Science a Open Source, což má dlouhodobý přínos pro celou komunitu. Hugging Face se například podílí na vývoji plně otevřeného reprodukčního pipeline, což umožní dalším výzkumníkům a vývojářům efektivně reprodukovat a testovat modely v open-source prostředí.

8. Bezpečnost lokálního spuštění DeepSeek R1 Použití destilovaných verzí DeepSeek R1 na lokálním hardwaru prostřednictvím nástrojů, jako jsou Ollama nebo GPT4All, může být bezpečné, pokud jsou splněny tyto podmínky:

  1. Důvěryhodný zdroj modelu: Stahujte modely pouze z oficiálních a ověřených zdrojů, jako je Ollama, GPT4All nebo Hugging Face. To minimalizuje riziko, že by model obsahoval škodlivý kód.

  2. Dodržení licenčních podmínek: Některé modely mohou mít specifická omezení ohledně použití, redistribuce nebo úprav. Přečtěte si licenční podmínky, aby použití odpovídalo legislativě a pravidlům daného modelu.

  3. Ochrana dat: Lokálně spuštěné modely jsou obecně bezpečnější z pohledu ochrany dat, protože zpracování probíhá na vašem zařízení a nedochází k jejich odesílání na vzdálené servery. Přesto se ujistěte, že nedáváte modelu přístup k citlivým datům, pokud není jasně zajištěno, jak s nimi nakládá.

  4. Pravidelná aktualizace: Sledujte aktualizace modelu a softwaru, aby byly opraveny případné chyby nebo bezpečnostní zranitelnosti.

  5. Bezpečné prostředí: Spouštějte modely na zabezpečeném zařízení, kde nehrozí riziko kompromitace systému (například malwarem). Použití sandboxu nebo virtuálního prostředí je dobrá praxe.

Pokud splníte výše uvedené podmínky, může být lokální spuštění destilované verze DeepSeek R1 bezpečné a efektivní, zejména pokud preferujete soukromí nebo nemáte přístup ke vzdáleným serverům.

Závěr

DeepSeek R1 je výkonný a pokročilý model, který přináší mnoho nových možností v oblasti AI. Je však důležité oddělit fakta od mýtů, které se šíří okolo něj. Je to projekt s obrovskými finančními a výpočetními kapacitami, a jeho vývoj není jen vedlejším podnikáním, jak by se mohlo zdát. Pokud chcete mít přesné informace, je dobré se držet ověřených zdrojů a vyhnout se dezinformacím, které mohou tento pokročilý model zjednodušovat nebo zkreslovat.