Ang nakakagulat na Deepseek ay murang mga hamon sa modelo ng AI na mga higante sa industriya. Inaangkin ng kumpanya na sinanay ang makapangyarihang Deepseek V3 Neural Network para sa isang $ 6 milyon lamang gamit ang 2048 GPUs, na makabuluhang sumasaklaw sa mga kakumpitensya. Gayunpaman, ang figure na ito ay nakaliligaw.
Imahe: ensigame.com
Ang Deepseek V3 ay gumagamit ng mga makabagong teknolohiya: Multi-Token Prediction (MTP) para sa pinahusay na kawastuhan at kahusayan; pinaghalong mga eksperto (MOE) , paggamit ng 256 neural network, upang mapabilis ang pagsasanay at pagbutihin ang pagganap; at multi-head latent pansin (MLA) upang tumuon sa mga mahahalagang elemento ng pangungusap, na binabawasan ang pagkawala ng impormasyon.
Imahe: ensigame.com
Taliwas sa kanilang paunang pag -angkin, ang semianalysis ay nagsiwalat ng malawak na imprastraktura ng Deepseek, na binubuo ng humigit -kumulang na 50,000 nvidia hopper GPU sa maraming mga sentro ng data, na kumakatawan sa isang kabuuang pamumuhunan ng halos $ 1.6 bilyon at mga gastos sa pagpapatakbo na $ 944 milyon. Kasama dito ang malaking pamumuhunan sa mga tauhan, kasama ang ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon.
Imahe: ensigame.com
Ang Deepseek, isang subsidiary ng high-flyer, isang pondo ng hedge ng Tsino, ay nagmamay-ari ng mga sentro ng data nito, na nagbibigay ng higit na kontrol at mas mabilis na pagpapatupad ng pagbabago. Ang diskarte na pinondohan ng sarili na ito ay nag-aambag sa liksi nito. Ang $ 6 milyong figure ay sumasalamin lamang sa mga pre-pagsasanay na gastos sa GPU, hindi kasama ang pananaliksik, pagpipino, pagproseso ng data, at imprastraktura. Ang aktwal na pamumuhunan ng Deepseek sa pag -unlad ng AI ay lumampas sa $ 500 milyon.
Imahe: ensigame.com
Habang ang tagumpay ng DeepSeek ay nagmula sa malaking pamumuhunan, pagsulong sa teknolohiya, at isang bihasang koponan, ang "badyet" na salaysay nito ay isang labis na pag-iingat. Gayunpaman, kahit na sa mga naayos na mga numero, ang mga gastos sa Deepseek ay namutla pa rin kung ihahambing sa mga kakumpitensya. Halimbawa, ang modelo ng R1 ng Deepseek ay nagkakahalaga ng $ 5 milyon upang sanayin, habang ang Chatgpt-4 ay nagkakahalaga ng $ 100 milyon. Ang kahusayan at nakatuon na istraktura ng kumpanya, gayunpaman, pinapayagan itong makipagkumpetensya nang epektibo sa mga higanteng industriya, sa kabila ng malaking pamumuhunan na kasangkot.