दीपसेक की आश्चर्यजनक रूप से सस्ती एआई मॉडल चुनौतियां उद्योग के दिग्गजों को चुनौती देती हैं। कंपनी ने दावा किया है कि केवल 2048 जीपीयू का उपयोग करके अपने शक्तिशाली डीपसेक वी 3 न्यूरल नेटवर्क को केवल $ 6 मिलियन के लिए प्रशिक्षित किया गया है, जो प्रतियोगियों को काफी कम कर रहा है। हालांकि, यह आंकड़ा भ्रामक है।
छवि: ensigame.com
दीपसेक वी 3 अभिनव प्रौद्योगिकियों का लाभ उठाता है: मल्टी-टोकन भविष्यवाणी (एमटीपी) बढ़ी हुई सटीकता और दक्षता के लिए; विशेषज्ञों (एमओई) का मिश्रण , प्रशिक्षण में तेजी लाने और प्रदर्शन में सुधार करने के लिए 256 तंत्रिका नेटवर्क का उपयोग करना; और मल्टी-हेड लेटेंट ध्यान (एमएलए) महत्वपूर्ण वाक्य तत्वों पर ध्यान केंद्रित करने के लिए, सूचना हानि को कम करना।
छवि: ensigame.com
उनके प्रारंभिक दावे के विपरीत, सेमियालिसिस ने डीपसेक के व्यापक बुनियादी ढांचे का खुलासा किया, जिसमें कई डेटा केंद्रों में लगभग 50,000 एनवीडिया हॉपर जीपीयू शामिल थे, जो लगभग 1.6 बिलियन डॉलर के कुल निवेश और $ 944 मिलियन की परिचालन लागत का प्रतिनिधित्व करते हैं। इसमें कर्मियों में पर्याप्त निवेश शामिल है, कुछ शोधकर्ताओं ने सालाना 1.3 मिलियन डॉलर से अधिक कमाई।
छवि: ensigame.com
एक चीनी हेज फंड, हाई-फ्लायर की सहायक कंपनी दीपसेक अपने डेटा सेंटरों का मालिक है, जो अधिक नियंत्रण और तेजी से नवाचार कार्यान्वयन प्रदान करता है। यह स्व-वित्त पोषित दृष्टिकोण इसकी चपलता में योगदान देता है। $ 6 मिलियन का आंकड़ा केवल पूर्व-प्रशिक्षण GPU लागतों को दर्शाता है, अनुसंधान, शोधन, डेटा प्रसंस्करण और बुनियादी ढांचे को छोड़कर। एआई विकास में दीपसेक का वास्तविक निवेश $ 500 मिलियन से अधिक है।
छवि: ensigame.com
जबकि दीपसेक की सफलता पर्याप्त निवेश, तकनीकी प्रगति और एक कुशल टीम से उपजी है, इसकी "बजट के अनुकूल" कथा एक ओवरसिम्प्लेफिकेशन है। हालांकि, सही आंकड़ों के साथ भी, डीपसेक की लागत प्रतियोगियों की तुलना में अभी भी पीली है। उदाहरण के लिए, दीपसेक के आर 1 मॉडल की लागत $ 5 मिलियन है, जबकि CHATGPT-4 की लागत $ 100 मिलियन है। कंपनी की दक्षता और केंद्रित संरचना, हालांकि, इसे पर्याप्त निवेश के बावजूद, उद्योग के दिग्गजों के साथ प्रभावी ढंग से प्रतिस्पर्धा करने की अनुमति देती है।