Удивительно недорогие модели ИИ Deepseek бросают вызов гигантам отрасли. Компания утверждает, что обучила свою мощную нейронную сеть Deepseek V3 всего за 6 миллионов долларов, используя только 2048 графических процессоров, что значительно подорвало конкурентов. Однако эта цифра вводит в заблуждение.
Изображение: Ensigame.com
DeepSeek V3 использует инновационные технологии: Multi-Token Production (MTP) для повышения точности и эффективности; Смесь экспертов (MOE) , используя 256 нейронных сетей, для ускорения обучения и повышения производительности; и Многополосное скрытое внимание (MLA) , чтобы сосредоточиться на важных элементах предложения, минимизируя потерю информации.
Изображение: Ensigame.com
Вопреки их первоначальному требованию, полуанализ выявил обширную инфраструктуру Deepseek, составляющая приблизительно 50 000 графических процессоров Nvidia Hopper в нескольких центрах обработки данных, что составляет общие инвестиции в размере около 1,6 млрд. Долл. США, а эксплуатационные расходы - 944 млн. Долл. США. Это включает в себя существенные инвестиции в персонал, причем некоторые исследователи зарабатывают более 1,3 миллиона долларов в год.
Изображение: Ensigame.com
Deepseek, дочерняя компания High-Flyer, китайского хедж-фонда, владеет своими центрами обработки данных, обеспечивая больший контроль и более быструю реализацию инноваций. Этот самофинансируемый подход способствует его ловкости. Цифра в 6 миллионов долларов отражает только предварительные затраты на GPU, исключая исследования, уточнение, обработку данных и инфраструктуру. Фактические инвестиции DeepSeek в развитие ИИ превышают 500 миллионов долларов.
Изображение: Ensigame.com
В то время как успех Deepseek проистекает из значительных инвестиций, технологических достижений и квалифицированной команды, его «благоприятный для бюджета» повествование является упрощением. Однако даже с исправленными цифрами затраты DeepSeek по -прежнему бледны по сравнению с конкурентами. Например, модель DeepSeek R1 стоила 5 миллионов долларов на обучение, в то время как CHATGPT-4 стоит 100 миллионов долларов. Однако эффективность компании и сосредоточенная структура позволяют эффективно конкурировать с отраслевыми гигантами, несмотря на существенные инвестиции.