O modelo de IA surpreendentemente barato de Deepseek desafia os gigantes da indústria. A empresa afirma ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões usando apenas 2048 GPUs, subcotando significativamente os concorrentes. No entanto, esse número é enganoso.
imagem: ensigame.com
A Deepseek V3 aproveita as tecnologias inovadoras: Previsão com vários toques (MTP) para maior precisão e eficiência; Mistura de especialistas (MOE) , utilizando 256 redes neurais, para acelerar o treinamento e melhorar o desempenho; e Atenção latente de várias cabeças (MLA) para se concentrar nos elementos cruciais da frase, minimizando a perda de informações.
imagem: ensigame.com
Ao contrário de sua reivindicação inicial, a semiânica revelou a extensa infraestrutura da Deepseek, compreendendo aproximadamente 50.000 GPUs da NVIDIA Hopper em vários data centers, representando um investimento total de aproximadamente US $ 1,6 bilhão e custos operacionais de US $ 944 milhões. Isso inclui investimentos substanciais em pessoal, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente.
imagem: ensigame.com
A Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, possui seus data centers, fornecendo maior controle e implementação mais rápida da inovação. Essa abordagem autofinanciada contribui para sua agilidade. O número de US $ 6 milhões reflete apenas os custos de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura. O investimento real da Deepseek no desenvolvimento da IA excede US $ 500 milhões.
imagem: ensigame.com
Embora o sucesso de Deepseek decorre de investimentos substanciais, avanços tecnológicos e uma equipe qualificada, sua narrativa "orçamentária" é uma simplificação excessiva. No entanto, mesmo com os números corrigidos, os custos da Deepseek ainda empalidecem em comparação com os concorrentes. Por exemplo, o modelo R1 da Deepseek custou US $ 5 milhões para treinar, enquanto o ChatGPT-4 custa US $ 100 milhões. A eficiência da empresa e a estrutura focada, no entanto, permitem competir efetivamente com os gigantes do setor, apesar do investimento substancial envolvido.