Deepseek รุ่น AI ที่ไม่แพงอย่างน่าประหลาดใจท้าทายยักษ์ใหญ่ในอุตสาหกรรม บริษัท อ้างว่าได้ฝึกอบรมเครือข่ายประสาท Deepseek V3 ที่ทรงพลังในราคาเพียง 6 ล้านเหรียญสหรัฐโดยใช้ GPU เพียง 2048 ครั้งเท่านั้น อย่างไรก็ตามตัวเลขนี้ทำให้เข้าใจผิด
IMGP%Image: Ensigame.com
Deepseek V3 ใช้ประโยชน์จากเทคโนโลยีที่เป็นนวัตกรรม: การทำนายแบบหลายท็อก (MTP) เพื่อเพิ่มความแม่นยำและประสิทธิภาพ ส่วนผสมของผู้เชี่ยวชาญ (MOE) ใช้เครือข่ายประสาท 256 แห่งเพื่อเร่งการฝึกอบรมและปรับปรุงประสิทธิภาพ และ ความสนใจแฝงหลายหัว (MLA) เพื่อมุ่งเน้นไปที่องค์ประกอบประโยคที่สำคัญลดการสูญเสียข้อมูล
IMGP%Image: Ensigame.com
ตรงกันข้ามกับการเรียกร้องครั้งแรกของพวกเขา semianalysis เปิดเผยโครงสร้างพื้นฐานที่กว้างขวางของ Deepseek ซึ่งประกอบด้วย GPU Nvidia Hopper ประมาณ 50,000 Nvidia ในศูนย์ข้อมูลหลายแห่งซึ่งคิดเป็นมูลค่าการลงทุนรวมประมาณ 1.6 พันล้านดอลลาร์และค่าใช้จ่ายในการดำเนินงาน 944 ล้านดอลลาร์ ซึ่งรวมถึงการลงทุนอย่างมากในบุคลากรโดยนักวิจัยบางคนมีรายได้มากกว่า $ 1.3 ล้านต่อปี
IMGP%Image: Ensigame.com
Deepseek ซึ่งเป็น บริษัท ย่อยของ High-Flyer ซึ่งเป็นกองทุนป้องกันความเสี่ยงของจีนเป็นเจ้าของศูนย์ข้อมูลให้การควบคุมที่มากขึ้นและการใช้นวัตกรรมที่เร็วขึ้น วิธีการที่ได้รับการสนับสนุนตนเองนี้มีส่วนช่วยให้เกิดความคล่องตัว ตัวเลข $ 6 ล้านสะท้อนถึงค่าใช้จ่าย GPU ก่อนการฝึกอบรมก่อนไม่รวมการวิจัยการปรับแต่งการประมวลผลข้อมูลและโครงสร้างพื้นฐาน การลงทุนที่แท้จริงของ Deepseek ในการพัฒนา AI เกินกว่า $ 500 ล้าน
IMGP%Image: Ensigame.com
ในขณะที่ความสำเร็จของ Deepseek เกิดจากการลงทุนที่สำคัญความก้าวหน้าทางเทคโนโลยีและทีมงานที่มีทักษะการเล่าเรื่อง "เป็นมิตรกับงบประมาณ" นั้นเป็นการใช้งานมากเกินไป อย่างไรก็ตามถึงแม้จะมีตัวเลขที่ได้รับการแก้ไขค่าใช้จ่ายของ Deepseek ยังคงซีดเมื่อเทียบกับคู่แข่ง ตัวอย่างเช่นรุ่น R1 ของ Deepseek ราคา 5 ล้านดอลลาร์ในการฝึกอบรมในขณะที่ CHATGPT-4 มีราคา $ 100 ล้าน อย่างไรก็ตามประสิทธิภาพของ บริษัท และโครงสร้างที่มุ่งเน้นช่วยให้สามารถแข่งขันกับยักษ์ใหญ่ในอุตสาหกรรมได้อย่างมีประสิทธิภาพแม้จะมีการลงทุนอย่างมาก