Mô hình AI giá rẻ đáng ngạc nhiên của Deepseek thách thức những người khổng lồ trong ngành. Khởi nghiệp Trung Quốc tuyên bố đã đào tạo mạng lưới thần kinh Deepseek V3 mạnh mẽ của mình chỉ với 6 triệu đô la, chỉ sử dụng 2048 GPU, vượt qua đáng kể các đối thủ cạnh tranh. Chi phí dường như thấp này, tuy nhiên, tin rằng một khoản đầu tư đáng kể hơn nhiều.
Hình ảnh: Obligame.com
Kiến trúc sáng tạo của Deepseek V3 đóng góp cho hiệu quả của nó. Các công nghệ chính bao gồm dự đoán đa điểm (MTP) để dự đoán từ đồng thời, hỗn hợp của các chuyên gia (MOE) sử dụng 256 mạng thần kinh để đào tạo tăng tốc và chú ý nhiều đầu (MLA) để khai thác thông tin được cải thiện.
Hình ảnh: Obligame.com
Tuy nhiên, một báo cáo bán phân giải cho thấy cơ sở hạ tầng lớn hơn nhiều: khoảng 50.000 GPU NVIDIA, có giá khoảng 1,6 tỷ USD, với chi phí hoạt động gần 944 triệu đô la. Điều này trái ngược hoàn toàn với chi phí đào tạo trị giá 6 triệu đô la được công khai, chỉ phản ánh việc sử dụng GPU trước khi đào tạo, không bao gồm nghiên cứu, tinh chỉnh, xử lý dữ liệu và cơ sở hạ tầng tổng thể.
Sự độc lập và cấu trúc hiệu quả của Deepseek, một công ty con của quỹ phòng hộ cao, là chìa khóa thành công của nó. Sở hữu các trung tâm dữ liệu của mình cho phép phát triển mô hình tối ưu hóa và đổi mới nhanh chóng. Cấu trúc tự tài trợ và tinh gọn của công ty cũng góp phần vào sự nhanh nhẹn của nó. Mức lương cao, vượt quá 1,3 triệu đô la hàng năm cho một số nhà nghiên cứu, thu hút tài năng hàng đầu từ các trường đại học Trung Quốc.
Hình ảnh: Obligame.com
Trong khi yêu cầu trị giá 6 triệu đô la của Deepseek là sai lệch, khoản đầu tư thực tế của nó vượt quá 500 triệu đô la vẫn là một lợi thế chi phí đáng kể so với các đối thủ cạnh tranh. Mô hình của công ty R1 có giá 5 triệu đô la để đào tạo, trong khi TATGPT-4 báo cáo có giá 100 triệu đô la. Thành công của Deepseek nhấn mạnh tiềm năng cạnh tranh của một công ty AI độc lập được tài trợ tốt, mặc dù câu chuyện cần "thân thiện với ngân sách" của nó.
Hình ảnh: Obligame.com
Tóm lại, lợi thế cạnh tranh của Deepseek bắt nguồn từ sự kết hợp giữa đầu tư đáng kể, đổi mới công nghệ và một nhóm có tay nghề cao, thay vì chỉ từ ngân sách đào tạo thấp đáng kể. Tuy nhiên, ngay cả với các số liệu được sửa chữa, chi phí của nó vẫn thấp hơn đáng kể so với các đối thủ cạnh tranh.