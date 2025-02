Cuối kỳ thực tập tại Nvidia hồi năm 2023, Zizheng Pan, nhà nghiên cứu trí tuệ nhân tạo trẻ tuổi đến từ Trung Quốc, phải ra một quyết định quan trọng: ở lại Thung lũng Silicon với các nhà thiết kế chip hàng đầu thế giới hoặc trở về quê nhà và gia nhập DeepSeek, khi đó chỉ là một công ty khởi nghiệp ít được biết đến.

Cuối cùng, Pan chọn DeepSeek không do dự.

“Tôi vẫn rất ấn tượng”, Zhiding Yu, một nhà khoa học nghiên cứu cấp cao tại Nvidia kiêm người cố vấn của Pan trong thời gian thực tập, chia sẻ trên X. “Nhiều nhân tài xuất sắc nhất của chúng tôi đến từ Trung Quốc”.

Chưa đầy 2 năm sau khi Pan gia nhập DeepSeek, công ty này đã nổi tiếng toàn cầu sau khi phát hành hai mô hình AI tiên tiến giá rẻ. Tin tức khiến giá trị thị trường của Nvidia ‘bốc hơi’ 600 tỷ USD.

Lựa chọn của Pan phản ánh xu hướng ngày càng tăng trong giới tinh hoa AI của Trung Quốc: từ chối các công việc tại Thung lũng Silicon để tận tâm cống hiến cho quê nhà - nơi có chi phí sinh hoạt thấp hơn, gần gia đình, lại có cơ hội phát triển sự nghiệp.

DeepSeek lấp đầy đội ngũ của mình bằng những sinh viên mới tốt nghiệp và thực tập sinh từ các trường đại học ưu tú của Trung Quốc, chẳng hạn như Đại học Thanh Hoa và Đại học Bắc Kinh. Nguồn tài trợ hoàn toàn đến từ công ty giao dịch High-Flyer của người sáng lập Liang Wenfeng.

Những công nhân công nghệ trẻ, đầy nhiệt huyết đằng sau DeepSeek đang nỗ lực để bắt kịp những gã khổng lồ công nghệ ở Thung lũng Silicon, bất chấp các lệnh cấm xuất khẩu chip tiên tiến. Nhiều sinh viên Trung Quốc không mấy hứng thú với công việc toàn thời gian ở Mỹ.

“DeepSeek làm nổi bật sức mạnh của nhóm nhân tài AI Trung Quốc, được hỗ trợ bởi một số lượng lớn các kỹ sư phần mềm có trình độ và năng lực cao”, Angela Zhang, giáo sư tại Đại học Nam California, nói với Rest of World . “Tôi tin rằng lợi thế về nhân tài sẽ định vị Trung Quốc một cách mạnh mẽ cho giai đoạn phát triển AI tiếp theo”.

Theo báo cáo hồi năm 2023 về nhân tài AI toàn cầu do tổ chức nghiên cứu MacroPolo có trụ sở tại Chicago công bố, gần một nửa số nhà nghiên cứu AI hàng đầu thế giới đã hoàn thành chương trình đại học của mình tại Trung Quốc. Các trường đại học Trung Quốc, phòng thí nghiệm do nhà nước hậu thuẫn và các bộ phận nghiên cứu của nhiều gã khổng lồ công nghệ Mỹ, chẳng hạn như Microsoft Research Asia có trụ sở tại Bắc Kinh, đã giúp đào tạo một nhóm lớn các nhà nghiên cứu địa phương.

Chẳng hạn, Junxiao Song, một cộng tác viên cốt cán cho mô hình R1 mới nhất của DeepSeek, đã học ngành tự động hóa tại Đại học Chiết Giang trước khi lấy bằng Tiến sĩ về kỹ thuật điện tử và máy tính tại Đại học Khoa học và Công nghệ Hồng Kông vào năm 2015, theo Tiến sĩ Daniel Palomar. Khi Palomar đăng bài về Song trên LinkedIn, một cựu sinh viên khác đã bình luận rằng Song từng có biệt danh là dashi (bậc thầy vĩ đại).

“Bằng cách nào đó, DeepSeek đã xoay xở để có được những người giỏi nhất trong số những người giỏi nhất”, Tiến sĩ Palomar nói. “Sinh viên Trung Quốc làm việc rất tốt”.

Ngày càng nhiều kỹ sư AI Trung Quốc lựa chọn xây dựng sự nghiệp tại quê nhà. Họ có nhiều cơ hội hơn khi ngành công nghiệp AI trong nước mở rộng và thu hút cả những gã khổng lồ công nghệ như Alibaba.

DeepSeek có cách thu hút nhân tài độc đáo.

Theo báo cáo gần đây từ hãng công nghệ Trung Quốc 36Kr, công ty này trả lương cho nhân viên cao hơn cả ByteDance. Ngoài ra, không giống như nhiều công ty công nghệ Trung Quốc thúc đẩy cạnh tranh nội bộ và bắt các kỹ sư làm việc nhiều giờ liền, nhà sáng lập Liang cho phép nhân viên mình tự tìm nhiệm vụ và truy cập sức mạnh tính toán một cách tự do.

Trong cùng một cuộc phỏng vấn, Liang cho biết việc đưa nghiên cứu thành nguồn mở giúp nhân viên có cảm giác tự hào nâng cao danh tiếng công ty. Một số nhà nghiên cứu DeepSeek đã thu hút được hàng chục nghìn người theo dõi trên X khi cùng thảo luận về các phương pháp nghiên cứu.

“Không lời nào có thể diễn tả ngay lúc này”, nhà nghiên cứu Deli Chen của DeepSeek viết khi mô hình R1. “Tất cả những gì tôi biết là chúng tôi sẽ tiếp tục tiến về phía trước để biến AGI nguồn mở thành hiện thực cho tất cả mọi người”.

“Khoảnh khắc này thực sự phi thường đối với tôi”, Pan, cựu thực tập sinh tại Nvidia, viết 2 ngày sau đó.

Yu Zhou, một giáo sư tại Cao đẳng Vassar, người đã nghiên cứu về sự phát triển của ngành công nghệ cao Trung Quốc, cho rằng sự nhiệt tình của các nhà nghiên cứu trẻ DeepSeek gợi nhắc tới các startup internet đầu tiên ở Bắc Kinh thời đầu những năm 2000. Vào thời điểm đó, những sinh viên tốt nghiệp từ các trường đại học hàng đầu của Trung Quốc lấy cảm hứng từ những công ty như Google và Microsoft, cuối cùng tạo ra một ngành công nghiệp công nghệ tuyệt vời tại quê nhà.

“Người trẻ đã được truyền cảm hứng từ những phát triển công nghệ mới như OpenAI”, bà Yu nói. “Khi bạn không có nguồn lực, tất cả những gì bạn có là sức mạnh trí tuệ của mình”.

Đối với nhiều người ở Trung Quốc, sức mạnh hệ thống giáo dục gắn chặt với vị thế toàn cầu. Chính phủ đã đầu tư mạnh vào giáo dục đại học, từ đó đẩy số lượng sinh viên tốt nghiệp đại học mỗi năm tăng hơn 14 lần trong 2 thập kỷ. Một số trường đại học Trung Quốc hiện nằm trong top những trường tốt nhất thế giới.

Theo The New York Times, Trung Quốc đào tạo ra nhiều sinh viên tốt nghiệp STEM gấp 4 lần so với Mỹ vào năm 2020. Trong lĩnh vực AI, nước này đã bổ sung hơn 2.300 chương trình đại học kể từ năm 2018, theo nghiên cứu của MacroPolo, một nhóm nghiên cứu có trụ sở tại Chicago. Nhóm cũng cho biết thêm rằng đến năm 2022, gần một nửa số nhà nghiên cứu AI hàng đầu thế giới đến từ các trường đại học Trung Quốc, trong khi các trường đại học Mỹ chỉ chiếm 18%.

Quay trở lại với DeepSeek.

Startup này hồi đầu năm đã thành công tạo ra một trong những mô hình AI ‘mở’ mạnh nhất từ trước đến nay: DeepSeek V3. Theo TechCrunch, DeepSeek V3 có thể xử lý nhiều khối lượng công việc và tác vụ dựa trên văn bản, mã hóa, dịch thuật và viết bài luận. Các thử nghiệm chuẩn nội bộ cho thấy nó vượt trội hơn cả các mô hình khác, bao gồm Llama 3.1 405B của Meta, GPT-4o của OpenAI và Qwen 2.5 72B của Alibaba. DeepSeek V3 cũng đánh bại đối thủ cạnh tranh trên Aider Polyglot - một bài kiểm tra được thiết kế để đo lường.

DeepSeek tuyên bố rằng DeepSeek V3 đã được đào tạo trên tập dữ liệu gồm 14,8 nghìn tỷ mã thông báo. Trong khoa học dữ liệu, mã thông báo được sử dụng để biểu diễn các bit dữ liệu thô. 1 triệu mã thông báo bằng khoảng 750.000 từ.

Dù không phải là mô hình thực tế nhất, song DeepSeek V3 vẫn được đánh giá là một thành tựu lớn. 5,5 triệu USD đã được chi để đào tạo mô hình này.

“DeepSeek, đối thủ cạnh tranh của ChatGPT, đã tạo ra một làn sóng chấn động. Nói vậy là còn nhẹ. DeepSeek giống như một quả bom hạt nhân trong thế giới công nghệ AI tại Mỹ và châu Âu bởi vì chỉ trong một đòn, công ty này đã cho thấy định giá của cổ phiếu chip AI và tất cả các cổ phiếu cơ sở hạ tầng AI là quá cao. DeepSeek có thể tạo ra một sản phẩm vượt trội hơn ChatGPT với chi phí chỉ bằng 1/20”, ông Francis Lun, Giám đốc điều hành Geo Securities, cho biết.

Đây được coi là bước đột phá quan trọng, mở ra cơ hội cho Trung Quốc vượt qua Mỹ về năng lực AI, bất chấp những hạn chế về tiếp cận chip tiên tiến và nguồn vốn. Các trang web tuyển dụng, cuộc phỏng vấn với cựu nhân viên và các bài báo địa phương cho thấy bước đột phá này là thành quả của một nhà sáng lập kín tiếng và đội ngũ nghiên cứu trẻ tuổi.

Năm 2023, DeepSeek được tách ra từ quỹ đầu cơ High Flyer-Quant. Nhà sáng lập High-Flyer Quant, Liang Wenfeng, cũng chính là người đứng sau DeepSeek, từng được đào tạo về AI tại Đại học Chiết Giang.

Trước đó, DeepSeek cũng đã tạo nên làn sóng mới với mô hình có tên DeepSeek-R1. Đại diện công ty tuyên bố mô hình R1 của họ có thể cạnh tranh với o1 của OpenAI — mô hình được thiết kế để lý luận hoặc giải quyết các nhiệm vụ phức tạp.

“Trong năm ngoái, chúng tôi đã chứng kiến sự gia tăng các đóng góp nguồn mở của Trung Quốc với hiệu suất thực sự mạnh mẽ, chi phí phục vụ thấp và thông lượng cao”, Grace Isford, đối tác tại Lux Capital, trả lời CNBC qua email.

Theo CNBC, các công ty AI của Trung Quốc đang phát triển các mô hình ngôn ngữ lớn, hay LLM, được đào tạo trên một lượng lớn dữ liệu và hỗ trợ các ứng dụng như chatbot. Đa số đều tập trung vào LLM nguồn mở để các nhà phát triển có thể tải xuống và xây dựng miễn phí thay vì yêu cầu cấp phép.

Việc cung cấp nguồn mở phục vụ một số mục đích, bao gồm thúc đẩy đổi mới khi nhiều nhà phát triển có quyền truy cập vào công nghệ, đồng thời xây dựng thành công một cộng đồng xung quanh một sản phẩm. Theo CNBC, các LLM nguồn mở còn mang lại cho các công ty Trung Quốc một lợi thế khác: cho phép mô hình của mình được sử dụng trên toàn cầu.

“Các công ty Trung Quốc muốn thấy các mô hình của họ được sử dụng bên ngoài Trung Quốc. Đây chắc chắn là cách để họ trở thành những người chơi toàn cầu trong lĩnh vực AI”, Paul Triolo, đối tác tại công ty tư vấn toàn cầu DGA Group, trả lời CNBC qua email.

Theo CNBC, các mô hình AI ngày nay đã được so sánh với các hệ điều hành, chẳng hạn như Windows của Microsoft, Android của Google và iOS của Apple, với tiềm năng thống trị thị trường, giống như những công ty này làm trên thiết bị di động và PC. Nếu đúng như vậy, kịch bản sẽ khiến cho việc xây dựng một LLM thống trị trở nên khó khăn hơn.

“Các công ty Trung Quốc coi LLM là trung tâm của hệ sinh thái công nghệ tương lai”, Xin Sun, giảng viên cao cấp về kinh doanh Trung Quốc và Đông Á tại King's College London, trả lời CNBC qua email. “Các mô hình kinh doanh trong tương lai sẽ dựa vào việc các nhà phát triển tham gia hệ sinh thái, phát triển ứng dụng mới dựa trên LLM và thu hút người dùng. Lợi nhuận có thể được tạo ra sau đó thông qua nhiều phương tiện khác nhau”.

Theo: Nikkei Asia, CNBC, The New York Times, Rest of World