معرفی | هوش مصنوعی دیپ‌سیک

M I R A S · 8/12/25

دیپ‌سیک ترجیح می‌دهد که استخدام‌ها مواکداً بر توانمندی فنی باشد، نه صرفاً سابقه کاری. در نتیجه بیشتر استخدام‌ها یا از دانش‌آموختگان جدید دانشگاه‌ها هستند یا توسعه‌دهندگانی با سابقه کمتر در حوزه هوش مصنوعی. همچنین این شرکت افرادی را بدون پیشینه علمی در علوم رایانه جذب می‌کند تا توانایی فناوری آن در درک موضوعات و حوزه‌های دانشی دیگر افزایش یابد و بتواند مثلاً شعر بسراید یا در کنکور سخت دانشگاه‌های چین عملکرد خوبی نشان دهد.

M I R A S · 8/12/25

تاریخچه انتشار محصولات

دیپ‌سیک ال‌ال‌ام

در ۲ نوامبر ۲۰۲۳، دیپ‌سیک نخستین سری مدل خود با نام دیپ‌سیک کدر را منتشر کرد که رایگان و در دسترس پژوهشگران و کاربران تجاری قرار گرفت. کد مدل تحت پروانه ام‌آی‌تی متن‌باز شد و برای خودِ مدل نیز، پروانه جداگانه‌ای به نام «مجوز دیپ‌سیک» در زمینه «استفاده آزاد و مسئولانه» اضافه شد.

این مدل‌ها دارای همان معماری دیپ‌سیک ال‌ال‌ام هستند. این سری شامل ۸ مدل است: ۴ مدل پیش‌آموزش‌شده (Base) و ۴ مدل تنظیم دقیق دستوری (Instruct) که همگی با طول متن[ج] 16k ارائه شده‌اند. مراحل آموزشی چنین بوده است:

M I R A S · 8/12/25

پیش‌آموزش: ۱٫۸ تریلیون توکن (۸۷٪ کد منبع، ۱۰٪ متن انگلیسی مرتبط با کد (مستندات مارک‌داون گیت‌هاب و Stack Exchange) و ۳٪ متن چینی نامرتبط با کد).
پیش‌آموزش با طول متن بلند: ۲۰۰ میلیارد توکن. این مرحله طول متن را از ۴k به ۱۶k گسترش داد و مدل‌های Base تولید شدند.
تنظیم دقیق نظارت‌شده[چ] (SFT): ۲ میلیارد توکن داده دستوری. این مرحله مدل‌های Instruct را تولید کرد.

این مدل‌ها روی خوشه‌ای از جی‌پی‌یوهای A۱00 و H۸00 انویدیا آموزش دیده‌اند که با اینفینی‌باند، ان‌وی لینگ، و ان‌وی سوئیچ به هم متصل شده بودند.

M I R A S · 8/12/25

مشخصات کدگذار دیپ‌سیک[۲۳][۲۶]Params.{\displaystyle n_{\text{layers}}}

$n_{\text{layers}}$

{\displaystyle d_{\text{model}}}

$d_{\text{model}}$

{\displaystyle d_{\text{intermediate}}}

$d_{\text{intermediate}}$

{\displaystyle n_{\text{heads}}} {\displaystyle n_{\text{kv-heads}}}

۱.3B

۲۴

...

M I R A S · 8/12/25

در ۲۹ نوامبر ۲۰۲۳، دیپ‌سیک سری مدل‌های دیپ‌سیک ال‌ال‌ام را با اندازه‌های ۷ میلیارد و ۶۷ میلیارد پارامتر در قالب Base و Chat (بدون Instruct) عرضه کرد. هدف آن رقابت با سایر مدل‌های ال‌ال‌ام موجود در زمان خود بود. در مقاله معرفی محصول، ادعا شد که دیپ‌سیک در آزمون‌ها از بیشتر مدل‌های متن‌باز موجود در آن زمان، به‌ویژه لاما۲، عملکرد بهتری دارد.[۲۷] مشابه دیپ‌سیک کدر، کد این مدل‌ها تحت پروانه ام‌آی‌تی بوده و خود مدل شامل مجوز پروانه دیپ‌سیک است.

معماری دیپ‌سیک ال‌ال‌ام عملاً مشابه سری لاما است: ترنسفورمر رمزگشا-محور pre-LN با استفاده از RMSNorm به‌عنوان روش نرمال‌سازی، تابع SwiGLU در پیشخور، دگرنمایی موقعیت چرخشی[ح] (RoPE)، و grouped-query attention (GQA). هر دو مدل دارای اندازه واژگان ۱۰۲۴۰۰...

M I R A S · 8/12/25

مشخصات کدگذار دیپ‌سیک[۲۷]Params.{\displaystyle n_{\text{layers}}}

$n_{\text{layers}}$

{\displaystyle d_{\text{model}}}

$d_{\text{model}}$

{\displaystyle d_{\text{intermediate}}}

$d_{\text{intermediate}}$

{\displaystyle n_{\text{heads}}} {\displaystyle n_{\text{kv-heads}}}

7B

۳۰

...

M I R A S · 8/12/25

نسخه‌های Chat این دو مدل Base هم‌زمان عرضه شدند که با تنظیم دقیق نظارت‌شده و سپس [[یادگیری تقویتی از بازخورد انسانی#بهینه‌سازی ترجیح مستقیم |بهینه‌سازی خط‌مشی مستقیم]] (اختصاری DPO) از Base به‌دست آمده‌اند.

در آوریل ۲۰۲۴، سه مدل دیپ‌سیک مَث [د] عرضه شد که در ریاضیات تخصص داشتند: Base، Instruct و RL.

مراحل آموزشی آن‌ها به این ترتیب بود:

M I R A S · 8/12/25

مراحل آموزشی آن‌ها به این ترتیب بود:

آغاز با مدل پیش‌آموزش‌شده DeepSeek-Coder-Base-v۱٫۵ با ۷ میلیارد پارامتر.
پیش‌آموزش بیشتر با استفاده از ۵۰۰ میلیارد توکن (۶٪ «مجموعه دیپ‌سیک ریاضی»، ۴٪ «استک جبری»، ۱۰٪ داده‌های آرکایو، ۲۰٪ کد گیت‌هاب، ۱۰٪ خزنده عمومی). خروجی این مرحله مدل Base بود.
آموزش یک مدل پیروی از دستورها با تنظیم دقیق نظارت‌شده روی ۷۷۶ هزار مسئله ریاضی به‌همراه راه‌حل‌های گام‌به‌گام (همراه با ابزار). خروجی این مرحله مدل Instruct بود.

یادگیری تقویتی: مدل پاداش توسط یک «مدل پاداش فرایندی» در روش Math-Shepherd از Base آموزش دید. سپس با استفاده از همین مدل پاداش، مدل Instruct با روش جی‌آرپی‌او[ذ] بر مجموعه‌ای از ۱۴۴هزار پرسش ریاضی آموزش دید و مدل RL شکل گرفت.

M I R A S · 8/12/25

v2

در ماه مه ۲۰۲۴، آن‌ها سری DeepSeek-V2 را منتشر کردند. این سری شامل ۴ مدل است: ۲ مدل پایه (DeepSeek-V2، DeepSeek-V2-Lite) و ۲ چت‌بات (-Chat). دو مدل بزرگ‌تر به‌صورت زیر آموزش داده شدند:

پیش‌آموزش بر روی مجموعه داده‌ای با ۸٫۱ تریلیون توکن، که در آن تعداد توکن‌های چینی ۱۲٪ بیشتر از توکن‌های انگلیسی است.
افزایش طول متن از ۴ هزار به ۱۲۸ هزار با استفاده از YaRN. این منجر به مدل DeepSeek-V2 شد.
تنظیم دقیق نظارت‌شده با ۱٫۲ میلیون نمونه برای کمک‌رسانی و ۰٫۳ میلیون برای ایمنی. این منجر به DeepSeek-V2-Chat (SFT) شد که منتشر نشد.

M I R A S · 8/12/25

4. یادگیری تقویتی (RL) با استفاده از جی‌آرپی‌او در دو مرحله.

مرحله اول برای حل مسائل ریاضی و کدنویسی آموزش داده شد. در این مرحله از یک مدل پاداش استفاده شد که بر اساس بازخورد کامپایلر (برای کدنویسی) و برچسب‌های واقعی (برای ریاضی) آموزش دیده بود.
مرحله دوم برای کمک‌رسانی، ایمنی و پیروی از قوانین آموزش داده شد. در این مرحله از ۳ مدل پاداش استفاده شد. مدل‌های پاداش کمک‌رسانی و ایمنی بر اساس داده‌های ترجیح انسانی آموزش دیده بودند. مدل پاداش مبتنی بر قوانین به‌صورت دستی برنامه‌ریزی شده بود. همه مدل‌های پاداش آموزش‌دیده از DeepSeek-V2-Chat(SFT) ادامه داده شدند. این منجر به نسخه منتشرشده DeepSeek-V2-Chat شد.

معرفی | هوش مصنوعی دیپ‌سیک

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

موضوعات مشابه