معرفی | هوش مصنوعی دیپ‌سیک

M I R A S · 8/12/25

متخصصان این شرکت یادگیری تقویتی دو مرحله‌ای را انتخاب کردند، زیرا دریافتند که RL بر روی داده‌های استدلالی دارای «ویژگی‌های منحصربه‌فردی» است که با RL بر روی داده‌های عمومی متفاوت است. به‌عنوان مثال، RL بر روی استدلال می‌تواند با تعداد بیشتری از مراحل آموزش بهبود یابد.

دو مدل V2-Lite کوچک‌تر بودند و به‌طور مشابه آموزش داده شدند، با این حال، مدل DeepSeek-V2-Lite-Chat تنها تحت پردازش تنظیم دقیق نظارت‌شده قرار گرفت و نه RL. در ادامه، نسخه Lite را برای کمک به "تحقیقات و توسعه بیشتر در مورد MLA و DeepSeekMoE" آموزش دادند.

M I R A S · 8/12/25

از نظر معماری، مدل‌های V2 نسبت به سری قبلی ال‌ال‌ام دیپ‌سیک تغییر قابل‌توجهی یافته بودند. آن‌ها مکانیزم توجه استاندارد را با یک تقریب رتبه پایین به نام توجه نهفته چندسری (MLA) تغییر دادند و از ترکیب متخصصان (MoE) که قبلاً در ژانویه منتشر شده بود، استفاده کردند. در مقایسه با MoE استاندارد با دروازه‌گذاری پراکنده، این مدل‌های مشتق شده دارای یک "متخصص مشترک" هستند که همیشه مورد پرسش قرار می‌گیرند و دیگر "متخصصان مسیردهی‌شده"، که ممکن است همیشه مورد پرسش قرار نگیرند.

M I R A S · 8/12/25

ویژگی‌های DeepSeek V2نامپارامترهاپارامترهای فعال{\displaystyle n_{\text{layers}}}

$n_{\text{layers}}$

طول بافت{\displaystyle n_{\text{shared experts}}} {\displaystyle n_{\text{routed experts}}}

V2-Lite	۱۵٫۷ میلیارد	۲٫۴ میلیارد	۲۷	۳۲ هزار	۲	۶۴
V2	۲۳۶ میلیارد	۲۱ میلیارد	۶۰	۱۲۸ هزار	۲	۱۰۸

فایننشال تایمز گزارش داد که این مدل در مقایسه با همتایان خود ارزان‌تر است و قیمت آن ۲ یوان برای هر میلیون توکن خروجی...

M I R A S · 8/12/25

در ژوئن ۲۰۲۴، آن‌ها ۴ مدل در سری DeepSeek-Coder-V2 منتشر کردند:

V2-Base
V2-Lite-Base
V2-Instruct
V2-Lite-Instruct.

این مدل‌ها به‌صورت زیر آموزش داده شده‌اند:

مدل‌های Base از نقاط بازرسی میانی مربوط پس از پیش‌آموزش بر روی ۴٫۲ تریلیون توکن (نه نسخه در پایان پیش‌آموزش)، مقداردهی اولیه شدند، سپس بر روی ۶ تریلیون توکن دیگر پیش‌آموزش داده شدند، سپس طول متن به ۱۲۸ هزار افزایش یافت. این منجر به تولید مدل‌های Base شد.

M I R A S · 8/12/25

۲. DeepSeek-Coder و DeepSeek-Math برای تولید ۲۰ هزار داده دستورالعمل مرتبط با کد و ۳۰ هزار داده دستورالعمل مرتبط با ریاضی استفاده شدند، سپس با یک مجموعه داده دستورالعمل ۳۰۰ میلیون توکنی ترکیب شدند. این مدل‌ها برای تنظیم دقیق نظارت‌شده استفاده شدند.

۳.RL با جی‌آرپی‌او. پاداش برای مسائل ریاضی با مقایسه با برچسب واقعی محاسبه شد. پاداش برای مسائل کد توسط یک مدل پاداش تولید شد که برای پیش‌بینی اینکه آیا یک برنامه تست‌های واحد را پاس می‌کند یا خیر، آموزش دیده بود.
DeepSeek-V2.5 در سپتامبر منتشر شد و در دسامبر به‌روزرسانی شد. این مدل از ترکیب DeepSeek-V2-Chat و DeepSeek-Coder-V2-Instruct ساخته شد.

M I R A S · 8/12/25

V3

در دسامبر ۲۰۲۴، شرکت دیپ‌سیک یک مدل پایه DeepSeek-V3-Base و یک مدل چت DeepSeek-V3 منتشر کرد. معماری مدل اساساً همانند نسخه V2 است. این مدل‌ها به این شکل آموزش داده شدند:[۳۱]

پیش‌آموزش بر روی ۱۴٫۸ تریلیون توکن از یک پیکره چندزبانه، عمدتاً انگلیسی و چینی. نسبت محتوای ریاضی و برنامه‌نویسی در این مجموعه بیشتر از دیتاست پیش‌آموزش نسخه V2 بود.
افزایش طول متن در دو مرحله از ۴هزار به ۳۲هزار و سپس به ۱۲۸هزار با استفاده از YaRN.[۳۲] این کار منجر به تولید DeepSeek-V3-Base شد.

M I R A S · 8/12/25

3. آموزش تنظیم دقیق نظارت‌شده به مدت ۲ دوره[ر] بر روی ۱٫۵ میلیون نمونه داده استدلالی (ریاضی، برنامه‌نویسی، منطق) و غیر استدلالی (نوشتار خلاقانه، نقش‌آفرینی، پرسش‌وپاسخ ساده). داده‌های استدلالی توسط «مدل‌های متخصص» [ز]تولید شد. داده‌های غیر استدلالی توسط DeepSeek-V2.5 ایجاد و سپس توسط انسان‌ها بازبینی شد.

«مدل‌های متخصص» با شروع از یک مدل پایه نامشخص، و سپس آموزش نظارت‌شده بر داده‌هایی با قالب <مسئله، پاسخ اصلی> و داده‌های مصنوعی با قالب <پرسش از سیستم، مسئله، پاسخ R1> تولیدشده توسط مدل داخلی DeepSeek-R1 ساخته شدند. در اعلان سیستمی، به R1 دستور داده می‌شد در حین تفکر، بازخورد و بررسی داشته باشد. سپس مدل‌های متخصص با استفاده از RL و تابع پاداش نامشخصی تقویت شدند.
هر مدل متخصص...

M I R A S · 8/12/25

4. مدل‌های پاداش مبتنی بر مدل[ژ] با شروع از یک نقطه بازرسی[س] آموزش نظارت‌شده V3 و سپس تنظیم دقیق روی داده‌های ترجیح انسانی[ش] حاوی هر دو پاداش نهایی و زنجیره تفکر منجر به آن پاداش، ساخته شدند. مدل پاداش برای پرسش‌هایی با پاسخ عینی اما آزاد و همچنین برای پرسش‌هایی بدون پاسخ عینی (مانند نوشتار خلاقانه) سیگنال پاداش تولید می‌کرد.

5. یک نقطه بازرسی آموزش نظارت‌شده از V3 با استفاده از روش جی‌آرپی‌او و بهره‌گیری از هر دو مدل پاداش و پاداش مبتنی بر قواعد[ص] آموزش دید. پاداش مبتنی بر قواعد برای مسائل ریاضی از طریق پاسخ نهایی (درون یک کادر)، و برای مسائل برنامه‌نویسی از طریق آزمون واحد محاسبه می‌شد. این روند منجر به تولید DeepSeek-V3 شد.

M I R A S · 8/12/25

[۳۳]NameParamsActive params{\displaystyle n_{\text{layers}}}

$n_{\text{layers}}$

Context length{\displaystyle n_{\text{shared experts}}} {\displaystyle n_{\text{routed experts}}}

V3

671B

37B

۶۱

128K

۱

۲۵۶

برای دستیابی به کارایی بالاتر، مهندسی در سطح پایین را به‌شکل گسترده انجام شد. آنها از محاسبات با دقت‌های ناهمگون استفاده کردند. بخش زیادی از مرحله روبه‌جلو (پیشخور) بجای قالب استاندارد ۳۲ بیتی، از اعداد ممیز شناور ۸ بیتی با قالب 5E2M (توان ۵ بیتی و ضریب علمی ۲ بیتی) انجام...

M I R A S · 8/12/25

هزینه آموزش مدل دیپ‌سیک-V3[۳۱]مرحلههزینه (در هر هزار ساعت-GPU)هزینه (بر حسب میلیون دلار آمریکا)


پیش‌آموزش	۲٬۶۶۴	۵٫۳۲۸
افزایش طول متن	۱۱۹	۰٫۲۴
تنظیم دقیق	۵	۰٫۰۱
کل هزینه	۲٬۷۸۸	۵٫۵۷۶

آزمون‌های بنچمارک نشان می‌دهد که دیپ‌سیک-V3 از لاما نسخه ۳٫۱ و کوئن نسخه ۲٫۵ پیشی می‌گیرد و در حد جی‌پی‌تی ۴او و کلود نسخه ۳٫۵ سونت عمل می‌کند.[

معرفی | هوش مصنوعی دیپ‌سیک

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

موضوعات مشابه