• لازم به ذکر هست کلیه مطالب قرار داده شده در تالار ( اخبار و حقوق) و چه در مواردی که در تالار (دانلود نرم افزار های کامپیوتر) از دیگر منابع بوده و کاربران یک رمان جهت راحتی دیگر افراد موجود در انجمن اقدام به قرار دادن اخبار و نرم افزار نموده اند و اگر شما صاحب امتیاز این نرم افزار هستید کافی هست با ما تماس بگیرید

معرفی معرفی | هوش مصنوعی دیپ‌سیک

M I R A S

سرپرست کامپیوتر + شاعر انجمن + مدیر آزمایشی شعر
پرسنل مدیریت
سرپرست تالار
تاریخ ثبت‌نام
13/2/21
ارسالی‌ها
3,203
پسندها
8,398
امتیازها
36,273
مدال‌ها
43
سن
23
سطح
22
 
  • نویسنده موضوع
  • مدیر
  • #21
متخصصان این شرکت یادگیری تقویتی دو مرحله‌ای را انتخاب کردند، زیرا دریافتند که RL بر روی داده‌های استدلالی دارای «ویژگی‌های منحصربه‌فردی» است که با RL بر روی داده‌های عمومی متفاوت است. به‌عنوان مثال، RL بر روی استدلال می‌تواند با تعداد بیشتری از مراحل آموزش بهبود یابد.

دو مدل V2-Lite کوچک‌تر بودند و به‌طور مشابه آموزش داده شدند، با این حال، مدل DeepSeek-V2-Lite-Chat تنها تحت پردازش تنظیم دقیق نظارت‌شده قرار گرفت و نه RL. در ادامه، نسخه Lite را برای کمک به "تحقیقات و توسعه بیشتر در مورد MLA و DeepSeekMoE" آموزش دادند.
 
امضا : M I R A S

M I R A S

سرپرست کامپیوتر + شاعر انجمن + مدیر آزمایشی شعر
پرسنل مدیریت
سرپرست تالار
تاریخ ثبت‌نام
13/2/21
ارسالی‌ها
3,203
پسندها
8,398
امتیازها
36,273
مدال‌ها
43
سن
23
سطح
22
 
  • نویسنده موضوع
  • مدیر
  • #22
از نظر معماری، مدل‌های V2 نسبت به سری قبلی ال‌ال‌ام دیپ‌سیک تغییر قابل‌توجهی یافته بودند. آن‌ها مکانیزم توجه استاندارد را با یک تقریب رتبه پایین به نام توجه نهفته چندسری (MLA) تغییر دادند و از ترکیب متخصصان (MoE) که قبلاً در ژانویه منتشر شده بود، استفاده کردند. در مقایسه با MoE استاندارد با دروازه‌گذاری پراکنده، این مدل‌های مشتق شده دارای یک "متخصص مشترک" هستند که همیشه مورد پرسش قرار می‌گیرند و دیگر "متخصصان مسیردهی‌شده"، که ممکن است همیشه مورد پرسش قرار نگیرند.
 
امضا : M I R A S

M I R A S

سرپرست کامپیوتر + شاعر انجمن + مدیر آزمایشی شعر
پرسنل مدیریت
سرپرست تالار
تاریخ ثبت‌نام
13/2/21
ارسالی‌ها
3,203
پسندها
8,398
امتیازها
36,273
مدال‌ها
43
سن
23
سطح
22
 
  • نویسنده موضوع
  • مدیر
  • #23
ویژگی‌های DeepSeek V2نامپارامترهاپارامترهای فعال{\displaystyle n_{\text{layers}}}
{\displaystyle n_{\text{layers}}}
طول بافت{\displaystyle n_{\text{shared experts}}} {\displaystyle n_{\text{routed experts}}}
V2-Lite۱۵٫۷ میلیارد۲٫۴ میلیارد۲۷۳۲ هزار۲۶۴
V2۲۳۶ میلیارد۲۱ میلیارد۶۰۱۲۸ هزار۲۱۰۸
فایننشال تایمز گزارش داد که این مدل در مقایسه با همتایان خود ارزان‌تر است و قیمت آن ۲ یوان برای هر میلیون توکن خروجی...
لطفا برای مشاهده کامل مطالب در انجمن ثبت نام کنید.
 
امضا : M I R A S

M I R A S

سرپرست کامپیوتر + شاعر انجمن + مدیر آزمایشی شعر
پرسنل مدیریت
سرپرست تالار
تاریخ ثبت‌نام
13/2/21
ارسالی‌ها
3,203
پسندها
8,398
امتیازها
36,273
مدال‌ها
43
سن
23
سطح
22
 
  • نویسنده موضوع
  • مدیر
  • #24
در ژوئن ۲۰۲۴، آن‌ها ۴ مدل در سری DeepSeek-Coder-V2 منتشر کردند:

  • V2-Base
  • V2-Lite-Base
  • V2-Instruct
  • V2-Lite-Instruct.
این مدل‌ها به‌صورت زیر آموزش داده شده‌اند:

  1. مدل‌های Base از نقاط بازرسی میانی مربوط پس از پیش‌آموزش بر روی ۴٫۲ تریلیون توکن (نه نسخه در پایان پیش‌آموزش)، مقداردهی اولیه شدند، سپس بر روی ۶ تریلیون توکن دیگر پیش‌آموزش داده شدند، سپس طول متن به ۱۲۸ هزار افزایش یافت. این منجر به تولید مدل‌های Base شد.
 
امضا : M I R A S

M I R A S

سرپرست کامپیوتر + شاعر انجمن + مدیر آزمایشی شعر
پرسنل مدیریت
سرپرست تالار
تاریخ ثبت‌نام
13/2/21
ارسالی‌ها
3,203
پسندها
8,398
امتیازها
36,273
مدال‌ها
43
سن
23
سطح
22
 
  • نویسنده موضوع
  • مدیر
  • #25
۲. DeepSeek-Coder و DeepSeek-Math برای تولید ۲۰ هزار داده دستورالعمل مرتبط با کد و ۳۰ هزار داده دستورالعمل مرتبط با ریاضی استفاده شدند، سپس با یک مجموعه داده دستورالعمل ۳۰۰ میلیون توکنی ترکیب شدند. این مدل‌ها برای تنظیم دقیق نظارت‌شده استفاده شدند.

۳.RL با جی‌آرپی‌او. پاداش برای مسائل ریاضی با مقایسه با برچسب واقعی محاسبه شد. پاداش برای مسائل کد توسط یک مدل پاداش تولید شد که برای پیش‌بینی اینکه آیا یک برنامه تست‌های واحد را پاس می‌کند یا خیر، آموزش دیده بود.
DeepSeek-V2.5 در سپتامبر منتشر شد و در دسامبر به‌روزرسانی شد. این مدل از ترکیب DeepSeek-V2-Chat و DeepSeek-Coder-V2-Instruct ساخته شد.
 
امضا : M I R A S

M I R A S

سرپرست کامپیوتر + شاعر انجمن + مدیر آزمایشی شعر
پرسنل مدیریت
سرپرست تالار
تاریخ ثبت‌نام
13/2/21
ارسالی‌ها
3,203
پسندها
8,398
امتیازها
36,273
مدال‌ها
43
سن
23
سطح
22
 
  • نویسنده موضوع
  • مدیر
  • #26
V3

در دسامبر ۲۰۲۴، شرکت دیپ‌سیک یک مدل پایه DeepSeek-V3-Base و یک مدل چت DeepSeek-V3 منتشر کرد. معماری مدل اساساً همانند نسخه V2 است. این مدل‌ها به این شکل آموزش داده شدند:[۳۱]

  1. پیش‌آموزش بر روی ۱۴٫۸ تریلیون توکن از یک پیکره چندزبانه، عمدتاً انگلیسی و چینی. نسبت محتوای ریاضی و برنامه‌نویسی در این مجموعه بیشتر از دیتاست پیش‌آموزش نسخه V2 بود.
  2. افزایش طول متن در دو مرحله از ۴هزار به ۳۲هزار و سپس به ۱۲۸هزار با استفاده از YaRN.[۳۲] این کار منجر به تولید DeepSeek-V3-Base شد.
 
امضا : M I R A S

M I R A S

سرپرست کامپیوتر + شاعر انجمن + مدیر آزمایشی شعر
پرسنل مدیریت
سرپرست تالار
تاریخ ثبت‌نام
13/2/21
ارسالی‌ها
3,203
پسندها
8,398
امتیازها
36,273
مدال‌ها
43
سن
23
سطح
22
 
  • نویسنده موضوع
  • مدیر
  • #27
3. آموزش تنظیم دقیق نظارت‌شده به مدت ۲ دوره[ر] بر روی ۱٫۵ میلیون نمونه داده استدلالی (ریاضی، برنامه‌نویسی، منطق) و غیر استدلالی (نوشتار خلاقانه، نقش‌آفرینی، پرسش‌وپاسخ ساده). داده‌های استدلالی توسط «مدل‌های متخصص» [ز]تولید شد. داده‌های غیر استدلالی توسط DeepSeek-V2.5 ایجاد و سپس توسط انسان‌ها بازبینی شد.
  • «مدل‌های متخصص» با شروع از یک مدل پایه نامشخص، و سپس آموزش نظارت‌شده بر داده‌هایی با قالب <مسئله، پاسخ اصلی> و داده‌های مصنوعی با قالب <پرسش از سیستم، مسئله، پاسخ R1> تولیدشده توسط مدل داخلی DeepSeek-R1 ساخته شدند. در اعلان سیستمی، به R1 دستور داده می‌شد در حین تفکر، بازخورد و بررسی داشته باشد. سپس مدل‌های متخصص با استفاده از RL و تابع پاداش نامشخصی تقویت شدند.
  • هر مدل متخصص...
لطفا برای مشاهده کامل مطالب در انجمن ثبت نام کنید.
 
امضا : M I R A S

M I R A S

سرپرست کامپیوتر + شاعر انجمن + مدیر آزمایشی شعر
پرسنل مدیریت
سرپرست تالار
تاریخ ثبت‌نام
13/2/21
ارسالی‌ها
3,203
پسندها
8,398
امتیازها
36,273
مدال‌ها
43
سن
23
سطح
22
 
  • نویسنده موضوع
  • مدیر
  • #28
4. مدل‌های پاداش مبتنی بر مدل[ژ] با شروع از یک نقطه بازرسی[س] آموزش نظارت‌شده V3 و سپس تنظیم دقیق روی داده‌های ترجیح انسانی[ش] حاوی هر دو پاداش نهایی و زنجیره تفکر منجر به آن پاداش، ساخته شدند. مدل پاداش برای پرسش‌هایی با پاسخ عینی اما آزاد و همچنین برای پرسش‌هایی بدون پاسخ عینی (مانند نوشتار خلاقانه) سیگنال پاداش تولید می‌کرد.

5. یک نقطه بازرسی آموزش نظارت‌شده از V3 با استفاده از روش جی‌آرپی‌او و بهره‌گیری از هر دو مدل پاداش و پاداش مبتنی بر قواعد[ص] آموزش دید. پاداش مبتنی بر قواعد برای مسائل ریاضی از طریق پاسخ نهایی (درون یک کادر)، و برای مسائل برنامه‌نویسی از طریق آزمون واحد محاسبه می‌شد. این روند منجر به تولید DeepSeek-V3 شد.
 
امضا : M I R A S

M I R A S

سرپرست کامپیوتر + شاعر انجمن + مدیر آزمایشی شعر
پرسنل مدیریت
سرپرست تالار
تاریخ ثبت‌نام
13/2/21
ارسالی‌ها
3,203
پسندها
8,398
امتیازها
36,273
مدال‌ها
43
سن
23
سطح
22
 
  • نویسنده موضوع
  • مدیر
  • #29
[۳۳]NameParamsActive params{\displaystyle n_{\text{layers}}}
{\displaystyle n_{\text{layers}}}
Context length{\displaystyle n_{\text{shared experts}}} {\displaystyle n_{\text{routed experts}}}
V3671B37B۶۱128K۱۲۵۶
برای دستیابی به کارایی بالاتر، مهندسی در سطح پایین را به‌شکل گسترده انجام شد. آنها از محاسبات با دقت‌های ناهمگون استفاده کردند. بخش زیادی از مرحله روبه‌جلو (پیشخور) بجای قالب استاندارد ۳۲ بیتی، از اعداد ممیز شناور ۸ بیتی با قالب 5E2M (توان ۵ بیتی و ضریب علمی ۲ بیتی) انجام...
لطفا برای مشاهده کامل مطالب در انجمن ثبت نام کنید.
 
امضا : M I R A S

M I R A S

سرپرست کامپیوتر + شاعر انجمن + مدیر آزمایشی شعر
پرسنل مدیریت
سرپرست تالار
تاریخ ثبت‌نام
13/2/21
ارسالی‌ها
3,203
پسندها
8,398
امتیازها
36,273
مدال‌ها
43
سن
23
سطح
22
 
  • نویسنده موضوع
  • مدیر
  • #30
هزینه آموزش مدل دیپ‌سیک-V3[۳۱]مرحلههزینه (در هر هزار ساعت-GPU)هزینه (بر حسب میلیون دلار آمریکا)
پیش‌آموزش۲٬۶۶۴۵٫۳۲۸
افزایش طول متن۱۱۹۰٫۲۴
تنظیم دقیق۵۰٫۰۱
کل هزینه۲٬۷۸۸۵٫۵۷۶
آزمون‌های بنچمارک نشان می‌دهد که دیپ‌سیک-V3 از لاما نسخه ۳٫۱ و کوئن نسخه ۲٫۵ پیشی می‌گیرد و در حد جی‌پی‌تی ۴او و کلود نسخه ۳٫۵ سونت عمل می‌کند.[
 
امضا : M I R A S
عقب
بالا