معرفی | هوش مصنوعی دیپ‌سیک

M I R A S · 8/12/25

R1

در تاریخ ۲۰ نوامبر ۲۰۲۴، مدل DeepSeek-R1-Lite-Preview از طریق واسط برنامه‌نویسی کاربردی دیپ‌سیک در دسترس قرار گرفت.[۳۷] این مدل برای استنتاج منطقی، استدلال ریاضی و حل مسائل در زمان واقعی آموزش داده شده بود. شرکت دیپ‌سیک ادعا کرد که این مدل در آزمون‌های معیاری مانند آزمون ریاضی دعوتی آمریکا (AIME) و MATH عملکرد بهتری نسبت به مدل OpenAI o1 داشته است.[۳۸] با این حال، نشریه وال استریت ژورنال گزارش داد که هنگام بررسی ۱۵ مسئله از نسخه ۲۰۲۴ آزمون AIME، مدل o1 سریع‌تر از DeepSeek-R1-Lite-Preview به پاسخ صحیح رسید.

M I R A S · 8/12/25

در تاریخ ۲۰ ژانویه ۲۰۲۵، دو مدل DeepSeek-R1 و DeepSeek-R1-Zero منتشر شدند.[۴۰] هر دو مدل ادامه آموزش بر روی DeepSeek-V3-Base بودند و از همان معماری بهره می‌برند. علاوه بر این، شرکت دیپ‌سیک مدل‌های DeepSeek-R1-Distill را نیز منتشر کرد که برخلاف مدل‌های اصلی، از V3-Base اولیه‌سازی نشده‌اند، بلکه از مدل‌های با وزن بازمانند لاما و کوئن اولیه‌سازی شده و سپس با داده‌های مصنوعی تولیدشده توسط R1 تنظیم دقیق شده‌اند.

قالب ورودی برای DeepSeek-R1-Zeroمکالمه‌ای بین کاربر و دستیار. کاربر یک پرسش مطرح می‌کند و دستیار آن را حل می‌کند. ابتدا، دستیار فرایند استدلال را در ذهن خود بررسی کرده و سپس پاسخ را ارائه می‌دهد. فرایند استدلال و پاسخ درون برچسب‌های و قرار می‌گیرند، به این صورت: فرایند...

M I R A S · 8/12/25

مدل DeepSeek-R1-Zero به‌طور انحصاری با استفاده از تقویت یادگیری با استفاده از جی‌آرپی‌او - آر اِل[ط] آموزش داده شد و از تنظیم دقیق نظارت‌شده استفاده نکرد. برخلاف نسخه‌های قبلی، این مدل از پاداش مبتنی بر مدل استفاده نکرده و تمام تابع‌های پاداش به‌صورت قانون‌محور بودند. دو نوع اصلی از پاداش‌ها وجود داشت (سایر انواع مشخص نشده‌اند):پاداش دقت و پاداش قالب‌بندی (فرمت).

پاداش دقت بررسی می‌کرد آیا پاسخ ارائه‌شده در جعبه پاسخ صحیح است (برای مسائل ریاضی) یا آیا کد نوشته‌شده آزمون‌ها را با موفقیت پشت سر گذاشته است (برای برنامه‌نویسی).

پاداش قالب‌بندی که بررسی می‌کرد آیا مدل فرایند فکری خود را درون برچسب‌های ! ink | ... قرار داده است یا خیر.

M I R A S · 8/12/25

از آنجا که مدل DeepSeek-R1-Zero در خوانایی و انسجام زبانی مشکلاتی داشت، مدل R1 برای برطرف کردن این مشکلات و بهبود استدلال آموزش داده شد:[۴۱]

اجرای تنظیم دقیق نظارت‌شده بر روی مدل DeepSeek-V3-Base با استفاده از هزاران دادهٔ «آغاز سرد» که همگی در قالب استاندارد |special_token|<reasoning_process>|special_token|summary> بودند.
به‌کارگیری فرایند تقویت یادگیری مشابه با R1-Zero، اما همراه با پاداش انسجام زبانی برای تشویق پاسخ‌دهی به‌صورت تک‌زبانه. این فرایند یک مدل داخلی تولید کرد که منتشر نشد.
تولید ۶۰۰ هزار نمونه دادهٔ استدلالی مصنوعی از مدل داخلی، با نمونه‌گیری رد شده (rejection sampling) (یعنی اگر پاسخ نهایی استدلال اشتباه بود، نمونه حذف می‌شد). همچنین، ۲۰۰ هزار دادهٔ غیر...

M I R A S · 8/12/25

ارزیابی و واکنش‌ها

دیپ‌سیک نسخه دستیار هوش مصنوعی خود را منتشر کرد که از مدل V3 به‌عنوان یک چت‌بات برای آی‌اواس و اندروید بهره می‌برد. تا ۲۷ ژانویهٔ ۲۰۲۵، این اپلیکیشن در اَپ‌استور ایالات متحده از چت‌جی‌پی‌تی پیشی گرفت و بالاترین امتیاز را در میان اپلیکیشن‌های رایگان کسب کرد. گفته می‌شود چت‌بات آن بر اساس آزمون‌های مرجع مورد استفاده شرکت‌های هوش مصنوعی آمریکایی می‌تواند در حد سایر چت‌بات‌های موجود در بازار به پرسش‌ها پاسخ دهد، مسائل منطقی را حل کند و برنامه‌های کامپیوتری بنویسد.

DeepSeek-V3 در مقایسه با همتایان خود به‌طور قابل‌توجهی از منابع کمتری استفاده می‌کند. برای نمونه، در حالی که شرکت‌های پیشروی هوش مصنوعی جهان، چت‌بات‌هایشان را در ابررایانه‌ها با استفاده از نزدیک به...

M I R A S · 8/12/25

عملکرد رقابتی دیپ‌سیک با هزینه نسبتاً پایین، به عنوان عاملی که ممکن است سلطه جهانی مدل‌های هوش مصنوعی آمریکایی را به چالش بکشد، شناخته شده است.[۴۲] نشریات و رسانه‌های مختلف، نظیر هیل و گاردین، انتشار این چت‌بات را «لحظه اسپوتنیک» برای هوش مصنوعی آمریکا توصیف کردند.[۴۳][۴۴] گفته می‌شود عملکرد مدل R1 این شرکت، در کارهایی مانند ریاضیات، کدنویسی و استدلال زبان طبیعی، «هم‌سطح با» یکی از جدیدترین مدل‌های اوپن‌ای‌آی است[۴۵] و به نقل از دیگر مفسران، سرمایه‌گذار خطرپذیر سیلیکون‌ولی آمریکا، مارک آندرسن هم R1 را «لحظه اسپوتنیک هوش مصنوعی» توصیف کرده است.[۴۵]

بنیان‌گذار دیپ‌سیک، لیانگ ونفِنگ، با مدیرعامل سم آلتمن در اوپن‌ای‌آی مقایسه شده است. سی‌ان‌ان او را سم آلتمن چین و مبلّغ هوش مصنوعی خوانده...

M I R A S · 8/12/25

بهینه‌سازی منابع محدود در دیپ‌سیک، محدودیت‌های بالقوه تحریم‌های آمریکا علیه توسعه هوش مصنوعی چین را برجسته کرده است که شامل محدودیت‌های صادراتی بر تراشه‌های پیشرفته هوش مصنوعی به چین می‌شود. موفقیت مدل‌های هوش مصنوعی این شرکت به‌دنبال آن «آشفتگی در بازار» به وجود آورد و باعث سقوط سهام شرکت‌های بزرگ فناوری در ۲۷ ژانویه شد: سهام انویدیا تا حدود ۱۷–۱۸٪ افت کرد و سهام رقیبش برودکام نیز به همین سرنوشت دچار شد. دیگر شرکت‌های فناوری نیز سقوط کردند، از جمله مایکروسافت (۲٫۵٪ کاهش)، شرکت مادر گوگل یعنی آلفابت (بیش از ۴٪ کاهش) و سازنده هلندی تجهیزات تراشه ای‌اس‌ام‌ال (بیش از ۷٪ کاهش). فروش گسترده سهام شرکت‌های فناوری در نزدک، که با انتشار مدل R1 آغاز شد، منجر به زیان بی‌سابقه در حدود ۵۹۳ میلیارد...

M I R A S · 8/12/25

چهره‌های برجسته حوزه هوش مصنوعی در آمریکا نسبت به موفقیت و عملکرد دیپ‌سیک واکنش‌های متفاوتی نشان دادند. مدیرعامل مایکروسافت، ساتیا نادلا، و سم آلتمن (مدیرعامل اوپن‌ای‌آی) — که شرکت‌هایشان در «پروژه استارگیت» مورد پشتیبانی دولت آمریکا برای توسعه زیرساخت هوش مصنوعی این کشور مشارکت دارند — هر دو دیپ‌سیک را «فوق‌العاده چشمگیر» خواندند. رئیس‌جمهور آمریکا، دونالد ترامپ، که پروژه استارگیت را اعلام کرده بود، دیپ‌سیک را زنگ بیدارباش و تحولی مثبت توصیف کرد. دیگر رهبران این حوزه، از جمله مدیرعامل Scale AI الکساندر وانگ، یکی از بنیان‌گذاران و مدیرعامل آنتروپیک داریو آمودی، و ایلان ماسک نسبت به عملکرد این اپلیکیشن یا پایداری موفقیتش ابراز تردید کردند. شرکت‌های مختلفی از جمله سرویس‌های وب آمازون،...

M I R A S · 8/12/25

سانسور

برخی منابع مشاهده کرده‌اند که نسخه رسمی API مدل R۱ دارای مکانیسم‌های سانسور در موضوعات حساس، به‌ویژه موضوعاتی که برای دولت جمهوری خلق چین حساسیت دارند، است. برای نمونه، مدل از پاسخ‌دادن دربارهٔ اعتراضات میدان تیان‌آن‌من ۱۹۸۹، آزار اویغورها یا نقض حقوق بشر در چین امتناع می‌کند. گاهی هوش مصنوعی در ابتدا پاسخی تولید می‌کند، اما اندکی بعد آن را پاک کرده و با پیامی نظیر «متأسفم، این فراتر از حیطه فعلی من است. بیایید دربارهٔ چیز دیگری صحبت کنیم.» جایگزین می‌کند. محدودیت‌ها و مکانیسم‌های سانسور در نسخه متن‌باز مدل R۱ فقط تا حدی قابل حذف هستند و به‌محض تماس با «ارزش‌های سوسیالیستی پایه» تعیین‌شده توسط نهادهای ناظر اینترنتی چین یا مثلاً مطرح‌شدن وضعیت سیاسی تایوان، گفت‌وگو متوقف...

M I R A S · 8/12/25

یادداشت‌ها

↑ High-Flyer
↑ DeepSeek Coder
↑ DeepSeek Chat
↑ DeepSeek LLM
↑ DeepSeek Coder
↑ Context length: The length of token array (not words)
↑ Supervised finetuning (SFT)
↑ rotary positional embedding
↑ Common Crawl
↑ DeepSeek-Math
↑ group relative policy optimization (GRPO)
↑ epoch
↑ expert models
↑ Model-based reward models
↑ Checkpoint
↑ Human preference
↑ rule-based reward
↑ Optimizer states
↑ GRPO RL
↑ Distilled

منبع: ویکی پدیا

معرفی | هوش مصنوعی دیپ‌سیک

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

M I R A S

امضا : M I R A S

موضوعات مشابه