- تاریخ ثبتنام
- 13/2/21
- ارسالیها
- 3,203
- پسندها
- 8,398
- امتیازها
- 36,273
- مدالها
- 43
- سن
- 23
سطح
22
- نویسنده موضوع
- مدیر
- #21
متخصصان این شرکت یادگیری تقویتی دو مرحلهای را انتخاب کردند، زیرا دریافتند که RL بر روی دادههای استدلالی دارای «ویژگیهای منحصربهفردی» است که با RL بر روی دادههای عمومی متفاوت است. بهعنوان مثال، RL بر روی استدلال میتواند با تعداد بیشتری از مراحل آموزش بهبود یابد.
دو مدل V2-Lite کوچکتر بودند و بهطور مشابه آموزش داده شدند، با این حال، مدل DeepSeek-V2-Lite-Chat تنها تحت پردازش تنظیم دقیق نظارتشده قرار گرفت و نه RL. در ادامه، نسخه Lite را برای کمک به "تحقیقات و توسعه بیشتر در مورد MLA و DeepSeekMoE" آموزش دادند.
دو مدل V2-Lite کوچکتر بودند و بهطور مشابه آموزش داده شدند، با این حال، مدل DeepSeek-V2-Lite-Chat تنها تحت پردازش تنظیم دقیق نظارتشده قرار گرفت و نه RL. در ادامه، نسخه Lite را برای کمک به "تحقیقات و توسعه بیشتر در مورد MLA و DeepSeekMoE" آموزش دادند.