مدل تازه DeepSeek با بهبودهای دیدنی به‌روز شد؛ چالشی تازه برای رقبا

[ad_1]
به گزارش خبرخوان

شرکت چینی DeepSeek که با اراعه نسخه اولیه مدل استدلالی R1 توانسته می بود سروصدای بسیاری بکند، از مدل‌ متن‌باز جدیدی با گفتن DeepSeek-R1-0528 رونمایی کرده که قابلیت‌های آن در استدلال به اندازه بسیاری ارتقا یافته است. از نظر کارکرد، این مدل به o3 از OpenAI و گوگل جمینای ۲.۵ پرو نزدیک‌تر شده است.

مطابق اطلاعات انتشار شده درمورد این مدل، کارکرد DeepSeek-R1-0528 در حوزه‌هایی همانند ریاضیات، علوم و برنامه‌نویسی به‌شکل محسوسی بهبود یافته است.

بر پایه اطلاعات مدل منتشرشده در پلتفرم هاگینگ‌فیس، DeepSeek-R1-0528 با منفعت گیری از منبع های محاسباتی زیاد تر و بهینه‌سازی‌های الگوریتمی بعد از آموزش، بهبودهای چشمگیری در کارکرد نشان داده است. به‌گفتن نمونه، دقت مدل در آزمون AIME 2025 از ۷۰ به ۸۷.۵ درصد رسیده و در حوزه برنامه‌نویسی کارکرد مدل در بنچ‌مارک LiveCodeBench از ۶۳.۵ به ۷۳.۳ درصد افزایش یافته است. در آزمون دشوار Humanity’s Last Exam نیز دقت آن از ۸.۵ به ۱۷.۷ درصد رسیده است.

مدل تازه DeepSeek با بهبودهای دیدنی به‌روز شد؛ چالشی تازه برای رقبا_خبرخوان ۴

نسخه کوچک‌تر مدل تازه DeepSeek

هم‌زمان با نسخه مهم، مدل کوچک‌تری با نام DeepSeek-R1-0528-Qwen3-8B نیز معارفه شده که برای اجرا در سخت‌افزارهای ضعیف‌تر مناسب است. کارکرد این مدل از Qwen3-8B بهتر بوده و با Qwen3-235B-thinking برابری می‌کند. اجرای این مدل ۸ میلیارد پارامتری در حالت FP16 حداقل به ۱۶ گیگابایت حافظه گرافیکی نیاز دارد.

همانند نسخه قبلی، این مدل متن‌باز و تحت مجوز MIT انتشار شده و برای منفعت گیری تجاری نیز دردسترس است. نسخه کامل مدل در پلتفرم Hugging Face بارگذاری شده و مستندات کامل آن نیز از گیت‌هاب و API اختصاصی DeepSeek در دسترس گسترش‌دهندگان قرار گرفته است. کاربران API دیپ‌سیک نیز خودکار به این نسخه ارتقا اشکار می‌کنند.

کاربران در شبکه‌های اجتماعی انتشار کردن این نسخه با استقبال است. کاربری با نام Haider در ایکس، کارکرد مدل را در برنامه‌نویسی بسیار توصیف کرده و آن را تنها رقیب جدی o3 دانسته است. کاربر فرد دیگر با نام Lisan al Gaib نیز DeepSeek را رقیب مستقیم o3 و Gemini معارفه کرده است.

دسته بندی مطالب
اخبار کسب وکار

[ad_2]