کشف انقلابی در هوش مصنوعی

مدل‌های زبانی بزرگ بجای داده‌های حجیم می‌توانند از داده‌های با کیفیت استفاده کنند

محققان دانشگاه جیاوتونگ شانگهای به کشفی هیجان‌انگیز در حوزه هوش مصنوعی دست یافته‌اند که می‌تواند قوانین بازی در توسعه مدل‌های زبانی بزرگ (LLMs) را تغییر دهد. بر اساس این تحقیق، مدل‌های زبانی بزرگ می‌توانند وظایف پیچیده استدلالی را با استفاده از مجموعه‌ای کوچک، اما باکیفیت بالا از داده‌ها یاد بگیرند و نیازی به داده‌های حجیم ندارند.

تاکنون تصور می‌شد که آموزش مدل‌های زبانی برای انجام وظایف پیچیده، مانند حل مسائل ریاضی یا منطقی، مستلزم دسترسی به داده‌های عظیم و منابع محاسباتی گران‌قیمت است. اما این تحقیق نشان می‌دهد که حتی با چند صد مثال خوب طراحی‌شده، می‌توان این مدل‌ها را برای انجام وظایف پیشرفته آموزش داد. این رویکرد که تحت عنوان «کمتر بیشتر است» (Less is More, LIMO) شناخته می‌شود، می‌تواند سازمان‌ها و شرکت‌های کوچک‌تر را قادر سازد تا بدون نیاز به منابع مالی و فنی عظیم، مدل‌های هوش مصنوعی اختصاصی خود را توسعه دهند.

چرا این کشف مهم است؟
این پیشرفت می‌تواند تحولی بزرگ در نحوه استفاده از هوش مصنوعی در سازمان‌ها ایجاد کند. تاکنون، سفارشی‌سازی مدل‌های زبانی برای وظایف استدلالی نیازمند دسترسی به منابع گران‌قیمت و داده‌های عظیم بود. اما با رویکرد LIMO، شرکت‌ها می‌توانند با استفاده از داده‌های کم‌حجم، اما باکیفیت، مدل‌های اختصاصی خود را توسعه دهند. این موضوع به‌ویژه برای شرکت‌های کوچک‌تر و متوسط که به منابع محدودی دسترسی دارند، بسیار جذاب است.
محققان در آزمایش‌های خود نشان دادند که مدل‌های زبانی بزرگ در مرحله پیش‌آموزش (pre-training) حجم عظیمی از دانش ریاضی و منطقی را در پارامتر‌های خود ذخیره می‌کنند. این دانش ذاتی به آنها اجازه می‌دهد تا با استفاده از تعداد کمی از نمونه‌های آموزشی کیفیت بالا، توانایی‌های استدلالی خود را فعال کنند.
علاوه بر این، استفاده از تکنیک‌های جدید پس‌آموزش (post-training) مانند ایجاد زنجیره‌های استدلالی طولانی‌تر (Chain-of-Thought) به مدل‌ها اجازه می‌دهد تا بیشتر فکر کنند و دانش پیش‌آموزشی خود را به‌طور موثرتری به کار بگیرند.

عملکرد فوق‌العاده با داده‌های کم
در گزارشی که VentureBeat منتشر کرده است، محققان در آزمایش‌های خود مجموعه داده‌ای به نام LIMO را برای وظایف ریاضی پیچیده ایجاد کردند که تنها شامل چند صد مثال آموزشی بود. مدلی که بر اساس این داده‌ها آموزش دید، توانست در تست‌های چالش‌برانگیزی مانند AIME و MATH عملکردی برجسته از خود نشان دهد: 

۵۷٫۱٪ دقت در AIME: یکی از سخت‌ترین بنچمارک‌های ریاضی.

 ۹۴٫۸٪ دقت در MATH: بهتر از مدل‌هایی که با صد‌ها هزار مثال آموزش دیده‌اند.

جالب‌تر اینکه، این مدل حتی در تست‌هایی که داده‌های آنها کاملاً متفاوت از داده‌های آموزشی بودند، عملکرد خوبی داشت. برای مثال: در OlympiadBench (بنچمارک علمی المپیاد)، عملکرد بهتری از مدل‌های مشابه داشت.

در GPQA (یکی از چالش‌برانگیزترین تست‌ها)، دقتی معادل ۶۶٫۷٪ کسب کرد که نزدیک به نمره برتر مدل‌هایی مانند OpenAI o۱-preview (۷۳٫۳٪) بود.

محققان دو دلیل اصلی برای موفقیت این رویکرد شناسایی کرده‌اند. دانش ذاتی مدل‌ها؛ مدل‌های زبانی بزرگ در مرحله پیش‌آموزش، حجم زیادی از دانش ریاضی و منطقی را یاد می‌گیرند. این دانش می‌تواند با استفاده از نمونه‌های آموزشی کیفیت بالا فعال شود. همچنین زنجیره‌های استدلالی طولانی؛ اجازه دادن به مدل‌ها برای ایجاد زنجیره‌های استدلالی طولانی‌تر، به آنها کمک می‌کند تا دانش پیش‌آموزشی خود را به‌طور مؤثرتری به کار بگیرند.
محققان کد و داده‌های مورد استفاده در این تحقیق را به‌صورت عمومی منتشر کرده‌اند تا سایر محققان و توسعه‌دهندگان بتوانند از این رویکرد استفاده کنند. آنها همچنین برنامه‌ریزی کرده‌اند تا این مفهوم را به حوزه‌های دیگری مانند پزشکی، حقوق و علوم اجتماعی گسترش دهند.
این کشف نشان می‌دهد که برای آموزش مدل‌های هوش مصنوعی پیشرفته، حجم عظیمی از داده‌ها لازم نیست. با انتخاب دقیق داده‌ها و استفاده از تکنیک‌های نوین آموزش، می‌توان به نتایج فوق‌العاده‌ای دست یافت. این پیشرفت نه تنها هزینه‌ها را کاهش می‌دهد، بلکه دروازه‌های جدیدی را برای توسعه هوش مصنوعی در سطح جهانی باز می‌کند.

source

توسط argbod.ir

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *