آغاز شمارش معکوس تا AGI؟

در ماه‌های اخیر، مدیران عامل شرکت‌های پیشروی حوزه هوش مصنوعی، اعتماد به نفس بیشتری نسبت به پیشرفت سریع این فناوری پیدا کرده‌اند. سم آلتمن از OpenAI از اینکه در نوامبر گفته بود «نرخ پیشرفت همچنان ادامه دارد»، به این نقطه رسید که در ژانویه اعلام کند «اکنون مطمئن هستیم که می‌دانیم چگونه AGI را بسازیم». داریو آمودی از Anthropic در ژانویه گفت: «از هر زمان دیگری مطمئن‌ترم که به توانایی‌های قدرتمند نزدیک هستیم… طی ۲ تا ۳ سال آینده.» دمیس هسابیس از گوگل دیپ‌مایند گفت: از اینکه در پاییز گفته بود AGI ممکن است «تا ۱۰سال آینده» محقق شود، در ژانویه به این دیدگاه رسید که «احتمالا سه تا پنج سال دیگر باقی مانده است». چه چیزی این تغییر نگرش را توضیح می‌دهد؟ آیا این فقط هیاهو است یا واقعا ممکن است تا سال ۲۰۲۸ به هوش عمومی مصنوعی دست پیدا کنیم؟ در این گزارش، «بنجامین تاد» به بررسی عوامل پیشرفت اخیر می‌پردازد و برآورد می‌کند که این عوامل تا چه حد می‌توانند ادامه پیدا کنند و توضیح می‌دهد چرا به‌ احتمال زیاد این روند حداقل چهار سال دیگر ادامه خواهد داشت.
به گزارش اقتصاددان به نقل از جهان‌صنعت ،   به طور خاص، در حالی که در سال ۲۰۲۴ پیشرفت در چت‌بات‌های مدل‌های زبانی بزرگ (LLM) به نظر می‌رسید کند شده باشد، یک رویکرد جدید شروع به اثربخشی کرد؛ آموزش مدل‌ها برای استدلال از طریق یادگیری تقویتی. تنها در یک سال، این روش باعث شد که مدل‌ها از دکترهای انسانی در پاسخ‌ دادن به سوالات سخت علمی و منطقی پیشی بگیرند و در انجام وظایف برنامه‌نویسی یک‌ساعته به سطح کارشناسی برسند. نمی‌دانیم هوش مصنوعی تا چه حد می‌تواند قدرتمند شود اما با برون‌یابی نرخ پیشرفت‌های اخیر می‌توان پیش‌بینی کرد که تا سال ۲۰۲۸ ممکن است به مدل‌هایی برسیم که دارای توانایی استدلال فراتر از انسان، دانش کارشناسی در تمام حوزه‌ها و توانایی انجام پروژه‌های چند هفته‌ای به‌صورت خودکار هستند و احتمالا این روند همچنان ادامه خواهد یافت.
دیگر تنها «چت‌بات»ها نیستند بلکه این مدل‌های «عامل‌محور» نیز ممکن است به‌زودی با بسیاری از تعاریف موجود از هوش عمومی مصنوعی (AGI) همخوانی داشته باشند، یعنی سیستم‌های هوش مصنوعی که در بیشتر کارهای دانشی، عملکردی در سطح انسان دارند. این یعنی با وجود اینکه احتمالا مدیران شرکت‌ها بیش از حد خوش‌بین هستند، شواهد کافی وجود دارد که دیدگاه‌شان را باید بسیار جدی گرفت. در نهایت، اینکه خط تفکیک AGI را کجا بکشیم، امری نسبتا دل‌بخواهی است. چیزی که اهمیت دارد این است که این مدل‌ها می‌توانند با باز کردن راه برای تعداد بسیار بیشتری از «کارگران هوش مصنوعی» با توانمندی‌های بالا باعث تسریع در خود پژوهش‌های مربوط به هوش مصنوعی شوند. به نوبه خود، اتوماسیون کافی می‌تواند موجب رشد انفجاری و فشرده ‌شدن ۱۰۰سال پیشرفت علمی در ۱۰سال شود؛ تحولی که جامعه برای آن آماده نیست. گرچه ممکن است این ایده عجیب یا دور از ذهن به نظر برسد اما در محدوده‌ای از امکان‌پذیری قرار دارد که بسیاری از کارشناسان آن را محتمل می‌دانند. این گزارش قصد دارد مقدمه‌ای برای درک چرایی این موضوع فراهم کند و همچنین بهترین استدلال‌هایی را که در مخالفت با این دیدگاه وجود دارد، بررسی کند. نویسنده از سال ۲۰۱۴ درباره AGI می‌نویسد. در آن زمان، تحقق AGI طی پنج سال آینده بسیار بعید به نظر می‌رسید اما امروز شرایط به طرز چشمگیری تغییر کرده است. اکنون می‌توانیم خطوط کلی اینکه چطور این تحول ممکن است رخ دهد و چه کسانی آن را خواهند ساخت، ببینیم. در واقع پنج سال آینده به شکل غیرمعمولی مهم به نظر می‌رسد. موتورهای اصلی پیشرفت هوش مصنوعی- یعنی سرمایه‌گذاری در توان محاسباتی و پژوهش‌های الگوریتمی- نمی‌توانند با نرخ کنونی تا بعد از سال ۲۰۳۰ ادامه یابند. این یعنی یا به‌زودی به سیستم‌هایی می‌رسیم که می‌توانند باعث شتاب‌گیری در پیشرفت‌ها شوند یا پیشرفت‌ها به احتمال زیاد به‌طور چشمگیری کند خواهند شد. در هر دو صورت، پنج سال آینده زمانی است که همه چیز مشخص خواهد شد. بیایید ببینیم چرا.
چهار عامل کلیدی در حال پیشبرد پیشرفت هوش مصنوعی هستند: بزرگ‌تر شدن مدل‌های پایه، آموزش مدل‌ها برای استدلال، افزایش زمان «تفکر» مدل‌ها و ساخت چارچوب‌های عامل‌محور (agent scaffolding) برای انجام وظایف چندمرحله‌ای. این عوامل به کمک دو محرک اساسی ممکن شده‌اند: افزایش توان محاسباتی برای اجرای مدل‌ها و آموزش آنها و رشد سرمایه انسانی در حوزه پژوهش‌های الگوریتمی.
همه این محرک‌ها احتمالا تا سال ۲۰۲۸ و شاید حتی تا ۲۰۳۲ ادامه خواهند داشت. این یعنی باید انتظار پیشرفت‌های عمده‌تری در عملکرد هوش مصنوعی داشته باشیم. هنوز نمی‌دانیم این پیشرفت‌ها چقدر بزرگ خواهند بود اما اگر روندهای اخیر را ادامه دهیم، به سیستم‌هایی خواهیم رسید که در کدنویسی و استدلال علمی عملکردی فراتر از انسان دارند و می‌توانند به‌طور خودمختار پروژه‌هایی چند هفته‌ای را تکمیل کنند. چه آنها راAGI بنامیم یا نه، این سیستم‌ها ممکن است برای شتاب‌دهی به پژوهش‌های هوش مصنوعی، رباتیک، صنعت فناوری و تحقیقات علمی کافی باشند که می‌تواند منجر به تاثیراتی تحول‌آفرین شود. از سوی دیگر، ممکن است هوش مصنوعی نتواند بر چالش‌های مربوط به کارهایی با زمینه زیاد، تعریف‌نشده و افق زمانی بلند غلبه کند و همچنان صرفا به ‌عنوان یک ابزار باقی بماند (هرچند بسیار بهتر از امروز). افزایش عملکرد هوش مصنوعی نیازمند رشد نمایی در سرمایه‌گذاری و نیروی پژوهشی است. با نرخ کنونی، احتمالا حدود سال ۲۰۳۰ به گلوگاه‌هایی خواهیم رسید. به‌طور ساده، این یعنی احتمال زیادی وجود دارد که یا تا حدود سال ۲۰۳۰ به AGI برسیم یا روند پیشرفت‌ها به‌شدت کند شود. البته سناریوهای میانی نیز ممکن هستند اما به ‌نظر می‌رسد پنج سال آینده به‌طور ویژه‌ای حیاتی باشد.
عصر یادگیری عمیق

در سال ۲۰۲۲، «یان لیکان»، دانشمند ارشد

هوش مصنوعی در شرکت متا و برنده جایزه تورینگ، گفته بود:«من یک شیء را برمی‌دارم، آن را روی میز می‌گذارم و میز را هل می‌دهم. برای شما کاملا بدیهی است که شیء هم همراه میز حرکت می‌کند… هیچ متنی در دنیا وجود ندارد- به باور من- که این موضوع را به‌ خوبی توضیح دهد. حتی اگر قوی‌ترین ماشین ممکن را آموزش دهید… مثل«GPT-5000»، هرگز نمی‌تواند این موضوع را یاد بگیرد.» البته اگر همین سوال را به GPT-4 بدهید، مشخص است که نمی‌داند چگونه به آن پاسخ دهد. این نقل‌قول در واقع یکی از نقدهای مهم به مدل‌های زبانی بزرگ مانند (GPT) را نشان می‌دهد: آنها فاقد «درک فیزیکی» یا «شناخت شهودی از جهان واقعی» هستند، چیزی که انسان‌ها بدون آموزش خاصی از دوران کودکی درک می‌کنند و این تنها نمونه‌ای نیست که در آن کارشناسان غافلگیر شده‌اند. پیش از سال ۲۰۱۱، هوش مصنوعی به‌طور گسترده‌ای «مرده» تلقی می‌شد اما این وضعیت کاملا تغییر کرد، زمانی که بینش‌های مفهومی دهه‌های ۱۹۷۰ و ۱۹۸۰ با مقادیر عظیم داده و توان محاسباتی ترکیب شدند و پارادایم یادگیری عمیق (Deep Learning) را به ‌وجود آوردند. از آن زمان تاکنون، بارها دیده‌ایم که سیستم‌های هوش مصنوعی طی تنها چند سال از «کاملا ناتوان» به عملکردی فراتر از انسان در بسیاری از وظایف رسیده‌اند. برای مثال در سال۲۰۲۲، اگر از Midjourney می‌خواستید تصویری از «یک سمور روی هواپیما در حال استفاده از وای‌فای» ترسیم کند، نتیجه چنین بود:
این مثال نشان‌دهنده سرعت فوق‌العاده رشد مدل‌های مولد (مانند Midjourney و DALL·E) است؛ مدل‌هایی که در ابتدا تصاویر خنده‌دار یا بی‌ربط می‌ساختند اما تنها طی یک سال توانستند به سطحی از دقت، زیبایی‌شناسی و منطق بصری برسند که طراحان حرفه‌ای را شگفت‌زده کردند. در سال ۲۰۱۹، «GPT-2» به ‌سختی می‌توانست برای چند پاراگراف روی موضوع بماند و همین در آن زمان پیشرفتی شگفت‌انگیز به ‌شمار می‌رفت. منتقدانی مثل «یان لیکان» به‌سرعت این نکته را مطرح کردند که «GPT-2» توانایی استدلال، درک عقل سلیم یا شناخت دنیای فیزیکی را ندارد و به‌طور کلی فاقد «فهم» است اما بسیاری از این محدودیت‌ها، تنها ظرف چند سال برطرف شدند. بارها و بارها نشان داده شده که شرط بستن علیه یادگیری عمیق تصمیمی خطرناک است. امروزه حتی خود LeCun هم گفته که انتظار دارد AGI در «چند سال آینده» به دست بیاید ولی محدودیت‌های سیستم‌های فعلی، موضوع اصلی نیستند. سوال جالب‌تر این است که ماجرا به کجا دارد می‌رود؟ چه چیزی جهش از «GPT-2» به «GPT-4»را توضیح می‌دهد؟ آیا شاهد جهش دیگری خواهیم بود؟ چه چیزی در راه است؟ در بالاترین سطح، پیشرفت هوش مصنوعی توسط دو محرک اصلی هدایت شده: توان محاسباتی بیشتر و الگوریتم‌های بهتر. هر دوی اینها با سرعت بالا در حال بهبودند. به‌طور خاص‌تر، می‌توانیم پیشرفت‌های اخیر را به چهار عامل کلیدی تقسیم کنیم: مقیاس‌بندی آموزش اولیه (pretraining) برای ساخت مدل پایه با هوش ابتدایی، استفاده از یادگیری تقویتی (RL) برای آموزش استدلال به مدل پایه، افزایش محاسبات در زمان اجرا (test-time compute) تا مدل زمان بیشتری برای «فکر کردن» روی هر پرسش داشته باشد و ساخت چارچوب‌های عامل‌محور (agent scaffolding)برای انجام وظایف پیچیده و چندمرحله‌ای.
در بخش دوم گزارش، از این اطلاعات برای پیش‌بینی آینده هوش مصنوعی استفاده می‌کنیم و در نهایت توضیح می‌دهیم که چرا پنج سال آینده به‌طور ویژه‌ای حیاتی هستند.

مقیاس‌بندی آموزش اولیه برای ساخت مدل‌های پایه با هوش ابتدایی

بسیاری از مردم تصور می‌کنند که پیشرفت در هوش مصنوعی نیازمند کشف‌های بزرگ نظری بوده اما واقعیت این است که بخش زیادی از آن، بیشتر شبیه مهندسی است. کافی ا‌ست همان روش‌های قبلی را در مقیاس بسیار بزرگ‌تری اجرا کنید و مدل‌ها بهتر می‌شوند. در جهش از«GPT-2»به «GPT-4»، عامل اصلی پیشرفت، فقط اعمال قدرت محاسباتی بسیار بیشتر روی همان تکنیک‌ها بود، به‌خصوص در مرحله‌ای به‌ نام پیش‌آموزش. مدل‌های مدرن هوش مصنوعی با استفاده از شبکه‌های عصبی مصنوعی ساخته می‌شوند که شامل میلیاردها پارامتر متصل به‌ هم هستند و در لایه‌هایی سازمان یافته‌اند. در مرحله پیش‌آموزش (که نام گمراه‌کننده‌ای دارد، چون واقعا نوع اصلی آموزش است)، فرآیند به این شکل است: داده (مثلا تصویر یک گربه) به مدل داده می‌شود، پارامترهای مدل این داده را به خروجی‌ای پیش‌بینی‌شده تبدیل می‌کنند (مثلا: «این یک گربه است»)، دقت خروجی با داده‌های مرجع مقایسه می‌شود، پارامترهای مدل به ‌نحوی تنظیم می‌شوند که دقت افزایش یابد و در نهایت این فرآیند بارها و بارها، با تریلیون‌ها نمونه داده تکرار می‌شود. این روش برای آموزش انواع مختلفی از مدل‌های هوش مصنوعی استفاده شده اما بیشترین کاربردش در پیش‌بینی زبان بوده است. داده‌های آن متون اینترنت هستند و LLMها (مدل‌های زبانی بزرگ) برای پیش‌بینی واژه‌های گمشده در متن آموزش می‌بینند.
افزایش توان محاسباتی برای آموزش (training compute) یعنی:
می‌توان از پارامترهای بیشتر استفاده کرد → مدل‌ها الگوهای پیچیده‌تر و انتزاعی‌تری یاد می‌گیرند
می‌توان از داده‌های بیشتری استفاده کرد → پوشش مدل از جهان گسترده‌تر می‌شود
از زمان شروع عصر یادگیری عمیق، تعداد محاسبات مورد استفاده برای آموزش مدل‌های AI با نرخ حیرت‌انگیزی افزایش یافته؛ بیش از چهار برابر در سال. این پیشرفت‌ها در نتیجه صرف پول بیشتر و استفاده از تراشه‌های کارآمدتر حاصل شده است. به ‌طور تاریخی، هر بار که میزان محاسبات مورد استفاده در آموزش (training compute) حدود ۱۰برابر افزایش یافته، به‌طور پیوسته شاهد افزایش عملکرد مدل‌ها در طیف گسترده‌ای از وظایف و بنچمارک‌ها بوده‌ایم. به‌ عنوان مثال، با رشد‌ هزار برابری توان محاسباتی برای آموزش، مدل‌های هوش مصنوعی به ‌تدریج در پاسخ به انواع مختلف پرسش‌ها بهتر شده‌اند؛ از استدلال مبتنی بر عقل سلیم گرفته تا درک موقعیت‌های اجتماعی و فیزیک. این موضوع در بنچمارکی به‌ نام BIG-Bench Hard به‌ خوبی نشان داده شده که شامل مجموعه‌ای از سوالات متنوع است و به‌طور خاص برای به‌ چالش ‌کشیدن مدل‌های زبانی بزرگ (LLM)ها طراحی شده‌اند.
به‌طور مشابه، شرکت OpenAI مدلی برای کدنویسی ایجاد کرد که می‌توانست مسائل ساده را حل کند و سپس از 100000برابر توان محاسباتی بیشتر برای آموزش نسخه بهبودیافته آن استفاده کرد. با افزایش توان محاسباتی، مدل توانست به سوالات به ‌مراتب دشوارتری به‌ درستی پاسخ دهد. این مسائل آزمایشی در داده‌های آموزشی اولیه وجود نداشتند، بنابراین این موفقیت صرفا نتیجه جست‌وجوی بهتر در میان مسائل حفظ ‌شده نبود. این رابطه میان توان محاسباتی آموزش و عملکرد مدل، «قانون مقیاس‌پذیری» نام دارد. مقالاتی در مورد این قوانین تا سال ۲۰۲۰ منتشر شده بود. برای کسانی که این حوزه از تحقیقات را دنبال می‌کردند، عرضه«GPT-4» تعجب‌آور نبود بلکه ادامه روندی قابل ‌پیش‌بینی به ‌شمار می‌رفت.

کارایی الگوریتمی (Algorithmic Efficiency)

در کنار افزایش توان محاسباتی برای آموزش، پژوهشگران راه‌های بسیار کارآمدتری برای استفاده از آن پیدا کرده‌اند. در واقع، هر دو سال یک ‌بار، میزان محاسبات مورد نیاز برای رسیدن به یک سطح مشخص از عملکرد در طیف گسترده‌ای از مدل‌ها، به‌طور تقریبی 10برابر کاهش یافته است، یعنی اگر قبلا برای رسیدن به یک سطح خاص از هوشمندی به ۱۰۰۰واحد محاسبه نیاز بود، حالا همان نتیجه با تنها ۱۰۰واحد محاسبه به‌ دست میاد و این روند همچنان ادامه دارد.
این پیشرفت‌ها معمولا باعث می‌شود که مدل‌ها ارزان‌تر هم اجرا شوند. مدل «DeepSeek-V3» به‌عنوان یک پیشرفت انقلابی در کارایی معرفی شد، اما در واقع آن نیز تقریبا در راستای روند موجود قرار داشت، دو سال پس از انتشار «GPT-4» عرضه شد و حدودا ۱۰برابر کارآمدتر بود. کارایی الگوریتمی به این معنی است که نه‌تنها هر سال چهار برابر بیشتر محاسبات برای آموزش استفاده می‌شود، بلکه این محاسبات سه برابر بیشتر اثر دارند. این دو با هم ترکیب می‌شوند تا یک افزایش ۱۲برابری در محاسبات موثر در هر سال تولید کنند. این یعنی تراشه‌هایی که برای آموزش«GPT-4» در سه ماه استفاده شدند، می‌توانستند برای آموزش یک مدل با عملکرد «GPT-2» حدودا 300000بار استفاده شوند. این افزایش در محاسبات موثر، ما را از یک مدل که به‌ سختی می‌توانست پاراگراف‌هایی را کنار هم بچیند به «GPT-4» رساند که توانایی انجام کارهایی مثل شکست دادن اکثر دانش‌آموزان دبیرستانی در امتحانات ورودی دانشگاه، مکالمه به زبان طبیعی- در گذشته دور، این یکی از نشانه‌های واقعی هوش محسوب می‌شد، مشابه آزمایش تورینگ، حل کردن Winograd schemas – آزمایشی برای استدلال مبتنی بر عقل سلیم که در دهه ۲۰۱۰ به‌عنوان یک چالش برای درک واقعی در نظر گرفته می‌شد و هنرهایی که بیشتر مردم قادر به تمییز دادن آن از آثار تولیدشده توسط انسان نیستند.
تا کجا پیشرفت پیش‌آموزش (Pretraining) امکان‌پذیر است؟ اگر روندهای فعلی ادامه یابند، تا حدود سال ۲۰۲۸، شخصی مدل‌هایی با 300000برابر محاسبات موثر بیشتر از «GPT-4»آموزش خواهد داد. این همان میزان افزایش است که از«GPT-2» به«GPT-4»مشاهده کردیم، بنابراین اگر این میزان محاسبه‌شده صرف پیش‌آموزش شود، می‌توانیم این مدل فرضی را «GPT-6»بنامیم. بعد از یک وقفه در سال ۲۰۲۴، مدل‌های مشابه GPT-4.5 به نظر می‌رسد در روند پیشرفت قرار دارند و شرکت‌ها در حال حاضر به مدل‌هایی با اندازه«GPT-5» نزدیک هستند که پیش‌بینی می‌شود در سال ۲۰۲۵ منتشر شوند. اما آیا این روند می‌تواند تا «GPT-6»ادامه یابد؟ مدیرعامل Anthropic، داریو آمودئی پیش‌بینی کرده که مدل‌هایی با اندازه «GPT-6» حدودا ۱۰‌میلیارد دلار هزینه برای آموزش خواهند داشت. این مقدار هنوز برای شرکت‌هایی مانند گوگل، مایکروسافت یا متا که سالانه ۵۰ تا ۱۰۰‌میلیارد دلار سود کسب می‌کنند، قابل ‌تحمل است. در واقع این شرکت‌ها در حال حاضر در حال ساخت مراکز داده‌ای به ‌اندازه کافی بزرگ برای چنین دور‌های آموزشی هستند و این پیش از اعلام پروژه Stargate با بودجه بیش از ۱۰۰‌میلیارد دلار بوده است. مدل‌های هوش مصنوعی پیشرفته (Frontier AI) همچنین در حال حاضر بیش از ۱۰‌میلیارد دلار درآمدزایی دارند و درآمد آنها هر سال بیشتر از سه برابر می‌شود، بنابراین درآمد از هوش مصنوعی به‌زودی کافی خواهد بود تا هزینه‌های آموزش یک مدل ۱۰‌میلیارد دلاری را پوشش دهد.

آموزش مدل‌ها با استفاده از یادگیری تقویتی برای استدلال

افراد معمولا می‌گویند «چت ‌جی‌پی‌تی فقط کلمه بعدی را پیش‌بینی می‌کند» اما این هیچ‌گاه کاملا درست نبوده است. پیش‌بینی ساده کلمات از اینترنت معمولا خروجی‌هایی تولید می‌کند که اغلب عجیب و غریب هستند (همانطور که انتظار می‌رود، چون داده‌ها از اینترنت گرفته شده‌اند). GPT فقط با اضافه کردن یادگیری تقویتی از بازخورد انسانی (RLHF) تبدیل به مدل مفید شد: خروجی‌های مدل پایه به ارزیابان انسانی نشان داده می‌شود و از ارزیاب‌ها خواسته می‌شود که بگویند کدام خروجی‌ها مفیدتر هستند. مدل به ‌گونه‌ای تنظیم می‌شود که خروجی‌هایی مشابه آنهایی که مفید بودند، تولید کند (یعنی تقویت). مدلی که تحت آموزش RLHF قرار گرفته، دیگر فقط پیش‌بینی کلمه بعدی نیست، بلکه به‌طور خاص برای پیش‌بینی آنچه ارزیاب‌های انسانی آن را مفید می‌دانند، آموزش دیده است. می‌توانید فکر کنید که LLM اولیه به‌عنوان یک پایه برای ساختار مفهومی عمل می‌کند. RLHF برای هدایت آن ساختار به سمت یک نتیجه خاص و مفید ضروری است.

RLHF یک نوع آموزش پس از پیش‌آموزش است زیرا بعد از پیش‌آموزش انجام می‌شود (اگرچه هر دو نوع آموزش هستند). انواع دیگری از تقویت‌های پس از آموزش وجود دارند، ازجمله مسائلی ساده مانند اجازه دادن به مدل برای دسترسی به یک ماشین حساب یا اینترنت. اما یک نوع به‌ویژه در حال حاضر حیاتی است: یادگیری تقویتی برای آموزش مدل‌ها به استدلال. این ایده به این صورت است که به جای آموزش مدل برای انجام کارهایی که انسان‌ها آنها را مفید می‌دانند، مدل به درستی برای حل مسائل آموزش داده می‌شود. اینجا فرآیند به‌طور خلاصه آمده است: به مدل یک مشکل با جواب قابل تایید نشان داده می‌شود، مانند یک معمای ریاضی سپس از آن خواسته می‌شود تا یک زنجیره از استدلال‌ها برای حل مساله تولید کند (زنجیره فکر). اگر جواب صحیح بود، مدل برای شبیه‌تر شدن به آن تنظیم شده (تقویت) و این روند تکرار می‌شود.
این فرآیند به LLM آموزش می‌دهد که زنجیره‌های بلند استدلال (صحیح) را در مورد مسائل منطقی بسازد. قبل از سال ۲۰۲۳، این روش به نظر نمی‌رسید که کار کند. اگر هر گام از استدلال بیش از حد غیرقابل اعتماد باشد، زنجیره‌ها به سرعت اشتباه می‌کنند و اگر نتوانید به جواب نزدیک شوید، نمی‌توانید هیچ تقویتی انجام دهید اما در سال ۲۰۲۴، زمانی که بسیاری می‌گفتند پیشرفت AI متوقف شده است، این پارادایم جدید شروع به موفقیت کرد. در نظر بگیرید که بنچمارک
GPQA- Diamond مجموعه‌ای از سوالات علمی طراحی شده است که افراد با دکترا در این حوزه می‌توانند به ‌راحتی به آنها پاسخ دهند اما غیرمتخصص‌ها حتی با دسترسی به گوگل برای ۳۰دقیقه نمی‌توانند به آنها جواب دهند .
سوالاتی مانند این:
در سال ۲۰۲۳، «GPT-4» تنها اندکی بهتر از حدس تصادفی در این بنچمارک عمل کرد. این مدل می‌توانست استدلال‌های لازم برای مسائل علمی سطح دبیرستان را مدیریت کند اما نمی‌توانست استدلال‌های سطح دکترای را انجام دهد. با این حال، در اکتبر ۲۰۲۴، OpenAI مدل پایه 4اGPT- o را گرفت و از یادگیری تقویتی برای ایجاد o1 استفاده کرد. این مدل دقت ۷۰درصد را به دست آورد که آن را معادل با سطح دکترا در هر حوزه در پاسخ به این سوالات قرار می‌دهد. دیگر نمی‌توان ادعا کرد که این مدل‌ها صرفا در حال بازتولید داده‌های آموزشی خود هستند، نه پاسخ‌ها و نه زنجیره‌های استدلالی لازم برای تولید آنها در اینترنت وجود دارد. اکثر افراد روزانه به سوالات علمی سطح دکترا پاسخ نمی‌دهند، بنابراین پیشرفت‌های اخیر را متوجه نشده‌اند. آنها هنوز هم مدل‌های زبان بزرگ (LLM) را به عنوان چت‌بات‌های پایه در نظر می‌گیرند اما o1 تنها شروع کار بود. در آغاز یک پارادایم جدید، ممکن است پیشرفت‌ها به ویژه سریع باشند. تنها سه ماه پس از o1، OpenAI نتایج o3 را منتشر کرد. این نسخه دوم است، به نام «o3» چون «o2» یک شرکت مخابراتی است. o3احتمالا همان o1 است اما با استفاده بیشتر از یادگیری تقویتی (و تغییر دیگری که به زودی توضیح خواهم داد). این مدل از سطح کارشناسان انسانی در بنچمارک GPQA پیشی گرفت:
یادگیری تقویتی باید بیشتر برای مسائلی مفید باشد که پاسخ‌های قابل تاییدی دارند، مانند علوم، ریاضیات و برنامه‌نویسی. o3 در تمام این حوزه‌ها نسبت به مدل پایه خود عملکرد بسیار بهتری دارد. بیشتر بنچمارک‌های سوالات ریاضی اکنون اشباع شده‌اند. مدل‌های پیشرفته تقریبا قادرند تمام سوالات را به درستی پاسخ دهند. در پاسخ به این مساله، Epoch AI بنچمارک Frontier Math را ایجاد کرد؛ بنچمارکی از مسائل ریاضی فوق‌العاده سخت. ۲۵درصد آسان‌تر آنها مشابه مسائل سطح المپیاد هستند. ۲۵درصد سخت‌ترین مسائل، طبق گفته Terence Tao، برنده مدال فیلدز، «چالش‌برانگیزترین» هستند و معمولا برای حل آنها به یک متخصص در آن شاخه از ریاضیات نیاز است. مدل‌های قبلی، ازجمله GPT-o1، به سختی می‌توانستند هیچ یک از این سوالات را حل کنند. در دسامبر ۲۰۲۴، OpenAI اعلام کرد که GPT-o3 قادر به حل ۲۵درصد از این سوالات است. این نتایج به طور کامل در رسانه‌ها گزارش نشد. در روز اعلام نتایج o3، The Wall Street Journal این داستان را منتشر کرده بود:
این نکته حیاتی را نادیده می‌گیرد که«GPT-5»دیگر ضرورتی ندارد. یک پارادایم جدید شروع شده است که می‌تواند سریع‌تر از قبل پیشرفت کند. چقدر می‌توان به مقیاس‌بندی مدل‌های استدلالی ادامه داد؟ در ژانویه، DeepSeek بسیاری از نتایج o1 را بازتولید کرد. مقاله آنها نشان داد که حتی ساده‌ترین نسخه از این فرآیند نیز کار می‌کند که نشان می‌دهد هنوز مقدار زیادی برای آزمایش وجود دارد. DeepSeek-R1 همچنین تمام زنجیره استدلال خود را برای کاربر نمایش می‌دهد که پیچیدگی و ویژگی‌های شگفت‌انگیز آن را نشان می‌دهد: این مدل به جواب‌های خود فکر می‌کند، زمانی که اشتباه باشد به عقب برمی‌گردد، چندین فرضیه را بررسی می‌کند، بینش‌هایی ارائه می‌دهد و موارد دیگر. تمام این رفتارها از یادگیری تقویتی ساده به وجود می‌آید. محقق OpenAI سباستین بوبک مشاهده کرده است: «هیچ تاکتیکی به مدل داده نشده است. همه ‌چیز به صورت ظهور یافته است. همه ‌چیز از طریق یادگیری تقویتی آموخته شده است. این دیوانه‌کننده است.» محاسبات مربوط به مرحله یادگیری تقویتی برای آموزش DeepSeek-R1 احتمالا فقط حدود یک ‌میلیون دلار هزینه داشته است.
اگر این روند ادامه پیدا کند، OpenAI، Anthropic و Google اکنون می‌توانند حدود یک ‌میلیارد دلار برای همین فرآیند هزینه کنند که تقریبا 1000برابر افزایش محاسبات است. یکی از دلایل این امکان برای مقیاس‌گذاری زیاد این است که مدل‌ها داده‌های خودشان را تولید می‌کنند. این ممکن است به نظر دور از ذهن برسد و ایده‌ای که داده‌های مصنوعی می‌تواند باعث «فروپاشی مدل» شود، به‌طور گسترده‌ای بحث شده است اما در این مورد هیچ چیزی دایره‌ای نیست. شما می‌توانید از GPT-o1 بخواهید که 100000 مساله ریاضی حل کند، سپس فقط مواردی را که جواب صحیح داده است انتخاب کرده و از آنها برای آموزش مدل بعدی استفاده کنید. چون راه‌حل‌ها به راحتی قابل تایید هستند، شما مثال‌های بیشتری از استدلال صحیح تولید کرده‌اید. در واقع، این داده‌ها کیفیت بسیار بالاتری از آنچه که در اینترنت پیدا می‌کنید، دارند زیرا زنجیره کامل استدلال را شامل می‌شوند و ثابت شده‌اند که درست هستند (چیزی که اینترنت به‌طور معمول برای آن معروف نیست). این می‌تواند یک چرخه فزاینده ایجاد کند: مدل شما یک‌سری مشکلات را حل می‌کند، از راه‌حل‌ها برای آموزش مدل بعدی استفاده می‌کنید، مدل بعدی می‌تواند مسائل سخت‌تری را حل کند و این منجر به تولید راه‌حل‌های بیشتری می‌شود و به همین ترتیب اگر مدل‌ها بتوانند استدلال‌های سطح دکترا را انجام دهند، مرحله بعدی استدلال سطح پژوهشگر خواهد بود و سپس تولید بینش‌های نوآورانه. این احتمالا توضیح‌دهنده بیانیه‌های غیرمعمول خوشبینانه از رهبران شرکت‌های AI است. تغییر نظر سم آلتمان دقیقا همزمان با انتشار o3 در دسامبر 2024 است. اگرچه این مهارت‌های استدلالی در دامنه‌های قابل تایید بیشترین قدرت را دارند، این مهارت‌ها احتمالا تا حدی به دیگر دامنه‌ها نیز تعمیم می‌یابند. قبلا دیده‌ایم که o1 در استدلال‌های حقوقی نیز بهبود یافته است. در دیگر حوزه‌ها مانند استراتژی کسب‌وکار یا نوشتن، قضاوت موفقیت سخت‌تر بوده، بنابراین روند کندتر است اما باید انتظار داشت که به‌طور نسبی در این زمینه‌ها نیز کار کند. اینکه این روند چقدر موثر خواهد بود، سوال حیاتی برای پیشرفت آینده است. این فرآیند به نام استفاده از «محاسبات زمان آزمایش» شناخته می‌شود؛ محاسباتی که هنگام اجرای مدل انجام می‌شود نه هنگام آموزش. اگر 4اGPT- o بتواند به‌طور مفید برای حدود یک دقیقه فکر کند، به نظر می‌رسد که 1اGPT- o و DeepSeek-R1 می‌توانند معادل یک ساعت فکر کنند. با قابل اعتمادتر شدن مدل‌های استدلالی، آنها قادر خواهند بود برای مدت‌های طولانی‌تری فکر کنند. در نرخ‌های فعلی، به زودی مدل‌هایی خواهیم داشت که می‌توانند برای یک ماه فکر کنند و سپس برای یک سال. (جالب است که اگر آنها بتوانند به‌طور نامحدود فکر کنند، با توجه به محاسبات کافی و فرض اینکه پیشرفت اصولا ممکن است، آنها می‌توانند به‌طور مداوم پاسخ‌های خود را به هر سوالی بهبود بخشند). استفاده از محاسبات زمان آزمایش می‌تواند برای حل مسائل از طریق نیروی بازدارنده به کار رود. یکی از تکنیک‌ها این است که سعی کنید یک مساله را 10، 100 یا 1000بار حل کنید و سپس پاسخ با بیشترین «آرا» را انتخاب کنید. احتمالا این یکی دیگر از روش‌هایی است که o3 توانستهo1 را شکست دهد. نتیجه عملی فوری این همه این است که شما می‌توانید بیشتر پرداخت کنید تا قابلیت‌های پیشرفته‌تری را زودتر دریافت کنید.
به‌طور کمی، در سال 2026، پیش‌بینی می‌کنیم که شما قادر خواهید بود 100هزار برابر بیشتر پرداخت کنید تا به عملکردی برسید که قبلا فقط در سال 2028 در دسترس بود. بیشتر کاربران نمی‌خواهند این کار را انجام دهند اما اگر شما یک مشکل مهندسی، علمی یا تجاری حیاتی دارید، حتی یک‌میلیون دلار نیز یک معامله مناسب است. به‌ویژه، پژوهشگران AI ممکن است بتوانند از این تکنیک برای ایجاد یک چرخه فزاینده دیگر برای تحقیقات AI استفاده کنند. این فرآیند به نام تقطیر و تقویت تکراری شناخته می‌شود که می‌توانید در اینجا در مورد آن بیشتر بخوانید. به‌طور کلی این‌طور کار می‌کند: به مدل خود اجازه دهید برای مدت طولانی‌تری فکر کند تا پاسخ‌های بهتری به دست آورد (تقویت). از این پاسخ‌ها برای آموزش مدل جدید استفاده کنید. اکنون مدل می‌تواند تقریبا همان پاسخ‌ها را بلافاصله بدون نیاز به فکر کردن بیشتر تولید کند (تقطیر). حالا مدل جدید را برای مدت طولانی‌تری به تفکر وا دارید. آن مدل قادر خواهد بود حتی پاسخ‌های بهتری از مدل اصلی تولید کند و این فرآیند را تکرار کنید. این فرآیند اساسا همان‌طور که DeepMind AlphaZero را در عرض چند روز بدون هیچ‌گونه داده انسانی برای بازی گو ابرشخصی کرد، کار می‌کند.

مرحله بعدی: ساخت مدل‌های بهتر

«GPT-4» شبیه به یک همکار در روز اول کار است که هوشمند و با دانش است اما فقط به یک یا دو سوال پاسخ می‌دهد و سپس شرکت را ترک می‌کند. بدیهی است که این هم فقط کمی مفید است اما اکنون شرکت‌های AI در حال تبدیل چت‌بات‌ها به عاملیت‌ها هستند. یک عاملیت AI قادر است یک زنجیره طولانی از کارها را برای دستیابی به یک هدف انجام دهد. برای مثال، اگر می‌خواهید یک اپلیکیشن بسازید، به جای درخواست کمک از مدل برای هر مرحله، به سادگی می‌گویید: «یک اپلیکیشن بساز که X کار را انجام دهد.» سپس مدل سوالات شفاف‌سازی می‌پرسد، یک نمونه اولیه می‌سازد، آزمایش می‌کند، اشکالات را رفع می‌کند و یک محصول نهایی تحویل می‌دهد- درست مانند یک مهندس نرم‌افزار انسانی. عاملیت‌ها از طریق دادن یک مدل استدلالی و افزودن حافظه و دسترسی به ابزارها (یک «ساختار پشتیبانی») کار می‌کنند:
1- شما هدفی به ماژول استدلال می‌دهید و این ماژول یک برنامه برای دستیابی به آن تهیه می‌کند
2- براساس آن برنامه، مدل از ابزارها برای انجام اقدامات استفاده می‌کند
3- نتایج به ماژول حافظه بازمی‌گردد
4- ماژول استدلال برنامه را به‌روزرسانی می‌کند
5- این چرخه ادامه می‌یابد تا هدف به‌دست آید (یا مشخص شود که غیرممکن است).
عاملیت‌های AI در حال حاضر کمی کار می‌کنند. SWE-bench Verified یک معیار از مشکلات مهندسی نرم‌افزاری دنیای واقعی است که معمولا حدود یک ساعت برای تکمیل آنها زمان می‌برد.«GPT-4» اساسا نمی‌تواند این مشکلات را حل کند زیرا شامل استفاده از چندین اپلیکیشن است. با این حال، زمانی که در یک ساختار عاملی ساده قرار داده شد: «GPT-4»می‌تواند حدود 20درصد از آنها را حل کند.
Claude Sonnet 3.5 می‌تواند 50درصد از آنها را حل کند و به گفته گزارش‌ها GPT-o3 می‌تواند بیش از 70درصد را حل کند.
این به این معنی است که o3 اساسا به اندازه مهندسان نرم‌افزار حرفه‌ای در تکمیل این وظایف گسسته کارآمد است. در مسائل رقابتی کدنویسی، این مدل در حدود 200رتبه اول جهان قرار می‌گرفت. حال به یکی از مهم‌ترین معیارها در جهان توجه کنید: مجموعه مشکلات پیچیده تحقیقاتی مهندسی AI METR که به نام «RE Bench» شناخته می‌شود. این مشکلات شامل مسائلی مانند تنظیم مجدد مدل‌ها یا پیش‌بینی نتایج تجربی است که مهندسان برای بهبود سیستم‌های پیشرفته AI با آنها روبه‌رو هستند. این مشکلات به‌طور خاص طراحی شده‌اند تا مشکلات واقعا دشواری را شبیه‌سازی کنند که مهندسان AI در دنیای واقعی با آنها مواجه می‌شوند. مهم‌ترین نکته در اینجا این است که حتی یک عامل ساده که براساس GPT-o1 و Claude 3.5 Sonnet ساخته شده، بهتر از کارشناسان انسانی عمل کرده است، دو ساعت زمانی که به آنها برای حل این مشکلات داده شده است، این عملکرد از انتظارات بسیاری از پیش‌بینی‌کنندگان فراتر رفته است (و هنوز o3 آزمایش نشده است).
عملکرد AI هنگامی که زمان بیشتری برای انجام کار داده می‌شود، به‌طور کندتری نسبت به عملکرد انسان افزایش می‌یابد، بنابراین کارشناسان انسانی هنوز در حدود چهار ساعت از AI‌ها پیشی می‌گیرند. اما مدل‌های AI به سرعت در حال پیشرفت هستند 4اGPT- o تنها قادر بود به انجام کارهایی بپردازد که انسان‌ها حدود ۳۰ دقیقه برای انجام آنها زمان نیاز داشتند. METR یک معیار وسیع‌تر از وظایف استفاده از کامپیوتر براساس افق زمانی ایجاد کرد. «GPT-2»تنها قادر بود کارهایی را انجام دهد که انسان‌ها چند ثانیه برای آنها زمان می‌گذارند؛ «GPT-4» توانست وظایفی را انجام دهد که چند دقیقه زمان می‌برد و آخرین مدل‌های استدلالی قادر به انجام کارهایی بودند که انسان‌ها کمی کمتر از یک ساعت برای آنها زمان نیاز داشتند.
اگر این روند تا پایان سال ۲۰۲۸ ادامه یابد، AI قادر خواهد بود وظایف تحقیقاتی AI و مهندسی نرم‌افزار را که انجام آنها چندین هفته طول می‌کشد، انجام دهد و همچنین با بسیاری از کارشناسان انسانی رقابت کند. نمودار بالا از مقیاس لگاریتمی استفاده می‌کند. اگر از مقیاس خطی استفاده کنیم، به این شکل خواهد بود:
خط قرمز نشان می‌دهد که روند در سال گذشته حتی سریع‌تر بوده است، شاید به دلیل تغییرات در مدل‌های استدلال. مدل‌های AI همچنین به‌طور فزاینده‌ای درک بهتری از زمینه خود دارند- به‌طور صحیح به سوالات در مورد معماری خود، خروجی‌های قبلی و اینکه آیا در حال آموزش یا استقرار هستند، پاسخ می‌دهند- که این خود یکی از پیش‌نیازهای دستیابی به «عاملیت» است. در یک نکته جالب، در حالی که Claude 3.7 هنوز در بازی پوکمون بسیار ضعیف است، نسبت به نسخه 5/‏3 بسیار بهتر عمل می‌کند و فقط یک سال پیش، Claude 3 اصلا نمی‌توانست بازی کند. این نمودارها توضیح می‌دهند که چرا با وجود اینکه مدل‌های AI می‌توانند در پاسخ به سوالات بسیار «هوشمند» باشند، هنوز بسیاری از مشاغل را خودکار نکرده‌اند. بیشتر مشاغل فقط مجموعه‌ای از وظایف مجزا و یک ساعته نیستند- بلکه شامل کشف اینکه چه کارهایی باید انجام شود، هماهنگی با تیم و پروژه‌های طولانی و نوآورانه با زمینه‌های زیاد و غیره است. حتی در یکی از قوی‌ترین حوزه‌های – AI مهندسی نرم‌افزار- امروز تنها می‌تواند وظایفی را انجام دهد که کمتر از یک ساعت طول می‌کشد و هنوز هم اغلب با مسائلی مانند پیدا کردن دکمه صحیح در یک وب‌سایت به مشکل می‌خورد. این یعنی هنوز راه زیادی در پیش است تا بتواند مهندسان نرم‌افزار را به‌طور کامل جایگزین کند. با این حال، روندها نشان می‌دهند که احتمال تغییرات عمده‌ای در این زمینه وجود دارد. یک AI که می‌تواند وظایف یک‌روزه یا یک ‌هفته‌ای را انجام دهد، قادر خواهد بود کار بیشتری نسبت به مدل‌های فعلی خودکار کند. شرکت‌ها ممکن است شروع به استخدام صدها «کارگر دیجیتال» تحت نظارت تعداد کمی انسان کنند. روند بهبود عوامل عاملیت تا کجا ادامه خواهد یافت؟ OpenAI سال 2025 را به‌عنوان «سال عامل‌ها» نام‌گذاری کرده است. در حالی که اسکافولد عامل‌های AI هنوز ابتدایی است، این یک اولویت اصلی برای آزمایشگاه‌های پیشرو است که باید منجر به پیشرفت‌های بیشتری شود. پیشرفت‌ها همچنین از متصل کردن اسکافولد عامل‌ها به مدل‌های استدلالی قدرتمندتر به‌دست خواهد آمد- که به عامل یک «مغز برنامه‌ریزی» بهتر و قابل‌اعتمادتر می‌دهد. آنها به نوبه خود برپایه مدل‌هایی ساخته خواهند شد که با داده‌های ویدئویی بیشتری آموزش دیده‌اند، که ممکن است عامل‌ها را در درک و تشخیص بهتر از قبل کنند- که در حال حاضر یکی از مشکلات عمده است. وقتی عامل‌ها کمی شروع به کار کنند، این روند پیشرفت‌های بیشتری را آزاد خواهد کرد: یک وظیفه برای عامل تعیین کنید، مانند خرید کردن یا نوشتن یک توئیت محبوب. سپس اگر موفق شد، از یادگیری تقویتی برای افزایش احتمال موفقیت در دفعات بعدی استفاده کنید. علاوه بر این، هر وظیفه‌ای که با موفقیت انجام شود، می‌تواند به‌عنوان داده آموزشی برای نسل بعدی عامل‌ها استفاده شود. جهان یک منبع بی‌پایان از داده است که به عامل‌ها این امکان را می‌دهد تا به‌طور طبیعی یک مدل علّی از جهان بسازند. هرکدام از این اقدامات می‌تواند قابلیت اطمینان را به‌طور قابل‌توجهی افزایش دهد و همان‌طور که در این مقاله چندین‌بار مشاهده کرده‌ایم، بهبود قابلیت اطمینان می‌تواند به‌طور ناگهانی قابلیت‌های جدیدی را باز کند: حتی یک وظیفه ساده مانند پیدا کردن و رزرو هتلی که به ترجیحات شما بخورد، نیاز به ده‌ها گام دارد. با شانس ۹۰درصد در تکمیل هر گام به‌درستی، تنها ۱۰درصد شانس وجود دارد که ۲۰ گام به‌درستی تکمیل شود اما با قابلیت اطمینان ۹۹درصد برای هر گام، شانس کلی موفقیت از ۱۰درصد به ۸۰درصد افزایش می‌یابد تفاوت بین غیرقابل‌استفاده و بسیار مفید. بنابراین، پیشرفت می‌تواند به‌شدت سریع باشد. با این حال، باید گفت که عامل بودن هنوز نامطمئن‌ترین عامل از چهار عامل پیشرفت است. هنوز معیارهای دقیقی برای اندازه‌گیری آن نداریم، بنابراین اگرچه ممکن است پیشرفت زیادی در هدایت برخی از نوع وظایف وجود داشته باشد، پیشرفت در ابعاد دیگر می‌تواند کندتر بماند. چندین نقطه ضعف قابل‌توجه ممکن است کاربردهای AI را محدود کند. ممکن است برای اینکه به‌طور واقعی مفید باشد، به پیشرفت‌های بنیادی‌تری نیاز باشد. با این حال، روندهای اخیر و بهبودهای فوق در فرآیندها به این معنی است که انتظار دارم که پیشرفت‌های قابل‌توجهی را در آینده نزدیک مشاهده کنم.

تا سال 2030 AI چقدر پیشرفته خواهد داشت؟

چهار عامل پیشرفت پیش‌بینی ‌شده است. نگاه به دو سال آینده نشان می‌دهد که همه چهار عامل پیشرفت AI به‌طور مداوم ادامه خواهند داشت و بر یکدیگر ساخته خواهند شد:
* یک مدل پایه که با ۵۰۰ برابر بیشتر از محاسبات موثر«GPT-4»آموزش دیده است، منتشر خواهد شد «GPT-5».
* این مدل می‌تواند با ۱۰۰ برابر محاسبات بیشتر از o1 آموزش دیده و استدلال کند (‘o5’).
* این مدل قادر خواهد بود به مدت یک ماه برای هر وظیفه فکر کند، زمانی که نیاز باشد.
* به یک اسکافولد عامل بهبود یافته متصل خواهد شد و بیشتر تقویت خواهد شد تا عاملیت بیشتری داشته باشد.
و این پایان کار نخواهد بود. شرکت‌های پیشرو در مسیر انجام عملیات آموزش مدل‌های به اندازه«GPT-6» با هزینه ۱۰‌میلیارد دلار تا سال ۲۰۲۸ هستند. این میزان برای آموزش یک مدل پایه به اندازه «GPT-6»و انجام ۱۰۰ برابر بیشتر از یادگیری تقویتی (یا ترکیب دیگری از آن) کافی خواهد بود. علاوه‌براین، پیشرفت‌های جدید مانند مدل‌های استدلالی به‌طور تقریبی هر یکی، دو سال یکبار ظهور می‌کنند، بنابراین باید حداقل یک کشف دیگر مانند این را در چهار سال آینده پیش‌بینی کنیم و احتمالا پیشرفت‌های بنیادی‌تر مشابه خود یادگیری عمیق را خواهیم دید.
ترکیب تمام اینها نشان می‌دهد افرادی که آینده را به‌عنوان «چت‌بات‌های کمی بهتر» تصور می‌کنند، اشتباه می‌کنند. مگر اینکه یک اختلال عمده رخ دهد، پیشرفت در اینجا متوقف نخواهد شد. سوال چند تریلیون دلاری این است که هوش مصنوعی تا چه حد پیشرفته خواهد شد.

خلاصه روند پیشرفت قابلیت‌های هوش‌مصنوعی

در نهایت هیچ‌کس نمی‌داند اما یکی از راه‌های به‌دست آوردن پاسخی دقیق‌تر این است که پیشرفت‌ها را در معیارهای اندازه‌گیری قابلیت‌های هوش مصنوعی پیش‌بینی کنیم. با توجه به اینکه تمام عواملی که موجب پیشرفت می‌شوند به‌طور مشابه با گذشته در حال ادامه یافتن هستند، می‌توانیم به‌طور تقریبی روند پیشرفت اخیر را پیش‌بینی کنیم. در اینجا خلاصه‌ای از تمام معیارهایی که تاکنون بحث کرده‌ایم (به علاوه چند معیار دیگر) آورده شده است و اینکه ممکن است تا سال ۲۰۲۶ به کجا برسند:
این به این معناست که در دو سال آینده باید انتظار داشته باشیم که سیستم‌های هوش مصنوعی:
* دارای دانش تخصصی در تمام زمینه‌ها باشند
* بتوانند به سوالات ریاضی و علمی به اندازه بسیاری از محققان حرفه‌ای پاسخ دهند
* در برنامه‌نویسی از انسان‌ها بهتر عمل کنند
* دارای مهارت‌های استدلالی عمومی بهتری نسبت به تقریبا تمام انسان‌ها باشند
* قادر به تکمیل خودکار بسیاری از وظایف طولانی‌مدت روزانه در کامپیوتر باشند
* و همچنان به‌سرعت در حال پیشرفت باشند.
پرش بعدی ممکن است ما را به حل مسائل فراتر از انسان‌ها برساند- توانایی پاسخ به سوالات علمی که هنوز حل نشده‌اند به‌طور مستقل. این سیستم‌ها به چه شغل‌هایی می‌توانند کمک کنند؟ بسیاری از موانع در راه استقرار سیستم‌های هوش مصنوعی در دنیای واقعی وجود دارد، حتی برای آنهایی که می‌توانند از کامپیوتر استفاده کنند. این موانع شامل مقررات، عدم تمایل به تصمیم‌گیری به‌وسیله هوش‌مصنوعی‌ها، عدم قابلیت اعتماد کافی و حرکت کند نهادها و عدم حضور فیزیکی هستند. در ابتدا، سیستم‌های قدرتمند همچنین گران‌قیمت و استقرار آنها محدود به محاسبات در دسترس خواهد بود، بنابراین آنها تنها برای ارزشمندترین وظایف به‌کار خواهند رفت. این به این معناست که بیشتر اقتصاد احتمالا برای مدتی به همان شکل قبلی ادامه خواهد یافت. شما هنوز هم از پزشکان انسانی مشاوره خواهید گرفت (حتی اگر از ابزارهای هوش مصنوعی استفاده کنند)، از بارستاهای انسانی قهوه خواهید گرفت و لوله‌کش‌های انسانی استخدام خواهید کرد. با این حال، چندین زمینه حیاتی وجود دارد که با وجود این موانع، این سیستم‌ها می‌توانند به‌سرعت پیاده‌سازی شده و تاثیرات قابل‌توجهی داشته باشند.

مهندسی نرم‌افزار

این جایی است که هوش مصنوعی به‌طور جدی در حال اعمال شدن است. گوگل گفته است که حدود ۲۵درصد از کد جدیدشان توسط هوش مصنوعی‌ها نوشته می‌شود. استارتاپ‌های Y Combinator می‌گویند که این عدد ۹۵درصد است و آنها چندین برابر سریع‌تر از قبل در حال رشد هستند. اگر برنامه‌نویسی ۱۰ برابر ارزان‌تر شود، ما از آن بیشتر استفاده خواهیم کرد. ممکن است به‌زودی شاهد استارتاپ‌های نرم‌افزاری با ارزش ‌میلیارد دلاری باشیم که تعداد کمی کارمند انسانی دارند و صدها عامل هوش مصنوعی. چندین استارتاپ هوش‌مصنوعی هم‌اکنون تبدیل به سریع‌ترین شرکت‌های در حال رشد تاریخ شده‌اند. این کاربرد محدود هوش مصنوعی می‌تواند به‌سرعت صدهامیلیارد دلار ارزش اقتصادی تولید کند- به‌اندازه‌ای که بتواند ادامه توسعه مقیاس‌پذیری هوش‌مصنوعی را تامین کند.
کاربرد هوش مصنوعی در اقتصاد ممکن است به‌طور چشمگیری گسترش یابد. به‌عنوان مثال، اپوک پیش‌بینی کرده است که شاید یک‌سوم وظایف کاری را می‌توان از راه دور از طریق کامپیوتر انجام داد و خودکارسازی اینها می‌تواند اقتصاد را بیش از دوبرابر کند.

تحقیقات علمی

سازندگان AlphaFold قبلا برای طراحی هوش‌مصنوعی‌ای که مسائل تاشدن پروتئین‌ها را حل می‌کند، جایزه نوبل را دریافت کرده‌اند. یک مطالعه اخیر نشان داد که یک ابزار هوش مصنوعی محققان علوم مواد را ۸۰درصد سریع‌تر در پیدا کردن مواد نوین راهنمایی کرد و انتظار می‌رود که نتایج مشابهی پس از اینکه دانشمندان هوش مصنوعی را برای حل مشکلات خاص، مثلا با آموزش روی داده‌های ژنتیکی یا کیهانی، تطبیق دهند، مشاهده شود. مدل‌های آینده ممکن است بتوانند به‌طور واقعی بینش‌های جدیدی به‌دست آورند. فقط با اینکه کسی از آنها خواسته باشد اما حتی اگر این‌طور نباشد، بسیاری از علوم می‌توانند به نیروی محاسباتی بروند. به‌ویژه، در هر زمینه‌ای که عمدتا مجازی باشد و دارای پاسخ‌های قابل‌تایید باشد- مانند ریاضیات، مدل‌سازی اقتصادی، فیزیک نظری یا علوم کامپیوتر- تحقیقات می‌تواند با تولید‌ هزاران ایده و سپس تایید آنهایی که کار می‌کنند، تسریع شود. حتی در یک زمینه تجربی مانند زیست‌شناسی، موانعی مانند برنامه‌نویسی و تحلیل داده‌ها وجود دارد که می‌توانند به‌طور چشمگیری کاهش یابند. یک اختراع مانند سلاح‌های هسته‌ای می‌تواند مسیر تاریخ را تغییر دهد، بنابراین تاثیر هرگونه تسریع در این زمینه می‌تواند دراماتیک باشد.

تحقیقات هوش مصنوعی

زمینه‌ای که به‌ویژه به تسریع پاسخ می‌دهد، تحقیقات هوش مصنوعی خود است. علاوه بر اینکه کاملا مجازی است، این زمینه‌ای است که محققان هوش مصنوعی آن را بهتر درک می‌کنند، انگیزه‌های زیادی برای خودکارسازی دارند و هیچ مانعی برای استفاده از هوش مصنوعی وجود ندارد. در ابتدا، این ممکن است شبیه به استفاده از عوامل هوش‌مصنوعی سطح «کارآموز» باشد تا محققان را در انجام وظایف خاص یا ظرفیت مهندسی نرم‌افزار (که یک گلوگاه بزرگ است) باز کنند، یا حتی برای کمک به طوفان فکری ایده‌ها. بعدا ممکن است شبیه به این باشد که مدل‌ها تمام ادبیات را مطالعه کنند، ‌هزاران ایده برای بهبود الگوریتم‌ها تولید کنند و آنها را به‌طور خودکار در آزمایشات مقیاس‌کوچک تست کنند. مدل هوش‌مصنوعی قبلا یک مقاله تحقیقاتی هوش‌مصنوعی تولید کرده است که در کنفرانس پذیرفته شده است. در اینجا فهرستی از دیگر روش‌هایی که هوش مصنوعی در حال حاضر برای تحقیقات هوش مصنوعی به‌کار می‌‌برد، آمده است. با توجه به همه اینها، محتمل است. قبل از اینکه انسان‌ها تمام مشکلاتی که به هوش مصنوعی اجازه می‌دهد بیشتر کارهای دورکاری را انجام دهد، شاهد استفاده از عوامل هوش مصنوعی برای تحقیقات هوش مصنوعی باشیم. کاربرد گسترده اقتصادی هوش مصنوعی ممکن است لزوما روش خوبی برای سنجش پیشرفت هوش مصنوعی نباشد این ممکن است به‌طور انفجاری بعد از آن که قابلیت‌های هوش‌مصنوعی به‌طور قابل‌توجهی پیشرفت کرده باشد، دنبال شود.

چرا ممکن است پیشرفت هوش مصنوعی در سال ۲۰۳۰ چشمگیر نباشد؟

در اینجا قوی‌ترین استدلال از نظر من آمده است: اول، فرض کنید که هوش مصنوعی احتمالا در انجام وظایف واضح و گسسته از انسان‌ها فراتر از توانایی خواهد بود، به این معنا که ما پیشرفت‌های سریع‌تری در معیارها مشاهده خواهیم کرد اما استدلال کنید که در وظایف مبهم، با بافت بالا و با افق زمانی طولانی همچنان ضعیف خواهد ماند. این به این دلیل است که این نوع وظایف پاسخ‌های واضح و قابل‌تایید سریع ندارند، بنابراین نمی‌توان آنها را با یادگیری تقویتی آموزش داد و در داده‌های آموزشی نیز وجود ندارند. این به این معناست که نرخ پیشرفت در این نوع وظایف کند خواهد بود و ممکن است به سطحی ثابت برسد. اگر هم بگویید موقعیت اولیه آنها ضعیف است، حتی پس از 4 یا 6 سال پیشرفت، ممکن است همچنان ضعیف باشد. دوم، استدلال کنید که بیشتر مشاغل دانش‌بنیان به‌طور قابل‌توجهی شامل این وظایف طولانی‌مدت، نامرتب و با بافت بالا هستند. برای مثال، مهندسان نرم‌افزار بیشتر زمان خود را صرف درک اینکه چه چیزی بسازند، هماهنگ‌سازی با دیگران و درک پایگاه‌های کد عظیم می‌کنند تا فقط لیستی از وظایف تعریف ‌شده را انجام دهند. حتی اگر بهره‌وری آنها در برنامه‌نویسی ۱۰برابر افزایش یابد، اگر برنامه‌نویسی فقط ۵۰درصد از کار آنها باشد، بهره‌وری کلی آنها تنها به‌طور تقریبی دوبرابر خواهد شد. یک مثال برجسته از یک وظیفه نامرتب و مبهم داشتن بینش‌های تحقیقاتی نوین است، بنابراین ممکن است استدلال کنید که این وظیفه که برای تسریع بسیار مهم است، احتمالا سخت‌ترین وظیفه برای خودکارسازی باشد (برخلاف دیگرانی که فکر می‌کنند تحقیقات هوش مصنوعی ممکن است آسان‌تر از بسیاری از مشاغل دیگر خودکار شود). در این سناریو، ما دستیاران هوش‌مصنوعی فوق‌العاده هوشمند و با دانش خواهیم داشت و شاید تسریعی در برخی حوزه‌های مجازی محدود (شاید مانند تحقیقات ریاضی) مشاهده کنیم، اما آنها همچنان ابزار خواهند بود و انسان‌ها همچنان گلوگاه اصلی اقتصادی و علمی خواهند بود. محققان هوش مصنوعی انسانی شاهد افزایش بهره‌وری خود خواهند بود، اما نه به‌اندازه‌ای که یک چرخه بازخورد مثبت آغاز شود- پیشرفت هوش مصنوعی همچنان تحت‌تاثیر بینش‌های نوین، هماهنگی انسانی و محاسبات محدود خواهد ماند.

این محدودیت‌ها، به‌علاوه مشکلاتی مانند پیدا کردن مدل تجاری و سایر موانع برای استقرار هوش مصنوعی، به این معنا خواهد بود که مدل‌ها درآمد کافی برای توجیه اجرای آموزش‌های بیش از ۱۰‌میلیارد دلار ایجاد نخواهند کرد. این به این معناست که پیشرفت به‌طور چشمگیری پس از حدود سال ۲۰۲۸ کند خواهد شد. پس از کند شدن پیشرفت، حاشیه‌های سود مدل‌های پیشرفته کاهش می‌یابد، که باعث می‌شود حتی پرداخت برای آموزش‌های بیشتر دشوارتر شود.
تفسیر کلی این است که AGI تا سال 2030 در محدوده نظر کارشناسان قرار دارد، بنابراین رد کردن آن به عنوان «علم تخیلی» بی‌دلیل است. در واقع، افرادی که بیشتر در مورد این فناوری می‌دانند، کوتاه‌ترین زمان‌ها را برای آن پیش‌بینی کرده‌اند. البته بسیاری از کارشناسان معتقدند که این موضوع مدت زمان بیشتری خواهد برد. اما اگر 30درصد از کارشناسان فکر کنند که یک هواپیما منفجر خواهد شد و 70درصد دیگر فکر کنند که مشکلی پیش نخواهد آمد، به عنوان غیرکارشناسان، نباید نتیجه بگیریم که قطعا این اتفاق نخواهد افتاد. اگر چیزی نامشخص باشد، به این معنی نیست که آن اتفاق نخواهد افتاد.

چرا 5 سال آینده حیاتی است؟

طبیعی است که فرض کنیم چون نمی‌دانیم AGI چه زمانی ظهور خواهد کرد، ممکن است به زودی، در دهه 2030، 2040 و … برسد.با اینکه این دیدگاه رایج است، من مطمئن نیستم که درست باشد. درایورهای اصلی پیشرفت AI بیشتر محاسبات بیشتر و الگوریتم‌های بهتر هستند. احتمالا کشف AI قدرتمندتر زمانی خواهد بود که محاسبات و نیروی کاری که برای بهبود AI استفاده می‌شود، به طور چشمگیری افزایش یابد. در حال حاضر، مجموع محاسباتی که برای آموزش و اجرای AI در دسترس است، سالانه 3 برابر می‌شود و نیروی کار نیز به سرعت در حال رشد است. این به این معنی است که هر سال، تعداد مدل‌های AI که می‌توان اجرا کرد 3برابر می‌شود. علاوه‌براین، در محاسبات سه برابر بیشتری می‌تواند برای آموزش استفاده شود و این آموزش‌ها از الگوریتم‌های بهتر بهره‌مند خواهند شد، که باعث می‌شود مدل‌ها هم قدرتمندتر و هم بیشتر شوند. قبلا استدلال کرده‌ام که این روند تا سال 2028 ادامه خواهد یافت اما اکنون نشان خواهم داد که احتمالا پس از آن با گلوگاه‌هایی روبه‌رو خواهیم شد.

گلوگاه‌ها در اطراف سال 2030

اول، پول: گوگل، مایکروسافت، متا و غیره، ده‌ها‌میلیارد دلار برای ساخت خوشه‌هایی که می‌توانند یک مدل به اندازه GPT-6 را در سال 2028 آموزش دهند، هزینه می‌کنند. برای 10برابر افزایش مقیاس، صدها‌میلیارد دلار سرمایه‌گذاری نیاز است. این قابل انجام است اما بیشتر از سود سالانه فعلی آنها خواهد بود و مشابه مقیاس پروژه‌های بزرگی همچون پروژه آپولو یا پروژه منهتن خواهد بود. GPT-8 نیاز به تریلیون‌ها دلار خواهد داشت. AI باید به اولویت نظامی تبدیل شود یا قبلا درآمد تریلیون‌ها دلاری تولید کرده باشد (که احتمالا نشان‌دهنده این است که AGI به وجود آمده است.)
دوم، برق: اگر فروش تراشه‌های AI به همین سرعت ادامه یابد، ممکن است تراشه‌های AI در سال 2028 بیش از 4درصد از برق ایالات متحده را مصرف کنند. افزایش 10برابری دیگر این رقم را به بیش از 40درصد می‌رساند که به ساخت نیروگاه‌های زیادی نیاز دارد.
سوم، تولید تراشه: TSMC (شرکت تولید نیمه‌هادی تایوان)، که تراشه‌های پیشرفته AI را تولید می‌کند، با چالش‌هایی در مقیاس تولید برای برآوردن نیازهای AI مواجه است. در حالی که TSMC می‌تواند به راحتی 5 برابر بیشتر از تولید فعلی تراشه‌های AI تولید کند، افزایش آن به 50برابر، یک چالش بزرگ خواهد بود.
چهارم، محدودیت‌های تاخیر: این محدودیت‌ها می‌توانند از آموزش مدل‌هایی به اندازه GPT-7جلوگیری کنند که باعث کند شدن پیشرفت می‌شود. بنابراین به احتمال زیاد، نرخ رشد محاسباتی بین سال‌های 2028 و 2032 کند خواهد شد.
پیشرفت الگوریتمی و چالش‌های نیروی کار: پیشرفت‌های الگوریتمی به سرعت در حال انجام است اما هر چه کشف جدیدی انجام می‌شود، کشف بعدی سخت‌تر می‌شود. برای حفظ نرخ پیشرفت ثابت، نیروی کار تحقیقاتی باید به طور نمایی رشد کند. به عنوان مثال، OpenAI از 300 کارمند در سال 2021 امروز به حدود 3000 نفر رسیده است. شرکت‌های دیگری مانند Anthropic و DeepMind نیز به همین ترتیب رشد کرده‌اند. با این حال، این نوع گسترش نیروی کار فقط برای مدت معینی می‌تواند ادامه یابد و بعد از آن کمبود استعداد یا فرسایش ممکن است محدودکننده شود.
رقابت برای غلبه بر گلوگاه‌ها: سوال اصلی این است که آیا مدل‌های AI می‌توانند به اندازه کافی بهبود یابند و درآمد کافی برای تامین منابع آموزش بعدی تولید کنند قبل از اینکه با محدودیت مالی روبه‌رو شوند. یا اینکه آیا AI می‌تواند به تحقیق در مورد الگوریتم‌های خود کمک کند قبل از اینکه محققان انسانی محدود شوند؟ لحظه کلیدی احتمالا در 2032–2028 خواهد بود. این زمانی است که گلوگاه‌های مهمی ظاهر می‌شوند و آیا AI می‌تواند بر آنها غلبه کند یا نه، مسیر پیشرفت بعدی را شکل خواهد داد.

2آینده بالقوه برای AI

اگر AI تا قبل از 2032-2028 نتواند به تحقیق در مورد الگوریتم‌های خود کمک کند، احتمال دستیابی به AGI در یک بازه زمانی کوتاه کاهش پیدا خواهد کرد. با این حال، پیشرفت ناگهان متوقف نمی‌شود؛ بلکه به تدریج کند می‌شود. تقریبا می‌توانیم برای دو سناریو برنامه‌ریزی کنیم:
1- ما به AIای دست پیدا می‌کنیم که می‌تواند تاثیرات تحول‌آفرین ایجاد کند تا حدود سال 2030: پیشرفت AI ادامه می‌یابد یا حتی تسریع می‌شود و احتمالا وارد دوره‌ای از تغییرات انفجاری خواهیم شد.
2- یا پیشرفت کند می‌شود: مدل‌های AI در انجام وظایف مشخص و تعریف‌شده بهتر می‌شوند اما قادر نخواهند بود کارهای نامشخص و افق‌های بلندمدت مورد نیاز برای باز کردن یک رژیم رشد جدید را انجام دهند. شاهد اتوماسیون زیادی از طریق AI خواهیم بود اما به غیر از آن، جهان بیشتر شبیه به حالت «عادی» باقی خواهد ماند. ما طی چند سال آینده اطلاعات بیشتری خواهیم داشت که در کدام سناریو قرار داریم. من به‌طور تقریبی این سناریوها را به نسبت 50-50 می‌بینم، البته می‌توانم این نسبت را بسته به روز به 30درصد یا 80درصد تغییر دهم.
سناریوهای ترکیبی نیز ممکن است وجود داشته باشد مقیاس‌دهی ممکن است به‌طور تدریجی کند شود یا به دلیل یک درگیری در تایوان چند سال به تاخیر بیفتد که باعث می‌شود «AGI» به اوایل دهه 30 میلادی منتقل شود اما مفید است که با یک مدل ساده شروع کنیم.
اعدادی که برای هر سناریو در نظر می‌گیرید، همچنین به تعریف شما از AGI و آنچه که فکر می‌کنید تحول‌آفرین خواهد بود، بستگی دارد. من بیشتر علاقه‌مند به پیش‌بینی AI هستم که بتواند به‌طور معناداری به تحقیق در مورد AI کمک کند. AGI به معنای مدلی که می‌تواند تقریبا تمام وظایف کاری از راه دور را ارزان‌تر از یک انسان انجام دهد، احتمالا به دلیل یک دنباله طولانی از گلوگاه‌ها زمان بیشتری خواهد برد. از طرف دیگر، AGI به معنای «بهتر از تقریبا تمام انسان‌ها در استدلال زمانی که یک ساعت فرصت داده شود»، به نظر می‌رسد که به‌طور اساسی هم‌اکنون موجود باشد.
نتیجه‌گیری
آیا تا سال 2030 AGI خواهیم داشت؟ بسته به تعریف دقیق، شواهد قابل‌توجهی از این احتمال حمایت می‌کنند ممکن است تنها نیاز باشد که روندهای فعلی را چند سال دیگر ادامه دهیم. هرگز شواهد قطعی برای هر کدام از این دو گزینه نخواهیم داشت اما برای من به وضوح بیش از حد خوش‌بینانه به نظر می‌رسد که احتمال وقوع AGI پیش از 2030 را کمتر از 10درصد بدانیم. با توجه به پیامدهای عظیم و خطرات جدی، شواهد کافی برای جدی گرفتن این احتمال به‌شدت وجود دارد. وضعیت کنونی شبیه به فوریه 2020، درست پیش از قفل شدن‌های کووید است: روندی واضح تغییرات عظیمی را پیش‌بینی می‌کرد اما بیشتر مردم زندگی خود را به‌طور عادی ادامه دادند. در مقاله‌ای که به زودی منتشر خواهم کرد، استدلالم خودکار شدن بیشتر کارها از راه دور توسط AGI و دو برابر شدن اقتصاد ممکن است نتیجه‌ای محتاطانه باشد. اگر AI بتواند تحقیق در مورد AI انجام دهد، فاصله بین AGI و «هوش فراتر از انسان» می‌تواند بسیار کوتاه باشد. این می‌تواند منجر به گسترش عظیم نیروی کار تحقیقاتی شود که احتمالا پیشرفت علمی یک قرن را در کمتر از یک دهه ارائه خواهد داد. رباتیک، بیوتکنولوژی و استقرار فضایی ممکن است بسیار زودتر از آنچه که معمولا انتظار می‌رود، به وقوع بپیوندد. پنج سال آینده می‌تواند آغاز یکی از مهم‌ترین دوره‌های تاریخ باشد.

مخاطب گرامی، ارسال نظر پیشنهاد و انتقاد نسبت به خبر فوق در بخش ثبت دیدگاه، موجب امتنان است.

 

ع

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

11 − هفت =

پربازدیدترین ها