انقلاب جدید در هوش مصنوعی؛ عصر یادگیری تجربی آغاز شد!

رویکرد جدیدی به نام «جریانهای تجربه» (Streams) به هوش مصنوعی اجازه میدهد بهطور مستقل و بدون دخالت انسانی از تجربههای محیطی، یاد بگیرد.
به گزارش شبکه اطلاع رسانی راه دانا؛ آیا روزی ماشینها میتوانند مانند انسانها از تجربههایشان یاد بگیرند؟ جامعهی پژوهشگران هوش مصنوعی اخیراً تلاش کرده است فناوریهای مولد (Generative) را فراتر از آزمونهای سادهای که مدلها بهراحتی از آنها عبور میکنند، توسعه دهد.
مدلها امروز آنقدر تواناییهای مختلف کسب کردهاند که آزمون تورینگ بهنوعی کارایی خود را از دست داده است. مدلهای جدید حالا میتوانند با تقلید از الگوهای زبانی انسان، از این آزمون عبور کنند، اما موفقیت آنها لزوماً نشاندهندهی درک واقعی یا هوشمندی عمیق نیست. این موضوع بحث داغی را میان پژوهشگران ایجاد کرده است: آیا مدلهای جدید صرفاً برای عبور از بنچمارکها طراحی شدهاند یا واقعاً هوشمندی لازم برای تولید نتایج فوقالعاده را دارند؟
بهگفتهی پژوهشگران دیپمایند گوگل، آزمونها مشکل اصلی نیستند، بلکه محدودیت امروز در روشهای توسعهی مدلهای هوش مصنوعی است. دادههای آموزشی این مدلها بسیار محدود و ایستا هستند و معمولاً از مجموعههای ثابت متنی مانند ویکیپدیا یا کتابها تشکیل شدهاند که نمیتوانند با تغییرات و پویاییهای دنیای واقعی هماهنگ شوند. همین محدودیت باعث میشود مدلها نتوانند در مواجهه با موقعیتهای جدید، دانش خود را بهروزرسانی کنند.
پژوهشگران دیپمایند در مقالهای که ۱۱ آوریل ۲۰۲۵ منتشر شد و بخشی از کتاب در دست انتشار طراحی یک هوش از انتشارات MIT است، پیشنهاد کردهاند که هوش مصنوعی باید بتواند از طریق تعامل مستقیم با جهان واقعی، مانند دریافت بازخورد از محیط یا کاربران، تجربه کسب کند و اهداف خود را براساس سیگنالهای محیطی تعیین کند. دیوید سیلوِر (David Silver) و ریچارد ساتِن (Richard Sutton)، پژوهشگران ارشد دیپمایند،
این دو پژوهشگر از چهرههای شاخص حوزهی یادگیری ماشین هستند. سیلور بهعنوان رهبر تیم توسعهدهندهی آلفازِرو (AlphaZero) شناخته میشود؛ مدلی که در بازیهای شطرنج و گو هوش انسانی را شکست داد. ساتن نیز یکی از خالقان یادگیری تقویتی (Reinforcement Learning) است؛ روشی که پایهی ساخت آلفازِرو بود و جایزهی تورینگ را برای او به ارمغان آورد.
یادگیری تقویتی با مفاهیمی مانند یادگیری تفاوت زمانی، که به ماشینها امکان پیشبینی پاداشهای آینده را میداد، از دههی ۱۹۸۰ توسعه یافت. روشهای کاوش، مانند الگوریتمهای مبتنی بر کنجکاوی، به ماشینها کمک کردند تا استراتژیهای خلاقانهای کشف کنند. در این روش، مدل با آزمون و خطا و دریافت بازخورد (پاداش یا جریمه) از محیط، رفتار خود را بهبود میبخشد.
بهدلیل وابستگی زیاد به آزمون و خطا، یادگیری تقویتی نیاز به طراحی سیستمهای پاداش پیچیدهای دارد که تنظیم آنها در دنیای واقعی میتواند دشوار باشد، زیرا محیطهای واقعی غیرقابل پیشبینی هستند و پیشبینی تمام پیامدهای یک اقدام دشوار است.
برای مثال، در یک سیستم خودران، تعیین پاداش مناسب برای هر اقدام (مانند ترمز کردن یا تغییر مسیر) نیاز به تحلیل دقیق و پیشبینی عواقب بلندمدت دارد، که در محیطهای پویا و غیرقابل پیشبینی چالشبرانگیز است.
رویکردی که سیلور و ساتن از آن دفاع میکنند، براساس یادگیری تقویتی و درسهای آلفازِرو بنا شده و «جریانها» (Streams) نام دارد. هدف آن رفع کاستیهای مدلهای زبانی بزرگ (مانند GPT) است که صرفاً برای پاسخگویی به سؤالات تکجملهای طراحی شدهاند. این دو پژوهشگر اشاره میکنند که پس از موفقیت آلفازِرو و مدل پیشین آن، آلفاگو، نسل جدید هوشهای مصنوعی مولد مانند GPT ظهور کردند و یادگیری تقویتی به نوعی کنار گذاشته شد. این تغییر هم مزایا و هم معایبی داشت.
هوش مصنوعی مولد پیشرفت مهمی بود، زیرا کاربرد یادگیری تقویتی در آلفازِرو محدود به بازیهایی با اطلاعات کامل مانند شطرنج بود که تمام قواعد آن از پیش مشخص است. در مقابل، مدلهای مولد میتوانند ورودیهای خودجوش انسانها را بدون نیاز به قواعد از پیش تعیینشده پردازش کنند.
بااینحال، بهگفتهی دو پژوهشگر ارشد دیپمایند، کنار گذاشتن یادگیری تقویتی بهمعنای از دست دادن توانایی عامل هوشمند در کشف مستقل دانش بود. آنها تأکید میکنند که مدلهای زبانی بزرگ به پیشداوری انسانها متکیاند.
به بیان دیگر، هوش مصنوعی بهجای اینکه خود به تحلیل مسائل بپردازد و راهحلهای نوآورانه ارائه دهد، بیشازحد به دستورات کاربر (پرامپت) وابستگی دارد. این رویکرد محدودکننده است، زیرا قضاوت انسان سقفی غیرقابل نفوذ بر عملکرد عامل هوشمند تحمیل میکند: عامل هوشمند نمیتواند راهبردهای بهتری را از آنچه از سوی ارزیاب انسانی نادیده گرفته شدهاند، کشف کند.
پژوهشگران دیپمایند معتقدند با ترکیب یادگیری تقویتی و تواناییهای تعاملی هوش مصنوعی مولد، میتوان به جریانهایی (Streams) دست یافت که در آنها مدلهای هوش مصنوعی بهصورت پیوسته و براساس بازخورد محیطی، دانش خود را بهروزرسانی میکنند. این معماریِ مبتنیبر تجربه، مسیر جدیدی برای خلق سیستمهایی است که نهتنها پاسخگو به سؤالات و ورودیهای کاربر باشند، بلکه فعالانه به کشف و بهبود مستمر نیز بپردازند.
ارسال دیدگاه