مسئله راهزن چند دست

جدال بین کاوش (Exploration) و بهره‌برداری (Exploitation) در علوم کامپیوتر در سناریویی به نام (مسئله راهزن چند دست) شکل اصلی خود را نشان می‌دهد.

راهزن یک دست

اولین چیزی که به ذهن میاد شاید یه راهزن باشه که اسلحه داره یا یه چیزی شبیه به اون. ولی قضیه این نیست!

“راهزن یک دست” (One-Armed Bandit) یه اسم دیگه برای دستگاه‌های اسلات ماشینه. همون دستگاه‌های شرط‌بندی که یه دسته دارن و تو کازینوها استفاده می‌شن.

چرا بهش میگن “راهزن یک‌دست”؟
خب یه داستان تاریخی پشتشه. قبلاً این دستگاه‌ها یه دسته داشتن که باید می‌کشیدید تا بازی شروع بشه. الان بیشترشون دکمه‌ای شدن، ولی اون موقع باید اهرم رو می‌کشیدید.

چرا راهزن؟
چون این دستگاه‌ها خیلی راحت پول آدم رو می‌بردن! مثلاً احتمال بردتون خیلی کم بود و معمولاً بازنده می‌شدید. به همین خاطر بهشون گفتن راهزن، چون انگار پولتون رو می‌دزدیدن.

راهزن چند دست (Multi-Armed Bandit)

فرض کنید به جای یه دستگاه، چند تا از این دستگاه‌ها جلوتونه. مثلاً ۵ تا. مسئله اینه که چطوری بازی کنید تا بیشترین برد رو داشته باشید.

فرض کنید قراره ۱۰۰ بار بازی کنید. حالا چطوری باید بفهمید کدوم دستگاه بهتره؟ اگه همه‌شون یه شانس متفاوت برای برد دارن، باید سریع بفهمید کدومشون بهترینه و ازش بیشتر استفاده کنید.

چالش اصلی:
مشکل اینجاست که نمی‌دونید شانس برد تو هر دستگاه چقدره. هر دستگاه یه توزیع آماری خاص داره که نتیجه‌ها رو از اون انتخاب می‌کنه. ولی شما از قبل نمی‌دونید این توزیع‌ها چجوری هستن.

هدفتون اینه که بفهمید کدوم دستگاه بهتره و از همون استفاده کنید، اما بدون اینکه کلی وقت یا پول برای امتحان کردن دستگاه‌های دیگه هدر بدید.

حالا مشکل رو با جزئیات بیشتری توضیح بدیم:
فرض کنید ۵ تا دستگاه دارید. هر کدوم از این دستگاه‌ها یه توزیع آماری دارن که نتایجشون رو از اون انتخاب می‌کنن. مثلاً دستگاه اول ممکنه شانس برد خیلی کمی داشته باشه، ولی دستگاه پنجم شانس برد بیشتری داره.

چالش اینه که شما نمی‌دونید این توزیع‌ها چه شکلی هستن.
اگه از قبل می‌دونستید کدوم دستگاه بهتره، خب فقط از همون استفاده می‌کردید. مثلاً اگه می‌دیدید دستگاه پنجم نتایج بهتری میده، ۱۰۰٪ بازی‌هاتون رو روی همون انجام می‌دادید. ولی چون این رو نمی‌دونید، باید اول کشف کنید کدوم بهتره.

اینجاست که مفهوم اکتشاف و بهره‌برداری مطرح میشه:

اکتشاف (Exploration): شما باید دستگاه‌های مختلف رو امتحان کنید تا بفهمید کدومشون بهتره.
بهره‌برداری (Exploitation): وقتی فهمیدید کدوم دستگاه بهتره، باید بیشتر از اون استفاده کنید تا بیشترین برد رو داشته باشید.

اما یه نکته مهم هست:
اگه خیلی وقت صرف اکتشاف کنید، ممکنه پولتون تموم بشه یا وقتتون هدر بره. از طرفی، اگه زودتر از اینکه دستگاه خوب رو پیدا کنید، دست از اکتشاف بردارید، ممکنه روی یه دستگاه ضعیف گیر کنید و برد کمتری داشته باشید.

یه مفهوم دیگه هم این وسط وجود داره: حسرت (Regret):

حسرت یعنی وقتی از یه دستگاه استفاده می‌کنید که بهترین نیست، به نوعی دارید فرصت استفاده از دستگاه بهتر رو از دست می‌دید. این حسرت میشه تفاوت بین نتیجه دستگاه بهترین و نتیجه دستگاهی که شما استفاده کردید.

حسرت می تواند خیلی انگیزاننده باشد. پیش از راه اندازی آمازون جف بروس شغلی بسیار خوب در شرکت سرمایه گذاری دی آبی شاو و شرکا داشت. راه اندازی کتابفروشی آنلاین در سیاتل قدمی بسیار بزرگ بود و رئیسش در آن زمان خود آقای شاو از او خواست به این ریسک خیلی فکر کند.

جف میگوید: چارچونی که برای تصمیم گیری استفاده کردم و کارم رو خیلی راحت کرد چیزی بود که بهش میگفتم چارچوب کمینه کردن حسرت. خودم رو در ۸۰ سالگی تصور کردم و با خودم گفتم که حالا به زندگیم نگاه میکنم میخوام تعداد حسرت هایی که خوردم رو کمینه کنم میدونستم که وقتی ۸۰ سالم میشه از امتحان این مسیر حسرت نخواهم خورد. قرار نیست از تلاش برای مشارکت در چیزی که بهش میگن اینترنت و به نظرم قراره چیز خیلی خفنی بشه حرت بخورم میدونستم که اگر شکست بخورم حسرت نمیخورم اما تنها چیزی که برام حسرت همیشگی داره اینه که امتحانش نکنم میدونستم که این حسرت هر روز من رو آزار میده و برای همین با این نگاه تصمیم گرفتن برام خیلی ساده شد.

علوم کامپیوتر نمیتواند زندگی بدون حسرتی را به شما ارائه کند. اما توان این را دارد که چیزی را ارائه کند که جف بزوس دنبال میکرد زندگی با کمترین حسرت!

هرچی بیشتر روی دستگاه‌های ضعیف وقت بذارید، حسرتتون بیشتر میشه. اما اگه کلاً وقت کافی برای اکتشاف نذارید، ممکنه دستگاه خوب رو پیدا نکنید و حسرت بیشتری بخورید. پس باید یه تعادلی بین اکتشاف و بهره‌برداری پیدا کنید.

حالا این مسئله چه کاربردی داره؟

یکی از کاربردهای مدرن این مسئله توی تبلیغات آنلاینه. مثلاً فرض کنید یه شرکت مثل کوکاکولا می‌خواد یه کمپین تبلیغاتی اجرا کنه.

اونا ۵ تا طرح تبلیغاتی دارن. هدفشون اینه که بفهمن کدوم طرح بهتره و مردم بیشتری رو جذب می‌کنه. اما اگه بخوان همه‌ی طرح‌ها رو با هم امتحان کنن (مثل تست A/B)، ممکنه کلی پول و وقت صرف بشه.

مسئله اینجاست:
چطور میشه در حالی که دارید تبلیغ می‌کنید، بفهمید کدوم طرح بهتره و سریع‌تر از همون استفاده کنید؟

این دقیقاً جاییه که مسئله “دست‌بند چندبازو” به کار میاد. شما می‌تونید از الگوریتم‌های یادگیری تقویتی استفاده کنید تا در حین اجرا، بهترین طرح رو پیدا کنید و از همون برای بقیه‌ی تبلیغات بهره ببرید.

الگوریتم Epsilon-Greedy

چی میگه؟
این الگوریتم یه ترکیب از اکتشاف و بهره‌برداریه. ایده اصلی اینه که بیشتر وقت‌ها (مثلاً ۹۰٪ مواقع) سراغ دستگاهی می‌ری که تا الان بیشترین برد رو داده. ولی یه درصد کمی از وقت‌ها (مثلاً ۱۰٪ مواقع)، دستگاه‌های دیگه رو هم امتحان می‌کنی، چون ممکنه یکی از اون‌ها بهتر باشه و هنوز کشفش نکرده باشی.

چرا اسمش اینه؟

“Epsilon” نشون‌دهنده همون درصد شانس امتحان دستگاه‌های دیگه‌ست (معمولاً یه عدد کوچیک، مثلاً ۰.۱ یا ۱۰٪).
“Greedy” به این معنیه که همیشه دنبال بیشترین برد در لحظه هستی (همون بهره‌برداری).

چطور کار می‌کنه؟

اول به طور تصادفی یه بار از همه دستگاه‌ها استفاده می‌کنی تا یه ایده اولیه داشته باشی.
بعد از هر بار بازی، بررسی می‌کنی که کدوم دستگاه میانگین برد بالاتری داره.
توی هر مرحله، با احتمال ۹۰٪ (یا هر عددی که برای Epsilon تنظیم کردی)، از دستگاهی که تا الان بهترین بوده استفاده می‌کنی.
ولی با احتمال ۱۰٪، یه دستگاه تصادفی رو امتحان می‌کنی.

مثال:
فرض کن پنج تا دستگاه داری. چند بار اول همه رو امتحان می‌کنی و می‌بینی دستگاه سوم میانگین بردش بالاتره. حالا:

۹۰٪ مواقع از دستگاه سوم استفاده می‌کنی.
۱۰٪ مواقع یه دستگاه دیگه رو شانسی امتحان می‌کنی، چون ممکنه دستگاه بهتری وجود داشته باشه که هنوز ندیدی.

الگوریتم UCB (کران بالای اطمینان)

چی میگه؟
این الگوریتم هوشمندتره و به جای امتحان تصادفی، می‌گه دستگاهی که کمتر استفاده شده و ممکنه برد خوبی داشته باشه رو هدف بگیر. به این روش، شانس بهتری برای کشف دستگاه‌های خوب داری.

چطور کار می‌کنه؟

برای هر دستگاه دو چیز رو در نظر می‌گیری:
- میانگین برد فعلی: که نشون میده اون دستگاه تا الان چقدر خوب بوده.
- میزان اطمینان از میانگین: دستگاه‌هایی که کمتر امتحان شدن، میزان اطمینان کمتری دارن و باید بیشتر بهشون شانس بدی.
دستگاهی رو انتخاب می‌کنی که مجموع این دو مقدار بیشترین باشه:
- مقدار اطمینان معمولاً یه فرمول داره که هرچی دستگاه کمتر امتحان شده باشه، عددش بیشتره.

مثال:
فرض کن دستگاه چهارم تا حالا فقط دو بار استفاده شده و یه برد خوب داشته، ولی دستگاه دوم ۱۰ بار استفاده شده و میانگین بردش متوسطه.

UCB میگه: «برو دستگاه چهارم رو دوباره امتحان کن، شاید بردش بهتر باشه. چون تعداد دفعات امتحانش کمه و مطمئن نیستیم.»

قاعده توقف بر برنده (Stopping Rule for the Winner)

این قاعده خیلی ساده‌ست: میگه وقتی توی بررسی‌هات فهمیدی کدوم دستگاه بهترینه (بیشترین برد رو داره)، دیگه همونجا کار اکتشاف رو متوقف کن و فقط از اون استفاده کن.

چرا این قاعده مهمه؟
فرض کن دستگاه شماره ۳ توی ۲۰ بار امتحان، نشون داده که شانس بردش از بقیه خیلی بالاتره. اگه این قاعده رو رعایت کنی، دیگه وقت و پولت رو روی دستگاه‌های دیگه هدر نمی‌دی و مستقیم می‌ری سراغ بهره‌برداری از دستگاه برنده.

مشکلش چیه؟
گاهی ممکنه دستگاهی که به نظر بهترین میاد، در واقع بهترین نباشه (چون هنوز دستگاه‌های دیگه به اندازه کافی تست نشدن). پس این قاعده بیشتر برای مواقعی خوبه که زمان یا منابع محدودی داری.

مثال:
فرض کن یه کازینو رفتی و می‌خوای ۵۰ بار بازی کنی. بعد از ۱۰ بار بازی، دستگاه شماره ۴ توی ۸ بار برنده بوده. قاعده توقف میگه: «خب، همین دستگاه بهترینه. دیگه وقت و پولت رو روی بقیه حروم نکن.»

شاخص گیتینز (Gittins Index)

این چیه؟
یه روش پیشرفته‌تر و ریاضی‌محور که برای حل مسئله “راهزن چنددست” استفاده میشه. گیتینز میگه برای هر دستگاه، یه امتیاز (یا شاخص) محاسبه کن که نشون بده چقدر ارزش امتحان کردن داره.

چطور کار می‌کنه؟

به هر دستگاه یه شاخص می‌ده که ترکیبی از دو چیزه:
1. میانگین برد فعلی (نتایجی که تا حالا از اون دستگاه گرفتی).
2. ارزش اکتشاف (چقدر احتمال داره که امتحان کردن بیشتر، اطلاعات بهتری درباره اون دستگاه بده).

چرا باحاله؟
به جای اینکه همه دستگاه‌ها رو کورکورانه امتحان کنی یا فقط روی دستگاه‌های برنده تمرکز کنی، این روش با یه فرمول هوشمندانه تصمیم می‌گیره کدوم دستگاه رو توی مرحله بعد تست کنی.

مثال:
فرض کن دو تا دستگاه داری:

دستگاه اول میانگین بردش بالاست ولی خیلی امتحانش کردی و اطلاعاتت درباره‌ش کامله.
دستگاه دوم میانگین بردش پایینه ولی هنوز فقط دو بار امتحانش کردی.
شاخص گیتینز میگه دستگاه دوم ارزش امتحان بیشتری داره، چون ممکنه اطلاعات جدیدی درباره‌ش به دست بیاری.

آزمون A/B

این دیگه چیه؟
آزمون A/B یه روش سنتیه برای مقایسه دو یا چند گزینه. تو این روش، همه گزینه‌ها رو به تعداد مساوی امتحان می‌کنی و بعد از یه مدت نتیجه‌گیری می‌کنی کدوم بهتره.

مشکلش چیه؟

فقط روی اکتشاف تمرکز داره و بهره‌برداری نمی‌کنه.
مثلاً ممکنه کلی پول یا زمان صرف کنی تا بفهمی یه گزینه بهتره، ولی در این مدت از اون گزینه استفاده نکردی.

مثال:
فرض کن پنج تا دستگاه داری. A/B میگه: از همه دستگاه‌ها به‌صورت مساوی استفاده کن (مثلاً هر کدوم ۱۰۰ بار) و بعد مقایسه کن. مشکلش اینه که اگه دستگاه شماره ۵ از همون اول بهترین بوده، کلی وقت و پولت رو روی دستگاه‌های ضعیف هدر دادی.