پایگاه خبری دانشگاه تربیت مدرس

جلسه دفاع پایان نامه: رامتین تولی پور، گروه سیستم های اقتصادی و اجتماعی

خلاصه خبر:

عنوان پايان نامه: حل مسئله مسيريابي وسايل نقليه الكتريكي با انبار هاي چندگانه و سياست تعويض باتري به كمك رويكرد يادگيري تقويتي

ارائه کننده: رامتین تولی پور
استاد راهنما: دكتر سيد احسان سيد ابريشمي
استاد راهنماي دوم : دكتر احسان نيك بخش
استاد داور داخلي: دكتر علي حسين زاده كاشان
استاد داور خارج از دانشگاه: دكتر سيد محمود مصباح نميني
نماينده تحصيلات تكميلي: دكتر علي حسين زاده كاشان
تاریخ: 1404/03/04
ساعت: 12:30
مكان: اتاق سمينار طبقه منفي يك دانشكده فني و مهندسي

چکیده:
در سال‌های اخیر، با گسترش استفاده از پلتفرم‌های سفارش آنلاین غذا، طراحی سیستم‌های هوشمند برای بهینه‌سازی فرآیند تحویل به یکی از چالش‌های مهم در حوزه لجستیک شهری تبدیل شده است. هدف این پژوهش، ارائه و ارزیابی یک چارچوب تصمیم‌گیری مبتنی بر یادگیری تقویتی برای تخصیص بهینه حامل‌ها به سفارش‌های گروه‌بندی‌شده در محیطی شبه‌واقعی است. در این راستا، یک محیط شبیه‌سازی‌شده طراحی شد که در آن متغیرهایی نظیر مکان مشتریان، زمان آماده‌سازی غذا، ایستگاه‌های تعویض باتری، و محدودیت‌های حرکتی در شبکه گریدی مدل‌سازی شدند. در فاز نخست، یک الگوریتم پایه مبتنی بر اختصاص نزدیک‌ترین حامل به مرکز خوشه پیاده‌سازی شد و به عنوان معیار مقایسه مورد استفاده قرار گرفت. سپس الگوریتم Q-Learning برای بهینه‌سازی تصمیم‌گیری در فاز تخصیص توسعه داده شد. نسخه اولیه این الگوریتم، با وجود عملکرد قابل قبول، بهبود محدودی در شاخص‌ها داشت؛ اما نسخه دوم آن، با تعریف پیچیده‌تر وضعیت، روند یادگیری مؤثرتری از خود نشان داد. در گام بعدی، الگوریتم پیشرفته Proximal Policy Optimization (PPO) بر پایه ساختار Actor-Critic پیاده‌سازی گردید و با بهره‌گیری از شبکه عصبی توانست عملکرد پایدارتری نسبت به Q-Learning ارائه دهد. در بخش ارزیابی، الگوریتم‌ها از نظر شاخص‌هایی نظیر میانگین زمان تحویل، انحراف معیار زمان، مجموع زمان انتظار، و یکنواختی مسافت طی‌شده مورد مقایسه قرار گرفتند. همچنین، به‌منظور تحلیل پایداری مدل، تحلیل حساسیت نسبت به پارامترهایی مانند تعداد حامل‌ها، مقدار K در خوشه‌بندی، و بازه زمانی گروه‌بندی سفارش‌ها انجام شد. نتایج نشان داد که الگوریتم PPO در اکثر شاخص‌ها عملکرد بهتری نسبت به روش پایه و Q-Learning دارد و در عین حال در شرایط کاهش منابع نیز از انعطاف‌پذیری قابل قبولی برخوردار است. قابل ذکر است مدل نهایی استفاده شده در این پژوهش توانسته شاخص‌های ارزیابی عملکرد میانگین زمان تحویل، انحراف از معیار زمان تحویل، میانگین مسافت طی شده به ازای هر حامل و انحراف از معیار مسافت طی شده به ازای هر حامل را به ترتیب 7.2%، 3.9%، 3.6% و 50.1% بهبود دهد. همچنین شاخص ارزیابی مجموع میزان انتظار حامل‌ها در رستوران‌ها جهت جمع‌آوری سفارش‌ها را به صفر برساند. در پایان، با بررسی محدودیت‌های موجود، پیشنهادهایی برای توسعه‌های آتی از جمله استفاده از یادگیری تقویتی در فازهای گروه‌بندی و مسیریابی، بهره‌گیری از داده‌های واقعی، و افزودن عدم قطعیت به مدل ارائه شده است. این پژوهش نشان می‌دهد که ترکیب الگوریتم‌های یادگیری تقویتی با راهبردهای گروه‌بندی، می‌تواند راه‌حلی کارآمد برای مدیریت بهینه سیستم‌های تحویل در مقیاس شهری ارائه دهد.

اخبار مرتبط

گالری

برچسب‌ها

جلسه دفاع پایان نامه: رامتین تولی پور، گروه سیستم های اقتصادی و اجتماعی

خلاصه خبر:

اخبار مرتبط

گالری

برچسب‌ها

به اشتراک بگذارید

جلسه دفاع پایان نامه: رامتین تولی پور، گروه سیستم های اقتصادی و اجتماعی

خلاصه خبر: