روش یادگیری تقویتی و استفاده از آن در بهینه‌سازی مصرف انرژی

روش یادگیری تقویتی و استفاده از آن در بهینه‌سازی مصرف انرژی

در کشور ایران، بخش صنعت نزدیک به 36 درصد از کل انرژی را مصرف می­کند. این مصرف انرژی، شامل 22 درصد مصرف انرژی الکتریکی، 59 درصد مصرف گاز طبیعی و 11 درصد مصرف نفت خام و مشتقات آن می‌شود. در بین صنایع تولید سیمان، پتروشیمی و فولاد، بالاترین میزان مصرف انرژی را دارند. در زمان پیک بار و کمبود برق در کشور، صنایعی که مصرف انرژی الکتریکی بالایی دارند، به عنوان اولین اولویت برای قطعی در تأمین برق قرار می‌گیرند. بنابراین، استفاده از روش‌های نوین و پربازده برای مدیریت مصرف انرژی، برای این صنایع بسیار ضروری است و در کنار آن تخصیص بهینه توان و انرژی به این مشترکین به صورتی که تمام قیود کاری آنها را در بر بگیرد بسیار مهم می باشد. این امر شامل کاهش و بهینه‌سازی مصرف انرژی می‌باشد.

اما ارایه یک راهکار به‌خصوص برای تمام مشترکین صنعتی انرژی‌بر کشور جهت پیش‌بینی، کاهش و بهینه‌سازی مصرف انرژی مناسب نمی‌باشد. زیرا تیپ‌های کاری آن‌ها، نوع محصولات ورودی و خروجی و دستگاه های مورد استفاده  متفاوت بوده که بر میزان مصرف انرژی هر مشترک تاثیرگذار خواهد بود. داده‌های گذشته هر مشترک باید به منظور بدست آمدن ماکزیمم دیماند مصرفی و مصرف در زمان پیک و انواع واحدهای تولیدی، میزان مصرف هر واحد به منظور تعیین تخصیص انرژی هر مشترک مورد بررسی قرار گیرد.

برای مشترکین خانگی نیز شرایط آب و هوایی، ساعت اوج مصرف برق، وسایل پرمصرف برق، ویژگی‌های هر فرد، سبک زندگی، شرایط جامعه، فرهنگ مادی، رفتارها و ارزش‌های حاکم بر جامعه و شبکه‌های اجتماعی و… بر میزان مصرف  انرژی هر مشترک تاثیرگذار خواهد بود. به عنوان مثال در شهر اهواز در فصل تابستان به دلیل دمای بالای هوا، مردم در طول روز بیشتر در منزل هستند. از وسایل برقی خنک‌کننده بسیار استفاده می‌کنند. از ماشین لباس‌شویی به دلیل تعرق بالا زیاد استفاده می‌کنند. بنابراین الگوی مصرف در شرایط آب و هوایی مختلف متفاوت می‌باشد.

ارایه الگوی مناسب  به صورت دستی و با استفاده از نیروی انسانی بسیار مشکل و در برخی مواقع امکان‌پذیر نمی‌باشد. در نظر گرفتن تمام قیود برای هر واحد صنعتی و پیاده سازی تمام روابط ریاضی برای هر یک از آن‌ها بسیار زمان‌بر بوده و امکان خطا و اشتباه انسانی نیز وجود دارد. در چنین شرایطی استفاده از روش‌های مختلف یادگیری ماشین برای ارایه راه‌کار مناسب بسیار کارآمد می‌باشد.

یادگیری ماشین، یکی از زیر مجموعه‌های هوش مصنوعی می‌باشد که به سیستم‌ها این امکان را می‌دهد تا به صورت خودکار یادگیری و پیشرفت داشته باشد. این  فرآیند با مشاهدات یا داده‌ها آغاز می‌شود و با استفاده از یادگیری‌هایی که انجام می‌گیرد و رسیدن به یک الگو مناسب، تصمیمات بهتری را ارایه می‌دهد.

انواع روش‌های یادگیری ماشین در شکل(1) نشان داده شده است.

شکل(1): انوع روش‌های یادگیری ماشین

همان‌طور که در شکل(1) نشان داده شده است، در یادگیری با نظارت، الگوریتم از نمونه‌های برچسب‌گذاری‌شده یاد می‌گیرد، جایی که هر ورودی با یک برچسب هدف یا خروجی مربوطه مرتبط است. هدف نگاشت ورودی‌ها به خروجی‌های از پیش‌تعریف‌شده براساس داده‌های آموزشی ارائه شده می‌باشد. در یادگیری بدون نظارت از الگوریتم‌های خودآموز استفاده می‌کند که بدون هیچ برچسب یا آموزش قبلی یاد می‌گیرند. به مدل داده‌های خام و بدون برچسب داده می‌شود و باید قوانین خود را استنباط کند و اطلاعات را بر اساس شباهت‌ها، تفاوت‌ها و الگوها بدون دستورالعمل‌های صریح در مورد نحوه کار با هر قطعه داده، ساختار‌بندی کند. الگوریتم‌های یادگیری بدون نظارت برای کارهای پردازشی پیچیده‌تر، مانند سازمان‌دهی مجموعه‌های داده بزرگ، بسیار مناسب هستند.

یادگیری تقویتی: در محیطی عمل می‌کند که عامل از طریق آزمون‌ و خطا یاد می‌گیرد که با محیط تعامل ‌کند و اقداماتی انجام می‌دهد که بازخوردی را به ‌شکل پاداش یا جریمه دریافت می‌کند و رفتار خود را برای به‌ حداکثررساندن پاداش‌های انباشته در طول زمان تنظیم می‌کند.

انواع کاربردهای یادگیری ماشین در شکل(2) نشان داده شده است.

شکل(2): زمینه‌های کاربرد یادگیری ماشین

بهینه‌سازی مصرف انرژی:

یکی از روش‌های پرکاربرد برای بهینه‌سازی و کاهش مصرف انرژی به نحوی که باعث نارضایتی مشترک نیز نگردد، استفاده از روش یادگیری تقویتی می‌باشد.

در این روش، پارامترهایی تحت عنوان عامل(Agent)، محیط(Environment)، اعمالAction))، حالات(State) و پاداش(Reward) تعریف می‌گردد. در حل مسئله با استفاده از روش یادگیری تقویتی عامل و محیط نقش بسیار مهمی را ایفا می‌کنند. عامل با جستجوی فراوان در محیط اطلاعات موجود را در هر لحظه دریافت می‌کند و بر اساس آنها اطلاعات خود را بروز می‌کند. این روش بین روش با ناظر و بدون ناظر قرار دارد. بدین معنا که عامل با سعی و خطای فراوان در محیط و دریافت پاداش و جریمه از آن طی تکرار بالا سعی می‌کند بهترین عمل را در هر لحظه انتخاب کند و به سیاست بهینه برسد. ارتباط بین پارامترها در روش یادگیری تقویتی در شکل(3) نشادن داده شده است.

شکل(3): ارتباط بین پارامترها در روش یادگیری تقویتی

در این مسئله نیز، عامل یاد می‌گیرد با سعی و خطا در محیط بهینه‌ترین الگوی مصرف انرژی را برای هر تمامی مشترکین با تیپ‌های کاری متفاوت  پیشنهاد ‌دهد که باعث کاهش هزینه قبض مشترک و کاهش نارضایتی گردد. همچنین این روش قابلیت تطبیق با محیط را دارد و برخلاف  روش‌های کلاسیک نیاز به درنظر گرفتن شرایط ثابت و مدل ریاضی پیچیده ندارد.  مزیت‌ روش یادگیری تقویتی درشکل (4) نشان داده شده است.

 شکل(4): مزیت‌های روش یادگیری تقویتی

یکی از روش‌های یادگیری تقویتی، روش مسیرهای شایستگی می‌باشد که در این روش نگاه به عقب در بروزرسانی حالت و عمل وجود دارد. این  امر سبب می‌شود با نگاه به گذشته خطای تصمیم‌گیری تا حد خیلی زیادی کاهش یابد.

شکل(5): نگاه به عقب در روش مسیرهای شایستگی

شکل(6): انتخاب عمل در روش یادگیری تقویتی

ترکیب این روش با شبکه عصبی نیز باعث افزایش دقت و سرعت در تشخیص خطای به وجود آمده در شبکه و همچنین پیشنهاد راه حل مناسب در از بین بردن آن خواهد شد.

شکل(7): ترکیب روش شبکه عصبی و یادگیری تقویتی

مزیت ترکیب روش یادگیری تقویتی و شبکه عصبی در شکل(8) نشان داده شده است.

شکل(8): ترکیب روش شبکه عصبی و یادگیری تقویتی

روش یادگیری تقویتی در مدیریت مصرف انرژی خانگی مورد استفاده قرار گرفته است. در این روش این امکان وجود دارد که با دسته بندی وسایل برقی به بارهای غیر قابل کنترل،  قابل جابه‌جایی و قابل کنترل تا حد امکان مصرف مشترک کاهش یافته و  سبب نارضایتی وی نیز نگردد. در استفاده از این روش به دلیل عدم نیاز به مدل ریاضی پیچیده  یادگیری سریع انجام می‌گیرد.  از یادگیری چند عامله استفاده می‌شود  و تابع هدف میزان نارضایتی مشترکین می‌باشد که می‌بایست کاهش یابد. و همچنین باعث کاهش قبض آنها خواهد شد.

همچنین از این روش برای زمان بندی در صنعت فولاد استفاده نیز استفاده می‌شود. مدل مسئله بر اساس ویژگی‌های فرآوری فولاد ساخته می‌شود. پاداش، حالات و اعمال(اکشن‌ها) بر همین اساس ساخته می‌شود. در واقع مشخص می‌کند هر ماشین در چه ساعتی کار کند.

برای هر دستگاه میزان ساعت کاری و اینکه بر چه اساسی کار می‌کند توسط این روش مشخص می‌شود. هدف در نهایت بهینه کردن مصرف انرژی و کاهش هزینه برق مشترک می‌باشد. این امر به عنوان تابع پاداش درنظر گرفته می‌شود.

در پایان، با توجه به بررسی‌های انجام‌شده و مطالب ذکرشده می‌توان نتیجه گرفت که استفاده از هوش مصنوعی نه تنها باعث افزایش دقت و کاهش زمان در رسیدن به الگوریتم بهینه می‌شود، بلکه در بهینه سازی و کاهش مصرف انرژی و کنترل آن‌ نیز به نحوی که کمترین نارضایتی را برای مشترک به همراه داشته باشد، تاثیر به‌سزایی دارد.

نویسنده: الناز کلهر