EITC/AI/ARL অ্যাডভান্সড রিইনফোর্সমেন্ট লার্নিং হল ইউরোপীয় আইটি সার্টিফিকেশন প্রোগ্রাম যা ডিপমাইন্ডের কৃত্রিম বুদ্ধিমত্তায় রিইনফোর্সমেন্ট শেখার পদ্ধতির উপর।
EITC/AI/ARL অ্যাডভান্সড রিইনফোর্সমেন্ট লার্নিং এর পাঠ্যক্রমটি এই EITC সার্টিফিকেশনের রেফারেন্স হিসাবে ব্যাপক ভিডিও শিক্ষামূলক বিষয়বস্তুকে অন্তর্ভুক্ত করে নিম্নলিখিত কাঠামোর মধ্যে সংগঠিত DeepMind এর দৃষ্টিকোণ থেকে শক্তিবৃদ্ধি শেখার কৌশলগুলিতে তাত্ত্বিক দিক এবং ব্যবহারিক দক্ষতার উপর দৃষ্টি নিবদ্ধ করে।
সংযুক্তি শিক্ষার (আরএল) মেশিন লার্নিংয়ের একটি ক্ষেত্র যা বুদ্ধিমান এজেন্টদের পরিবেশে কীভাবে পদক্ষেপ নেওয়া উচিত যাতে ক্রমবর্ধমান পুরষ্কারের ধারণাটি সর্বাধিকতর করা যায় concerned শক্তিশালীকরণ শেখা তত্ত্বাবধানে পড়াশোনা এবং নিরীক্ষণযোগ্য শিক্ষার পাশাপাশি তিনটি মেশিন লার্নিং প্যারাডিমগুলির মধ্যে একটি।
লেবেল ইনপুট/আউটপুট জোড়া উপস্থাপনের প্রয়োজন না হওয়াতে এবং উপ-অনুকূল কর্মগুলি সুস্পষ্টভাবে সংশোধন করার প্রয়োজন নেই এমন ক্ষেত্রে তদারকি করা শিক্ষার চেয়ে শক্তিবৃদ্ধি শেখা আলাদা। পরিবর্তে অনুসন্ধান (অবরুদ্ধ অঞ্চল) এবং শোষণের (বর্তমান জ্ঞানের) মধ্যে ভারসাম্য খুঁজে পাওয়ার দিকে দৃষ্টি নিবদ্ধ করা হচ্ছে।
পরিবেশটি সাধারণত একটি মার্কভ সিদ্ধান্ত প্রক্রিয়া (এমডিপি) আকারে বর্ণিত হয়, কারণ এই প্রসঙ্গে অনেক পুনর্বহাল শেখার অ্যালগরিদমগুলি গতিশীল প্রোগ্রামিং কৌশল ব্যবহার করে। ক্লাসিকাল ডায়নামিক প্রোগ্রামিং পদ্ধতি এবং রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদমগুলির মধ্যে প্রধান পার্থক্য হ'ল আধুনিককৃতগুলি এমডিপির সঠিক গাণিতিক মডেল সম্পর্কে জ্ঞান গ্রহণ করে না এবং তারা বড় এমডিপিগুলিকে লক্ষ্য করে যেখানে সঠিক পদ্ধতিগুলি অক্ষম হয়ে যায়।
এর সাধারণতার কারণে, রিমফোর্সমেন্ট লার্নিং অনেকগুলি শাখায় যেমন গেম থিওরি, কন্ট্রোল থিওরি, অপারেশনস রিসার্চ, ইনফরমেশন থিওরি, সিমুলেশন-ভিত্তিক অপ্টিমাইজেশন, মাল্টি-এজেন্ট সিস্টেমস, স্বর্ম বুদ্ধিমত্তা এবং পরিসংখ্যানগুলিতে অধ্যয়ন করা হয়। ক্রিয়াকলাপ গবেষণা এবং নিয়ন্ত্রণ সাহিত্যে, শক্তিবৃদ্ধি শেখারটিকে আনুমানিক গতিশীল প্রোগ্রামিং বা নিউরো-ডায়নামিক প্রোগ্রামিং বলা হয়। শক্তিবৃদ্ধি শেখার আগ্রহের সমস্যাগুলি সর্বোত্তম নিয়ন্ত্রণের তত্ত্বেও অধ্যয়ন করা হয়েছে, যা বেশিরভাগই সঠিক সমাধানগুলির অস্তিত্ব এবং বৈশিষ্ট্য, এবং তাদের সঠিক গণনার জন্য অ্যালগরিদম এবং বিশেষত অনুপস্থিতিতে, শেখার বা সান্নিধ্যের সাথে কম সম্পর্কিত পরিবেশের একটি গাণিতিক মডেল। অর্থনীতি এবং গেম তত্ত্বে, পুনর্বহাল শেখার ব্যবহার সীমিত যৌক্তিকতার অধীনে কীভাবে সাম্যাবস্থা তৈরি হতে পারে তা বোঝাতে ব্যবহার করা যেতে পারে।
বেসিক রিইনফোর্সমেন্টকে মার্কভ সিদ্ধান্ত প্রক্রিয়া (এমডিপি) হিসাবে মডেল করা হয়। গণিতে, একটি মার্কভ সিদ্ধান্ত প্রক্রিয়া (MDP) একটি স্বতন্ত্র সময় স্টোকাস্টিক নিয়ন্ত্রণ প্রক্রিয়া। এটি এমন পরিস্থিতিতে মডেলিংয়ের সিদ্ধান্ত গ্রহণের জন্য একটি গাণিতিক কাঠামো সরবরাহ করে যেখানে ফলাফলগুলি আংশিকভাবে এলোমেলো এবং আংশিকভাবে সিদ্ধান্ত প্রস্তুতকারকের নিয়ন্ত্রণে থাকে। এমডিপিগুলি গতিশীল প্রোগ্রামিংয়ের মাধ্যমে সমাধান হওয়া অপ্টিমাইজেশান সমস্যাগুলি অধ্যয়নের জন্য দরকারী। এমডিপিগুলি কমপক্ষে 1950 এর দশকের প্রথম দিকে পরিচিত ছিল। রোনাল্ড হাওয়ার্ডের 1960 বইটি ডায়নামিক প্রোগ্রামিং এবং মার্কভ প্রসেসিসের ফলস্বরূপ মার্কোভের সিদ্ধান্ত প্রক্রিয়াগুলির উপর একটি মূল সংগঠনের ফলাফল। এগুলি রোবোটিক্স, স্বয়ংক্রিয় নিয়ন্ত্রণ, অর্থনীতি এবং উত্পাদন সহ অনেকগুলি শাখায় ব্যবহৃত হয়। এমডিপিগুলির নাম রাশিয়ান গণিতবিদ অ্যান্ড্রে মার্কভের কাছ থেকে এসেছে কারণ তারা মার্কভ শৃঙ্খলার সম্প্রসারণযোগ্য।
প্রতিটি সময় পদক্ষেপে, প্রক্রিয়াটি কিছু রাজ্যের এস তে থাকে এবং সিদ্ধান্ত গ্রহণকারী রাষ্ট্র এস এ উপলব্ধ যে কোনও পদক্ষেপ বেছে নিতে পারে The প্রক্রিয়াটি পরবর্তী সময়ে ধাপে এলোমেলোভাবে একটি নতুন রাষ্ট্র এসে স্থানান্তরিত করে এবং এটি প্রদান করে সিদ্ধান্ত গ্রহণকারী একটি সম্পর্কিত পুরষ্কার রা (এস, এস ')।
প্রক্রিয়াটি তার নতুন রাজ্য S 'এ চলে যাওয়ার সম্ভাবনাটি নির্বাচিত ক্রিয়া দ্বারা প্রভাবিত হয়। বিশেষত, এটি রাষ্ট্রের রূপান্তর ফাংশন Pa (এস, এস ') দ্বারা প্রদত্ত। সুতরাং, পরবর্তী রাজ্য এস 'বর্তমান অবস্থা এস এবং সিদ্ধান্ত গ্রহণকারীর ক্রিয়া উপর নির্ভর করে a। তবে এস এবং এ দেওয়া, এটি পূর্ববর্তী সমস্ত রাজ্য ও ক্রিয়াকলাপের থেকে শর্তাধীন স্বাধীন। অন্য কথায়, একটি এমডিপির রাষ্ট্রীয় রূপান্তরগুলি মার্কভ সম্পত্তি সন্তুষ্ট করে।
মার্কভের সিদ্ধান্ত প্রক্রিয়াগুলি মার্কভ চেইনের একটি এক্সটেনশন; পার্থক্য হ'ল ক্রিয়া সংযোজন (পছন্দ করতে অনুমতি দেওয়া) এবং পুরষ্কার (প্রেরণা দেওয়া)। বিপরীতে, যদি প্রতিটি রাজ্যের জন্য কেবল একটি ক্রিয়া বিদ্যমান থাকে (যেমন "অপেক্ষা") এবং সমস্ত পুরষ্কার একই হয় (যেমন "শূন্য"), একটি মার্কভের সিদ্ধান্ত প্রক্রিয়া একটি মার্কভ চেইনে হ্রাস পায়।
একটি রিইনফোর্সমেন্ট লার্নিং এজেন্ট তার পরিবেশের সাথে স্বচ্ছ সময় পদক্ষেপে যোগাযোগ করে। প্রতিটি সময়ে টিতে, এজেন্ট বর্তমান অবস্থা এস (টি) এবং পুরষ্কার (টি) প্রাপ্ত করে। এরপরে উপলভ্য ক্রিয়াগুলির সেট থেকে ক্রিয়া a (টি) চয়ন করে, যা পরবর্তীতে পরিবেশে প্রেরণ করা হয়। পরিবেশটি একটি নতুন রাষ্ট্র এস (টি + 1) এ চলে যায় এবং উত্তরণের সাথে যুক্ত পুরষ্কার r (টি + 1) নির্ধারিত হয়। রিইনফোর্সমেন্ট লার্নিং এজেন্টের লক্ষ্য হ'ল এমন নীতি শিখাই যা প্রত্যাশিত সংখ্যামূলক পুরষ্কারকে সর্বাধিক করে তোলে।
এমডিপি হিসাবে সমস্যাটি তৈরি করা এজেন্টকে সরাসরি বর্তমান পরিবেশের অবস্থা পর্যবেক্ষণ করে ধরে নেয়। এক্ষেত্রে সমস্যাটির সম্পূর্ণ পর্যবেক্ষণযোগ্যতা রয়েছে বলে জানা যায়। যদি এজেন্টের কেবলমাত্র রাজ্যের একটি উপসেটে অ্যাক্সেস থাকে, বা যদি পর্যবেক্ষিত রাজ্যগুলি শব্দ দ্বারা দূষিত হয়, তবে এজেন্টকে আংশিক পর্যবেক্ষণের কথা বলা হয় এবং আনুষ্ঠানিকভাবে সমস্যাটি অবশ্যই আংশিক পর্যবেক্ষণযোগ্য মার্কোভ সিদ্ধান্ত প্রক্রিয়া হিসাবে প্রণয়ন করা উচিত। উভয় ক্ষেত্রেই, এজেন্টের কাছে উপলব্ধ ক্রিয়াকলাপগুলিকে সীমাবদ্ধ করা যেতে পারে। উদাহরণস্বরূপ, অ্যাকাউন্ট ব্যালেন্সের অবস্থা ইতিবাচক হতে পারে না; যদি রাষ্ট্রের বর্তমান মান 3 হয় এবং রাষ্ট্রীয় রূপান্তরটি 4 দ্বারা মূল্য হ্রাস করার চেষ্টা করে, তবে রূপান্তরটির অনুমতি দেওয়া হবে না।
যখন এজেন্টের পারফরম্যান্স তুলনামূলকভাবে কোনও এজেন্টের সাথে তুলনা করা হয় যা সর্বোত্তমভাবে কাজ করে, তখন পারফরম্যান্সের পার্থক্য আফসোসের ধারণাটিকে জন্ম দেয়। অনুকূলতার কাছাকাছি কাজ করতে এজেন্টকে অবশ্যই তার ক্রিয়াকলাপের দীর্ঘমেয়াদী পরিণতি (যেমন, ভবিষ্যতের আয়কে সর্বাধিকীকরণ) সম্পর্কে তর্ক করতে হবে, যদিও এর সাথে সম্পর্কিত তাত্ক্ষণিক পুরষ্কারটি নেতিবাচক হতে পারে।
সুতরাং, শক্তিবৃদ্ধি শেখার সমস্যাগুলি দীর্ঘমেয়াদী বনাম স্বল্প-মেয়াদী পুরষ্কার বাণিজ্য বন্ধের জন্য বিশেষভাবে উপযুক্ত। এটি রোবট নিয়ন্ত্রণ, লিফট শিডিউলিং, টেলিযোগাযোগ, ব্যাকগ্যামন, চেকারস এবং গো (আলফাগো) সহ বিভিন্ন সমস্যার ক্ষেত্রে সফলভাবে প্রয়োগ করা হয়েছে।
দুটি উপাদান শক্তিবৃদ্ধি শিক্ষাকে শক্তিশালী করে তোলে: পারফরম্যান্সকে অনুকূল করতে নমুনাগুলির ব্যবহার এবং বড় পরিবেশের সাথে মোকাবিলা করার জন্য ফাংশন সান্নিধ্যের ব্যবহার। এই দুটি মূল উপাদানকে ধন্যবাদ, শক্তিবৃদ্ধি শেখার নিম্নলিখিত পরিস্থিতিতে বড় পরিবেশে ব্যবহার করা যেতে পারে:
- পরিবেশের একটি মডেল পরিচিত, তবে একটি বিশ্লেষণাত্মক সমাধান পাওয়া যায় না।
- শুধুমাত্র পরিবেশের একটি সিমুলেশন মডেল দেওয়া হয় (সিমুলেশন-ভিত্তিক অপ্টিমাইজেশনের বিষয়)।
- পরিবেশ সম্পর্কে তথ্য সংগ্রহের একমাত্র উপায় হ'ল এটির সাথে যোগাযোগ করা।
এর মধ্যে প্রথম দুটি সমস্যা পরিকল্পনার সমস্যা হিসাবে বিবেচনা করা যেতে পারে (যেহেতু মডেলের কিছু ফর্ম পাওয়া যায়), এবং শেষটি একটি আসল শেখার সমস্যা হিসাবে বিবেচিত হতে পারে। তবে রিইনফোর্সমেন্ট লার্নিং উভয় পরিকল্পনার সমস্যাকেই মেশিন লার্নিং সমস্যায় রূপান্তরিত করে।
অনুসন্ধান বনাম শোষণ বাণিজ্য বন্ধের সুনির্দিষ্টভাবে বহু-সশস্ত্র ডাকাত সমস্যা এবং বুর্নেতাস এবং কাটাহাকিসে সীমাবদ্ধ রাষ্ট্রীয় স্পেস এমডিপিগুলির জন্য অধ্যয়ন করা হয়েছে (১৯৯।)।
শক্তিবৃদ্ধি শেখার জন্য চতুর অনুসন্ধান পদ্ধতি প্রয়োজন; আনুমানিক সম্ভাব্যতা বিতরণের কোনও রেফারেন্স ছাড়াই এলোমেলোভাবে ক্রিয়া নির্বাচন করা দুর্বল কর্মক্ষমতা দেখায়। (ছোট) সীমাবদ্ধ মার্কভের সিদ্ধান্ত প্রক্রিয়াগুলির ক্ষেত্রে তুলনামূলকভাবে ভাল বোঝা যায়। তবে, অ্যালগরিদমগুলির অভাবের কারণে যা রাজ্যের সংখ্যার সাথে ভাল স্কেল করে (বা অসীম রাষ্ট্রীয় জায়গাগুলির সমস্যাগুলির স্কেল), সহজ অনুসন্ধানের পদ্ধতিগুলি সবচেয়ে ব্যবহারিক।
এমনকি অন্বেষণের বিষয়টি যদি অবহেলা না করা হয় এবং রাষ্ট্রটি পর্যবেক্ষণযোগ্য ছিল, তবুও সমস্যাটি অতীতের অভিজ্ঞতা ব্যবহার করে খুঁজে বের করে যে কোন ক্রিয়াকলাপগুলি আরও বেশি পরিমাণে পুরষ্কারের দিকে নিয়ে যায়।
সার্টিফিকেশন পাঠ্যক্রমের সাথে নিজেকে বিশদভাবে পরিচিত করতে আপনি নীচের টেবিলটি প্রসারিত এবং বিশ্লেষণ করতে পারেন।
EITC/AI/ARL অ্যাডভান্সড রিইনফোর্সমেন্ট লার্নিং সার্টিফিকেশন কারিকুলাম একটি ভিডিও আকারে ওপেন-অ্যাক্সেস শিক্ষামূলক উপকরণের উল্লেখ করে। শেখার প্রক্রিয়াটি একটি ধাপে ধাপে কাঠামোতে বিভক্ত (প্রোগ্রাম -> পাঠ -> বিষয়) প্রাসঙ্গিক পাঠ্যক্রমের অংশগুলিকে কভার করে। ডোমেন বিশেষজ্ঞদের সাথে সীমাহীন পরামর্শ প্রদান করা হয়।
সার্টিফিকেশন পদ্ধতির বিস্তারিত জানার জন্য চেক করুন কিভাবে এটা কাজ করে.
পাঠ্যক্রম রেফারেন্স রিসোর্স
ডিপ রেইনফোর্সমেন্ট লার্নিং প্রকাশনার মাধ্যমে মানব স্তরের নিয়ন্ত্রণ
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
ইউসি বার্কলে-তে গভীর পুনর্বহালকরণ শিক্ষার জন্য ওপেন-অ্যাক্সেস কোর্স
http://rail.eecs.berkeley.edu/deeprlcourse/
ম্যানিফোল্ড.ই থেকে আর-এম্বেড ডাকাত সমস্যাটিতে আরএল আবেদন করেছে
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
একটি PDF ফাইলে EITC/AI/ARL অ্যাডভান্সড রিইনফোর্সমেন্ট লার্নিং প্রোগ্রামের জন্য সম্পূর্ণ অফলাইন স্ব-শিক্ষার প্রস্তুতিমূলক উপকরণ ডাউনলোড করুন
EITC/AI/ARL প্রস্তুতিমূলক উপকরণ - স্ট্যান্ডার্ড সংস্করণ
EITC/AI/ARL প্রস্তুতিমূলক উপকরণ - পর্যালোচনা প্রশ্ন সহ বর্ধিত সংস্করণ