University of Oulu

Q-learning and Deep Q-learning in OpenAI Gym CartPole classic control environment

Saved in:
Author: Sundén, Patrick1
Organizations: 1University of Oulu, Faculty of Information Technology and Electrical Engineering, Department of Computer Science and Engineering, Computer Science
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 1.2 MB)
Pages: 32
Persistent link: http://urn.fi/URN:NBN:fi:oulu-202203301463
Language: English
Published: Oulu : P. Sundén, 2022
Publish Date: 2022-03-31
Thesis type: Bachelor's thesis
Description:

Abstract

This thesis focuses on the basics of reinforcement learning and the implementation of Deep Q-learning, also referred to as Deep Q-network, to emphasize the artificial neural network, and Q-learning to the CartPole-v0 classic control learning environment. This work also presents the idea of a Markov Decision process, standard algorithms, and some basic information about the OpenAI Gym toolkit. DQN is a deep learning version of regular Q-learning, the crucial difference being the use of a neural network and experience replay. Cartpole-v0 can be considered an easy learning problem, especially for DQN, since the number of states and specific actions is relatively low. The learning results between Q-learning and DQN were examined by comparing the convergence and stability of rewards, the cumulative reward gain, and how quickly the Cartpole-v0 learning environment was solved. While it is tough to determine which implementation solved the CartPole-v0 problem better, it can be concluded that while DQN is often seen as the more advanced and complicated version of regular Q-learning, it did not perform better than Q-learning.

Q-oppiminen ja Syvä Q-oppiminen OpenAI Gym CartPole-säätöympäristössä

Tiivistelmä

Tämä työ keskittyy esittelemään vahvistusoppimisen perusteita, sekä vertailemaan oppimista Q-oppimisen ja syvän Q-oppimisen välillä CartPole-v0 säätöympäristössä. Työ käsittelee myös Markovin päätöksentekoprosessia ja niissä käytettäviä algoritmeja. Tärkein ero syvän Q-oppimisen ja Q-oppimisen välillä on se, että syvä Q-oppiminen käyttää neuroverkkoa ja muistista oppimista tavallisen Q-oppimisessa käytetyn Q-taulukon sijaan. CartPole-v0 oppimisympäristöä voidaan pitää helppona oppimisympäristönä erityisesti syvä Q-oppimiselle, sillä CartPole-oppimisympäristössä mahdollisten tilojen määrä on verrattain pieni. Oppimista implementaatioiden välillä vertailtiin tarkastelemalla palkintojen suppenemista ja vakautta, palkintojen kumulatiivista arvoa ja oppimisympäristön ratkaisunopeutta. Syvää Q-oppimista pidetään tavallisen Q-oppimisen monimutkaisempana muotona, ja se pärjääkin yleensä paremmin monimutkaisemmissa ympäristöissä, joissa tilojen määrä kasvaa erittäin suureksi. Etukäteen on mahdotonta sanoa, kumpi implementaatio oppii kohdeympäristön tehokkaammin. Syvä Q-oppiminen oppii vaikeita ympäristöjä paljon tehokkaammin kuin tavallinen Q-oppiminen, kun taas Q-oppiminen oppii vähätilaisia ympäristöjä tehokkaammin, koska sen ei tarvitse käyttää muistista oppimista, joka hidastaa harjoitusprosessia.

see all

Subjects:
Copyright information: © Patrick Sundén, 2022. Except otherwise noted, the reuse of this document is authorised under a Creative Commons Attribution 4.0 International (CC-BY 4.0) licence (https://creativecommons.org/licenses/by/4.0/). This means that reuse is allowed provided appropriate credit is given and any changes are indicated. For any use or reproduction of elements that are not owned by the author(s), permission may need to be directly from the respective right holders.
  https://creativecommons.org/licenses/by/4.0/