Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

ανακοίνωση παρουσίασης μεταπτυχιακής διατριβής του Πάζη Ιάσονα - ΗΜΜΥ

  • Συντάχθηκε 20-03-2012 14:51 από Galateia Malandraki Πληροφορίες σύνταξης

    Email συντάκτη: gmalandraki<στο>tuc.gr

    Ενημερώθηκε: -

    Ιδιότητα: υπάλληλος ΑΡΜΗΧ.

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Τμήμα Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών

    ΠΑΡΟΥΣΙΑΣΗ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΔΙΑΤΡΙΒΗΣ

    ΙΑΣΩΝ ΠΑΖΗΣ

    με θέμα

    “Ενισχυτική Μάθηση σε Πολυδιάστατους Συνεχείς Χώρους Ενεργειών”
    “Reinforcement Learning in Multidimensional Continuous Action Spaces”

    Πέμπτη 22 Μαρτίου 2012, 3μμ
    Αίθουσα 141.Α14-2 (Εργαστήριο Intelligence), Κτίριο Επιστημών, Πολυτεχνειούπολη

    Εξεταστική Επιτροπή

    Επ. Καθ. Μιχαήλ. Γ. Λαγουδάκης (επιβλέπων)
    Καθ. Μιχάλης Ζερβάκης
    Δρ. Νικόλαος Βλάσσης (University of Luxembourg)


    Περίληψη

    Η πλειονότητα των αλγορίθμων ενισχυτικής μάθησης που είναι διαθέσιμοι σήμερα εστιάζουν στην προσέγγιση της συνάρτησης αξιολόγησης ως προς τις καταστάσεις (V) ή ως προς τα ζεύγη καταστάσεων-ενεργειών (Q) και η αποτελεσματική επιλογή ενεργειών αφήνεται σε δεύτερη μοίρα. Από την άλλη πλευρά, τα προβλήματα του πραγματικού κόσμου τείνουν να έχουν μεγάλους χώρους ενεργειών, όπου η αξιολόγηση κάθε δυνατής ενέργειας καθίσταται ανέφικτη. Η αναντιστοιχία αυτή προβάλλει ένα σημαντικό εμπόδιο στην επιτυχή εφαρμογή ενισχυτικής μάθησης σε προβλήματα του πραγματικού κόσμου. Η παρούσα εργασία παρουσιάζει μια αποτελεσματική προσέγγιση στη πρόβλημα της μάθησης και της επιλογής ενεργειών σε πεδία με πολυδιάστατες ή/και συνεχείς μεταβλητές ελέγχου, όπου η αποδοτική επιλογή ενέργειας είναι ενσωματωμένη στη διαδικασία μάθησης. Αντί να μαθαίνει και να αναπαριστά κάποιος τη συνάρτηση αξιολόγησης (V ή Q) της Μαρκωβιανής Διεργασίας Αποφάσεων (Markov Decision Process - MDP), μαθαίνει μια συνάρτηση αξιολόγησης πάνω σε μια μετασχηματισμένη (επαυξημένη) διεργασία, όπου οι καταστάσεις αντιπροσωπεύουν συλλογές ενεργειών της αρχικής διεργασίας και οι μεταβάσεις αντιπροσωπεύουν επιλογές εξάλειψης τμημάτων του χώρου ενεργειών σε κάθε βήμα. Η επιλογή ενέργειας στην αρχική διεργασία ανάγεται σε δυαδική αναζήτηση από τον πράκτορα στη μετασχηματισμένη διεργασία, με πολυπλοκότητα λογαριθμική ως προς το πλήθος των ενεργειών, ή ισοδύναμα γραμμική ως προς τις διαστάσεις του χώρου ενεργειών. Η μέθοδος αυτή μπορεί να συνδυαστεί με οποιονδήποτε αλγόριθμο ενισχυτικής μάθησης για διακριτές ενέργειες για την εκμάθηση πολιτικών για πολυδιάστατους συνεχείς χώρους ενεργειών με τη χρήση προσέγγισης για τη συνάρτηση αξιολόγησης ως προς τις καταστάσεις στη μετασχηματισμένη διεργασία. Τα αποτελέσματα σε συνδυασμό με δύο γνωστούς αλγορίθμους ενισχυτικής μάθησης (Least-Squares Policy Iteration και Fitted-Q Iteration) σε τρία πεδία με συνεχείς ενέργειες (1-dimensional inverted pendulum regulator, 1-dimensional double integrator, και 2-dimensional bicycle balancing) αναδεικνύουν τη βιωσιμότητα και τις προοπτικές της προτεινόμενης προσέγγισης.


    Abstract

    The majority of reinforcement learning algorithms available today, focus on approximating the state (V ) or state-action (Q) value function and efficient action selection comes as an afterthought. On the other hand, real-world problems tend to have large action spaces, where evaluating every possible action becomes impractical. This mismatch presents a major obstacle in successfully applying reinforcement learning to real-world problems. This thesis presents an effective approach to learning and acting in domains with multidimensional and/or continuous control variables, where efficient action selection is embedded in the learning process. Instead of learning and representing the state or state-action value function of the Markov Decision Process (MDP), we learn a value function over an implied augmented MDP, where states represent collections of actions in the original MDP and transitions represent choices eliminating parts of the action space at each step. Action selection in the original MDP is reduced to a binary search by the agent in the transformed MDP, with computational complexity logarithmic in the number of actions, or equivalently linear in the number of action dimensions. This method can be combined with any discrete-action reinforcement learning algorithm, for learning multidimensional continuous-action policies using a state value approximator in the transformed MDP. Results with two well-known reinforcement learning algorithms (Least-Squares Policy Iteration and Fitted-Q Iteration) on three continuous action domains (1-dimensional inverted pendulum regulator, 1-dimensional double integrator, and 2-dimensional bicycle balancing) demonstrate the viability and the potential of the proposed approach.

    Συνημμένα:

© Πολυτεχνείο Κρήτης 2012