Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Παρουσίαση διπλωματικής εργασιας κ. ΑΚΡΙΒΟΠΟΥΛΟΥ ΓΡΗΓΟΡΙΟΥ, Σχολή ΜΠΔ

  • Συντάχθηκε 11-12-2024 10:55 Πληροφορίες σύνταξης

    Ενημερώθηκε: -

    Τόπος:
    Σύνδεσμος τηλεδιάσκεψης
    Έναρξη: 16/12/2024 12:00
    Λήξη: 16/12/2024 13:00

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Σχολή Μηχανικών Παραγωγής και Διοίκησης
    Πρόγραμμα Προπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    Δευτέρα, 16 Δεκεμβρίου 2024, 12:00
    https://tuc-gr.zoom.us/j/96312443400?pwd=k4yApq7PYnhn89IifLxUKhihgtUAYh.1

    Ονοματεπώνυμο: ΑΚΡΙΒΟΠΟΥΛΟΣ ΓΡΗΓΟΡΙΟΣ

    Θέμα: Συστηματική αξιολόγηση του αλγόριθμου PPO για βαθιά ενισχυτική μάθηση σε αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας

    Title: A systematic evaluation of the PPO algorithm for deep reinforcement learning in lane-free autonomous driving

    Εξεταστική Επιτροπή

    • ΠΑΠΑΜΙΧΑΗΛ ΙΩΑΝΝΗΣ, Καθηγητής (επιβλέπων)
    • ΔΟΪΤΣΙΔΗΣ ΕΛΕΥΘEΡΙΟΣ, Επίκουρος Καθηγητής
    • ΧΑΛΚΙΑΔΑΚΗΣ ΓΕΩΡΓΙΟΣ, Καθηγητής

    Περίληψη

    Η κυκλοφορία χωρίς λωρίδες (lane-free traffic) είναι ένα νέο ερευνητικό πεδίο που εξετάζει περιβάλλοντα που αποτελούνται πλήρως από Συνδεδεμένα και Αυτοματοποιημένα Οχήματα (Connected and Automated Vehicles, CAV), όπου τα CAV δεν είναι περιορισμένα στις καθιερωμένες λωρίδες κυκλοφορίας αλλά μπορούν να μετακινηθούν σε οποιαδήποτε πλευρική θέση εντός των ορίων του δρόμου. Αυτό έχει αποτελέσει βάση για αρκετές ερευνητικές εργασίες και καινοτόμες εφαρμογές. Ταυτόχρονα, ο τομέας της Βαθιάς Ενισχυτικής Μάθησης (Deep Reinforcement Learning, DRL) εξελίσσεται με ταχείς ρυθμούς τα τελευταία χρόνια, αλλά και με αρκετά ενεργή έρευνα σε εφαρμογές πάνω στην αυτόνομη οδήγηση. Πιο συγκεκριμένα, ο Proximal Policy Optimization (PPO) είναι ένας on-policy αλγόριθμος που προτάθηκε πρόσφατα για DRL και θεωρείται ένας από τους πιο δημοφιλείς σε σύγχρονες εφαρμογές. Μέχρι στιγμής, οι υφιστάμενες προσεγγίσεις για DRL σε κυκλοφορία χωρίς λωρίδες έχουν εξετάσει άλλους αλγόριθμους που δεν σχετίζονται με τον PPO ή γενικότερα με αλγόριθμους on-policy. Για το σκοπό αυτό, βασιστήκαμε σε υπάρχουσα εργασία για DRL σε περιβάλλοντα χωρίς λωρίδες ενός πράκτορα (agent), όπου ένα CAV με τη μορφή ενός agent έχει ως στόχο να μάθει μια στρατηγική κίνησης οχημάτων χωρίς λωρίδες ενώ πλοηγείται σε έναν δρόμο αποτελούμενο από άλλα αυτόνομα CAV. Για να εφαρμόσουμε αποτελεσματικά τον PPO σε αυτό το περιβάλλον, επεκτείνουμε κατάλληλα με διαφορετικά νέα στοιχεία την υπάρχουσα μοντελοποίηση του προβλήματος ως μία Μαρκοβιανή Διαδικασία Λήψης Αποφάσεων (Markov Decision Process, MDP), και αξιολογούμε συστηματικά την επιρροή τους ως προς την επίδοση του μάθησης του πράκτορα. Αρχικά, προτείνουμε μια νέα αναπαράσταση της κατάστασης εισόδου με μορφή εικόνας της γειτονικής κυκλοφορίας που αποτυπώνει κατάλληλα τη δισδιάστατη κίνηση των CAV, και τη συγκρίνουμε με την υπάρχουσα κατάσταση εισόδου που έχει μορφή διανύσματος. Στη συνέχεια, σχηματίζουμε και εξετάζουμε διαφορετικούς όρους συνάρτησης ανταμοιβής που ταιριάζουν καλύτερα στον αλγόριθμο PPO. Επιπλέον, αναπτύσσουμε μια παραλλαγή του περιβάλλοντος όπου οι ενέργειες του πράκτορα φιλτράρονται κάτω από ορισμένες κρίσιμες συνθήκες. Εκεί, σε αντίθεση με το πλήρως ελεύθερο περιβάλλον μάθησης, βλέπουμε την επίδραση ενός πρακτικού περιορισμού που καθοδηγεί καλύτερα τη διαδικασία μάθησης μακριά από τα τοπικά μέγιστα που συνήθως αντιμετωπίζαμε στην πράξη. Η πειραματική μας αξιολόγηση δείχνει τη βελτίωση που παρέχει καθεμία από τις προαναφερθείσες βελτιώσεις για τον αλγόριθμο PPO στο περιβάλλον χωρίς λωρίδες ενός πράκτορα. Τα αποτελέσματα υποδεικνύουν την ικανότητα του πράκτορα να μαθαίνει πολιτικές που ξεπερνούν προηγούμενες λύσεις που παρατηρήθηκαν στην υφιστάμενη προσέγγιση που στόχευε σε άλλες μεθόδους. Δεδομένων των πειραματικών αποτελεσμάτων, θεωρούμε ότι οι προτεινόμενες βελτιώσεις μπορούν να χρησιμεύσουν ως βάση σε μελλοντικές εργασίες για τον PPO αλλά και σε άλλους αλγόριθμους για DRL σε κυκλοφορία χωρίς λωρίδες.

    Abstract

    Lane-free traffic is a novel paradigm that targets environments fully comprised of Connected and Automated Vehicles (CAVs), where CAVs do not adhere to traffic lanes but can occupy any lateral position within the road boundaries. This gives rise to many research opportunities and innovative applications. At the same time, the field of Deep Reinforcement Learning (DRL) has gained momentum and continues to rapidly advance, with active lines of research for applications in autonomous driving. Specifically, Proximal Policy Optimization (PPO) is a recently introduced on-policy algorithm for DRL and is considered as one of the most prominent for modern DRL applications. As of now, research avenues for DRL in lane-free traffic have examined other algorithms not related to PPO or on-policy algorithms in general. To this end, we build upon existing work for DRL in single-agent lane-free environments, where a CAV with the form of an agent has the task to learn a lane-free vehicle movement strategy while navigating a road populated with other CAVs. To effectively apply PPO in this setting, we extend an existing Markov Decision Process formulation of the problem with different new components, and systematically evaluate their influence on the agent’s learning performance. Firstly, we put forward an image state representation of surrounding traffic that captures the 2-dimensional movement of CAVs and compare it with the existing vector-based state input. Then, we formulate and examine different reward function terms that are better fitted for PPO. Moreover, we develop a blocking environment setting where the agent’s actions are filtered under some critical conditions. There, instead of the fully unconstrained learning environment, we observe the impact of a practical constraint that better guides the learning process away from the local maxima that we commonly experienced in practice. Our experimental evaluation shows the improvement that each of the above-mentioned enhancements for PPO provides under the single-agent lane-free environment. The results indicate the agent’s capacity to learn strategies that overcome solutions of inferior quality that were initially observed under the original formulation targeting other methods. Motivated by the results, we believe that the proposed enhancements can serve as groundwork in future endeavours for PPO and other methods for DRL in lane-free traffic.



© Πολυτεχνείο Κρήτης 2012