Συντάχθηκε 21-09-2020 08:21
Τόπος: Η παρουσίαση θα γίνει με τηλεδιάσκεψη
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 23/09/2020 15:00
Λήξη: 23/09/2020 16:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΘΕΟΦΙΛΟΣ ΧΑΝΙΑΛΑΚΗΣ
θέμα
Βαθιά Ενισχυτική Μάθηση για Πολυπρακτορικές Αποστολές Έρευνας και Διάσωσης
Deep Reinforcement Learning for Multi-Agent Search and Rescue Operations
Εξεταστική Επιτροπή
Αναπληρωτής Καθηγητής Γεώργιος Χαλκιαδάκης (επιβλέπων)
Αναπληρωτής Καθηγητής Βασίλειος Σαμολαδάς
Αναπληρωτής Καθηγητής Παναγιώτης Παρτσινέβελος (Σχολή ΜΗΧΟΠ)
Περίληψη
Οι περιπτώσεις έκτακτης ανάγκης, όπως οι φυσικές καταστροφές, αποτελούν ένα από τα πιο σημαντικά προβλήματα της σύγχρονης κοινωνίας καθώς απαιτούν προετοιμασία ώστε να προστατευθεί το σύνολο του πληθυσμού, όσο καλύτερα γίνεται.
Η προετοιμασία και οι προπαρασκευαστικές ενέργειες, στις περισσότερες περιπτώσεις δεν επαρκούν, καθιστώντας αναγκαία την άμεση δράση υπηρεσιών που ειδικεύονται στην αντιμετώπιση καταστάσεων έκτακτης ανάγκης, όπως Πυροσβεστική, κινούμενες νοσοκομειακές μονάδες κ.α. Η ομαδική δράση και η συνεργασία μεταξύ των υπηρεσιών αυτών είναι απαραίτητα στοιχεία για αποστολές Έρευνας και Διάσωσης. Η καθολική γνώση των γεγονότων και η δυνατότητα αξιολόγησης της κατάστασης, είναι πολύ σημαντικά κομμάτια για τη βέλτιστη διαχείρισης της κρίσης. Μια σωστή και γρήγορη απόφαση μπορεί να σώσει ζωές.
Στα πλαίσια αυτής της διπλωματικής εργασίας δημιουργήθηκε ένα σύστημα διαχείρισης δυναμικού για αποστολές Έρευνας και Διάσωσης σε καταστάσεις έκτακτης ανάγκης. Το σύστημα αποτελείται από δύο κομμάτια, τα οποία είναι εξίσου σημαντικά και άρρηκτα συνδεδεμένα μεταξύ τους. Το πρώτο κομμάτι περιλαμβάνει τη συλλογή δεδομένων και τη ζωντανή ενημέρωση μεταβαλλόμενων παραμέτρων της κατάστασης. Το δεύτερο κομμάτι αφορά τη λήψη αποφάσεων και την ανάθεση εργασιών στο διαθέσιμο προσωπικό ώστε να ελαχιστοποιηθεί ο κίνδυνος. Στο κείμενο της διπλωματικής μας εργασίας, αναλύουμε λεπτομερώς τη λειτουργικότητα του συστήματος και τις τεχνολογίες που χρησιμοποιούνται για να λειτουργεί το σύστημα με συνέπεια και αξιοπιστία.
Το σύστημα δέχεται έναν ή περισσότερους διαχειριστές που μπορούν να σημαδεύσουν περιοχές που χρήζουν προσοχής. Η διεπαφή των διαχειριστών με το σύστημα γίνεται μέσω διαδικτυακής σελίδας, με τη χρήση χάρτη και πρόσθετων γραφικών για τη διευκόλυνση της διαχείρισης. Στα χωρικά δεδομένα που εμφανίζονται στο χάρτη, προστίθενται και οι θέσεις του διαθέσιμου δυναμικού, οι οποίες γνωστοποιούνται μέσω εφαρμογής που αναπτύχθηκε για κινητά τηλέφωνα.
Λαμβάνοντας υπόψιν του τις παραπάνω παραμέτρους, το σύστημα παίρνει αποφάσεις για τις ενέργειες που πρέπει να κάνει κάθε ομάδα. Η λήψη αποφάσεων γίνεται μέσω Μηχανικής Μάθησης σε Πολυπρακτορικά Συστήματα. Γίνεται χρήση αλγορίθμων Ενισχυτικής Μάθησης και αρχιτεκτονικής Βαθιών Νευρωνικών Δικτύων ώστε η ενέργειες που θα επιλεχθούν να αποτελούν τις βέλτιστες και οι αναθέσεις εργασιών να είναι όσον δυνατόν πιο αποδοτικές. Η Βαθιά Ενισχυτική Μάθηση θεωρείται υπερσύγχρονη τεχνολογία και είναι ενδιαφέρον να εξετάσουμε τη χρήση της σε Πολυπρακτορικά περιβάλλοντα με μεγάλη πολυπλοκότητα. Στην εργασίας μας, προτείνουμε μια καινοτόμα αρχιτεκτονική Βαθιάς Ενισχυτικής Μάθησης για Πολυπρακτορικά περιβάλλοντα, δίνοντας λύσεις σε πολλά προβλήματα που παρουσιάζονται στο τομέα της Μηχανικής Μάθησης. Τέλος, τα βασισμένα σε προσομοιώσεις πειραματικά μας αποτελέσματα αποδεικνύουν ότι το σύστημα διαθέτει όντως την ικανότητα μάθησης του σε ρεαλιστικά σενάρια, παράγοντας πολυπρακτορικά πλάνα δράσης με προοδευτικά όλο και μεγαλύτερη αξία.
Abstract
Emergency situations, like natural disasters, can cause significant problems to our society so they require preparatory actions and immediate response to protect the population to the best of our abilities. Many groups and organizations have been established to aid in Search and Rescue and Emergency Response (ER) operations.
Preparation and preparatory actions, in most cases, are not enough, so it is vital that many agencies and groups, which are specialized in ER situations, like firemen and medics, take immediate action. Collective actions and collaboration, among those groups, are essential components for Search and Rescue operations. Global knowledge of the events and the ability to evaluate the situation are major pieces in ER management. A good and quick decision can save many lives.
In this thesis, we develop an administration system for Search and Rescue operations in ER situations. The system consists of two equally important and inextricable connected parts. The first part consists of the data collection and the live parameter updates. The second part pertain to decision making and task allocation to the work force in order to minimize the danger. Moreover, we provide a detailed analysis of the system's functionality and of the technologies that are responsible for the system's consistency.
The system can be used by two or more administrators, simultaneously, who can markup regions which need attention. The interface is a web-page with the use of augmented map and additional graphics to help with the system handling. The positions of the work-forces groups have been added and are updated frequently to the spatial data of the map. These live updates are possible due to an app which we developed for smartphones.
Decision making procedure makes use of the above information and allocate tasks to every group. Machine Learning algorithms in Multi-Agent Systems/Environments are added in the system in order to make better decisions. In particular, Reinforcement Learning and Deep Neural Network architectures are combined to make sure that the actions are near optimal and the task allocation is the most efficient. Deep Reinforcement Learning is a state-of-the-art technique and it is very interesting to explore how it could be used in Multi-Agent environments with high complexity. In this thesis, we propose a novel Deep Reinforcement Learning architecture in Multi-Agent Settings, giving solutions to many problems which Machine Learning has difficulty to handle. We also provide experimental results, which indicate that the system gradually learns in realistic situations, generating meaningful action plans for all the agents.
Meeting ID: 982 1186 4650
Password: 324015