Συντάχθηκε 12-09-2022 10:26
Ενημερώθηκε:
12-09-2022 11:20
Τόπος:
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 14/09/2022 11:00
Λήξη: 14/09/2022 12:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Χριστοδουλίδη Κυριάκου
με θέμα
Παραγωγή Καταγραμμένης Κίνησης από βίντεο με χρήση Νευρωνικών δικτύων
Motion Capture Generation From Videos Through Neural Networks
Εξεταστική Επιτροπή
Καθηγήτρια Αικατερίνη Μανιά (επιβλέπουσα)
Αναπληρωτής Καθηγητής Γεώργιος Χαλκιαδάκης
Καθηγητής Μιχαήλ Λαγουδάκης
Περίληψη
Οι μέθοδοι λήψης κίνησης είναι είτε πολύ δαπανηρές στην απόκτηση είτε χαμηλότερης ποιότητας. Έτσι, προτείνουμε μια καινοτόμο μέθοδο που θα δώσει πρόσβαση σε όλους όσους διαθέτουν έναν σχετικά καλό υπολογιστή, για να δημιουργήσουν δωρεάν τα ψηφιακά κλιπ κίνησης ενός ατόμου. Πρόσφατα, πολλοί ερευνητές προσπαθούν να χρησιμοποιήσουν νευρωνικά δίκτυα που θα εκτιμήσουν την τρισδιάστατη ανθρώπινη στάση από ένα μόνο βίντεο. Στην προσέγγισή μας, αποφασίσαμε να χρησιμοποιήσουμε τρία διαφορετικά γνωστά προ-εκπαιδευμένα μοντέλα, τα δύο πρώτα για να βρούμε την εκτίμηση 2D πόζας από κάθε καρέ του βίντεο και το άλλο για να μετατρέψουμε αυτές τις 2D στάσεις σε 3D πόζες. Στη συνέχεια, υπολογίσαμε τη θέση του ανθρώπου ανά καρέ, βρίσκοντας το βάθος του ατόμου στην εικόνα. Ο συνδυασμός των τρισδιάστατων στάσεων και της θέσης του ατόμου στο χώρο είναι τα δεδομένα κίνησης που θέλαμε να βρούμε. Στη συνέχεια, εισάγοντας αυτά τα δεδομένα σε έναν Σκελετό που περιέχει όλα τα εκτιμώμενα οστά, μπορούμε να δημιουργήσουμε ένα αρχείο Bio-vision Hierarchy (BVH), το οποίο μπορεί να εισαχθεί στο σε όλες τις εφαρμογές που επεξεργάζονται τρισδιάστατα γραφικά. Σε αυτό το σημείο, το αρχείο BVH που δημιουργείται περιέχει θόρυβο από τις εκτιμήσεως των νευρωνικών δικτύων, επομένως προτείνουμε τη χρήση ορισμένων φίλτρων για την αφαίρεση αυτού του θορύβου χωρίς να επηρεάζονται οι πληροφορίες δεδομένων κίνησης. Επιπλέον, μετατρέψαμε τον κώδικα python σε μια Windows εφαρμογή για να δημιουργήσουμε ένα πολύ πιο φιλικό περιβάλλον στο χρήστη. Τέλος, δημιουργήσαμε κάποιες λειτουργίες μέσα σε αυτήν την εφαρμογή ώστε ο χρήστης να μπορεί να απεικονίζει και να επεξεργάζεται τα αποτελέσματα από τα αρχεία BVH.
Abstract
Motion capture methods are either very expensive to acquire or of poorer quality. Thus, we propose an innovative method that will give access to everyone that has an above-average computer, to generate for free their single-person digital motion clips. Recently, many researchers try to use neural networks that will estimate the 3D human pose from a single video. In our approach, we decided to use three different well-known pre-trained models, the first two to find the 2D pose estimation from each frame of the video, and the other to convert these 2D poses into 3D poses. Then, we estimated the position of the human per frame, by calculating the depth of the person in the image. The combination of the 3D poses and the position is the motion data that we wanted to find. Then, by importing these data into a Skeleton that contains all the estimated bones, we can create a Bio-vision Hierarchy (BVH) file, that can be imported into the 3D computer graphics software tool-set. At this point, the generated BVH file contains noise from the neural networks, so we propose using some filters to remove this noise without affecting the motion data information. Furthermore, we converted the raw python code into a Windows Application to create a very friendly user environment. Finally, we created some functions inside this application so that the user can visually, and edit the results from the BVH files.
Meeting ID: 932 7987 1979
Passcode: 801441