Συντάχθηκε 02-02-2024 15:32
Τόπος:
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 13/02/2024 11:00
Λήξη: 13/02/2024 12:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Γεωργίου Κλιούμη
με θέμα
Ανάπτυξη Καινοτόμου Συστήματος Συστάσεων για Ταινίες Βασισμένο σε Μηχανισμούς Κοινωνικής Επιλογής
A Novel Social Choice Mechanisms-Based Recommender System for the Movies Domain
Εξεταστική Επιτροπή
Καθηγητής Γεώργιος Χαλκιαδάκης (επιβλέπων)
Καθηγητής Μιχαήλ Γ. Λαγουδάκης
Αναπληρωτής Καθηγητής Βασίλειος Σαμολαδάς
Περίληψη
Τα συστήματα συστάσεων είναι εργαλεία λογισμικού που βοηθούν τους χρήστες στην επιλογή αντικειμένων ενδιαφέροντος (λ.χ, ταινίες, εστιατόρια, κ.ο.κ) από ένα μεγάλο σύνολο. Σε αυτήν την εργασία, προτείνουμε ένα εξατομικευμένο σύστημα συστάσεων για τον τομέα των ταινιών, το οποίο χρησιμοποιεί καινοτόμες τεχνικές μοντελοποίησης, καθώς και μία διαδικασία σύστασης βασισμένη σε μηχανισμούς κοινωνικής επιλογής. Στον τομέα της μοντελοποίησης των αντικειμένων, η προσέγγισή μας δημιουργεί ένα πιθανοτικό μοντέλο ταινίας, βασισμένο σε πληροφορίες σχετικά με τα είδη της, που αποκτήθηκαν μέσω της περίληψης της ταινίας μαζί με τη γενική βαθμολογία της. Συγκεκριμένα, στην προσέγγισή μας, οι ταινίες προσδιορίζονται ως πολυδιάστατες κανονικές κατανομές πάνω σε μια σειρά από χαρακτηριστικά που καθορίζουν τις διαστάσεις της κατανομής. Αυτά τα χαρακτηριστικά επιλέγονται ως αποτέλεσμα μιας κατηγοριοποίησης που χρησιμοποιεί ταξινομητές πάνω σε διανύσματα που χαρακτηρίζουν την κάθε ταινία, τα οποία αποκτώνται μέσω μιας σειράς διανυσματικών μετασχηματισμών κειμένου. Πιο συγκεκριμένα, αξιοποιούμε μια σειρά από τεχνικές επεξεργασίας φυσικής γλώσσας για τη μετατροπή των κειμένων περίληψης σε διανυσματικές αναπαραστάσεις, χρησιμοποιώντας τους διανυσματικούς μετασχηματισμούς (i) Term Frequency Inverse Document Frequency (TFIDF), (ii) Class Label Frequency Distance (CLFD) και (iii) Count Vectorizer. Έπειτα, χρησιμοποιούμε (a) την αρχιτεκτονική Classifier Chain, βασισμένη στους (i) Naive Bayes, (ii) Logistic Regression, (iii) Random Forest αλγορίθμους ταξινόμησης - καθώς και (b) ένα Long Short Term Memory (LSTM) νευρωνικό δίκτυο, για την επίλυση του προβλήματος ταξινόμησης πολλαπλών ετικετών της εξαγωγής του συνόλου των ειδών της εκάστοτε ταινίας. Μετά από την αξιολόγηση των παραπάνω τεχνικών, επιλέγουμε να χρησιμοποιήσουμε (a) τον αλγόριθμο Logistic Regression με δεδομένα που έχουν μετασχηματιστεί από το CLFD, και (b) τη μέθοδο LSTM, ως τις τελικές πηγές εξαγωγής πληροφοριών μας. Ακολουθούμε την Bayesian προσέγγιση συστάσεων "You Are What You Consume" των (Babas et. al., 2013), μοντελοποιώντας τους χρήστες ως πολυδιάστατες κανονικές κατανομές με τα ίδια χαρακτηριστικά όπως και οι ταινίες. Η διαδικασία ενημέρωσης του μοντέλου του χρήστη χρησιμοποιεί μια αποδοτική τεχνική Bayesian Learning, μέσω της χρήσης της Normal Inverse Wishart κατανομής. Επιπλέον, χρησιμοποιούμε το ενδιαφέρον του χρήστη για δημοφιλείς ταινίες ως έναν τρόπο ενίσχυσης των πεποιθήσεών μας σχετικά με τις λιγότερο εμφανείς προτιμήσεις του. Η τελική διαδικασία συστάσεών μας, χρησιμοποιεί έναν μηχανισμό κοινωνικής επιλογής βασισμένο σε εκλογές πολλαπλών νικητών. Χρησιμοποιούμε δύο σύνολα ψηφοφόρων που αναθέτουν τις ψήφους τους, βασισμένοι στην πιθανοτική απόκλιση του μοντέλου χρήστη και του αντικειμένου, στους τομείς της δημοφιλίας και των ειδών ταινίας. Η πειραματική αξιολόγηση αυτής της εργασίας πραγματοποιήθηκε με χρήση δύο διαφορετικών τύπων χρηστών του πραγματικού κόσμου. Τα αποτελέσματά μας για το πρώτο σύνολο χρηστών, οι οποίοι χαρακτηρίζονται από την τάση να παρακολουθούν ταινίες που προσελκύουν ευρύ ενδιαφέρον, δείχνουν ότι το σύστημα συστάσεών μας προτείνει ταινίες που βαθμολογούνται με μέσο όρο, 3.4/5 από τον χρήστη. Οι συστάσεις μας για το δεύτερο σύνολο χρηστών, οι οποίοι χαρακτηρίζονται από την τάση τους να παρακολουθούν ταινίες που δεν προσελκύουν ευρύ ενδιαφέρον, επιτυγχάνουν μέση βαθμολογία 3.5/5. Τα αποτελέσματά μας δείχνουν: (i) ότι οι περιλήψεις των ταινιών αποτελούν πράγματι ένα χρήσιμο εργαλείο για την ταξινόμηση ταινιών, (ii) ότι τα συστήματα συστάσεων μπορούν να επωφεληθούν από τη χρήση πιθανοτικής μοντελοποίησης, (iii) ότι διαφορετικοί τύποι χρηστών μπορούν να επωφεληθούν από διαφορετικές προσεγγίσεις συστάσεων, και ότι (iv) η προσέγγισή μας για συστάσεις ταινιών με χρήση μηχανισμών κοινωνικής επιλογής είναι αποτελεσματική σε πραγματικά δεδομένα.
Abstract
Recommender systems are software tools that assist users on selecting items from a large set. In this work, we propose a personalised recommender system for the movies domain that uses novel modelling techniques, as well as a social choice theory-driven recommendation process. On the item modelling domain, our approach builds a probabilistic movie model, based on information about its genres, acquired through the use of the movie’s summary along with its consensus rating. Specifically, movies in our approach are modelled as multivariate Gaussian distributions over a number of movie features defining its dimensions. These features are selected as a result of a classification stage that employs various classifiers over vectors, characterising each movie; and which themselves are acquired via a set of text vectorization techniques. Specifically, a set of Natural Language Processing techniques are used to transform summary texts to vector representations, using (i) Term Frequency Inverse Document Frequency (TFIDF), (ii) Class Label Frequency Distance (CLFD), and (iii) Count vectorizers. Following that, we employ the Classifier Chain architecture, based on the (i) Naive Bayes, (ii) Logistic Regression, (iii) Random Forest classification algorithms, as well as a (iv) Long Short Term Memory (LSTM) neural network, to solve the multi-label classification problem of extracting the genre set. After evaluating the above techniques, we reach the decision of selecting the Logistic Regression with CLFD transformed data and the LSTM approach, as our ultimate information extraction sources. We follow the "You Are What You Consume" Bayesian recommender approach put forward by Babas et al, thus also modelling users as multivariate Gaussians with the same features as the movies. The user model’s updating process utilises an efficient Bayesian Learning technique, through the use of the Normal Inverse Wishart Distribution. Additionally, we use the user’s appeal to popular movies, as a way of enhancing our beliefs about their less evident preferences. Our final recommendation process uses a social choice theory mechanism based on multi-winner elections. We use two sets of voters, that assign their votes based on the probabilistic divergence of the user and the item model, on the popularity and the movie genre domain. The experimental phase of this work was carried out among two different types of real-world users. Our results on the first set of users, characterised by their mainstream movie culture, indicate that our recommender system suggests movies that are rated, on average, 3.4/5 by the user. Our suggestions on the second user set, characterised by their niche movie culture, achieve a mean rating of 3.5/5. Our results indicate that (i) movie summaries are indeed a valuable tool for movie classification, (ii) recommender systems can benefit from the use of probabilistic modelling, (iii) different user types can benefit from different recommendation approaches, (iv) our movie recommendation approach using social choice theory mechanisms is effective on real-world data.