Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Παρουσίαση Μεταπτυχιακής Εργασίας κου Ταμπουρατζή ΝΙκολάου - Σχολή ΗΜΜΥ

  • Συντάχθηκε 24-06-2014 11:07 από Vasiliki Grigoraki Πληροφορίες σύνταξης

    Email συντάκτη: vgrigoraki<στο>tuc.gr

    Ενημερώθηκε: 24-06-2014 14:28

    Κύρια: υπάλληλος ΗΜΜΥ. Άλλες ιδιότητες: Unknown -#-@ΗΜΜΥ
    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών
    Πρόγραμμα Μεταπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ

    ΝΙΚΟΛΑΟΥ ΤΑΜΠΟΥΡΑΤΖΗ

    με θέμα:
    Επιτάχυνση βασικών μπλοκ σε Hardware για επικοινωνία χαμηλής κατανάλωσης σε υπολογιστές υψηλής απόδοσης και ενσωματωμένα συστήματα

    Hardware Accelerated Basic Blocks for Power-Aware Intercommunication in HPC and Embedded Systems

    Πέμπτη 26 Ιουνίου 2014, 12:45 μ.μ.
    Αίθουσα 145.Π58, Κτίριο Επιστημών, Πολυτεχνειούπολη

    Εξεταστική Επιτροπή

    Αναπληρωτής Καθηγητής Γιάννης Παπαευσταθίου(επιβλέπων)
    Καθηγητής Απόστολος Δόλλας
    Καθηγητής Διονύσιος Πνευματικάτος

    Περίληψη
    Στο παρελθόν, μια μετάβαση στην επόμενη διαδικασία κατασκευής ολοκληρωμένων κυκλωμάτων σήμαινε περισσότερος αριθμός από transistor, υψηλότερη συχνότητα ρολογιού και χαμηλότερη κατανάλωση ενέργειας. Οι υψηλότερες συχνότητες ρολογιού σε συνδυασμό με τις καινοτομίες στην αρχιτεκτονική υπολογιστών, ορίζουν τη βιομηχανία και την έρευνα μέχρι τα μέσα της δεκαετίας του 90. Από εκείνο το σημείο η έρευνα στην αρχιτεκτονική άρχισε να παρουσιάζει κορεσμό με αποτέλεσμα η βιομηχανία να αναζητεί κλιμάκωση της τεχνολογίας για αύξηση της απόδοσης. Στα μέσα της δεκαετίας του 00 η κλιμάκωση της συχνότητας παρουσίασε κορεσμό επίσης. Ο αριθμός των transistor, ο μόνος πόρος που διατηρεί αξιόπιστα τη κλιμάκωση, μαζί με τον παραλληλισμό μέσα στο chip, μπορούν να διαχειριστούν και να επεκτείνουν την υπάρχουσα γνώση των παλιών υπερ-υπολογιστών, κάνοντας τα ως μόνη λύση να κρατηθεί ο νόμος του Moore ζωντανός. Στα παράλληλα συστήματα οι κόμβοι συνεργάζονται μεταξύ τους για να λύσουν επεξεργαστικά απαιτητικά συστήματα. Η επικοινωνία μεταξύ των κόμβων επιτυγχάνεται μέσα από μια μεγάλη ποικιλία πρωτοκόλλων. Παραδοσιακά, η έρευνα έχει επικεντρωθεί στη βελτίωση αυτών των πρωτοκόλλων και στον εντοπισμό των κατάλληλων ανά σύστημα και εφαρμογή. Πρόσφατα, μια προσπάθεια ενοποίησης των βασικών πράξεων των πρωτοκόλλων επικοινωνίας πραγματοποιήθηκε μέσω του συστήματος των Portals. Τα Portals προσφέρουν χαμηλού επιπέδου επικοινωνιακές ρουτίνες, οι οποίες μπορούν να συνδυαστούν για τη μοντελοποίηση σύνθετων πρωτοκόλλων. Ωστόσο τα Portals έχουν κόστος απόδοσης, αφού τα υψηλότερα πρωτόκολλα επικοινωνίας έχουν υλοποιηθεί με τέτοιο τρόπο ώστε πολλά από τα κρίσιμα κομμάτια τους έχουν αποσυνδεθεί από το κύριο υπολογιστικό thread και σε πολλές περιπτώσεις επιταχύνονται σε custom hardware. Αυτή η δουλειά στοχεύει να μειώσει το χάσμα απόδοσης μεταξύ ενός γενικού και επαναχρησιμοποιήσιμου ενδιάμεσου πρωτόκολλου (Portals) και αρκετών μονολιθικών πρωτοκόλλων. Μια software-driven hardware επιτάχυνση συστήματος προτείνεται για την εκτέλεση πραγματικού software έτσι ώστε να επισημανθούν τα κρίσιμα κομμάτια των ρουτίνων επικοινωνίας. Η επιτάχυνση των τμημάτων που υπάρχει bottleneck ξεκινάει μοντελοποιώντας το hardware σε untimed virtual prototype, και το software σε ένα εύρος από υποψήφιους επεξεργαστές embedded. Ένα καινοτόμο κομμάτι από hardware prototype σε πραγματικό πυρίτιο επιτρέπει το γρήγορο χαρακτηρισμό του accelerator σε κατανάλωση ενέργειας, απόδοσης και εμβαδό. Αυτή η προσέγγιση επιτυγχάνει speedup μιας τάξης μεγέθους στα τμήματα των Portals που υπάρχει bottleneck, και έως δύο τάξεις μεγέθους speedup στην υλοποίηση των MPI και GA πρωτοκόλλων χρησιμοποιώντας ένα πρόσφατο embedded processor.

    Abstract
    In the past, a transition to the next fabrication process typically translated to more transistors and frequency and less power. The higher frequencies paired with innovations in computer architecture defined the semiconductor industry and research until the mid-90s. At that point architecture research saturated and industry resided to the technology scaling for performance gains. During the mid-00s frequency scaling saturated as well. Transistor count, the only resource which reliably kept scaling, along with intra-chip parallelism, which could leverage and extend the existing knowledge of old-days supercomputers, emerged as the only solution to keep Moore’s law live. In parallel systems, computing nodes cooperate to solve processing intensive problems. The communication between nodes is achieved through a variety of protocols. Traditionally, research has focused on optimizing these protocols and identifying the most suitable ones per system and application. Recently, an attempt to unify the primitive operations of the proposed intercommunication protocols has been realized through the Portals system. Portals offer a set of low level communication routines which can be composed to model complex protocols. However, Portals modularity comes at a performance cost, as communication protocols have been tuned and many of their timing critical parts have been decoupled from the main execution thread and in many cases accelerated as dedicated hardware. This work targets to close the performance gap between a generic and reusable intercommunication layer, Portals, and the several monolithic but highly tuned protocols. A software driven hardware accelerated system is suggested which resides on execution of actual software to highlight the critical parts of the communication routines. Accelerating the bottlenecks starts by modeling the hardware in untimed virtual prototypes and the software in a range of candidate embedded processors. A novel path from hardware prototypes to actual silicon allows rapid characterization of the accelerator in terms of power, performance and area. The suggested approach triggers a speedup from one order of magnitude in bottleneck components of Portals, while it is up to two orders of magnitude faster in both MPI and GA baseline implementations in a recent embedded processor.

© Πολυτεχνείο Κρήτης 2012