Eine lange Zeit bildeten Recurrent Neural Networks die Grundlage für state-of-the-art Modelle zur Verarbeitung sequentieller Daten wie z.B. Texte oder Audiosignale. Für Aufgaben aus dem Bereich des Natural Language Processing wie maschinelle Übersetzungen, Sprachverständnis und Textgenerierung wurden diese kürzlich durch Modelle wie BERT, GPT-2 und XLNet abgelöst. Sie alle basieren auf der Transformer Architektur, die durch den Einsatz des Self-Attention-Mechanismus vollständig auf rekurrente und convolutional Layer verzichten kann.
Ziel des Vortrags ist, die Funktionsweise der Bausteine der Transformer Architektur anhand von Use-Case-Szenarien intuitiv verständlich zu machen, sowie deren Vor- und Nachteile im Vergleich zu RNNs zu erläutern.