Datenbestand vom 15. November 2024
Tel: 0175 / 9263392 Mo - Fr, 9 - 12 Uhr
Impressum Fax: 089 / 66060799
aktualisiert am 15. November 2024
978-3-8439-0058-4, Reihe Informationstechnik
Marko Lugger Mehrstufige Klassifikation paralinguistischer Eigenschaften aus Sprachsignalen mit Hilfe neuartiger Merkmale
190 Seiten, Dissertation Universität Stuttgart (2011), Softcover, A5
Der erste Teil der Arbeit beschäftigt sich mit der Extraktion geeigneter akustischer Merkmale, die mit den oben beschriebenen paralistischen Eigenschaften korrelieren. Diese Aufgabenstellung wird auch Merkmalsextraktion genannt. Sie ist notwendig, um die Datenmenge zu reduzieren und irrelevante Information zu eliminieren.
Es wird festgestellt, dass sogenannte High-Level Merkmale die Leistungsfähigkeit der paralinguistischen Klassifikation signifikant steigern können. Der Begriff High-Level Merkmal steht für Merkmale, welche auf einem speziellen Konzept, Modell oder Expertenwissen basieren. In dieser Arbeit werden Merkmale extrahiert, die auf dem Quelle-Filter-Modell der akustischen Phonetik sowie der Harmonielehre der Musiktheorie basieren.
Der zweite Teil der vorliegenden Arbeit betrifft die eigentliche Klassifikationsphase der paralinguistischen Eigenschaften unter Verwendung der extrahierten Merkmale. Dazu werden die bekannten Methoden des überwachten Lernens verwendet wie z.B. der Bayes Klassifizierer, GMM, lineare Diskriminanzfunktion, HMM oder Künstliche Neuronale Netze.
Die vorliegende Arbeit konzentriert sich auf neuartige Ansätze der Kombination von Klassifikatoren. Zusätzlich zur einstufigen Klassifikation wird hier besonders auf die serielle, die parallele und die hierarchische Kombinationen eingegangen. Diese mehrstufigen Strategien zur paralinguistischen Klassifikation profitieren besonders von den zusätzlichen High-Level Merkmalen.
Bei den Anwendungen liegt der Fokus dieser Arbeit auf der mehrstufigen Emotionserkennung mit Hilfe von zusätzlichen High-Level Merkmalen. Für eine bekannte deutsche Emotionsdatenbank EMODB, welche sechs Klassen beinhaltet, erreicht man für optimiertes Merkmalsset eine mittlere Erkennungsrate von über 90 %.
Für die Klassifikation der Stimmqualität wird ein Algorithmus zur Extraktion so genannter Stimmqualitätskonturen vorgestellt. Darunter versteht man eine Methode zur segmentweisen Klassifikation von vier verschiedenen Phonationstypen. Unter Verwendung dieser neuartigen Methode wird eine mittlere Erkennungsrate von über 60 % auf Segmentebene erreicht.
Die Anwendung der Altersklassen- und Geschlechtserkennung zeigt wieder deutliche Vorteile eines mehrstufigen Ansatzes. Hierbei werden sieben verschiedene Klassen unterschieden. Der dreistufige hierarchische Ansatz liefert bei optimierten Merkmalen mit 75 % die besten Ergebnisse unter der Verwendung zweier deutschsprachiger Datenbanken.