Riconoscimento prosodia

La Prosodieerkennung (anche Prosodieklassifikation) è una branca del riconoscimento automatico dei pattern o della classificazione dei pattern. I modelli da classificare rappresentano le proprietà prosodiche del linguaggio, pertanto spesso viene eseguita una classificazione delle caratteristiche prosodiche in combinazione con il riconoscimento vocale .

Proprietà prosodiche analizzate

Intonazione (misura della frequenza fondamentale)

  • Confronti delle curve di intonazione
  • Particolarità nel corso dell'intonazione: dopo aver pronunciato una frase e poi preso fiato, c'è spesso un cosiddetto reset del tono , un aumento della frequenza di base all'inizio di una nuova frase. La frequenza fondamentale mostra una tendenza al ribasso nel corso dell'emissione di una frase, ciò è dovuto all'espirazione. Quando si pronuncia una frase e si inspira allo stesso tempo, la frequenza di base tende ad aumentare.
  • Intonazione alla fine di una frase: ha un significato speciale in tedesco, ad esempio, le domande sì-no hanno spesso un'intonazione crescente, le affermazioni tendono a cadere nella loro intonazione finale.
  • L'ironia mostra un'intonazione completamente diversa rispetto alle frasi intese in questo modo.
  • Per enfatizzare (accentuare) sillabe, parole o frasi, ad es. B. per evitare ambiguità, è possibile modificare anche l'intonazione. La sillaba, la parola o la frase viene quindi sottolineata in modo diverso.

Energia, volume e volume

  • fluttuazioni di volume relative

Durata, quantità, ritmo, velocità di parola

  • Pause tra le parole (ritmo)
  • velocità media del parlato
  • Deviazione dalla velocità media di parola
  • Lunghezza media del fonema
  • Lunghezza media delle sillabe
  • Parola di lunghezza media
  • Frase di lunghezza media (finché non si riprende il respiro)

Queste caratteristiche sono spesso associate a modelli linguistici di prosodia, in particolare intonazione, perché solo queste consentono affermazioni sul significato delle misurazioni. In altre parole, forniscono le classi necessarie per il riconoscimento dei modelli e l' analisi dei modelli .

Pre-elaborazione

Levigare gli effetti microprosodici

Jitter e shimmer , noti dalla micro prosodia , producono irregolarità in ampiezza e frequenza e devono essere rimossi dal segnale vocale prima della classificazione automatica (es. Intonazione). Ciò può essere ottenuto attenuando in quanto il segnale vocale campionato in modo discreto viene attenuato con un filtro mediano .

Interpolazioni

Le esplosive creano una breve chiusura glottica. Durante questo periodo le corde vocali non vibrano e quindi non c'è una frequenza di base misurabile. Ciò significa che ci sono piccole lacune nella scansione in cui non sono disponibili informazioni. Questo può portare un classificatore di intonazione a classificarsi nella categoria sbagliata. L'interpolazione può migliorare il corretto riconoscimento.

Esempi di rilevamento

L'intonazione corrisponde all'incirca alla frequenza di base a livello acustico. Questo può essere estratto automaticamente da un segnale audio con i cosiddetti pitch tracker (il programma Praat , ad esempio, contiene una funzione di pitch tracking). Nascono serie di valori di frequenza fondamentale. Queste serie discrete di valori possono essere approssimate mediante analisi di regressione dopo interpolazione e livellamento mediano mediante polinomi, ad esempio segmenti di rette . L'andamento della frequenza fondamentale può quindi essere modellato utilizzando diverse sezioni diritte più o meno piccole. Da questa curva di sollecitazione approssimata dell'enunciato, è possibile trarre conclusioni su eventi prosodici speciali, ad esempio linee rette in forte pendenza possono indicare un picco nel contorno, cioè una parola accentata. Ciò può essere utile per la comprensione del dialogo da parte di un robot, poiché il riconoscimento vocale puro non fornisce alcuna informazione sull'accento.

Aree di applicazione

Riconoscimento delle emozioni

I cambiamenti nelle proprietà soprasegmentali della parola vengono utilizzati per "leggere" gli stati emotivi dal segnale vocale. Le persone eccitate parlano più velocemente, le persone arrabbiate parlano più forte e le persone spaventate parlano più piano. Le persone tristi parlano più lentamente e in modo più prolungato.

robotica

Il riconoscimento prosodia può essere utilizzato in modo che i robot possano risolvere ambiguità a diversi livelli linguistici. Ciò migliora le prestazioni del riconoscimento vocale e aumenta l'accettazione del robot come partner di conversazione o interazione nella comunicazione uomo-macchina . Un robot appare anche più umano se può usare le caratteristiche emotive della voce per cambiare la propria voce in modo adeguato (voce compassionevole per le persone che suonano triste, voce gioiosa per le persone felici) o per adattare le sue espressioni facciali alle emozioni. Un riconoscimento dell'ironia o dell'umorismo migliora anche l' accettazione come partner di interazione naturale.

Sistemi di comprensione del parlato e sistemi di dialogo

Esistono molti sistemi di comprensione del linguaggio (al di fuori della robotica) nei dispositivi di navigazione , nelle macchine di dettatura , come dispositivo di controllo alternativo per i computer (ad esempio il riconoscimento vocale in Windows Vista) o nei sistemi di informazione telefonica automatica. L'uso del riconoscimento della prosodia può anche migliorare il riconoscimento vocale lì risolvendo ambiguità (ad esempio attraverso frasi ellittiche ) o riferimenti a determinate parti di frasi. Anche le citazioni nel mezzo di una frase possono essere riconosciute meglio ("Come il professore ha menzionato in 'The History of the Vikings'": in realtà non è una frase grammaticale valida a meno che non si riconosca 'The History of the Vikings' come citazione o come citato Titolo di un libro).

medicinale

Tra le altre cose, i moduli di riconoscimento della prosodia vengono utilizzati nella logopedia per misurare e trattare specificamente i disturbi del linguaggio .

Riconoscimento degli altoparlanti

Per riconoscere quale oratore ha detto cosa quando ci sono molte persone che parlano contemporaneamente, la sua voce deve essere chiaramente distinguibile dalle voci degli altri oratori. Le caratteristiche tipiche come la frequenza di base, la velocità di conversazione media ecc. Possono aiutare, ma anche le caratteristiche della micro prosodia , ad esempio jitter e shimmer , che sono diverse e caratteristiche in ogni persona. Il problema di tenere traccia di una delle tante voci si verifica spesso con i sistemi di dettatura che vengono utilizzati nelle riunioni o nelle riunioni aziendali per tradurre l'intera conversazione alla lettera in testo. Gli esseri umani possono facilmente concentrarsi su una delle tante voci che parlano allo stesso tempo, ma i sistemi automatici lo trovano molto difficile. Questo problema è noto come effetto cocktail party , tra le altre cose , e non esistono ancora soluzioni ottimali.

Verifica del relatore

In aree ad alta sicurezza come i centri di ricerca, solo i dipendenti autorizzati possono accedere a determinate aree. Per garantire ciò, le caratteristiche prosodiche e microprosodiche vengono spesso utilizzate per la verifica oltre alle caratteristiche biometriche . Spesso questa è una passphrase.

Riconoscimento della lingua

Per riconoscere automaticamente la lingua parlata da un parlante, è possibile utilizzare anche le funzioni di prosodia oltre alle funzioni di riconoscimento vocale (vedere B-prosodia ). Ogni lingua ha un suono tipico, una sequenza tipica di combinazioni di suoni frequenti o anche suoni caratteristici (ad esempio suoni gutturali in arabo).

Traduzione automatica

Nella traduzione automatica , i moduli di prosodia vengono utilizzati per migliorare il riconoscimento vocale e per risolvere ambiguità sintattiche, semantiche e pragmatiche per poter tradurre adeguatamente nella lingua di destinazione. Il progetto Verbmobil è un buon esempio .

Guarda anche

link internet