Blindenfotografie
Wilt u reageren op dit bericht? Maak met een paar klikken een account aan of log in om door te gaan.

Tekst-naar-spraak-technologie

Ga naar beneden

Tekst-naar-spraak-technologie Empty Tekst-naar-spraak-technologie

Bericht  Admin do maa 27, 2008 3:41 pm

Tekst-naar-spraak-technologie
Wat is spraaksynthese?

Spraaksynthese is de kunstmatige nabootsing van natuurlijke taal. Hierbij worden spraakuitingen gegenereerd door de computer. Deze worden niet geselecteerd uit een aantal vooraf opgenomen uitingen, maar worden in real-time geproduceerd.
Hoe komt de stem in het programma?

De eerste vraag is wat er eigenlijk zo "synthetisch" is aan spraaksynthese. Voice Reader van Linguatec is gebaseerd op uitgebreide spraakopnamen van getrainde sprekers. De stemmen zijn dus niet kunstmatig!

Dit geluidmateriaal wordt vervolgens in kleine eenheden, de zogenaamd units, onderverdeeld. Dit kunnen afzonderlijke klanken (zogenaamde fonemen) zijn, zoals A en E, maar ook tweeklanken zoals EI of AU en zelfs hele lettergrepen. Dat is belangrijk omdat een letter telkens anders kan klinken, afhankelijk van de omgeving. Zo komt in het woorden "geven" bijvoorbeeld tweemaal de letter E voor. Deze wordt echter telkens heel anders uitgesproken.

De units worden daarna met behulp van behoorlijk complexe algoritmen samengevoegd tot een nieuwe, vloeiende audiotekst. Dat is de eigenlijke synthese, oftewel "samenstelling". Hiervoor is een bepaald tekstbegrip nodig, zodat het resultaat zo natuurlijk mogelijk klinkt. Dan is de regel dat de stem bij een vraagteken omhoog gaat en bij een punt aan het einde van een zin omlaag nog vrij eenvoudig. Om echter ook binnen in de zin voor een natuurlijke spraakmelodie (prosodie) te kunnen zorgen, moet het programma weten waar zich het onderwerp van de zin bevindt, aangezien dit zinsdeel een grotere nadruk krijgt. Deze analyseprocessen zijn natuurlijk duidelijker complexer. Dan lijkt het programma op een leerling die Latijns leert!
Waarvoor kan spraaksynthese worden gebruikt?

De toepassingsmogelijkheden zijn zeer ruim. Zo wordt spraaksynthese ingezet op plaatsen waar geen geschikt scherm beschikbaar is om taal weer te geven, bijv. voor SMS-berichten via het vaste telefoonnet of in dialoogsystemen. Ook in situaties waarbij de ogen nodig zijn voor het uitvoeren van andere taken, zoals het besturen van een motorvoertuig, is spraaksynthese handig. In voertuigen wordt spraaksynthese bijvoorbeeld toegepast in navigatiesystemen. Spraaksynthese is een echte uitkomst voor blinden, die teksten van internet kunnen laten voorlezen op de computer. Mensen met een spraakgebrek kunnen deze technologie gebruiken om met hun omgeving te communiceren.
Welke vormen van spraaksynthese zijn er?

Er bestaan verschillende vormen van spraaksynthese, zoals tekst-naar-spraak- en concept-naar-spraaksynthese.

* De concept-naar-spraaksynthese bevat een programmacomponent die een taaluiting genereert op basis van semantische, pragmatische en contextspecifieke kennis. Deze taaluiting kan dan direct worden omgezet in een spraaksignaal.
Concept-naar-spraaksynthese kan bijvoorbeeld in dialoogsystemen worden gebruikt. Overal waar tekst als invoer dient, moet echter tekst-naar-spraaksynthese (TTS) worden gebruikt.

* Bij tekst-naar-spraaksynthese is de uit te spreken tekst al beschikbaar en wordt deze niet door het systeem gegenereerd. De tekst moet echter wel worden geanalyseerd en geïnterpreteerd om de juiste uitspraak en intonatie vast te stellen (bijvoorbeeld een vraag stellen in plaats van een bewering doen).


Hoe is een tekst-naar-spraaksysteem gestructureerd?

Tekst-naar-spraaksynthese omvat verschillende fasen. In het TTS-systeem wordt een tekst ingevoerd, die voordat een spraaksignaal kan worden gegenereerd, eerst moet worden geanalyseerd (tekstanalyse) en vervolgens in een fonetische beschrijving moet worden omgezet. Daarna wordt tijdens een verdere stap de prosodie gegenereerd. Op basis van de dan beschikbare informatie kan een spraaksignaal worden geproduceerd.


1. De tekstanalyse bestaat uit meerdere stappen:
* Als eerste wordt de tekst onderverdeeld in tokens. De omzetting van woorden in tokens vormt de orthographische vorm van het token. Hierbij wordt voor het token "Nr." door middel van expansie de orthografische vorm "nummer" gegenereerd, het token "12" krijgt de orthographische vorm "twaalf" en "1997" wordt omgezet in "negentienhonderdzevenennegentig. Dat deze expansie soms niet zo gemakkelijk is, blijkt als we het cijfer "1" als voorbeeld nemen: afhankelijk van wat dit cijfer aangeeft, moet het verschillend worden geëxpandeerd, bijvoorbeeld als "een" of als "één".

* Bij de tekstanalyse wordt ook de context van een token geanalyseerd: bij afkortingen als "evt." is zonder contextanalyse niet duidelijk of zij moeten worden geëxpandeerd tot "eventueel" of "eventuele. De contextanalyse is eveneens nodig om intonaties te disambigueren, zoals bij "voorkome" en "voorkomen", die op basis van hun schrijfwijze niet van elkaar kunnen worden onderscheiden.
2. Nadat de tekstanalyse is voltooid, kunnen uitspraakregels worden toegepast.
Letters kunnen niet één-op-één worden omgezet in fonemen, aangezien de uitspraak niet altijd gelijk is. Eén afzonderlijke letter kan in bepaalde contexten overeenkomen met geen (bijv. "h" in "thuis") of meerdere fonemen ("t" in "democratie"). Bovendien kunnen meerdere letters samen één foneem vormen ("ch" in "echt"). Letters kunnen in verschillende contexten verschillend worden uitgesproken ("t" in "politiek" en in
"politie"). Het dezelfde foneem kan door verschillende letters worden gevormd ("wat" en "wad").

Er zijn twee strategieën voor het bepalen van de uitspraak van woorden:
* In op woordenboeken gebaseerde oplossingen met morfologische componenten worden zo veel mogelijk morfemen in één lexicon opgeslagen. Volledige vormen worden samengesteld aan de hand van vervoegings-, afleidings- en compositieregels. Er kan ook een lexicon met volledige vormen worden opgebouwd, waarin alle mogelijke woordvormen worden opgeslagen.
De uitspraak van de woorden die niet in het lexicon zijn opgenomen, wordt bepaald door uitspraakregels.
* In een op regels gebaseerde oplossing worden uitspraakregels gegenereerd op basis van fonologische woordenboekenkennis. Alleen woorden die in uw uitspraak een absolute uitzondering vormen, worden in een uitzonderingenwoordenboek opgenomen.
Bij beide benaderingen is er sprake van een groot verschil in de omvang van de lexica. Bij op woordenboeken gebaseerde oplossingen is het lexicon vele malen groter dan het uitzonderingenwoordenboek van de op regels gebaseerde oplossingen. Op woordenboeken gebaseerde oplossingen kunnen eventueel nauwkeuriger zijn dan op regels gebaseerde oplossingen als zij over een fonetisch woordenboek beschikken dat voldoende uitgebreid is.

3. Als de uitspraak van de woorden is vastgesteld, volgt de prosodiegeneratie.
De mate van natuurlijkheid van een TTS-systeem is afhankelijk van prosodische factoren zoals intonatiemodellering (frasering en accentuering), amplitudemodellering en duurmodellering (daartoe behoren klankduur en pauzeduur, die samen de lettergreepduur en het spreektempo bepalen).

Prosodische kenmerken hebben verschillende functies: zij maken het bijvoorbeeld mogelijk de focus van een zin worden bepaald (met andere woorden het zinsdeel dat de nadruk krijgt omdat het belangrijk of nieuw is). Bovendien zijn zij verantwoordelijk voo de segmentering van een zins. Zij kunnen relaties tot stand brengen tussen zinsdelen of zinnen en de zinmodus bepalen (stellende of vragende zin). Syntactische informatie is van bijzonder belang voor de prosodiegeneratie. Op basis van de kennis van de syntactische structuur van een zin kan voor de meeste zinnen de prosodie worden berekend.

Voor enkele zinnen is echter semantische en pragmatische informatie van belang: zinnen waarvan de syntactische structuur ambigu is, krijgen vaak een andere betekenis als de klemtoon op een andere component komt te liggen. De positie van de klemtoon is vooral in ontkennende zinnen van belang: de component waarop de ontkenning betrekking heeft, moet de nadruk krijgen door middel van de intonatie (bijv. in "Marja is niet met de auto naar Utrecht gereden."). Slechts weinig TTS-systemen kunnen echter beschikken over semantische en pragmatische kennis.

4. De gegevens uit de spraakverwerkingsmodule worden doorgegeven aan de signaalverwerkingsmodule.Hier vindt de eigenlijke synthese plaats, waarbij een geluidssignaal wordt gegenereerd. Bij de concatenatieve synthese vindt vervolgens de selectie en aaneenschakeling van eenheden plaats. Voor de afzonderlijke klanken worden uit een database de meest geschikte kandidaten geselecteerd (als er meerdere geschikte kandidaten beschikbaar zijn) en aan elkaar gekoppeld.

Admin
Admin

Aantal berichten : 337
Registration date : 26-03-08

https://blindenfotografie.actieforum.com

Terug naar boven Ga naar beneden

Terug naar boven

- Soortgelijke onderwerpen

 
Permissies van dit forum:
Je mag geen reacties plaatsen in dit subforum