sintetitzador de veu

m
Electroacústica

Aparell electroacústic capaç de generar sons d’una composició espectral semblant a la de la veu humana.

Bàsicament hi ha dues tècniques que fins ara han donat resultats bastant acceptables: la parametrització i la segmentació. En els sintetitzadors per parametrització, la informació de l’ona acústica corresponent a la veu es limita a un nombre ben reduït de paràmetres. Efectivament, segons estudis teòrics fets per diversos investigadors, hom ha arribat a proposar una interpretació del tracte bucal amb un nombre de paràmetres que inicialment hom reduí a les coordenades de posició de la llengua, la mandíbula i els llavis; posteriorment calgué afegir-hi també la posició del vel del paladar. Amb aquest joc de coordenades hom pot definir completament l’articulació corresponent a cada fonema. Aquesta és la base dels sintetitzadors per formants, uns dels més desenvolpupats i més utilitzats des de fa uns anys. Aquests sintetizadors parametritzen els valors de les ressonàncies del tracte bucal per a cada unitat temporal, fixada prèviament, i permeten l’actualització en el temps d’un filtre que modula una font periòdica o bé aleatòria (segons que els segments de la parla contínua siguin sonors o bé sords, respectivament). A partir de les dues fonts esmentades hi ha, doncs, un filtre de formants, a la sortida del qual hom obté el so corresponent a la veu sinetitzada. La codificació de la veu es redueix, així, a uns pocs paràmetres: la freqüència central i la banda dels formants (generalment tres o quatre), el nivell energètic total, la presència o absència de sonoritat del so i la freqüència fonamental del so a produir; tot això ha d’ésser codificat a un ritme adequat, entre 1000 i 4000 bits/s. Un altre sistema de parametrització que sembla que té grans possibilitats de futur és el dels sintetizadors de predicció lineal; en aquests hom parteix d’un tractament temporal del senyal acústic amb uns certs paràmetres que permeten estalviar la redundància de la informació dels segments pròxims de la veu. Els sintitzadors per segmentació, en lloc de la parametrització, opten per l’elecció d’unitats bàsiques que cal retenir en memòria per a la utilització posterior. Per a entendre aquest procediment, cal recordar el principi bàsic de la fonètica consistent en la coarticulació de fonemes adjacents. En lloc d’una successió de signes gràfics amb so propi, la llengua parlada es basa en sons d’una cadena fonètica, interrelacionats estretament, ja que cada fonema és alterat per l’anterior i pel posterior. Hom no pot, doncs, intentar sintetitzar veu a partir de fonemes, perquè el resultat no correspon en absolut a la realitat de la parla. Si hom vol fer això, cal establir unes regles que prevegin totes les combinacions de fonemes i determinin la manera concreta de fer la transició entre fonemes per a cada cas particular. Això resulta tan complex que hom prefereix fer-ho d’una altra manera; és molt millor partir d’unes unitats bàsiques que ja incloguin aquests casos de transició de fonemes. Per això, en lloc del fonema, hom utilitza com a unitat bàsica el difonema: d’aquesta manera, combinant difonemes hom arriba a una aproximació de la parla molt més perfecta i satisfactòria que no a partir de fonemes. Cal superposar-hi, a més, la freqüència fonamental, la intensitat i la durada de cada difonema. Hi ha una variant d’aquest mètode en la qual la unitat bàsica és la semisíl·laba, concepte semblant a l’anterior però no exactament igual. Aquest mètode ha donat molt bons resultats, especialment pel que fa a la naturalitat de la veu, un dels problemes de molts sintetitzadors. Encara hi ha la possibilitat de partir d’unitats més extenses, com ara síl·lables o fins i tot paraules senceres. La síntesi a partir de text escrit comporta moltes dificultats i encara no ha estat resolta satisfactòriament. Hom ha fet, amb cert èxit, diversos intents d’acoblar un sintetitzador de veu a un ordinador, per tal que reprodueixi, amb veu sintetitzada, un text en introduir-lo mitjançant el teclat, la qual cosa pot tenir grans aplicacions en el futur.