Introducere pag. 3 Capitolul I - Generarea vorbirii. Scheme echivalente 1.1 Caracteristici generale pag. 4 1.2 Analiza vocii si a vorbirii pag. 5 1.3 Modelarea mecanismului de producere a vorbirii pag. 6 1.4 Reprezentarea digitala a semnalelor vorbirii pag. 15 1.5 Perceptia semnalelor vorbirii pag. 21 1.6 Structura generala si functionarea unui sistem de recunoastere a vorbirii pag. 22 Capitolul II - Parametrii semnalelor vorbirii 2.1 Compresia si codarea semnalelor audio... pag. 26 2.2 Extragerea parametrilor semnalului vocal pag. 27 Capitolul III - Metode de analiza 3.1 Modele pentru productia vocala pag. 32 3.2 Teoria motorize a perceptiei vorbirii pag. 36 3.3 Arhitectura unui system de intelegere a vorbirii pag. 37 3.4 Modele Markov ascunse pag. 39 3.5 Modele cu retele neuronale pag. 40 3.6 Modele cu logica fuzzy pag. 44 3.7 Alinierea temporala dinamica (ATD) pag. 46 Capitolul IV - Metode de sinteza ( recunoasterea vorbirii ) 4.1 Arhitectura sistemelor de recunoastere a vorbirii pag. 48 4.2 Modele computationale pentru recunoasterea vorbirii pag. 51 Capitolul V - Aplicatia “Wave to text” 5.1 Reprezentarea digitala a sunetului. Formatul de compresie audio Wav pag. 53 5.2 Aplicatia “Wave to text” pag. 55 5.2.1 Formatul intern al semnalului audio pag. 56 5.2.2 Implementarea metodei de lucru cu coeficientii LPC pag. 58 Capitolul VI - Concluzii Bibliografie pag. 62
Recunoasterea vorbirii si identificarea vocala devin din ce în ce mai mult tehnologii populare în societatea de astazi. Pe lânga faptul ca are un cost ridicat si aduce un venit considerabil în toate cazurile în care este folosit, sistemul de recunoastere a vorbirii se adreseaza unei mari varietati de utilizari si implementari. Aceste implementari se întind de la domeniul securitatii pâna la tendinta sigura de crestere a productivitatii. Prin fixarea atentiei asupra tehnologiei si a companiilor care manevreaza sistemele actuale de recunoastere vocala si de identificare, putem învata din implementarile actuale si sa stabilim tendintele viitoare. De cele mai multe ori recunoasterea si verificarea vorbirii sunt procese de antiteza, prima etapa în acest traseu fiind recunoasterea. Recunoasterea vorbirii a fost mult timp unul dintre scopurile diferitilor proiectanti de software. Multi au încercat sa scrie programe care sa fie capabile sa înlocuiasca tastatura cu microfonul. Au existat mai multe aplicatii de acest tip, dar Office XP este prima suita importanta care ofera aceasta facilitate. Principala dificultate cu care se confrunta programele de recunoastere vocala o reprezinta faptul ca vocile a doi oameni nu sunt deloc asemanatoare si chiar vocea aceleiasi persoane poate varia în anumite situatii. Office XP încearca sa rezolve aceasta problema prin crearea de profiluri corespunzatoare fiecarui utilizator. Astfel, vor putea fi cunoscute caracteristicile vocilor diferitelor persoane. La fel ca si celelalte programe de recunoastere vocala si Office XP comite uneori greseli. Microsoft sustine ca 95% dintre cuvinte sunt recunoscute corect, adica doar un cuvânt din douazeci este gresit. Exista unele aplicatii cu performante mai bune, dar nici una nu depaseste o rata de 97%. Totusi, este un prim pas pe drumul care va duce la eliminarea tastaturii. Capitolul I Generarea vorbirii. Scheme echivalente 1.1 Caracteristici generale Sistemele actuale de recunoastere a vorbirii se situeaza deocamdata în limite restrânse ale parametrilor caracteristici si dedicate unor aplicatii specifice. Din punct de vedere a dimensiunii vocabularului si al modului de vorbire, sistemele de recunoastere cu performante acceptabile, se împart în trei categorii principale. - sisteme cu vocabular mic (10 – 100 cuvinte) ; - sisteme cu vocabular mediu si mare si vorbire izolata (10 000 – 20 000 cuvinte) ; - sisteme cu vocabular mediu si vorbire conectata sau continua, restrictiva la un domeniu de aplicabilitate (1 000 - 5 000 cuvinte) . Cele mai multe sisteme realizate, apar¬tin claselor sistemelor mici si mijlocii cu recunoasterea vorbirii izolate. Sistemele de recunoastere a vorbirii continue, în marea lor majoritate, exista doar în forma experimentala, în conditii de laborator. Chiar si sistemele utilizate în practica, cele pentru vorbirea izolata sau conectata, nu sunt destul de robuste la zgomotul mediului în care functioneaza si la variabilitatea vorbirii. Toate sistemele dau performante mai bune, daca numarul de utilizatori este mai redus si daca cei care folosesc sistemul sunt cei cu a caror voce s-a folosit pentru învatarea sistemului. Performantele se degradeaza semnificativ, daca vorbitorii se schimba sau daca sistemul este folosit cu alte cuvinte decât cu cele pentru care a fost antrenat. Caracteristicile principale ale uni sistem de recunoastere automate a vorbirii, fara a aminti parametrii si metodele specifice prin care s-a implementat, sunt urmatoarele: - dimensiunea vocabularului, adica numarul de cuvinte capabil sa le recunoasca; - monolocutor sau multilocutor (aici se poate preciza si sexul vorbitorilor) ; - vorbirea izolata sau continua; - conditi de zgomot si robustetea sistemului; - domeniul de aplicabilitate ; - timpul de operare, care poate fi în timp real, cu întîrziere sau off-line ; - procentajul de recunoastere; - costul . Pentru o mai buna întelegere a procesului de recunoastere a vorbirii, voi exemplifica fiecare din componentele acestui proces, astfel: - analiza acustica este metoda prin care se extrag parametrii auditivi; - analiza fonetica este metoda prin care ies în evidenta caracteristicile sunetelor; - analiza sintactica este metoda prin care se analizeaza continutul sintactic al unui cuvânt pe baza cuvintelor exprimate în prealabil; - analiza semantica este metoda prin care se verifica întelesul cuvântului ales; - analiza pragmatica este metoda prin care se face o estimare a cuvintelor care ar putea fi rostite.
Plătește în siguranță cu cardul și beneficiezi de garanția 200% din partea Diploma.ro.
Simplu și rapid în doar 2 pași: completezi datele tale și plătești.