Sistem automat de labiolectura

Cuprins licenta Cum descarc?

Introducere . 15
Capitolul 1 Fundamente teoretice 19
1.1 Principiile labiolecturii . 19
1.1.1 Considerente generale .. 19
1.1.2 Influenta lingvisticii in labiolectura . 20
1.1.3 Concluzii .. 22
1.2 Retele neuronale artificiale ... 23
1.2.1 Instruire asistata de calculator . 23
1.2.2 Principiul de functionare al retelelor neuronale artificiale .. 24
1.2.3 Istoricul retelelor neuronale artificiale 25
1.2.4 Retele neuronale adanci ... 28
1.2.5 Retele neuronale convolutionale . 30
1.2.6 Proprietatile retelelor neuronale convolutionale .. 32
1.3 Biblioteci specifice ... 34
1.3.1 TensorFlow .. 34
1.3.2 Keras 35
1.3.3 OpenCV ... 35
1.4 Rezultate anterioare .. 36
Capitolul 2 Arhitectura sistemului propus ... 39
2.1 Achizitia video . 41
2.2 Identificarea unui cuvant .. 41
2.2.1 Metoda conturului .. 42
2.2.2 Metoda histogramei ... 42
2.2.3 Metoda ariei ... 43
2.3 Identificarea regiunii de interes 44
2.3.1 Metoda directa ... 44
2.3.2 Metoda indirecta 44
2.3.3 Metoda indirecta cu memorie 45
2.3.4 Metoda cu cadru fix ... 45
2.4 Recunoasterea cuvantului . 46
2.5 Gramatica . 46
2.6 Video supratitrat ... 47
2.7 Reteaua antrenata . 47
2.7.1 Reteaua Inception-V3 & Multilayer Perceptron 47
2.7.2 Inception-V3 & Long short-term memory 48
2.7.3 Long-term recurrent convolutional network .. 50
2.7.4 Convolutional 3D ... 51
Capitolul 3 Rezultate experimentale .. 53
3.1 Descrierea seturilor de date .. 53
3.2 Metrici de evaluare ... 56
3.2.1 Acuratetea .. 56
3.2.2 Word Error Rate 57
3.3 Analiza retelelor neuronale adanci ... 57
3.4 Analiza metodelor de identificare a cuvintelor 61
3.5 Analiza metodelor de identificare a regiunii de interes 62
3.6 Rezultate finale . 62
Concluzii si perspective ... 65
Bibliografie . 67
Anexa 1 .. 71
Diploma obtinuta la Sesiunea de Comunicari Stiintifice Studentesti . 71
Anexa 2 .. 73
Implementarea identificarii regiunii de interes .. 73


Extras din licenta Cum descarc?

Introducere
Inca din secolul XX, folosirea unor sisteme automate in viata de zi cu zi a oamenilor a devenit tot mai raspandita, conducand inerent la dezvoltarea societatii in care traim. In zilele noastre, realiarea unei interfete om-masina (IOM) este unul dintre domeniile de foarte mare interes, numerosi cercetatori ocupandu-se de aceasta arie, ale carei utilizari devin tot mai raspandite. Pe masura ce gradul de utilizare al tehnologiei creste, este necesar ca aceasta interactiune sa devina tot mai intuitiva, prin cresterea gradului de similitudine cu modul in care fiintele umane interactioneaza. Pentru ca acest lucru sa devina posibil, abordarea actuala a problemei propune ca in comunicarea dintre om si masina sa se utilizeze cat mai multe dintre modurile in care oamenii transfera informatii. Pentru aceasta, este necesar ca masinile, precum robotii sau calculatoarele de uz personal, sa perceapa si sa interpreteze cat mai mult din informatiile primite din mediul inconjurator, cu o acuratete cat mai mare.
Pentru a putea realiza un nivel de constientizare de catre masini a mediului inconjurator, au fost dezvoltate sisteme capabile sa achizitioneze date din exterior intr-un mod similar oamenilor [1], prin intermediul senzorilor si al camerelor video. Pe langa achizitionarea datelor, masinile trebuie sa fie capabile sa le proceseze si sa le interpreteze. Pentru aceste etape, se considera ca utilizarea tehnicilor de tip Machine Learning (ML), cunoscuta si ca instruire asistata de calculator, este cea mai adecvata metoda. In particular, folosirea algoritmilor de tip Deep Learning (DL), altfel spus retele neuronale adanci, s-a dovedit a fi extrem de utila in acest domeniu.
Dintre modurile in care se realizeaza interactiunea om-masina amintim comunicarea pe cale orala, care este facilitata prin intermediul unor sisteme de recunoastere a vorbirii. Deoarece acest tip de comunicare este cel mai comun intre fiintele umane, este firesc ca directia de evolutie a sistemelor tehnologice sa fie una in care interactiunea prin intermediul vorbirii sa fie cea mai utilizata. In fapt, recunoasterea vorbirii este o tema de interes inca de la jumatatea secolului trecut, atunci cand Fry prezenta aspectele teoretice ale unui sistem mecanic de recunoastere a vorbirii[2]. In ultimii 50 de ani, numeroase implementari ale unor astfel de sisteme, hardware sau software, au fost propuse si realizate.
Dificultatea in cazul realizarii unui sistem de recunoastere automata a vorbirii o prezinta robustetea si acuratetea sistemului. O astfel de solutie software cu acuratete de 100% nu a fost inca dezvoltata si este foarte improbabil sa se obtina in viitorul apropiat. Din acest considerent, s-a incercat adaugarea unor aplicatii suplimentare, care sa conduca la cresterea ratei de recunoastere. O astfel de abordare au avut-o Silsbee et al. [9], care au dezvoltat un sistem audiovizual cunoscut ca ,,Lipreading to Enhance Automatic Perception of Speech (LEAPS)", un sistem de labiolectura folosit la imbunatatirea recunoasterii automate a vorbirii.
In mod firesc, urmatoarea etapa in dezvoltarea aplicatiilor de acest tip a reprezentat-o realizarea unei solutii software de sine statatoare, un sistem capabil sa recunoasca cuvinte exclusiv pe baza cadrelor dintr-o filmare. Ratiunea din spatele acestei dezvoltari o reprezinta evolutia domeniului achizitiei si procesarii imaginilor, cat si numarul tot mai mare de imagini care sunt captate la fiecare moment de timp. In zilele noastre, se estimeaza ca peste 1000 de fotografii sunt realizate in fiecare secunda, insemnand cel putin un cadru pe milisecunda. Mai mult, daca luam in considerare echipamente precum camerele de supraveghere si tinem cont de numarul de cadre pe secunda pe care acestea sunt capabile sa le inregistreze, suntem obligati sa multiplicam numarul mai sus amintit cu cel putin un milion. Asta inseamna, deci, ca suntem inconjurati de informatie vizuala, informatie care trebuie nu doar achizitionata, ci si procesata si vizualizata. Au aparut astfel aplicatiile [3][4] de tip Automated Lipreading Recognition (ALR), sau sisteme de citit automat pe buze, care au cunoscut un avans puternic in ultimii 30 de ani. Cele mai recente sisteme ating niveluri de acuratete tot mai ridicate, un exemplu conludent in acest sens fiind proiectul lui Assael et al. [5], capabil sa recunoasca cuvinte in limba engleza cu o precizie de 95.2%, depasind astfel atat expertii umani, cat si cei mai performanti algoritmi dezvoltati pana la acest moment.
La momentul actual, cercetarile facute arata ca nu exista un sistem automat de labiolectura (SAL) creat pentru a detecta si recunoaste cuvinte in limba romana. Se impune asadar dezvoltarea si implementarea unei astfel de aplicatii, dat fiind faptul ca exista numeroase contexte in care aceasta ar putea fi folosita. Astfel, recunoasterea unor cuvinte cheie dintr-o fraza poate fi utilizata fie pentru a realiza o interfata om-masina intr-un mediu cu nivel ridicat de zgomot, fie pentru implementarea unui sistem national de supraveghere, in care imaginile de la camerele stradale de supraveghere pot fi interpretate de sistem, care alerteaza autoritatile la aparitia unui astfel de cuvant. In plus, un sistem mai avansat, capabil sa recunoasca orice cuvant definit in Dictionarul Explicativ Roman, ar putea fi integrat in aplicatii de transpunere a imaginilor in scris, folosite pentru a subtitra programele Televiziunii Nationale Romane sau, impreuna cu un sistem de recunoastere a vorbirii, pentru a facilita comunicarea intre oameni. Rezultatele obtinute la nivel international in acest domeniu demonstreaza ca un o astfel de aplicatie este realizabila, chiar cu o acuratete inalta, ceea ce face ca prezentul proiect sa fie unul fezabil.
Ne propunem, asadar, sa realizam un sistem automat de labiolectura pentru limba romana, capabil sa realizeze atat detectia, cat si recunoasterea unor cuvinte cheie, folosind exclusiv informatie vizuala. Aceast proiect are ca punct de plecare lucrarea prezentata in cadrul ,,Sesiunii de Comunicari Stiintifice Studentesti UPB, Mai, 2018", dupa cum se poate observa in Anexa 1. Pentru prima parte a proiectului, vom realiza un algoritm de procesare a imaginilor, astfel incat sa putem selecta din filmul inregistrat doar acele cadre care reprezinta informatie dorita, altfel spus cadrele care compun
cuvintele pronuntate de vorbitor. A doua etapa a prezentei lucrari o reprezinta recunoasterea cuvintelor amintite anterior, pe baza unei retele neuronale adanci deja antrenate. Pentru aceasta, este necesar sa realizam respectiva retea, urmand mai apoi sa o antrenam folosind un set de date ce contine cuvinte in limba romana.
Proiectul cuprinde, astfel, urmatoarele etape:
-  Studiul notiunii de labiolectura si a tehnicilor folosite pentru a realiza acest proces, studiul metodelor de ML folosind DL ce urmeaza a fi implementate in cadrul proiectului si analiza tehnologiilor folosite in lucrare, a caror functionare va fi descrisa in Capitolul 1.
-  Implementarea sistemului capabil sa citeasca pe buze, a carui arhitectura va fi descrisa in Capitolul 2. In acest capitol se vor analiza punctele critice din lantul de preprocesare a datelor, urmand a se oferi solutii viabile si robuste. De asemenea, se vor propune anumite structuri de retele neuronale ce ar putea fi folosite in etapa de recunoastere, impreuna cu modul in care acestea pot fi antrenate.
-  Evaluarea performantelor sistemului realizat, atat la nivel de bloc, cat si in integralitatea sa, va fi descrisa in Capitolul 3.
In finalul lucrarii vom prezenta atat concluziile proiectului, cat si anumite imbunatatiri care ii vor fi aduse in viitor.


Fisiere in arhiva (1):

  • Sistem automat de labiolectura.pdf

Imagini din aceasta licenta Cum descarc?

Bibliografie

[1] George Mather. Essentials of Sensation and Perception. Foundations of Psychology. Taylor & Francis, pages: 73-90, 2014
[2] Fry, D.B.: Theoretical aspects of mechanical speech recognition, Journal of the British Institution of Radio Engineers, 19, (4), p. 211-218, 1959 [3] Eric David Petajan. Automatic Lipreading to Enhance Speech Recognition (Speech Reading). Ph.D. Dissertation. University of Illinois at Urbana-Champaign, 1984 [4] Chung, Joon Son et al. "Lip Reading Sentences in the Wild." 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 3444-3453, 2017. [5] Neil Midgley. ,,New technology catches Hitler off guard". https://www.telegraph.co.uk/news /uknews/1534830/New-technology-catches-Hitler-off-guard.html. Accesat pe 19-06-2018. [6] Alasdair Palmer. ,,Lip reader saw Fraser's incriminating conversation". https://www. telegraph.co.uk/news/uknews/1420816/Lip-reader-saw-Frasers-incriminating-conversations.html. Accesat pe 19-06-2018. [7] McGurk H., MacDonald J. "Hearing lips and seeing voices". Nature. 264 (5588): 746- 8, 1976.
[8] Cornita Georgeta, ,,Fonetica integrata", Umbria, 2001
[9] Ron Kovahi; Foster Provost. "Glossary of terms". Machine Learning 30: 271- 274. 1998
[10] Maqableh, M. , Karajeh, H. and Masa'deh, R. "Job Scheduling for Cloud Computing Using Neural Networks". Communications and Network, 6, 191-200. 2014
[11] Ovidiu Grigore. ,,Note de curs". http://ai.pub.ro/content/RNSF.htm. Accesat pe 19-06-2018
68
[12] Conner DiPaolo. "Perceptron". https://github.com/cdipaolo/goml/tree/master/perceptron. Accesat pe 19-06-2018 [13] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. "Backpropagation applied to handwritten zip code recognition". Neural Comput., 1(4):541- 551. 1989 [14] Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks". Advances in neural information processing systems., pages 1097- 1105, 2012 [15] Marius Ignatescu. "Lobul occipital si cortexul visual". https://www.descopera.org/lobul-occipital-si-cortexul-vizual/. Accesat pe 19-06-2018 [16] K. Fukushima. "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biological Cybernetics, 36:193- 202, 1980 [17] Peng M, Wang C, Chen T, Liu G. "NIRFaceNet: A Convolutional Neural Network for Near-Infrared Face Identification". Information. 7(4):61. 2016 [18] Documentatia Tensorflow. https://github.com/tensorflow/tensorflow. Accesat la 19-06-2018 [19] Documentatia Keras. https://keras.io. Accesat la 19-06-2018 [20] Documentatia OpenCV. https://docs.opencv.org. Accesat la 19-06-2018
...


Banii inapoi garantat!

Plateste in siguranta cu cardul bancar si beneficiezi de garantia 200% din partea Diploma.ro.


Descarca aceasta licenta cu doar 8 €

Simplu si rapid in doar 2 pasi: completezi adresa de email si platesti.

1. Numele, Prenumele si adresa de email:

Pe adresa de email specificata vei primi link-ul de descarcare, nr. comenzii si factura (la plata cu cardul). Daca nu gasesti email-ul, verifica si directoarele spam, junk sau toate mesajele.

2. Alege modalitatea de plata preferata:



* La pretul afisat se adauga 19% TVA.


Hopa sus!