Serviciu web pentru identificarea lucrărilor plagiate

Cuprins licență

1. Capitolul 1 -  Introducere 3
1.1. Obiective 4
1.2. Contributii originale 4
1.3. Structura lucrarii 5
2. Capitolul II -  Metode de identificare a similaritatilor intre documente 6
2.1. Analiza similitudinii 6
2.2. Compararea documentelor la nivel de propozitie 8
2.3. Compararea documentelor folosind factori de corelatie 9
2.4. Clasificare si amprentare 11
2.4.1. Clasificare 11
2.4.2. Amprentare 13
3. Capitolul III - Tehnologii Web 16
3.1. PHP, Apache si MySQL 16
3.2. HTML, CSS si jQuery 18
3.3. Drupal 20
3.3.1. Notiuni de baza 21
3.3.2. Teme Drupal 23
4. Capitolul IV -  Aplicatie de detectare a plagiatului 25
4.1. Preprocesarea documentelor 26
4.2. Compararea documentelor 27
4.3. Functionalitati ale aplicatiei 30
4.4. Analiza rezultatelor 36
5. Capitolul V -  Concluzii 38
5.1. Activitati propuse 39
6. Bibliografie 40


Extras din licență

1. Capitolul 1 -  Introducere
A plagia inseamna a folosi sau a copia partial ideile altcuiva fara a cita autorul original, sau conform [6], ,,a lua, a fura ideile, expresiile, inventiile cuiva si a le prezenta drept creatii proprii; a publica pe numele sau fragmente din lucrarea altuia; a comite un furt literar".
Termenul ,,plagiere" isi are originea in cuvantul latin ,,plagium", care in secolul I insemna rapirea unui sclav sau a unui copil, iar plagiatorul (,,plagiarius") insemna jefuitor, rapitor sau om care ajuta infractorii sa se ascunda. In anul 1601, termenul ,,plagiere" a fost introdus in limba engleza de dramaturgul Ben Jonson, pentru a descrie furtul literar. [10] 
Intr-adevar, cuvantul ,,plagiere" este sinonim cu furtul, dar actiunea de a plagia este mai grava intrucat persoana care plagiaza fura ceva unic: ideile, creativitatea si personalitatea autorului -  ceea ce il reprezinta de fapt.
In ziua de azi, plagiatul este destul de comun printre studenti, profesori si cercetatori si devine o problema din ce in ce mai serioasa. Un factor care contribuie la aceasta situatie este accesul foarte usor la Internet, adica la numeroase publicatii online pe care studentii le gasesc si le copiaza sau le modifica cu usurinta. Internetul cuprinde cel mai mare numar de articole si informatii publice online, iar o mare parte din aceasta informatie este publicata in mai mult de o singura locatie. O cautare pe Internet a unui subiect returneaza rezultate aproape identice in zeci de locatii diferite.
In urma studiilor s-a descoperit ca plagiatul in universitati a crescut semnificativ in ultima jumatate de secol, ceea ce a afectat calitatea educatiei primite de studenti. Cadrele universitare stiu ca pentru a avea cunostinte bogate in orice domeniu, studentii au nevoie de informatia furnizata de paginile web, insa acestia sunt tentati sa utilizeze informatiile gasite pentru a ,,practica" plagiatul. Informatiile trebuie utilizate in mod legal si moral, adica o persoana trebuie sa stie cum sa foloseasca informatia: cum sa o gaseasca, cum sa o structureze, sa o evalueze si sa o modeleze din propriul punct de vedere. Acest lucru constituie o competenta pe care orice student absolvent ar trebui sa o aiba, insa din cauza faptului ca nu exista sisteme de detectare a plagiatului in fiecare universitate, cei mai multi studenti prefera sa copieze decat sa scrie lucrari originale.
Detectarea plagiatului poate ajuta cadrele universitare sa imbunatateasca calitatea educatiei studentilor. De aceea, acest subiect a fost dezbatut in ultimii ani atat in universitati, cat si in cercurile politice. Au fost dezvoltate numeroase aplicatii comerciale de detectare a plagiatului, care utilizeaza diferite metode. Majoritatea aplicatiilor sunt capabile sa identifice fraze plagiate in care s-a modificat ordinea cuvintelor, s-au inlocuit cuvintele cu sinonimele lor, propozitii scurte legate intr-o fraza sau fraze impartite in propozitii scurte etc.
1.1. Obiective
Obiectivele generale ale lucrarii de fata sunt:
- definirea plagiatului si descrierea tehnicilor de plagiere
- prezentarea diverselor metode de identificare a similaritatilor dintre texte
- dezvoltarea unei aplicatii care compara documente si identifica care dintre acestea sunt plagiate
- prezentarea tehnologiilor utilizate pentru realizarea aplicatiei.
Scopul principal este de a readuce tehnicile de invatare pe care Internetul le-a schimbat prin furnizarea atator resurse usor de gasit si de copiat. Pentru a realiza scopul propus, am dezvoltat o aplicatie web de detectare a plagiatului, care, printr-o interfata user-friendly, le permite studentilor sa se inregistreze si sa isi depuna lucrarile atribuite, iar cadrelor didactice sa identifice, pentru fiecare lucrare in parte, secventele suspecte si documentele sursa din care acestea provin.
1.2. Contributii originale
In general, un student care plagiaza lucrari existente pentru a realizeaza un eseu, copiaza portiuni mari de text pe care le modifica (uneori) prin reordonarea sau stergerea unor cuvinte, ca sa para originale. Ulterior, studentul adauga paragrafe originale pentru a finaliza tema atribuita. Metoda propusa in aceasta lucrare, numita SimilarDocumentsDetection (SimDD), a fost creata cu scopul de a identifica astfel de documente.
Ideea de baza a metodei SimDD este ca un paragraf poate fi considerat plagiat daca mai mult de 3 dintre termenii din acesta au fost gasiti la distante relativ apropiate in documentul original. SimDD verifica daca un document suspect DP este plagiat comparand cuvintele cheie din acesta cu toate cuvintele cheie din celelalte documente din baza de date si astfel identifica (i) propozitiile copiate, (ii) propozitiile care au fost create prin unirea sau despartirea unor propozitii din documentul original si (iii) propozitiile in care cuvintele au fost amestecate.
1.3. Structura lucrarii
In continuare, lucrarea este structurata pe 3 capitole, dupa cum urmeaza.
In Capitolul 2 -  ,,Metode de identificare a similaritatilor intre documente" -  sunt evaluate mai multe tehnici de detectare a plagiatului dezvoltate pana in prezent din diverse lucrari. Metodele prezentate sunt diferite din multe puncte de vedere, prezentand abordari originale pentru fiecare aspect ce trebuie studiat in procesul de detectare a plagiatului: stocarea documentelor intr-o baza de date, preprocesarea documentelor in vederea compararii rapide a textelor, vizualizarea rezultatelor etc.
Capitolul 3 -  ,,Tehnologii Web" -  prezinta tehnologiile utilizate pentru dezvoltarea soft-ului. Pentru a crea o aplicatie web, este nevoie de tehnologii pentru stocarea informatiilor, pentru partea de logica a aplicatiei, care ofera dinamism paginilor web si pentru partea de prezentare, adica tot ce tine de interfata.
In Capitolul 4 -  ,,Aplicatie de detectare a plagiatului" -  este detaliata metoda propusa si sunt prezentate deciziile care au fost luate pentru implementarea algoritmului de comparare a textelor. De asemenea, capitolul prezinta functionalitatile aplicatiei de detectare a plagiatului si o analiza a rezultatelor obtinute.
Ultimul capitol -  ,,Concluzii" -  cuprinde concluziile generale ale studiului realizat si activitatile propuse pentru imbunatatirea aplicatiei.


Fisiere în arhivă (1):

  • Serviciu web pentru identificarea lucrarilor plagiate.docx

Imagini din acest licență

Bibliografie

[1] Arnold D. Robbins: GAWK: Effective AWK Programming, http://www.gnu.org/software/gawk/manual/gawk.html.
[2 ] A. Chavan: Drupal Ingredients Diagram: Let's start at the very beginning..., http://www.urbaninsight.com/comment/2206.
[3] Benjamin Melancon, Jacine Luisi, Karoly Negyesi, Greg Anderson, Bojhan Somers, Stephane Corlosquet, Stefan Freudenberg, Michelle Lauer, Ed Carlevale, Florian Loretan, Dani Nordin, Ryan Szrama, Susan Stewart, Jake Strawn, Brian Travis, Dan Hakimzadeh, Amye Scavarda, Albert Albala, Allie Micka, Robert Douglass, Robin Monks, Roy Scholten, Peter Wolanin, Kay VanValkenburgh, Greg Stout, Kasey Qynn Dolin, Forest Mars, Sam Boyer, Mike Gifford and Claudina Sarahe: Definitive Guide To Drupal, Apress, New York, 2011.
[4] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze: An Introduction to Information Retrieval, Cambridge University Press, Cambridge, England, 2010.
[5] Daniel R. White and Mike S. Joy: Sentence-Based Natural Language Plagiarism Detection, ACM Journal of Educational Resources, 4 (2004), 1-20.
[6] Dex Online, definitie a plagia, ,,Dictionarul Explicativ al limbii romane, editia a II-a, DEX '98", Academia Romana, Institutul de Lingivstica ,,Iorgu Iordan", Ed. Univers Enciclopedic, 1998, http://dexonline.ro/definitie/plagia.
[7] Drupal community: Drupal.org Community Documentation, https://api.drupal.org/api/drupal/includes%21module.inc/group/hooks/7.
[8] Felipe Felipe Bravo-Marquez, Gaston L'Huillier, Sebastiin A. Rios, Juan D. Velisquez: A Text Similarity Meta-Search Engine Based on Document Fingerprints and Search Results Records, Proceedings of the 2011 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology, 1 (2011), 146-153.
[9] Introna, Lucas and Hayes, Niall: ,,Plagiarism Detection Systems and International Students: Detecting plagiarism, copying or learning?" in Student Plagiarism in an Online World: Problems and Solutions. Idea Group Publishing, Hershey and London, 2007, pp. 108-122
[10] Jack Lynch: The Perfectly Acceptable Practice of Literary Theft: Plagiarism, Copyright, and the Eighteenth Century, http://www.writing-world.com/rights/lynch.shtml.
[11] Jason Lengstorf: PHP for Absolute Beginners, Apress, New York, 2009.
[12] Jonathan Chaffer, Karl Swedberg: Learning jQuery Third Edition, Packt Publishing, Birmingham, UK, 2009.
[13] Nathaniel Gustafson, Maria Soledad Pera, Yiu-Kai Ng: Nowhere to Hide: Finding Plagiarized Documents Based on Sentence Similarity, Proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, December (2008), 690-696.
[14] Mary Bellis: The History of the Internet, http://inventors.about.com/od/istartinventions/a/internet.htm.
[15] M. Pera and Y.-K. Ng.: Utilizing Phrase-Similarity Measures for Detecting and Clustering Informative RSS News Articles, Integrated Computer-Aided Engineering, 15 (2008), 331-350.
[16] M.V. Ramakrishna and J. Zobel: Performance in practice of string hashing function, Proceedings of the Fifth International Conference on Database Systems for Advanced Applications, April(1997), 178-185.
[17] MySQL 3.23, 4.0, 4.1 Reference Manual, http://dev.mysql.com/doc/refman/4.1/en/history.html.
[18] Robert Schifreen: How to create Web sites and applications with HTML, CSS, Javascript, PHP and MySQL, Oakworth Business Publishing Ltd, UK, 2009.
[19] - Shanmugasundaram Harihara: Automatic Plagiarism Detection Using Similarity Analysis, The International Arab Journal of Information Technology, 4 (2012), 322 326.
[20] - Timothy C. Hoad and Justin Zobel: Methods for Identifying Versioned and Plagiarized Documents, Journal of the American Society for Information Science and Technology, 54 (2003), 203-215.
[21] Witten, I.H., Moffat, A., & Bell, T.C.: Managing gigabytes: Compressing and indexing documents and images (2nd ed.), Morgan Kaufmann, San Francisco, CA, 1999.
[22] w3c: A Short History of JavaScript, http://www.w3.org/community/webed/wiki/A_Short_History_of_JavaScript.
[23] w3schools: HTML Introduction, http://www.w3schools.com/html/html_intro.asp.


Ne pare rau, pe moment serviciile de acces la documente sunt suspendate.


Hopa sus!