Metodele statistice in crearea unui sistem de adnotare cu parti de vorbire
Setul Penn Treebank a fost adaptat dupa setul original de 87 de adnotari pentru corpus-ul Brown. Acest set redus omite informatii care pot fi recuperate din identitatea punctului lexical. De exemplu setul original Brown de adnotari si alte seturi mai mari ca C5 includ cate o adnotare separata pentru fiecare forma diferita a verbelor do (C5 adnotarea "VDD" pentru did si "VDG" pentru doing), be, si have. Acestea au fost omise din setul Penn.Anumite distinctii sintactice nu au fost marcate in setul Penn Treebank pentru ca propozitiile Treebank au fost analizate, nu numai adnotate, si asa unele informatii sintactice sunt reprezentate in structura frazei.
De exemplu, prepozitiile si conjunctiile subordonatoare au fost combinate in simpla adnotare IN, din moment ce structura tree a propozitiei le-a dezambiguat (conjunctiile subordonatoare preced intotdeauna clauze, prepozitiile preced parti substantivale a frazei sau expresii prepozitionale). Cu toate acestea, majoritatea situatiilor de adnotare, nu implica corpus-uri analizate; din acest motiv setul Penn Treebank nu este de ajuns pentru multi dintre utilizatori. Setul de adnotari C7, de exemplu, face distinctia dintre prepozitii (II) si conjunctii subordonatoare (CS), si distinge prepozitia to (II) de cuvantul ce marcheaza infinitivul to (TO).
Comanda prin: SMS / CARD
Comanda aceasta lucrare cu doar 10 Euro + TVA.
Completeaza-ti corect adresa de e-mail. Pe aceasta vei primi link-ul de descarcare a lucrarii de licenta dupa ce plata a fost confirmata!
Lucrare de licenta despre Metodele statistice in crearea unui sistem de adnotare cu parti de vorbire
CuprinsIntroducere..............................................3
Capitolul I. Parti de vorbire, notatii folosite in diferite corpus-uri...............................5
1.1. Clase de cuvinte in engleza..............................5
1.2. Adnotari pentru limba engleza................................15
1.3. Procesul de adnotare a partilor de vorbire.......................18
Capitolul II. Algoritmi de adnotare.................................21
2.1. Adnotarea pe baza unor reguli (Ruled-Based) a partilor de vorbire..............................................21
2.2. Gramatici de dezambiguare..................................25
2.3. Adnotarea Stochastica a partilor de vorbire......................29
2.4. Alte probleme de discutie.....................................39
Capitolul III. Aplicatia Visual C++..............................41
3.1. Generalitati...............................41
3.2. Realizarea aplicatiilor Visual C++..........................43
3.3. Interfata principala........................................48
3.4. Functiile aplicatiei........................................52
Capitolul IV. Concluzii........................................68
Bibliografie..............................................69
Nota:Textul de mai sus reprezinta un extras din lucrarea de licenta "Metodele statistice in crearea unui sistem de adnotare cu parti de vorbire". Prin descarcarea prezentei lucrarii stiintifice, orice utilizator al site-ului www.referat.ro declara si garanteaza ca este de acord cu utilizarile permise ale acesteia, in conformitate cu prevederile legale ablicabile in domeniul proprietatii intelectuale si in domeniul educatiei din legislatia in vigoare.
*Nu exista comentarii