Effectively compiling parallel corpora for machine translation in resource-scarce conditions

dc.contributorHáskólinn í Reykjavíken_US
dc.contributorReykjavik Universityen_US
dc.contributor.advisorHrafn Loftssonen_US
dc.contributor.authorSteingrímsson, Steinþór
dc.contributor.departmentTölvunarfræðideild (HR)en_US
dc.contributor.departmentDepartment of Computer Science (RU)en_US
dc.contributor.schoolSchool of Technology (RU)en_US
dc.contributor.schoolTæknisvið (HR)en_US
dc.date.accessioned2023-06-13T09:42:36Z
dc.date.available2023-06-13T09:42:36Z
dc.date.issued2023-05-22
dc.description.abstractFor machine translation (MT) systems to produce accurate and fluent translations, reliable parallel corpora are key. Errors, due to misalignments or inadequate filtering during compilation of a parallel corpus, can have detrimental effects on the performance of an MT system trained on the data. Moreover, when the corpus is too small, the MT system may not be able to capture the complexities of the source and target languages and produce accurate translations. However, obtaining high-quality parallel data is often a challenging task, even more so for languages with a low number of speakers or rich morphology exacerbating the data sparsity problem. It is thus imperative to develop accurate methods for processing parallel corpora that can help make the most of what is available. In this thesis, we address this challenge by exploring various methods for processing parallel corpora to maximize their usefulness for MT. First, we investigate a variety of classifiers and scoring mechanisms used for filtering parallel corpora, looking into how efficient they are at removing data detrimental to MT training and retaining useful data. We find that different filtering strategies suit different datasets and that filtering separately for different translation directions can yield better translations in downstream MT tasks. Second, we examine different approaches to sentence alignment, compare their effectiveness, and show that combining multiple methods can improve alignment accuracy. Third, we experiment with comparable corpora mining methods to extract even more useful data from sentences that had previously been discarded, showing that this often overlooked data is a potential source of useful training data. Finally, we manually evaluate translations generated by MT systems trained on our processed datasets, most suitable for each translation direction, confirming the advantages of our applied methods. Our findings highlight the importance of careful processing and curation of parallel corpora for MT. We propose approaches for maximizing the utility of available parallel data, particularly for scenarios where resources are scarce, contributing to the development of more accurate and reliable MT systems.en_US
dc.description.abstractÁreiðanlegar samhliða málheildir eru lykillinn að því að hægt sé að þjálfa þýðingarvélar, sem geta myndað nákvæmar þýðingar sem flæða vel á markmálinu. Skekkjur í þjálfunargögnum, sem koma til vegna rangrar samröðunar setninga eða ófullnægjandi síunar við smíði samhliða málheilda, geta spillt gæðum þýðingarvélar sem þjálfuð er á gögnunum. Of lítil samhliða málheild getur jafnframt orðið til þess að þýðingarvélin nái ekki tökum á málfræði eða öðrum blæbrigðum frum- og markmálanna og myndi þess vegna ónákvæmar þýðingar.Það getur hins vegar verið flókið og erfitt að tryggja hámarksgæði þjálfunargagna við úrvinnslu samhliða texta, ekki síst þegar um er að ræða texta á tungumálum sem fáir tala eða þegar flóknar beygingar og virk orðmyndun auka á vandann við að greina rýr gögn. Þegar samhliða málheildir eru settar saman er því afar mikilvægt að þróa nákvæmar aðferðir sem miða að því að nýta sem allra best þau gögn sem til eru Í þessari ritgerð tökumst við á við þetta vandamál með því að kanna ýmsar aðferðir til að vinna gögn við smíði samhliða málheilda með það að leiðarljósi að hámarka notagildi gagnanna fyrir vélþýðingar. Í fyrsta lagi rannsökum við nokkrar gerðir flokkara og matsaðferðir sem notaðar eru til að sía samhliða málheildir. Við skoðum hversu árangursríkar þær eru til að fjarlægja setningapör sem geta dregið úr gæðum þýðingarvéla ef þau eru hluti þjálfunargagna og hversu líklegar aðferðirnar eru til að halda eftir þeim setningapörum sem búast má við að séu best fallnar til að bæta þýðingarvélarnar. Við komumst að því að mismunandi síunaraðferðir henta mismunandi gagnasöfnun og að með því að sía sérstaklega fyrir hverja þýðingarátt má bæta gæði þýðinga þeirra véla sem þjálfaðar eru á gögnunum. Í öðru lagi skoðum við mismunandi aðferðir við samröðun setninga, berum saman markvirkni þeirra og sýnum að með því að láta margar mismunandi aðferðir vinna saman getum við aukið nákvæmni samröðunarinnar. Í þriðja lagi gerum við tilraunir með aðferðir til að vinna samhliða gögn úr sambærilegum málheildum, og beitum þeim aðferðum til að draga nýtileg gögn úr setningum og setningapörum sem hafnað hefur verið á fyrri stigum í smíði þjálfunargagnanna. Við sýnum með nokkrum tilraunum að mögulegt er að nýta þessi gögn, sem yfirleitt er litið fram hjá, til að stækka samhliða þjálfunarmálheildir með nýtilegum gögnum og þar með bæta þýðingarvélar sem þjálfaðar eru á þeim. Að lokum metum við handvirkt þýðingar myndaðar af þýðingarvélum sem þjálfaðar eru á gögnum sem unnin hafa verið með okkar aðferðum, en það mat staðfestir gagnsemi þeirra aðferða sem við beitum. Niðurstöður okkar undirstrika mikilvægi vandaðrar greiningar og gagnavinnslu við smíði samhliða málheilda sem notaðar eru til að þjálfa þýðingarvélar. Við kynnum aðferðir sem hámarka notagildi tiltækra samhliða gagna, ekki sístþegar takmarkað magn gagna er fyrir hendi, og stuðlum þannig að þróun nákvæmari og áreiðanlegri þýðingarvéla.en_US
dc.identifier.isbn978-9935-539-19-9 (eISBN)
dc.identifier.isbn978-9935-539-18-2
dc.identifier.urihttps://hdl.handle.net/20.500.11815/4253
dc.language.isoenen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectMachine translationen_US
dc.subjectParallel corporaen_US
dc.subjectLanguage technologyen_US
dc.subjectNatural language processingen_US
dc.subjectText corporaen_US
dc.subjectMachine learningen_US
dc.subjectData qualityen_US
dc.subjectSentence alignmenten_US
dc.subjectData filteringen_US
dc.subjectComparable corporaen_US
dc.subjectNeural machine translationen_US
dc.subjectÞýðingaren_US
dc.subjectStafræn tæknien_US
dc.subjectTölvuren_US
dc.subjectVélrænt námen_US
dc.subjectMáltæknien_US
dc.subjectMálvísindien_US
dc.subjectMálfræðien_US
dc.subjectSetningafræðien_US
dc.subjectTungumálen_US
dc.subjectGagnavinnslaen_US
dc.subjectGæðastjórnunen_US
dc.subjectDoktorsritgerðiris
dc.titleEffectively compiling parallel corpora for machine translation in resource-scarce conditionsen_US
dc.title.alternativeSkilvirk smíði samhliða málheilda fyrir þýðingarvélar við gagnarýrar aðstæðuren_US
dc.typeinfo:eu-repo/semantics/doctoralThesisen_US

Skrár

Original bundle

Niðurstöður 1 - 1 af 1
Nafn:
steinthor_phd.pdf
Stærð:
7.94 MB
Snið:
Adobe Portable Document Format
Description: