Effectively compiling parallel corpora for machine translation in resource-scarce conditions

Steingrímsson, Steinþór

Effectively compiling parallel corpora for machine translation in resource-scarce conditions

Skrár

steinthor_phd.pdf (7.94 MB)

Dagsetning

2023-05-22

Höfundar

Steingrímsson, Steinþór

Útdráttur

For machine translation (MT) systems to produce accurate and fluent translations, reliable parallel corpora are key. Errors, due to misalignments or inadequate filtering during compilation of a parallel corpus, can have detrimental effects on the performance of an MT system trained on the data. Moreover, when the corpus is too small, the MT system may not be able to capture the complexities of the source and target languages and produce accurate translations. However, obtaining high-quality parallel data is often a challenging task, even more so for languages with a low number of speakers or rich morphology exacerbating the data sparsity problem. It is thus imperative to develop accurate methods for processing parallel corpora that can help make the most of what is available. In this thesis, we address this challenge by exploring various methods for processing parallel corpora to maximize their usefulness for MT. First, we investigate a variety of classifiers and scoring mechanisms used for filtering parallel corpora, looking into how efficient they are at removing data detrimental to MT training and retaining useful data. We find that different filtering strategies suit different datasets and that filtering separately for different translation directions can yield better translations in downstream MT tasks. Second, we examine different approaches to sentence alignment, compare their effectiveness, and show that combining multiple methods can improve alignment accuracy. Third, we experiment with comparable corpora mining methods to extract even more useful data from sentences that had previously been discarded, showing that this often overlooked data is a potential source of useful training data. Finally, we manually evaluate translations generated by MT systems trained on our processed datasets, most suitable for each translation direction, confirming the advantages of our applied methods. Our findings highlight the importance of careful processing and curation of parallel corpora for MT. We propose approaches for maximizing the utility of available parallel data, particularly for scenarios where resources are scarce, contributing to the development of more accurate and reliable MT systems.

Áreiðanlegar samhliða málheildir eru lykillinn að því að hægt sé að þjálfa þýðingarvélar, sem geta myndað nákvæmar þýðingar sem flæða vel á markmálinu. Skekkjur í þjálfunargögnum, sem koma til vegna rangrar samröðunar setninga eða ófullnægjandi síunar við smíði samhliða málheilda, geta spillt gæðum þýðingarvélar sem þjálfuð er á gögnunum. Of lítil samhliða málheild getur jafnframt orðið til þess að þýðingarvélin nái ekki tökum á málfræði eða öðrum blæbrigðum frum- og markmálanna og myndi þess vegna ónákvæmar þýðingar.Það getur hins vegar verið flókið og erfitt að tryggja hámarksgæði þjálfunargagna við úrvinnslu samhliða texta, ekki síst þegar um er að ræða texta á tungumálum sem fáir tala eða þegar flóknar beygingar og virk orðmyndun auka á vandann við að greina rýr gögn. Þegar samhliða málheildir eru settar saman er því afar mikilvægt að þróa nákvæmar aðferðir sem miða að því að nýta sem allra best þau gögn sem til eru Í þessari ritgerð tökumst við á við þetta vandamál með því að kanna ýmsar aðferðir til að vinna gögn við smíði samhliða málheilda með það að leiðarljósi að hámarka notagildi gagnanna fyrir vélþýðingar. Í fyrsta lagi rannsökum við nokkrar gerðir flokkara og matsaðferðir sem notaðar eru til að sía samhliða málheildir. Við skoðum hversu árangursríkar þær eru til að fjarlægja setningapör sem geta dregið úr gæðum þýðingarvéla ef þau eru hluti þjálfunargagna og hversu líklegar aðferðirnar eru til að halda eftir þeim setningapörum sem búast má við að séu best fallnar til að bæta þýðingarvélarnar. Við komumst að því að mismunandi síunaraðferðir henta mismunandi gagnasöfnun og að með því að sía sérstaklega fyrir hverja þýðingarátt má bæta gæði þýðinga þeirra véla sem þjálfaðar eru á gögnunum. Í öðru lagi skoðum við mismunandi aðferðir við samröðun setninga, berum saman markvirkni þeirra og sýnum að með því að láta margar mismunandi aðferðir vinna saman getum við aukið nákvæmni samröðunarinnar. Í þriðja lagi gerum við tilraunir með aðferðir til að vinna samhliða gögn úr sambærilegum málheildum, og beitum þeim aðferðum til að draga nýtileg gögn úr setningum og setningapörum sem hafnað hefur verið á fyrri stigum í smíði þjálfunargagnanna. Við sýnum með nokkrum tilraunum að mögulegt er að nýta þessi gögn, sem yfirleitt er litið fram hjá, til að stækka samhliða þjálfunarmálheildir með nýtilegum gögnum og þar með bæta þýðingarvélar sem þjálfaðar eru á þeim. Að lokum metum við handvirkt þýðingar myndaðar af þýðingarvélum sem þjálfaðar eru á gögnum sem unnin hafa verið með okkar aðferðum, en það mat staðfestir gagnsemi þeirra aðferða sem við beitum. Niðurstöður okkar undirstrika mikilvægi vandaðrar greiningar og gagnavinnslu við smíði samhliða málheilda sem notaðar eru til að þjálfa þýðingarvélar. Við kynnum aðferðir sem hámarka notagildi tiltækra samhliða gagna, ekki sístþegar takmarkað magn gagna er fyrir hendi, og stuðlum þannig að þróun nákvæmari og áreiðanlegri þýðingarvéla.

Efnisorð

Machine translation, Parallel corpora, Language technology, Natural language processing, Text corpora, Machine learning, Data quality, Sentence alignment, Data filtering, Comparable corpora, Neural machine translation, Þýðingar, Stafræn tækni, Tölvur, Vélrænt nám, Máltækni, Málvísindi, Málfræði, Setningafræði, Tungumál, Gagnavinnsla, Gæðastjórnun, Doktorsritgerðir

URI

https://hdl.handle.net/20.500.11815/4253

Undirflokkur

Doktorsritgerðir - HR

Ítarleg færsla

Effectively compiling parallel corpora for machine translation in resource-scarce conditions

Skrár

Dagsetning

Höfundar

Journal Title

Journal ISSN

Volume Title

Útgefandi

Útdráttur

Lýsing

Efnisorð

Citation

URI

Undirflokkur