Microsatellites are polymorphic tracts of short tandem repeats (STRs) with one to
six base-pair (bp) motifs and account for around 3% of the human genome. Just like
copying by hand a text where the same word occurs many times in a row, the replication
of microsatellites is error prone and frequently adds or removes one or more copies of
the repeat motif. As a result, microsatellites mutate several orders of magnitude faster
than unique genomic sequences and for a given microsatellite, a population can have
many possible length variations. The first objective of this study was to implement
a method to jointly determine the number of repeats present at each microsatellite
in the genome for a large number of samples. The second goal was to make the
determination of repeat numbers more computationally efficient while simultaneously
increasing the detection sensitivity of heavily expanded microsatellite alleles, known
as repeat expansions. Last, the software was run on two large sets of whole genome
sequenced individuals, one from Iceland and the other from the UK biobank. Using
the genealogy information available on the Icelandic set, de novo mutation events were
detected and the effects of parental sex, age and genotypes on the types and number
of mutations found in their offspring were estimated.
Um það bil þrjú prósent af erfðamengi mannsins eru örtungl, en þau eru fjölbreytilegar raðir af stuttum samliggjandi endurtekningum þar sem endurtekna röðin er á
bilinu einn til sex basar á lengd. Líkt og við afritun á texta þar sem sama orðið er
endurtekið oft í röð, þá er villuhættan meiri við afritun örtunglaraða en við aðrar raðir
erfðamengisins og afleiðingin er að endurtekningu er bætt við eða hún tapast miðað
við upprunalega basaröð. Vegna þessa stökkbreytast örtungl nokkrum stærðargráðum
hraðar en aðrar raðir erfðamengisins og fyrir ákveðið örtungl getur hópur af fólki haft
margar mismunandi lengdarútgáfur. Fyrsta markmið verkefnisins var að hanna og
skrifa hugbúnað sem gæti ákvarðað fjölda endurtekninga fyrir öll örtungl í erfðamenginu hjá mörgun einstaklingum í einu. Næst, var reikniritinu hraðað en það jafnframt
gert næmara fyrir stórum útþenslu örtungla samsætum, sem geta valdið mörgum mismunandi heilkennum hjá þeim sem þær bera. Að lokum var hugbúnaðurinn notaður
til að meta arfgerð allra einstaklinga í tveimur stórum þýðum, frá Íslandi annars vegar
og Bretlandi hins vegar. Ættfræðiupplýsingar um íslenska þýðið voru notaðar til að
greina stökkbreytingar í afkvæmum sem ekki fundust í foreldrum og stökkbreytingarnar notaðar til að meta hvernig aldur kyn og arfgerð foreldra hefur áhrif á tegund og
fjölda stökkbreytinga sem þeir arfleiða afkvæmi sín að.