In recent years, the ability of Artificial Intelligence (AI) to analyze and predict various
variables within medicine has advanced significantly. Part of this progress can be
attributed to the availability of larger electronic datasets; however, there is still a
shortage of high-quality data for training AI models for use within the healthcare system.
Electronic health records contain vast amounts of data, and with increased
interoperability, diverse datasets are emerging that can be cross-referenced and
potentially used to train AI models. Doctors' summary notes from patient interviews are
a major component of medical records and include descriptions of the patient's
medical history, examination, findings, and the doctor’s assessment and plan. These
notes should, therefore, contain all the necessary information to train AI models to
predict patient diagnoses and outcomes.
The objective of this doctoral thesis was: 1) to investigate whether doctors’ summary
notes from patient medical records could be used to train AI models to predict
diagnoses and outcomes for patients in primary care; and 2) to study which factors the
models use to reach a conclusion and compare these to the elements doctors rely on.
The thesis is based on studies described in three papers—the first two were
retrospective, and the third was prospective. In the first study, an AI model was trained
to predict primary headache diagnoses based on labeled diagnostic features from
doctors' summary notes following patient interviews in primary care, which resulted in
one of four common primary headache diagnoses. The study compared the model’s
performance to that of three resident physicians and three family medicine specialists.
The model's internal functionality was also evaluated using Shapley Additive
Explanations (SHAP) values, which indicate which input features have the most
significant impact on each output. In the second paper, an AI model was trained on
Clinical Features (CFs) from labeled notes of doctors who treated primary care patients
diagnosed with one of the following respiratory symptom codes over a specific period:
J00, J15, J20, J44, and J45. In both the first and second studies, a methodology was
applied to remove low-content text notes and maximize the quality of the dataset from
which the models learned. The third study evaluated the model trained in the second
study, with minor adjustments, using a prospective approach in a single primary care
clinic in Iceland's capital area.
In the first study, the model achieved a higher weighted average sensitivity, positive
predictive value, and Matthews Correlation Coefficient (MCC) than the weighted
average of the doctors. The specificity of five out of six doctors was higher than that of
the model. SHAP value analysis indicated that the model relies on similar diagnostic
features as doctors for each diagnosis. In the second study, the model categorized
patients into risk groups, where the outcomes of patients in lower-risk groups reflected
those likely to have mild symptoms that resolve without intervention. No cases of
pneumonia or patients with lung infiltrates on Chest X-Rays (CXRs) were detected in the
lower-risk groups. In the third study, one patient with pneumonia was categorized in a
lower-risk group but was later found to have a normal lung CXR, suggesting a likely
misdiagnosis. All other patients with pneumonia on CXR were in high-risk groups. Two
patients were diagnosed with lung cancer, both in the highest risk group.
The results of the first study indicated that the AI model performed as well or slightly
better than the groups of GP trainees and GP specialists in diagnosing primary
headaches. SHAP value analysis showed that the models rely on similar clinical features
to doctors when making diagnoses. The results of the second study suggested that the
AI model could safely triage primary care patients with respiratory infections. The
model categorized patients with truly severe respiratory conditions into high-risk
groups, while those with milder symptoms were placed in low-risk groups. The third
study demonstrated that the model could stratify patients in real clinical settings so that
patients with severe respiratory conditions were categorized as high risk, while those
with mild symptoms were categorized as low risk. Two patients diagnosed with
pneumonia by doctors, whom the model classified as low risk, were subsequently
found to have normal lung images.
The doctoral thesis concludes that AI models trained on clinical features extracted from
physicians’ summary notes can have significant utility in primary healthcare.
Á undanförnum árum hefur getu gervigreindar til þess að greina og spá fyrir um
útkomur sjúklinga verulega fleygt fram. Hluta af þessum framförum má þakka aðgengi
að stærri rafrænum gagnasöfnum en skortur er á stórum gæðamiklum gagnasöfnum til
þess að þjálfa gervigreindarlíkön á til notkunar innan heilbrigðiskerfisins. Rafrænar
sjúkraskrár búa yfir gríðarmiklum gögnum og með samtengingu kerfa geta myndast
fjölbreytt gagnasöfn sem má samkeyra og hugsanlega nýta til þjálfunar
gervigreindarlíkana. Samantektarnótur lækna úr viðtölum við sjúklinga eru stór hluti
sjúkraskrár í heilsugæslu og innihalda lýsingu á sögu sjúklings, skoðun, niðurstöðum og
ályktun og áætlun læknis. Slíkar nótur ættu því að innihalda allar upplýsingar sem þörf
er á til að þjálfa gervigreindarlíkön til að spá fyrir um greiningar og útkomur sjúklinga.
Markmið þessarar doktorsritgerðar var: 1) að rannsaka hvort hægt væri að nýta
textagögn úr sjúkraskrám sjúklinga til þess að þjálfa gervigreindaralíkön til þess að spá
fyrir um greiningar og horfur sjúklinga í heilsugæslu; 2) að skoða hvaða breytur hafa
áhrif á úttak líkananna og bera saman við breytur sem læknar styðjast við; og 3) kanna
frammistöðu líkananna við greiningar og forspár fyrir horfur sjúklinga í heilsugæslu.
Ritgerðin byggir á rannsóknum sem hefur verið lýst í þremur greinum—tvær fyrstu
rannsóknirnar eru aftursýnar en sú þriðja er framsýn. Í fyrstu greininni var
gervigreindarlíkan þjálfað til þess að spá fyrir um frumkomna höfuðverkjagreiningu út
frá merktum greiningarsérkennum úr samantektarnótu læknis eftir viðtöl við sjúklinga
sem fengu eina af fjórum algengustu greiningum slíkra höfuðverkja í heilsugæslu. Í
greininni var frammistaða líkansins borin saman við frammistöðu þriggja sérnámslækna
í heimilislækningum og þriggja sérfræðimenntaðra heimilislækna. Einnig var innri
virkni líkansins metin með SHapley Additive exPlanations (SHAP) gildum sem gáfu til
kynna hvaða þættir inntaksins höfðu mest áhrif á hvert úttak fyrir sig. Í annarri greininni
var gervigreindarlíkan þjálfað á greiningarsérkennum úr merktum nótum frá læknum
sem hittu sjúklinga í heilsugæslu sem fengu einn af eftirfarandi International
Classification of Diseases (ICD) kóðum á ákveðnu tímabili: J00, J15, J20, J44 og J45. Í
tveimur fyrstu greinunum var ákveðinni aðferðarfræði beitt til að fjarlægja innihaldslitlar
textanótur og hámarka gæði gagnasafnsins sem líkönin læra af. Í þriðju greininni var
frammistaða líkansins sem þjálfað var í rannsókn tvö metin, eftir smávægilega aðlögun,
með framsýnum hætti á einni heilsugæslustöð á höfuðborgarsvæðinu á Íslandi.
Í fyrstu rannsókninni náði líkanið hærra vegnu meðaltali í næmi, jákvæðu forspárgildi
og Matthews Correlation Coefficient (MCC) en vegið meðaltal læknanna. Sértæki fimm
lækna af sex var hærra en líkansins. Greining á SHAP gildum sýndi að líkanið styðst við
svipuð greiningarsérkenni og læknir gerir fyrir hverja greiningu. Í rannsókn tvö raðaði líkanið sjúklingum, með einkenni um öndunarfærasýkingu, í áhættuhópa þannig að
útkomur sjúklinga sem voru í lægri áhættuhópum endurspegluðu hóp sem líklega var
með væg einkenni sem hefðu gengið yfir án inngrips. Engir sjúklingar í lægri
áhættuhópum voru með lungnabólgu greinda af lækni eða á röntgenmynd. Í síðustu
rannsókninni var einn sjúklingur greindur með lungnabólgu í lægri áhættuhópum en
hann reyndist vera með eðlilega röntgemynd af lungum og því líklega rangt greindur.
Allir aðrir sjúklingar með lungnabólgu á röntgenmynd voru í há-áhættu hópum. Tveir
sjúklingar voru greindir með lungnakrabbamein, báðir í hæsta áhættuhóp.
Niðurstöður fyrstu rannsóknarinnar voru þær að gervigreindarlíkanið stóð sig jafn vel
eða ívið betur í greiningum á frumkomnum höfuðverkjum en hóparnir tveir af
sérnámslæknum og sérfræðingum í heimilislækningum. Greining á SHAP gildum leiddi
í ljós að líkönin studdust við mjög svipuð greiningarsérkenni og læknar við greiningar.
Niðurstöður annarrar rannsóknarinnar bentu til þess að gervigreindarlíkaninu tækist að
einkennastiga sjúklinga með öndunarfærasýkingar í heilsugæslu með öruggum hætti.
Líkanið raðaði sjúklingum sem reyndust raunverulega vera með alvarlega
öndunarfærasjúkdóma í há-áhættu hópa en sjúklingum með vægari einkenni í lág-
áhættu hópa. Þriðja rannsóknin sýndi fram á að líkaninu virtist takast að einkennastiga
sjúklinga í raunverulegum klínískum aðstæðum þannig að sjúklingar með alvarlegar
öndunarfærasýkingar voru flokkaðir í háa áhættu en sjúklingar með væg einkenni í lága
áhættu. Tveir sjúklingar sem læknar greindu með lungnabólgu en líkanið flokkaði í lág-
áhættu hóp reyndust vera með eðlilegar lungnamyndir.
Niðurstöður doktorsritgerðarinnar benda til þess að gervigreindarlíkön, sem þjálfuð eru
á greiningarsérkennum úr samantektarnótum lækna, geti haft verulegt notagildi í
heilsugæslu.