The Use of Artificial Intelligence for Diagnosis and Outcome Prediction in Primary Care

Ellertsson, Steindor

The Use of Artificial Intelligence for Diagnosis and Outcome Prediction in Primary Care

Title:	The Use of Artificial Intelligence for Diagnosis and Outcome Prediction in Primary Care
Alternative Title:
Author:	Ellertsson, Steindor orcid.org/0009-0002-4719-6859 1 authors Show fewer authors
Advisor:	Emil Lárus Sigurðsson, Hrafn Loftsson
Date:	2025-02-27
Language:	English
University/Institute:	Háskóli Íslands University of Iceland
School:	Heilbrigðisvísindasvið (HÍ) School of Health Sciences (UI)
Department:	Læknadeild (HÍ) Faculty of Medicine (UI)
Subject:	Doktorsritgerðir; Gervigreind; Læknisfræði; Primary Health Care; Primary Headaches; Respiratory Tract Infections; Artificial Intelligence
URI:	https://hdl.handle.net/20.500.11815/5558
Show full item record
Abstract: In recent years, the ability of Artificial Intelligence (AI) to analyze and predict various variables within medicine has advanced significantly. Part of this progress can be attributed to the availability of larger electronic datasets; however, there is still a shortage of high-quality data for training AI models for use within the healthcare system. Electronic health records contain vast amounts of data, and with increased interoperability, diverse datasets are emerging that can be cross-referenced and potentially used to train AI models. Doctors' summary notes from patient interviews are a major component of medical records and include descriptions of the patient's medical history, examination, findings, and the doctor’s assessment and plan. These notes should, therefore, contain all the necessary information to train AI models to predict patient diagnoses and outcomes. The objective of this doctoral thesis was: 1) to investigate whether doctors’ summary notes from patient medical records could be used to train AI models to predict diagnoses and outcomes for patients in primary care; and 2) to study which factors the models use to reach a conclusion and compare these to the elements doctors rely on. The thesis is based on studies described in three papers—the first two were retrospective, and the third was prospective. In the first study, an AI model was trained to predict primary headache diagnoses based on labeled diagnostic features from doctors' summary notes following patient interviews in primary care, which resulted in one of four common primary headache diagnoses. The study compared the model’s performance to that of three resident physicians and three family medicine specialists. The model's internal functionality was also evaluated using Shapley Additive Explanations (SHAP) values, which indicate which input features have the most significant impact on each output. In the second paper, an AI model was trained on Clinical Features (CFs) from labeled notes of doctors who treated primary care patients diagnosed with one of the following respiratory symptom codes over a specific period: J00, J15, J20, J44, and J45. In both the first and second studies, a methodology was applied to remove low-content text notes and maximize the quality of the dataset from which the models learned. The third study evaluated the model trained in the second study, with minor adjustments, using a prospective approach in a single primary care clinic in Iceland's capital area. In the first study, the model achieved a higher weighted average sensitivity, positive predictive value, and Matthews Correlation Coefficient (MCC) than the weighted average of the doctors. The specificity of five out of six doctors was higher than that of the model. SHAP value analysis indicated that the model relies on similar diagnostic features as doctors for each diagnosis. In the second study, the model categorized patients into risk groups, where the outcomes of patients in lower-risk groups reflected those likely to have mild symptoms that resolve without intervention. No cases of pneumonia or patients with lung infiltrates on Chest X-Rays (CXRs) were detected in the lower-risk groups. In the third study, one patient with pneumonia was categorized in a lower-risk group but was later found to have a normal lung CXR, suggesting a likely misdiagnosis. All other patients with pneumonia on CXR were in high-risk groups. Two patients were diagnosed with lung cancer, both in the highest risk group. The results of the first study indicated that the AI model performed as well or slightly better than the groups of GP trainees and GP specialists in diagnosing primary headaches. SHAP value analysis showed that the models rely on similar clinical features to doctors when making diagnoses. The results of the second study suggested that the AI model could safely triage primary care patients with respiratory infections. The model categorized patients with truly severe respiratory conditions into high-risk groups, while those with milder symptoms were placed in low-risk groups. The third study demonstrated that the model could stratify patients in real clinical settings so that patients with severe respiratory conditions were categorized as high risk, while those with mild symptoms were categorized as low risk. Two patients diagnosed with pneumonia by doctors, whom the model classified as low risk, were subsequently found to have normal lung images. The doctoral thesis concludes that AI models trained on clinical features extracted from physicians’ summary notes can have significant utility in primary healthcare. Á undanförnum árum hefur getu gervigreindar til þess að greina og spá fyrir um útkomur sjúklinga verulega fleygt fram. Hluta af þessum framförum má þakka aðgengi að stærri rafrænum gagnasöfnum en skortur er á stórum gæðamiklum gagnasöfnum til þess að þjálfa gervigreindarlíkön á til notkunar innan heilbrigðiskerfisins. Rafrænar sjúkraskrár búa yfir gríðarmiklum gögnum og með samtengingu kerfa geta myndast fjölbreytt gagnasöfn sem má samkeyra og hugsanlega nýta til þjálfunar gervigreindarlíkana. Samantektarnótur lækna úr viðtölum við sjúklinga eru stór hluti sjúkraskrár í heilsugæslu og innihalda lýsingu á sögu sjúklings, skoðun, niðurstöðum og ályktun og áætlun læknis. Slíkar nótur ættu því að innihalda allar upplýsingar sem þörf er á til að þjálfa gervigreindarlíkön til að spá fyrir um greiningar og útkomur sjúklinga. Markmið þessarar doktorsritgerðar var: 1) að rannsaka hvort hægt væri að nýta textagögn úr sjúkraskrám sjúklinga til þess að þjálfa gervigreindaralíkön til þess að spá fyrir um greiningar og horfur sjúklinga í heilsugæslu; 2) að skoða hvaða breytur hafa áhrif á úttak líkananna og bera saman við breytur sem læknar styðjast við; og 3) kanna frammistöðu líkananna við greiningar og forspár fyrir horfur sjúklinga í heilsugæslu. Ritgerðin byggir á rannsóknum sem hefur verið lýst í þremur greinum—tvær fyrstu rannsóknirnar eru aftursýnar en sú þriðja er framsýn. Í fyrstu greininni var gervigreindarlíkan þjálfað til þess að spá fyrir um frumkomna höfuðverkjagreiningu út frá merktum greiningarsérkennum úr samantektarnótu læknis eftir viðtöl við sjúklinga sem fengu eina af fjórum algengustu greiningum slíkra höfuðverkja í heilsugæslu. Í greininni var frammistaða líkansins borin saman við frammistöðu þriggja sérnámslækna í heimilislækningum og þriggja sérfræðimenntaðra heimilislækna. Einnig var innri virkni líkansins metin með SHapley Additive exPlanations (SHAP) gildum sem gáfu til kynna hvaða þættir inntaksins höfðu mest áhrif á hvert úttak fyrir sig. Í annarri greininni var gervigreindarlíkan þjálfað á greiningarsérkennum úr merktum nótum frá læknum sem hittu sjúklinga í heilsugæslu sem fengu einn af eftirfarandi International Classification of Diseases (ICD) kóðum á ákveðnu tímabili: J00, J15, J20, J44 og J45. Í tveimur fyrstu greinunum var ákveðinni aðferðarfræði beitt til að fjarlægja innihaldslitlar textanótur og hámarka gæði gagnasafnsins sem líkönin læra af. Í þriðju greininni var frammistaða líkansins sem þjálfað var í rannsókn tvö metin, eftir smávægilega aðlögun, með framsýnum hætti á einni heilsugæslustöð á höfuðborgarsvæðinu á Íslandi. Í fyrstu rannsókninni náði líkanið hærra vegnu meðaltali í næmi, jákvæðu forspárgildi og Matthews Correlation Coefficient (MCC) en vegið meðaltal læknanna. Sértæki fimm lækna af sex var hærra en líkansins. Greining á SHAP gildum sýndi að líkanið styðst við svipuð greiningarsérkenni og læknir gerir fyrir hverja greiningu. Í rannsókn tvö raðaði líkanið sjúklingum, með einkenni um öndunarfærasýkingu, í áhættuhópa þannig að útkomur sjúklinga sem voru í lægri áhættuhópum endurspegluðu hóp sem líklega var með væg einkenni sem hefðu gengið yfir án inngrips. Engir sjúklingar í lægri áhættuhópum voru með lungnabólgu greinda af lækni eða á röntgenmynd. Í síðustu rannsókninni var einn sjúklingur greindur með lungnabólgu í lægri áhættuhópum en hann reyndist vera með eðlilega röntgemynd af lungum og því líklega rangt greindur. Allir aðrir sjúklingar með lungnabólgu á röntgenmynd voru í há-áhættu hópum. Tveir sjúklingar voru greindir með lungnakrabbamein, báðir í hæsta áhættuhóp. Niðurstöður fyrstu rannsóknarinnar voru þær að gervigreindarlíkanið stóð sig jafn vel eða ívið betur í greiningum á frumkomnum höfuðverkjum en hóparnir tveir af sérnámslæknum og sérfræðingum í heimilislækningum. Greining á SHAP gildum leiddi í ljós að líkönin studdust við mjög svipuð greiningarsérkenni og læknar við greiningar. Niðurstöður annarrar rannsóknarinnar bentu til þess að gervigreindarlíkaninu tækist að einkennastiga sjúklinga með öndunarfærasýkingar í heilsugæslu með öruggum hætti. Líkanið raðaði sjúklingum sem reyndust raunverulega vera með alvarlega öndunarfærasjúkdóma í há-áhættu hópa en sjúklingum með vægari einkenni í lág- áhættu hópa. Þriðja rannsóknin sýndi fram á að líkaninu virtist takast að einkennastiga sjúklinga í raunverulegum klínískum aðstæðum þannig að sjúklingar með alvarlegar öndunarfærasýkingar voru flokkaðir í háa áhættu en sjúklingar með væg einkenni í lága áhættu. Tveir sjúklingar sem læknar greindu með lungnabólgu en líkanið flokkaði í lág- áhættu hóp reyndust vera með eðlilegar lungnamyndir. Niðurstöður doktorsritgerðarinnar benda til þess að gervigreindarlíkön, sem þjálfuð eru á greiningarsérkennum úr samantektarnótum lækna, geti haft verulegt notagildi í heilsugæslu.

Files in this item

Name: Steindór Oddur ...

Size: 7.327Mb

Format: PDF

Locked until 2026-07-11

This item appears in the following Collection(s)

Doktorsritgerðir- HÍ
Doctoral dissertations

Search Opin vísindi

Browse

All of Opin vísindi
- Communities & Collections
- Authors
- Titles
- Subjects
- Departments
- School
- DOI
- Journal title
This Collection
- Authors
- Titles
- Subjects
- Departments
- School
- DOI
- Journal title

The Use of Artificial Intelligence for Diagnosis and Outcome Prediction in Primary Care

The Use of Artificial Intelligence for Diagnosis and Outcome Prediction in Primary Care

Abstract:

Files in this item

This item appears in the following Collection(s)

Search Opin vísindi

Browse

All of Opin vísindi

This Collection

About

My Account