Hercules Dalianis

Artificiell intelligens analyserar patientjournaler. Är detta möjligt och kan detta förbättra hälsovården?

I dag produceras en mycket stor mängd digitala patientjournaler inom hälsovården. Dessa återanvänds sällan dels på grund av okunskap men också av brist på lämpliga verktyg att bearbeta dem.
Forskningsfrågan är: Artificiell intelligens analyserar patientjournaler. Är detta möjligt och kan detta förbättra hälsovården?
Forskningsfrågan kommer att besvaras genom att syntetisera tidigare forskning i en bok.
Tidigare forskningen har använt över 2 miljoner svenska patientjournaler från Karolinska Universitetssjukhuset från åren 2007-2014. Dels för att automatiskt detektera och förutsäga vårdrelaterade infektioner och dels för att hitta biverkningar av läkemedel. För att åstadkomma detta har texten i patientjournaler manuellt uppmarkerats av läkare och därefter har olika maskininlärningsverktyg tränats på dessa texter för att efterlikna en läkarens intelligens.
Av de patienter som vårdas på sjukhus får cirka 10 procent en vårdrelaterad infektion som orsakar mycket lidande för patienten men också kostnader för samhället. Cirka 5 procent av alla patienter drabbas av biverkningar av läkemedel. Kan man detektera detta tidigt och förhindra dessa infektioner och biverkningar så skulle mycket vara vunnet.
Denna bok kommer att beskriva hur man går tillväga att få tillgång till patientjournaler, de etiska problemen, hur man kan avidentifiera patientjournaler automatiskt innan man använder journalerna och slutligen metoder för att bygga verktygen som ska förbättra hälsovården.

Slutredovisning

Slutredovisning av RJ Sabbaticalprojektet med titeln: Artificiell intelligens analyserar patientjournaler. Är detta möjligt och kan detta förbättra hälsovården? Av Hercules Dalianis

Projektet och läroboken som har skrivits, är en avslutning av ett 10 års långt forskningsprojekt på DSV/Stockholms universitet. Forskningsprojektet initierades 2007 med att vi fick forskningsmedel från Vinnova för att samarbeta med Stockholms läns landsting för att sammanfatta patientjournaler. Den ursprungliga idén var att underlätta för läkaren att skriva en epikris av journalen. En epikris är en sammanfattning av vårdtillfället som skrivs när patienten skrivs ut. Epikris är en slutsats av vårdtillfället och ger råd för behandlingen i hemmet efter utskrivningen.
Projektet växte och fler forskningsfrågor dök upp och fler personer knöts till projektet. Forskargruppen Clinical Text Mining grupp bestod av två professorer, fem doktorander, en universitetslektor, och två läkare (en av professorerna var läkare) när den var som störst. Projektet utökades också med ett nordiskt nätverk med ytterligare ett trettiotal personer.

Projektets viktigaste resultat och publikationer samt ett resonemang om dessa
Sabbatsprojektets huvudresultat är en lärobok på engelska med titeln: "Clinical text mining: Secondary use of electronic patient records" som ska ges ut på Springer Verlag i april 2018 som open access. Boken är en introduktion till ämnet analys av patientjournaler med naturligt språkbehandlingsmetoder.

De datoriserade patientjournalerna är nu nästan standard i hela världen, systemen centraliseras och det produceras stora mängder elektroniska patientjournaler som beskriver vården av individuella patienter. Denna information är mycket värdefull om den kan återanvändas.

Läroboken beskriver bakgrunden till patientjournaler, elektroniska patientjournaler, datoriserade patientjournalsystem, kraven som läkare och sjukvårdspersonal har på ett patientjournalsystem och språket i patientjournalerna. Boken förklarar också de olika klassificeringssystemen som används inom sjukvården som ICD-10 diagnoskoder, SNOMED CT och ATC läkemedelskoder mm. Boken beskriver vidare byggstenarna för NLP (natural language processing), (naturligt språkbehandling) inom datorlingvistik och hur dessa anpassas till klinisk text, och till de olika klassificeringssystemen.  En stor del av problemställningen inom klinisk textmining är att från den ostrukturerade fria texten extrahera informationen och göra den strukturerad och använda den tillsammans med redan befintligt strukturerat data som finns i patientjournalen, som ICD-10 diagnos koder, läkemedelskoder, tidpunkter, blodvärden mm.

Boken fortsätter med att beskriva datavetenskapliga metoder som regelbaserade och maskininlärningbaserade (så kallad Artificiell Intelligens) där även textmining ingår.
I boken beskrivs de etiska problemen med att använda patientjournaler och hur man kan lösa dem och hur man undviker att känslig information om patienter sprids genom att avidentifiera och pseudonymisera patientjournalerna och hur man förvarar journaler säkert.

Boken avslutas med att beskriva ett antal tillämpningar inom klinisk textmining. De allra flesta tillämpningarna är på försöksstadium och kommer att bli verkligheten först om flera år. Alla beskrivna tillämpningar använder sig av text (och data) i elektroniska patientjournaler för att underlätta för läkare, sjuksköterskor arbetet med den dagliga behandlingen och vården av patienten. Stöd för att skriva och läsa patientjournalen, stavningskontroll och synonymextraktion. Vidare beskrivs tillämpningar för att få en snabb överblick av journalen så kallad automatisk textsammanfattning. För medicinska forskare för att kunna hitta nya hypoteser som ska bevisas, informationssökning och automatisk klustring av texter för att kunna hitta biverkningar av läkemedel. För sjukhusledning för att kunna följa och analysera vårdkvalité tex. detektera och prediktera vårdrelaterade infektioner. I boken tas även patologirapporter upp, där metoder förklaras för att extrahera textuell information för att lägga in den i cancerregister.

Boken beskriver även forskningsfronten på området både för patientjournaler skrivna på engelska, svenska och för flera andra språk.

Läroboken är den första i världen som beskriver klinisk textmining av elektroniska patientjounaler för både vårdpersonal och datavetare.

Vad projektet har resulterat i förutom publikationerna
Projektet har resulterat i flera nya kontakter bland annat på Centre for Health Informatics, Australian Institute of Health Innovation (AIHI), Macquarie University in Sydney, Capital Markets Cooperative Research Centre (CMCRC) i Sydney and Australian National University i Canberra som jag inte hade innan. Flera forskare och doktorander där planerar att besöka min forskargrupp Clinical Text Mining group på DSV/Stockholms Universitet och Sverige de kommande åren.

Nya forskningsfrågor som har genererats genom projektet
Inga nya forskningsfrågor som var kända innan har genererats, däremot har nya kunskaper och kopplingar gjorts till befintlig forskning och till verkligheten, dessa kunskaper förklaras i boken.

Projektets internationella förankring
Sabbatical projektet genomfördes på CSIRO (Commonwealth Scientific and Industrial Research Organisation) som är ett australiensiskt statligt forskningsinstitut som finns på flera platser i Australien med över 5000 anställda. Jag var stationerad i Sydney.

Jag var samtidigt inbjuden till Macquarie University i Sydney som ligger på samma campus i Marsfield i Sydney som CSIRO. Macquarie University är storleksmässigt som Stockholms universitet med 5000 anställda och 50 000 studenter.

Forskargruppen i CSIRO och Macquarie University arbetar tillsammans i Natural Language Processing och med hälsorelaterad data. Australien är generellt mycket framgångsrika i klinisk textmining, med flera grupper som arbetar på området. Detta är ett naturligt steg eftersom australiensisk hälsovård är mycket god och kraven på att förbättra och mäta den är stora.

Jag besökte forskargrupper i Australien på CSIRO/Australian eHealth Research Centre (AeHRC) in Brisbane, Capital Markets Cooperative Research Centre (CMCRC) i Sydney and Australian National University i Canberra, företaget HLA Global in Sydney, Australian Institute of Health Innovation (AIHI), Macquarie University in Sydney, som alla arbetar med olika aspekter av hälsoinformatik och klinisk textmining.

Ett annat skäl till att befinna sig i Australien var att få ett språkbad i engelska medan jag skrev boken vilket underlättade arbetet.

Övrig internationell förankring är självklar med forskare över hela världen som arbetar med klinisk textmining i Norden, England, Tyskland, Frankrike, Spanien, Ungern, USA, Japan och Kina. Forskare som jag har kontakt med och som jag refererar till i min bok.

Publikationslista, samt länkar till egna webbsidor
Förutom läroboken, har även några vetenskapliga artiklar skrivits med min doktorand Rebecka Weegar och post doc Aron Henriksson.
https://people.dsv.su.se/~hercules/HDpublications.html

Weegar, R., J. F. Nygård and H. Dalianis. 2017. Efficient Encoding of Pathology Reports Using Natural Language Processing. In Proceedings of Recent Advances in Natural Language Processing, Recent Advances in Natural Language Processing, RANLP 2017, Varna, Bulgaria, pp. 778-783.

Henriksson, A., M. Kvist and H. Dalianis. 2017. Detecting Protected Health Information in Heterogeneous Clinical Notes. Presented at Medinfo. To appear in the Proceedings of Medinfo, Hangzhou, China.

Henriksson, A., M. Kvist and H. Dalianis. 2017. Prevalence Estimation of Protected Health Information in Swedish Clinical Text. In Proceedings of Informatics for Health, Manchester, U.K.

Weegar R. and H. Dalianis. 2016. Mining Norwegian pathology reports: A research proposal. Presented at Australasian Language Technology Association Workshop (ALTA) 2016.

Några webbsidor
Riksbankens Jubileumsfond funds a sabbatical where Artificial Intelligence analyses medical records, Press release, http://dsv.su.se/en/about/news/riksbankens-juileumsfond-funds-a-sabbatical-where-artificial-intelligence-analyses-medical-records

Sabbatical stay at CSIRO and Macquarie University, Sydney, Australia, blogg
http://dash.dsv.su.se/2016/11/15/sabbatical-stay-at-csiro-and-macquarie-university/

Bidragsförvaltare
Stockholms universitet
Diarienummer
SAB16-0086:1
Summa
SEK 1 327 000
Stödform
RJ Sabbatical
Ämne
Systemvetenskap, informationssystem och informatik med samhällsvetenskaplig inriktning
År
2016