Automatiserad informationsutvinning
Litteraturen inom livsvetenskaperna har vuxit till över 40 miljoner artiklar vilket gör den omöjlig att bearbeta för människor. Just på grund av hur omfattande detta arbete är, kan konsolidering av kunskap som är spridd över artiklarna ha potential att ge särskilt värdefulla insikter. Dessa insikter kan ligga till grund för framtida forskningsinsatser men också underlätta utvecklingen av nya medicinska behandlingar. I projektet Mining life science literature (Aits, Ahmed, Kazemi Rashed, Berck) använder sig forskarna av språkteknologi för att skapa en så kallad kunskapsgraf av domänspecifika entiteter (t.ex. proteiner) som är relaterade till celldöd. I projektet används metoder för igenkänning av namngivna enheter (NER) och metoder för att extrahera relationer. För att hantera de stora datamängderna tränas modellerna på HPC:er vid National Academic Infrastructure for Supercomputing in Sweden (NAISS) med hjälp av Berzelius superkluster. Projektets kunskapsgraf kommer att användas för att förbättra och utvärdera insikter som erhållits från mikroskopisk bildanalys av mikroskopiska bilder. Dessutom kommer projektet att göra sina storskaliga biomedicinska naturliga språkbehandlingsverktyg (NLP) tillgängliga för andra forskare inom andra områden.