TextMining von Meldungstexten für einheitliche Klassifikationen (TeMeK)

Ressortforschung im Handlungsfeld „Digitalisierung“, Forschungsschwerpunkt „Krebsregisterdaten zusammenführen und intelligent nutzen“

Projektleitung

Krebsregister Baden-Württemberg
Prof. Dr. Marco Halber
Birkenwaldstr. 149
70191 Stuttgart

Projektlaufzeit

01.09.2022 bis 31.08.2025

Das Projekt ist Teil des Forschungsschwerpunkts „Krebsregisterdaten zusammenführen und intelligent nutzen: Innovationsprojekte für Künstliche Intelligenz“.

Projektbeteiligte

Universitätsklinikum Freiburg, Tumorzentrum Freiburg (CCCF)
Fraunhofer-Institut für Kommunikation, Informations-verarbeitung und Ergonomie FKIE
Averbis GmbH
Krebsregister Hessen
Krebsregister Berlin-Brandenburg
Krebsregister Rheinland-Pfalz

Ansprechperson

Dr. Anja Hillekamp
Dr. Andrea Delekate
DLR Projektträger
projekttraeger-bmg(at)dlr.de

Motivation

Die Daten der klinischen Krebsregister bilden die Grundlage für Auswertungen, die zur Verbesserung der Versorgung an Krebs erkrankter Personen beitragen. Außerdem dienen sie als externe Qualitätssicherung für die in der medizinischen Versorgung tätigen Ärztinnen und Ärzte. Bisher enthalten die Meldungen an die klinischen Krebsregister in großem Umfang unstrukturierten Freitext, aus dem nur mit großem manuellem Aufwand notwendige Informationen herausgefiltert werden können.

Das Projekt TeMeK geht der Frage nach, welche Methoden der Künstlichen Intelligenz (KI) eingesetzt und wie sie angepasst und weiterentwickelt werden können, um eine einheitliche, korrekte und effiziente Informationsgewinnung aus komplexem Freitext zu ermöglichen.

Ziele und Vorgehen

Das übergeordnete Ziel ist die schnelle Bereitstellung von qualitativ hochwertigen Daten, die bundesweit einheitlich für eine Zusammenführung am Zentrum für Krebsregisterdaten nutzbar sind. Diese können auch eine belastbare Qualitätssicherung bilden. Es soll erforscht werden, wie sogenannte „Textmining“-Methoden genutzt werden können um anhand krankheitsbedingter Befunde leichter an Informationen aus den Freitextdaten zu gelangen. Im Projekt werden die neuesten Verfahren aus dem Bereich der „Deep-Learning“-basierten Sprachverarbeitung eingesetzt, auf die Domäne der Erkrankung optimiert und bei Bedarf um nötige Module erweitert. Mit Hilfe spezieller Algorithmen sollen beispielsweise Bestätigungsprozesse automatisiert und im Freitext Unregelmäßigkeiten erkannt werden. Dies soll die Krebsregister bei Dokumentationsprozessen unterstützen und deren Effizienz steigern. Die entwickelten Algorithmen sollen einzeln untersucht und technisch möglichst unabhängig mit definierten und standardisierten Schnittstellen von den Registern genutzt werden können.

Perspektiven für die Praxis

Die Verfahren, die im Rahmen des Projektes entwickelt werden, stehen anschließend den Krebsregistern zur Nutzung zur Verfügung. Zusätzlich werden die Verfahren mit einer Schnittstelle versehen, die eine vereinfachte Nutzung durch die Krebsregister ohne KI-Fachwissen ermöglicht. Für die Krebsregister ergeben sich dadurch verschiedene Vorteile: beispielsweise kann Wissen für die Diagnosen herausgearbeitet und bereitgestellt werden. Darüber hinaus wird durch das Vorhaben ein Experten- und Wissenssystems aufgebaut, in dem molekular-pathologische Marker gesammelt werden. Somit findet eine Bündelung von hochspezialisiertem Wissen statt, welches durch die Bearbeiter abgerufen und für wissenschaftliche und klinische Fragestellungen genutzt werden kann.

Ergebnisse

Bisher konnten Daten von ungefähr 563.000 Pathologiebefunden aus fünf Krebsregistern gewonnen werden. Die enthaltenen Daten wurden aufgereinigt und für ein KI-Trainingsset bzw. KI-Testset zur Verfügung gestellt. Eine Herausforderung war dabei die stark abweichende Verteilung der Tumorentitäten. Um die wichtigsten Informationen herausfiltern zu können, mussten entsprechende Features definiert werden, anhand derer gefiltert wird. Bei der Erarbeitung von molekular-pathologischen Befunden wird ein Fokus auf Untersuchungsergebnisse zu genetischen Varianten gelegt. Eine manuelle Analyse der Dokumente wäre jedoch extrem aufwändig. Daher soll Text-Mining die Dokumentare unterstützen. In der Folge wurde klar, dass eine Standardisierung von Notationen und der Befundstruktur dringend notwendig ist. Prinzipiell erscheint die Anwendung von KI-Algorithmen in diesem Zusammenhang zielführend, um Informationen sinnvoll extrahieren zu können und den manuellen Arbeitsaufwand dadurch zu reduzieren.

Verwertung

Die Verfahren, die im Rahmen des Projekts entwickelt werden, stehen anschließend den Krebsregistern zur Verfügung. Zusätzlich werden die Verfahren mit einer Schnittstelle versehen, die eine vereinfachte Nutzung durch die Krebsregister ohne KI-Fachwissen ermöglicht. Für die Krebsregister ergeben sich dadurch verschiedene Vorteile: beispielsweise kann Wissen für die Diagnosen herausgearbeitet und bereitgestellt werden. Darüber hinaus wird durch das Vorhaben ein Experten- und Wissenssystems aufgebaut, in dem molekular-pathologische Marker gesammelt werden. Somit findet eine Bündelung von hochspezialisiertem Wissen statt, welches durch die Bearbeiterinnen und Bearbeiter abgerufen und für wissenschaftliche und klinische Fragestellungen genutzt werden kann.

TextMining von Meldungstexten für einheitliche Klassifikationen (TeMeK)

Motivation

Ziele und Vorgehen

Perspektiven für die Praxis

Ergebnisse

Verwertung

Weitere Informationen

Handlungsfeld „Digitalisierung“

Überblick Forschungsschwerpunkte