TextMining von Meldungstexten für einheitliche Klassifikationen (TeMeK)

Ressortforschung im Handlungsfeld „Digitalisierung“, Forschungsschwerpunkt „Krebsregisterdaten zusammenführen und intelligent nutzen“

TextMining von Meldungstexten für einheitliche Klassifikationen (TeMeK)

Projektleitung

Krebsregister Baden-Württemberg
Prof. Dr. Marco Halber
Birkenwaldstr. 149
70191 Stuttgart

Projektlaufzeit

01.09.2022 bis 31.08.2025

Das Projekt ist Teil des Forschungsschwerpunkts „Krebsregisterdaten zusammenführen und intelligent nutzen: Innovationsprojekte für Künstliche Intelligenz“.

Projektbeteiligte

  • Universitätsklinikum Freiburg, Tumorzentrum Freiburg (CCCF)
  • Fraunhofer-Institut für Kommunikation, Informations-verarbeitung und Ergonomie FKIE
  • Averbis GmbH
  • Krebsregister Hessen
  • Krebsregister Berlin-Brandenburg
  • Krebsregister Rheinland-Pfalz

Ansprechperson

Dr. Anja Hillekamp
Dr. Andrea Delekate
DLR Projektträger
projekttraeger-bmg(at)dlr.de

Motivation

Die Daten der klinischen Krebsregister bilden die Grundlage für Auswertungen, die zur Verbesserung der Versorgung an Krebs erkrankter Personen beitragen. Außerdem dienen sie als externe Qualitätssicherung für die in der medizinischen Versorgung tätigen Ärztinnen und Ärzte. Bisher enthalten die Meldungen an die klinischen Krebsregister in großem Umfang unstrukturierten Freitext, aus dem nur mit großem manuellem Aufwand notwendige Informationen herausgefiltert werden können.

Das Projekt TeMeK geht der Frage nach, welche Methoden der Künstlichen Intelligenz (KI) eingesetzt und wie sie angepasst und weiterentwickelt werden können, um eine einheitliche, korrekte und effiziente Informationsgewinnung aus komplexem Freitext zu ermöglichen.

Ziele und Vorgehen

Das übergeordnete Ziel ist die schnelle Bereitstellung von qualitativ hochwertigen Daten, die bundesweit einheitlich für eine Zusammenführung am Zentrum für Krebsregisterdaten nutzbar sind. Diese können auch eine belastbare Qualitätssicherung bilden. Es soll erforscht werden, wie sogenannte „Textmining“-Methoden genutzt werden können um anhand krankheitsbedingter Befunde leichter an Informationen aus den Freitextdaten zu gelangen. Im Projekt werden die neuesten Verfahren aus dem Bereich der „Deep-Learning“-basierten Sprachverarbeitung eingesetzt, auf die Domäne der Erkrankung optimiert und bei Bedarf um nötige Module erweitert. Mit Hilfe spezieller Algorithmen sollen beispielsweise Bestätigungsprozesse automatisiert und im Freitext Unregelmäßigkeiten erkannt werden. Dies soll die Krebsregister bei Dokumentationsprozessen unterstützen und deren Effizienz steigern. Die entwickelten Algorithmen sollen einzeln untersucht und technisch möglichst unabhängig mit definierten und standardisierten Schnittstellen von den Registern genutzt werden können.

Perspektiven für die Praxis

Die Verfahren, die im Rahmen des Projektes entwickelt werden, stehen anschließend den Krebsregistern zur Nutzung zur Verfügung. Zusätzlich werden die Verfahren mit einer Schnittstelle versehen, die eine vereinfachte Nutzung durch die Krebsregister ohne KI-Fachwissen ermöglicht. Für die Krebsregister ergeben sich dadurch verschiedene Vorteile: beispielsweise kann Wissen für die Diagnosen herausgearbeitet und bereitgestellt werden. Darüber hinaus wird durch das Vorhaben ein Experten- und Wissenssystems aufgebaut, in dem molekular-pathologische Marker gesammelt werden. Somit findet eine Bündelung von hochspezialisiertem Wissen statt, welches durch die Bearbeiter abgerufen und für wissenschaftliche und klinische Fragestellungen genutzt werden kann.

Ergebnisse

Bisher konnten Daten von ungefähr 563.000 Pathologiebefunden aus fünf Krebsregistern gewonnen werden. Die enthaltenen Daten wurden aufgereinigt und für ein KI-Trainingsset bzw. KI-Testset zur Verfügung gestellt. Eine Herausforderung war dabei die stark abweichende Verteilung der Tumorentitäten. Um die wichtigsten Informationen herausfiltern zu können, mussten entsprechende Features definiert werden, anhand derer gefiltert wird. Bei der Erarbeitung von molekular-pathologischen Befunden wird ein Fokus auf Untersuchungsergebnisse zu genetischen Varianten gelegt. Eine manuelle Analyse der Dokumente wäre jedoch extrem aufwändig. Daher soll Text-Mining die Dokumentare unterstützen. In der Folge wurde klar, dass eine Standardisierung von Notationen und der Befundstruktur dringend notwendig ist. Prinzipiell erscheint die Anwendung von KI-Algorithmen in diesem Zusammenhang zielführend, um Informationen sinnvoll extrahieren zu können und den manuellen Arbeitsaufwand dadurch zu reduzieren.

Verwertung

Die Verfahren, die im Rahmen des Projekts entwickelt werden, stehen anschließend den Krebsregistern zur Verfügung. Zusätzlich werden die Verfahren mit einer Schnittstelle versehen, die eine vereinfachte Nutzung durch die Krebsregister ohne KI-Fachwissen ermöglicht. Für die Krebsregister ergeben sich dadurch verschiedene Vorteile: beispielsweise kann Wissen für die Diagnosen herausgearbeitet und bereitgestellt werden. Darüber hinaus wird durch das Vorhaben ein Experten- und Wissenssystems aufgebaut, in dem molekular-pathologische Marker gesammelt werden. Somit findet eine Bündelung von hochspezialisiertem Wissen statt, welches durch die Bearbeiterinnen und Bearbeiter abgerufen und für wissenschaftliche und klinische Fragestellungen genutzt werden kann.

Stand: 28. März 2025

Hinweis
Sehr geehrte Damen und Herren, Sie nutzen leider eine Browser-Version, die nicht länger vom Bundesgesundheitsministerium unterstützt wird. Um das Angebot und alle Funktionen in vollem Umpfang nutzen zu können, aktualisieren Sie bitte ihren Browser auf die letzte Version von Chrome, Firefox, Safari oder Edge. Aus Sicherheitsgründen wird der Internet Explorer nicht unterstützt.