Skip
BI4ALL BI4ALL
  • Expertise
    • Data Strategy & Governance
    • Data Visualization
    • Künstliche Intelligenz
    • Low Code & Automation
    • Modern BI & Big Data
    • R&D Software Engineering
    • PMO, BA & UX/ UI Design
  • Knowledge Centre
    • Blog
    • Sektor
    • Customer Success
    • Tech Talks
  • Wer wir sind
    • Geschichte
    • Board
    • Partners
    • Auszeichnungen
    • Media Centre
  • Karrieren
  • Kontakte
Deutsch
EnglischPortugiesisch
Vorherige Seite:
    Knowledge Center
  • Multimodale prädiktive Modelle: Ein praktischer Ansatz in Medizin und Bildung

Multimodale prädiktive Modelle: Ein praktischer Ansatz in Medizin und Bildung

Página Anterior: Blog
  • Knowledge Center
  • Blog
  • Fabric: nova plataforma de análise de dados
1 Junho 2023

Fabric: nova plataforma de análise de dados

Placeholder Image Alt
  • Knowledge Centre
  • Multimodale prädiktive Modelle: Ein praktischer Ansatz in Medizin und Bildung
22 Mai 2025

Multimodale prädiktive Modelle: Ein praktischer Ansatz in Medizin und Bildung

Multimodale prädiktive Modelle: Ein praktischer Ansatz in Medizin und Bildung

Key takeways

HAIM verbessert medizinische Prognosen durch die Kombination vielfältiger Patientendaten.

MuDoC verbessert das Lernen durch die Verknüpfung von Text und Bildern.

Multimodale KI steht weiterhin vor technischen, datenschutzrechtlichen und erklärbaren Herausforderungen.

Im ersten Teil dieses Artikels haben wir uns mit den Grundlagen der multimodalen künstlichen Intelligenz beschäftigt: was sie ist, wie sie funktioniert und die wichtigsten Methoden der Datenfusion. Wir haben uns angesehen, wie multimodale Systeme verschiedene Modalitäten – wie Text, Bild, Sprache oder biometrische Signale – integrieren können, um reichhaltigere, genauere und kontextbezogenere Interaktionen zu schaffen. Wir haben auch die technischen Herausforderungen und Vorteile dieses Ansatzes untersucht, der darauf abzielt, die Wahrnehmungs- und Reaktionsfähigkeiten der KI der Art und Weise anzunähern, wie Menschen mit der Welt interagieren.

In diesem zweiten Teil werden wir die Rolle der multimodalen KI im Gesundheits- und Bildungswesen untersuchen. Beide Bereiche werden nach und nach durch KI verändert, die die Patientenversorgung verbessert und das Lernen personalisiert. Wir werden zwei Beispiele untersuchen, um die Vorteile und Herausforderungen der Implementierung multimodaler KI in diesen Bereichen zu verstehen.

 

Anwendungsfall 1: Multimodale KI im Gesundheitswesen

Im Gesundheitswesen fallen riesige und vielfältige Daten in unterschiedlichen Formaten an, z. B. medizinische Bilder, klinische Notizen, Labortests und Patientenakten. Die Kombination dieser verschiedenen Datentypen bietet das Potenzial für einen ganzheitlicheren Blick auf den Zustand des Patienten. Multimodale KI-Engines sind darauf ausgelegt, diese verschiedenen Datenquellen zu verarbeiten und zu integrieren, was zu besseren Diagnosen und individualisierten Behandlungsplänen führt.

Ein Beispiel dafür, wie multimodale KI im Gesundheitswesen eingesetzt wird, ist das Holistic AI in Medicine (HAIM) Framework. HAIM simuliert ein vielfältiges Set mit unterschiedlichen Datentypen (z. B. EHR, medizinische Bildgebung und klinische Aufzeichnungen), um das prädiktive Modelllernen im Gesundheitswesen zu verbessern. Durch die Integration dieser drei Arten von Datensätzen hat HAIM bessere Ergebnisse für verschiedene Aufgaben gezeigt, darunter die Identifizierung von Krankheiten und die Vorhersage von Patientenergebnissen. Die durchschnittliche prozentuale Verbesserung aller multimodalen HAIM-Vorhersagesysteme liegt bei 9-28 % für alle bewerteten Aufgaben (Integrated multimodal artificial intelligence framework for healthcare applications | npj Digital Medicine).

HAIM kombiniert Daten aus verschiedenen Quellen, um umfassende Patientenprofile zu erstellen. Jedes Profil enthält strukturierte Daten wie demografische Daten, Laborergebnisse und Medikamentenaufzeichnungen, Zeitreihendaten wie Vitalzeichen und andere chronologische Messungen, unstrukturierte Texte wie klinische Notizen und Berichte sowie medizinische Bilder, einschließlich Röntgenaufnahmen und zugehörige Bildgebungsdaten. Jeder Datentyp wird separat verarbeitet, um numerische Darstellungen zu erstellen, die als Einbettungen bezeichnet werden:

  • Strukturierte Daten werden normalisiert und in numerische Werte umgewandelt.
  • Zeitreihendaten werden mithilfe statistischer Metriken analysiert, um Trends im Zeitverlauf darzustellen.
  • Textdaten werden mit vortrainierten Transformationsmodellen verarbeitet, um Einbettungen fester Größe zu erzeugen.
  • Bilddaten werden mit vortrainierten neuronalen Faltungsnetzwerken analysiert, um Merkmalseinbettungen zu extrahieren.

Die einzelnen Einbettungen aus jeder Modalität werden zu einer umfassenden Fusionseinbettung zusammengefügt. Diese einheitliche Darstellung dient als Input für prädiktive Modelle wie XGBoost, um Aufgaben wie die Diagnose von Krankheiten und die Vorhersage von Patientenergebnissen durchzuführen.

Fig. 1: Integrated multimodal artificial intelligence framework for healthcare applications | npj Digital Medicine

 

Vorteile:

  • Integriert verschiedene Datenmodalitäten und erstellt umfassendere Patientenprofile.
  • Übertrifft durchgängig Modelle mit nur einer Modalität, mit Verbesserungen von 9 % bis 28 % bei Aufgaben im Gesundheitswesen.
  • Unterstützt verschiedene Anwendungen, einschließlich Krankheitsdiagnose und Vorhersage von Patientenergebnissen.
  • Modularer Aufbau ermöglicht die Hinzufügung neuer Datentypen und verbessert die Anpassbarkeit und Skalierbarkeit in klinischen Umgebungen.

Herausforderungen:

  • Erfordert eine anspruchsvolle Vorverarbeitung und Normalisierung, um die Kompatibilität verschiedener Datentypen zu gewährleisten.
  • Die rechnerische Komplexität kann ressourcenintensiv sein, was Bedenken hinsichtlich der Skalierbarkeit aufwirft.
  • Die rechnerische Komplexität kann ressourcenintensiv sein, was Bedenken hinsichtlich der Skalierbarkeit aufwirft.
  • Erfordert strenge Datenschutz- und Datensicherheitsmaßnahmen aufgrund sensibler Patienteninformationen.
  • Die Interpretierbarkeit des Modells ist nach wie vor eine Herausforderung, die das klinische Vertrauen und die Akzeptanz beeinträchtigt.

 

Anwendungsfall 2: Multimodale KI im Bildungswesen

Das Bildungswesen ist ein natürlicher Kandidat für multimodale KI, da Lernmaterialien oft eine Mischung aus Text, Bildern, Grafiken und Diagrammen enthalten. Herkömmliche KI-Tools für den Bildungsbereich haben hauptsächlich mit Text gearbeitet, aber durch die Einbeziehung anderer Formen von Inhalten (visuelle und interaktive Elemente) können multimodale Systeme besser widerspiegeln, wie Menschen lernen. Dies führt zu ansprechenderen und effektiveren Lernerfahrungen, die auf die verschiedenen Lernstile zugeschnitten sind.

Eines der vielversprechendsten Beispiele für diesen Ansatz ist das MuDoC-System (Multimodal Document-grounded Conversational AI). MuDoC wurde entwickelt, um Lernende zu unterstützen, indem es die Verarbeitung natürlicher Sprache und Computer Vision kombiniert, um Bildungsmaterialien zu analysieren, einschließlich schriftlicher Texte und visueller Elemente. Wenn ein Schüler eine Frage stellt, antwortet das System nicht nur mit einfachem Text. Stattdessen scannt es das Ausgangsmaterial, sucht den relevanten Abschnitt heraus und liefert eine Antwort, die den erforderlichen Text und die Bilder aus dem Originaldokument integriert. Dies hilft den Lernenden, stärkere mentale Modelle aufzubauen und die Antworten der KI direkt in den Lernmaterialien zu überprüfen, wodurch Transparenz und Vertrauen geschaffen werden.

Technisch gesehen verwendet MuDoC ein Sprachmodell (wie GPT-4o), um Antworten in natürlicher Sprache zu verarbeiten und zu generieren. Gleichzeitig wendet es Computer-Vision-Techniken an, um in Lerndokumenten eingebettete visuelle Inhalte (wie Diagramme, Abbildungen und Illustrationen) zu analysieren. Das System bildet diese verschiedenen Inhaltstypen in einer einheitlichen Darstellung ab, die es ihm ermöglicht, sie kontextabhängig auszuwählen und zu kombinieren. Dieser Prozess führt zu umfassenden, fundierten Antworten, die über das hinausgehen, was rein textbasierte KI-Systeme liefern können. Es entsteht ein dynamischer Lernassistent, der nicht nur erklärt, sondern auch zeigt und so ein besseres Verständnis komplexer Themen ermöglicht.

Fig 2. [2504.13884] Towards a Multimodal Document-grounded Conversational AI System for Education

 

Vorteile:

  • Weckt das Interesse und die Beteiligung der Schüler, indem es das Lernen fesselnd gestaltet.
  • Kombiniert Wörter und Bilder, um Informationen effektiv zu vermitteln.
  • Vereinfacht komplexe Konzepte wie Physik, Biologie und Mathematik durch visuelle Darstellungen.
  • Erhöht das Vertrauen durch klare Sichtbarkeit der Antwortquellen.
  • Fördert tiefergehendes Lernen, indem es die Neugierde weckt.

Herausforderungen:

  • Es kann schwierig sein, Worte und Bilder perfekt aufeinander abzustimmen, und unpassendes Bildmaterial kann Verwirrung stiften.
  • Die Gewährleistung der Zugänglichkeit für alle Schüler, einschließlich derer mit Seh- oder Lernschwierigkeiten, ist von entscheidender Bedeutung.
  • Die gleichzeitige Verwendung von Wörtern und Bildern erfordert eine erhebliche Rechenleistung.

 

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass multimodale KI die Art und Weise verändert, wie Maschinen die Welt verstehen und mit ihr interagieren, indem sie Daten aus verschiedenen Quellen wie Text, Bildern, Sprache und Zeitsignalen kombiniert.

Das HAIM-Framework nutzt diesen Ansatz, um umfassende Patientenprofile im Gesundheitswesen zu erstellen und Leistungsverbesserungen zu erzielen, einschließlich Krankheitsdiagnose und Ergebnisvorhersage. Es steht jedoch vor Herausforderungen wie der Notwendigkeit einer anspruchsvollen Datenvorverarbeitung, hohen Rechenanforderungen, strengen Datenschutzmaßnahmen und der Interpretierbarkeit des Modells, die für das klinische Vertrauen und die Skalierbarkeit von entscheidender Bedeutung sind.

In ähnlicher Weise nutzt das MuDoC-System im Bildungsbereich multimodale KI, um das Engagement der Schüler zu erhöhen und das Lernen durch eine Kombination aus Worten und Bildern zugänglicher und verständlicher zu machen. Es muss jedoch die Herausforderungen bewältigen, die sich aus der genauen Abstimmung von Text und Bildern, der Gewährleistung der Zugänglichkeit für alle Lernenden und der Bewältigung hoher Rechenanforderungen ergeben.

Wie im HAIM-Framework und im MuDoC-System zu sehen ist, ermöglicht dieser Ansatz genauere Vorhersagen, tiefere Einblicke und bessere Nutzererfahrungen. Auch wenn es noch Herausforderungen gibt, ist das Potenzial der multimodalen KI zur Verbesserung der Entscheidungsfindung, zur Personalisierung von Erfahrungen und zur stärkeren Angleichung an die menschliche Kommunikation eine wichtige Richtung für die Zukunft der künstlichen Intelligenz.

Author

Marta Carreira

Marta Carreira

Consultant

Teilen Sie

Vorgeschlagener Inhalt

Analytische Lösung in Fabric zur Sicherstellung von Skalierbarkeit, einer einzigen verlässlichen Datenquelle und Autonomie Use Cases

Analytische Lösung in Fabric zur Sicherstellung von Skalierbarkeit, einer einzigen verlässlichen Datenquelle und Autonomie

Die neue Analysearchitektur auf Basis von Microsoft Fabric gewährleistete Datenintegration, Zuverlässigkeit und Skalierbarkeit und ermöglichte analytische Autonomie sowie Zukunftssicherheit.

Applications of Multimodal Models | BI4ALL Talks Tech Talks

Applications of Multimodal Models | BI4ALL Talks

ANWENDUNGSFALL – Analytische Transformation in der Cloud: Leistung, Skalierbarkeit und Sicherheit im großen Maßstab Use Cases

ANWENDUNGSFALL – Analytische Transformation in der Cloud: Leistung, Skalierbarkeit und Sicherheit im großen Maßstab

Ein Finanzinstitut hat auf eine von BI4ALL entwickelte Cloud-basierte Analyselösung umgestellt, die sichere, skalierbare und leistungsstarke Einblicke für kommunale und Bankpartner ermöglicht.

Scaling MS Purview with Effective Data Strategy & Governance | BI4ALL Talks Tech Talks

Scaling MS Purview with Effective Data Strategy & Governance | BI4ALL Talks

Webinar „Unlocking Data Excellence: BI4ALL and Collibra in Action“ Tech Talks

Webinar „Unlocking Data Excellence: BI4ALL and Collibra in Action“

Webinar „Stuck in Chaos? AI Agents Could Be Your Secret Weapon“ Tech Talks

Webinar „Stuck in Chaos? AI Agents Could Be Your Secret Weapon“

video title

Fangen wir an

Haben Sie eine Frage? Möchten Sie ein neues Projekt starten?
Kontaktieren Sie uns

Menu

  • Expertise
  • Knowledge Centre
  • Wer wir sind
  • Karrieren
  • Kontakte

Newsletter

Mit Innovationen auf dem Laufenden bleiben und den Erfolg vorantreiben
Newsletter

2025 Alle Rechte Vorbehalten

Privatsphäre und Datenschutz Politik der Informationen
URS - ISO 27001
URS - ISO 27701
Cookie-Einstellungen

BI4ALL BI4ALL kann Cookies verwenden, um Ihre Anmeldedaten zu speichern, Statistiken zu sammeln, um die Funktionalität der Website zu optimieren und um Marketingaktionen auf der Grundlage Ihrer Interessen durchzuführen.
Sie können die verwendeten Cookies in den .

Cookie-Optionen

Estes cookies são essenciais para fornecer serviços disponíveis no nosso site e permitir que possa usar determinados recursos no nosso site. Sem estes cookies, não podemos fornecer certos serviços no nosso site.

Estes cookies são usados para fornecer uma experiência mais personalizada no nosso site e para lembrar as escolhas que faz ao usar o nosso site.

Estes cookies são usados para reconhecer visitantes quando voltam ao nosso site. Isto permite-nos personalizar o conteúdo do site para si, cumprimentá-lo pelo nome e lembrar as suas preferências (por exemplo, a sua escolha de idioma ou região).

Estes cookies são usados para proteger a segurança do nosso site e dos seus dados. Isto inclui cookies que são usados para permitir que faça login em áreas seguras do nosso site.

Estes cookies são usados para coletar informações para analisar o tráfego no nosso site e entender como é que os visitantes estão a usar o nosso site. Por exemplo, estes cookies podem medir fatores como o tempo despendido no site ou as páginas visitadas, isto vai permitir entender como podemos melhorar o nosso site para os utilizadores. As informações coletadas por meio destes cookies de medição e desempenho não identificam nenhum visitante individual.

Estes cookies são usados para fornecer anúncios mais relevantes para si e para os seus interesses. Também são usados para limitar o número de vezes que vê um anúncio e para ajudar a medir a eficácia de uma campanha publicitária. Podem ser colocados por nós ou por terceiros com a nossa permissão. Lembram que já visitou um site e estas informações são partilhadas com outras organizações, como anunciantes.

Política de Privacidade