Skip
BI4ALL BI4ALL
  • Expertise
    • Data Strategy & Governance
    • Data Visualisation
    • Inteligência Artificial
    • Low Code & Automation
    • Modern BI & Big Data
    • R&D Software Engineering
    • PMO, BA & UX/ UI Design
  • Knowledge Centre
    • Blog
    • Setores
    • Customer Success
    • Tech Talks
  • Sobre Nós
    • História
    • Board
    • Parceiros BI4ALL
    • Prémios
    • Media Centre
  • Carreiras
  • Contactos
Português
InglêsAlemão
Página Anterior:
    Knowledge Center
  • Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino

Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino

Página Anterior: Blog
  • Knowledge Center
  • Blog
  • Fabric: nova plataforma de análise de dados
1 Junho 2023

Fabric: nova plataforma de análise de dados

Placeholder Image Alt
  • Knowledge Centre
  • Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino
22 Maio 2025

Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino

Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino

Key takeways

O HAIM melhora previsões médicas ao integrar dados variados.

O MuDoC torna a aprendizagem mais eficaz com texto e imagens.

A IA multimodal ainda enfrenta desafios técnicos e de privacidade.

Na primeira parte deste artigo, explorámos os fundamentos da Inteligência Artificial Multimodal: o que é, como funciona e quais os seus principais métodos de fusão de dados. Vimos de que forma os sistemas multimodais são capazes de integrar diferentes modalidades — como texto, imagem, fala ou sinais biométricos — para criar interações mais ricas, precisas e contextualizadas. Também analisámos os desafios técnicos e as vantagens desta abordagem, que procura aproximar a capacidade de perceção e resposta da IA à forma como os humanos comunicam com o mundo.

Nesta segunda parte, iremos explorar o papel da IA multimodal na saúde e na educação. Ambos os setores estão a ser progressivamente transformados pela IA, que está a melhorar os cuidados aos pacientes e a personalizar o ensino. Vamos analisar dois exemplos para compreender os benefícios e os desafios da implementação da IA multimodal nestes setores.

 

Use Case 1: IA Multimodal na Saúde

O setor da saúde gera uma quantidade massiva e diversificada de dados em diferentes formatos, como imagens médicas, notas clínicas, testes laboratoriais e registos de pacientes. A combinação destes tipos de dados oferece a possibilidade de uma visão mais holística e completa da condição do paciente. Os motores de IA multimodal são projetados para processar e integrar as múltiplas fontes de dados, resultando em melhores diagnósticos e planos de tratamento individualizados.

Um exemplo de como a IA multimodal é utilizada na saúde é a framework Holistic AI in Medicine (HAIM). A HAIM combina um conjunto diversificado de diferentes tipos de dados (por exemplo, EHR, imagiologia médica e notas clínicas) para melhorar a aprendizagem dos modelos preditivos na saúde. Ao integrar estes três tipos de conjuntos de dados, a HAIM demonstrou melhores resultados em várias tarefas, incluindo identificação de doenças e previsão do prognóstico dos pacientes. A melhoria média percentual dos sistemas preditivos multimodais do HAIM varia entre 9% e 28% em todas as tarefas avaliadas. (Integrated multimodal artificial intelligence framework for healthcare applications | npj Digital Medicine).

O HAIM combina dados de várias fontes para criar perfis abrangentes dos pacientes. Cada perfil inclui:

  • Dados estruturados, como dados demográficos, resultados laboratoriais e registos de medicações.
  • Dados em séries temporais, como sinais vitais e outras medições cronológicas.
  • Texto não estruturado, como notas clínicas e relatórios.
  • Imagens médicas, incluindo radiografias torácicas e dados de imagiologia associados.

Cada tipo de dado é processado separadamente para criar representações numéricas, conhecidas como embeddings:

  • Os dados estruturados são normalizados e transformados em valores numéricos.
  • Os dados em séries temporais são analisados com métricas estatísticas para representar tendências ao longo do tempo.
  • O texto é processado com transformers pré-treinados para produzir embeddings de tamanho fixo.
  • As imagens são analisadas com redes neuronais convolucionais pré-treinadas para extrair embeddings de características.

Os embeddings individuais de cada modalidade são concatenados para formar um embedding resultante da fusão dos anteriores. Esta representação serve como entrada para modelos preditivos, como o XGBoost, para realizar tarefas como diagnóstico de doenças e previsão de prognósticos dos pacientes.

Fig. 1: Integrated multimodal artificial intelligence framework for healthcare applications | npj Digital Medicine

 

Benefícios:

  • Integra diferentes tipos de dados, criando perfis de pacientes mais completos.
  • Supera consistentemente os modelos unimodais, com melhorias de 9% a 28% em tarefas na área da saúde.
  • Suporta várias aplicações, incluindo diagnóstico de doenças e previsão de prognósticos dos pacientes.
  • O design modular permite a adição de novos tipos de dados, aumentando a adaptabilidade e escalabilidade em contextos clínicos.

Desafios:

  • Requer pré-processamento e normalização sofisticados para garantir compatibilidade entre diferentes tipos de dados.
  • A complexidade computacional pode ser intensiva em recursos, levantando preocupações de escalabilidade.
  • Exige medidas rigorosas de privacidade e segurança de dados, devido à informação sensível dos pacientes.
  • A interpretabilidade do modelo continua a ser um desafio, afetando a confiança e adoção clínica.

 

Use Case 2: IA Multimodal na Educação

A IA multimodal apresenta muitas possibilidades na área da educação, pois os materiais de aprendizagem, geralmente, incluem uma combinação de texto, imagens, gráficos e diagramas. As ferramentas tradicionais de IA educacional concentravam-se principalmente em texto, mas ao incorporar outros tipos de conteúdo (elementos visuais e interativos), os sistemas multimodais podem aproximar-se mais do modo como os humanos aprendem. Isto resulta em experiências educativas mais envolventes e eficazes, adaptadas a diferentes estilos de aprendizagem.

Um dos exemplos mais promissores desta abordagem é o sistema MuDoC (Multimodal Document-grounded Conversational AI). O MuDoC foi concebido para apoiar os alunos, combinando processamento de linguagem natural e computer vision para analisar materiais educativos, incluindo texto escrito e elementos visuais. Quando um aluno faz uma pergunta, o sistema não responde apenas com um simples texto. Em vez disso, analisa o material de origem, recupera a secção relevante e fornece uma resposta que integra o texto e as imagens necessários do documento original. Isto ajuda os alunos a construir mapas mentais mais fortes e a verificar as respostas da IA diretamente nos materiais de aprendizagem, o que vai promover a transparência e a confiança.

Tecnicamente, o MuDoC utiliza um modelo de linguagem (como o GPT-4) para processar e gerar respostas em linguagem natural. Ao mesmo tempo, aplica técnicas de computer vision para analisar conteúdo visual (como diagramas, figuras e ilustrações) embutido em documentos educativos. O sistema mapeia estes diferentes tipos de conteúdo numa representação que une os diversos conteúdos e que lhe permite selecioná-los e combiná-los de forma contextual. Este processo resulta em respostas ricas e fundamentadas que vão além do que os sistemas de IA baseados apenas em texto podem oferecer. Assim é criado um assistente de aprendizagem dinâmico que não só explica, mas também mostra, apoiando numa melhor compreensão de assuntos mais complexos.

Fig 2. [2504.13884] Towards a Multimodal Document-grounded Conversational AI System for Education

 

Benefícios:

  • Desperta o interesse dos alunos e envolve-os, tornando a aprendizagem mais interativa.
  • Combina palavras e imagens para comunicar informações de forma eficaz.
  • Simplifica conceitos complexos, como física, biologia e matemática, através de representações visuais.
  • Reforça a confiança, proporcionando visibilidade clara das fontes das respostas.
  • Incentiva uma aprendizagem mais profunda, inspirando à curiosidade.

Desafios:

  • Combinar perfeitamente palavras e imagens pode ser um desafio, e os visuais desajustados podem causar alguma confusão.
  • Garantir acessibilidade para todos os alunos, incluindo aqueles com dificuldades visuais ou de aprendizagem, é essencial.
  • Gerir o uso simultâneo de palavras e imagens requer uma capacidade computacional significativa.

 

Conclusão

Em resumo, a IA multimodal está a transformar a forma como as máquinas compreendem e interagem com o mundo, ao combinar dados de várias fontes, como texto, imagens, áudio e sinais em séries temporais.

A framework HAIM utiliza esta abordagem para criar perfis de saúde, alcançando melhorias de desempenho, incluindo no diagnóstico de doenças e na previsão de prognósticos. No entanto, enfrenta desafios como a necessidade de um pré-processamento de dados sofisticado, elevadas exigências computacionais, medidas rigorosas de privacidade e capacidae de interpretabilidade do modelo, que são cruciais para a confiança clínica e a escalabilidade.

Da mesma forma, na educação, o sistema MuDoC utiliza IA multimodal para aumentar o envolvimento dos alunos, tornando a aprendizagem mais acessível e compreensível através da combinação de palavras e imagens. No entanto, deve superar desafios como a combinação entre texto e imagens, garantir a acessibilidade para todos os alunos e gerir os elevados requisitos computacionais.

Como demonstrado pela framework HAIM e pelo sistema MuDoC, esta abordagem permite previsões mais precisas, insights mais profundos e melhores experiências para os utilizadores. Embora persistam desafios, o potencial da IA multimodal para melhorar a tomada de decisões, personalizar experiências e estar mais próximo da comunicação humana faz dela uma ferramenta essencial para o futuro da inteligência artificial.

Autor

Marta Carreira

Marta Carreira

Consultant

Partilhar

Conteúdos relacionados

Frameworks orientadas por metadados no Microsoft Fabric: Implementações em YAML (Parte 3) Blog

Frameworks orientadas por metadados no Microsoft Fabric: Implementações em YAML (Parte 3)

Implementações YAML no Microsoft Fabric usam Azure DevOps para validação, estrutura por ambientes e pipelines com aprovações, garantindo consistência.

Frameworks orientadas por metadados no Microsoft Fabric: Logging com Eventhouse (Parte 2) Blog

Frameworks orientadas por metadados no Microsoft Fabric: Logging com Eventhouse (Parte 2)

Logging no Microsoft Fabric com Eventhouse garante visibilidade centralizada e análise em tempo real de pipelines, usando KQL para ingestão escalável.

Como simplificar frameworks orientadas por metadados no Microsoft Fabric com YAML Blog

Como simplificar frameworks orientadas por metadados no Microsoft Fabric com YAML

Simplifique frameworks orientadas por metadados no Microsoft Fabric com YAML para ganhar escalabilidade, legibilidade e integração CI/CD.

Solução analítica em Fabric para garantir Escalabilidade, Single Source of Truth e Autonomia Use Cases

Solução analítica em Fabric para garantir Escalabilidade, Single Source of Truth e Autonomia

A nova arquitetura analítica baseada em Microsoft Fabric assegurou integração de dados, fiabilidade e escalabilidade, promovendo autonomia analítica e preparação para futuras exigências.

Applications of Multimodal Models | BI4ALL Talks Tech Talks

Applications of Multimodal Models | BI4ALL Talks

Transformação analítica na Cloud: Desempenho, escalabilidade e segurança em grande escala Use Cases

Transformação analítica na Cloud: Desempenho, escalabilidade e segurança em grande escala

Uma instituição financeira migrou para uma solução analítica na cloud desenvolvida pela BI4ALL, permitindo insights seguros, escaláveis e de alto desempenho para parceiros municipais e bancários.

video title

Vamos começar

Tem uma questão? Quer iniciar um novo projeto?
Contacte-nos

Menu

  • Expertise
  • Knowledge Centre
  • Sobre Nós
  • Carreiras
  • Contactos

Mantenha-se atualizado e impulsione o sucesso com inovação

Newsletter

2025 Todos os direitos reservados

Política de Privacidade e Proteção de Dados Política de Segurança de Informação
URS - ISO 27001
URS - ISO 27701
Cookies Settings

BI4ALL may use cookies to memorise your login data, collect statistics to optimise the functionality of the website and to carry out marketing actions based on your interests.
You can customise the cookies used in .

Opções para ativar ou desativar cookies por preferência.

Estes cookies são essenciais para fornecer serviços disponíveis no nosso site e permitir que possa usar determinados recursos no nosso site. Sem estes cookies, não podemos fornecer certos serviços no nosso site.

Estes cookies são usados para fornecer uma experiência mais personalizada no nosso site e para lembrar as escolhas que faz ao usar o nosso site.

Estes cookies são usados para reconhecer visitantes quando voltam ao nosso site. Isto permite-nos personalizar o conteúdo do site para si, cumprimentá-lo pelo nome e lembrar as suas preferências (por exemplo, a sua escolha de idioma ou região).

Estes cookies são usados para proteger a segurança do nosso site e dos seus dados. Isto inclui cookies que são usados para permitir que faça login em áreas seguras do nosso site.

Estes cookies são usados para coletar informações para analisar o tráfego no nosso site e entender como é que os visitantes estão a usar o nosso site. Por exemplo, estes cookies podem medir fatores como o tempo despendido no site ou as páginas visitadas, isto vai permitir entender como podemos melhorar o nosso site para os utilizadores. As informações coletadas por meio destes cookies de medição e desempenho não identificam nenhum visitante individual.

Estes cookies são usados para fornecer anúncios mais relevantes para si e para os seus interesses. Também são usados para limitar o número de vezes que vê um anúncio e para ajudar a medir a eficácia de uma campanha publicitária. Podem ser colocados por nós ou por terceiros com a nossa permissão. Lembram que já visitou um site e estas informações são partilhadas com outras organizações, como anunciantes.

Política de Privacidade