Skip
BI4ALL BI4ALL
  • Expertise
    • Data Strategy & Governance
    • Data Visualisation
    • Inteligência Artificial
    • Low Code & Automation
    • Modern BI & Big Data
    • R&D Software Engineering
    • PMO, BA & UX/ UI Design
  • Knowledge Centre
    • Blog
    • Setores
    • Customer Success
    • Tech Talks
  • Sobre Nós
    • História
    • Board
    • Parceiros BI4ALL
    • Prémios
    • Media Centre
  • Carreiras
  • Contactos
Português
InglêsAlemão
Página Anterior:
    Knowledge Center
  • Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino

Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino

Página Anterior: Blog
  • Knowledge Center
  • Blog
  • Fabric: nova plataforma de análise de dados
1 Junho 2023

Fabric: nova plataforma de análise de dados

Placeholder Image Alt
  • Knowledge Centre
  • Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino
22 Maio 2025

Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino

Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino

Key takeways

O HAIM melhora previsões médicas ao integrar dados variados.

O MuDoC torna a aprendizagem mais eficaz com texto e imagens.

A IA multimodal ainda enfrenta desafios técnicos e de privacidade.

Na primeira parte deste artigo, explorámos os fundamentos da Inteligência Artificial Multimodal: o que é, como funciona e quais os seus principais métodos de fusão de dados. Vimos de que forma os sistemas multimodais são capazes de integrar diferentes modalidades — como texto, imagem, fala ou sinais biométricos — para criar interações mais ricas, precisas e contextualizadas. Também analisámos os desafios técnicos e as vantagens desta abordagem, que procura aproximar a capacidade de perceção e resposta da IA à forma como os humanos comunicam com o mundo.

Nesta segunda parte, iremos explorar o papel da IA multimodal na saúde e na educação. Ambos os setores estão a ser progressivamente transformados pela IA, que está a melhorar os cuidados aos pacientes e a personalizar o ensino. Vamos analisar dois exemplos para compreender os benefícios e os desafios da implementação da IA multimodal nestes setores.

 

Use Case 1: IA Multimodal na Saúde

O setor da saúde gera uma quantidade massiva e diversificada de dados em diferentes formatos, como imagens médicas, notas clínicas, testes laboratoriais e registos de pacientes. A combinação destes tipos de dados oferece a possibilidade de uma visão mais holística e completa da condição do paciente. Os motores de IA multimodal são projetados para processar e integrar as múltiplas fontes de dados, resultando em melhores diagnósticos e planos de tratamento individualizados.

Um exemplo de como a IA multimodal é utilizada na saúde é a framework Holistic AI in Medicine (HAIM). A HAIM combina um conjunto diversificado de diferentes tipos de dados (por exemplo, EHR, imagiologia médica e notas clínicas) para melhorar a aprendizagem dos modelos preditivos na saúde. Ao integrar estes três tipos de conjuntos de dados, a HAIM demonstrou melhores resultados em várias tarefas, incluindo identificação de doenças e previsão do prognóstico dos pacientes. A melhoria média percentual dos sistemas preditivos multimodais do HAIM varia entre 9% e 28% em todas as tarefas avaliadas. (Integrated multimodal artificial intelligence framework for healthcare applications | npj Digital Medicine).

O HAIM combina dados de várias fontes para criar perfis abrangentes dos pacientes. Cada perfil inclui:

  • Dados estruturados, como dados demográficos, resultados laboratoriais e registos de medicações.
  • Dados em séries temporais, como sinais vitais e outras medições cronológicas.
  • Texto não estruturado, como notas clínicas e relatórios.
  • Imagens médicas, incluindo radiografias torácicas e dados de imagiologia associados.

Cada tipo de dado é processado separadamente para criar representações numéricas, conhecidas como embeddings:

  • Os dados estruturados são normalizados e transformados em valores numéricos.
  • Os dados em séries temporais são analisados com métricas estatísticas para representar tendências ao longo do tempo.
  • O texto é processado com transformers pré-treinados para produzir embeddings de tamanho fixo.
  • As imagens são analisadas com redes neuronais convolucionais pré-treinadas para extrair embeddings de características.

Os embeddings individuais de cada modalidade são concatenados para formar um embedding resultante da fusão dos anteriores. Esta representação serve como entrada para modelos preditivos, como o XGBoost, para realizar tarefas como diagnóstico de doenças e previsão de prognósticos dos pacientes.

Fig. 1: Integrated multimodal artificial intelligence framework for healthcare applications | npj Digital Medicine

 

Benefícios:

  • Integra diferentes tipos de dados, criando perfis de pacientes mais completos.
  • Supera consistentemente os modelos unimodais, com melhorias de 9% a 28% em tarefas na área da saúde.
  • Suporta várias aplicações, incluindo diagnóstico de doenças e previsão de prognósticos dos pacientes.
  • O design modular permite a adição de novos tipos de dados, aumentando a adaptabilidade e escalabilidade em contextos clínicos.

Desafios:

  • Requer pré-processamento e normalização sofisticados para garantir compatibilidade entre diferentes tipos de dados.
  • A complexidade computacional pode ser intensiva em recursos, levantando preocupações de escalabilidade.
  • Exige medidas rigorosas de privacidade e segurança de dados, devido à informação sensível dos pacientes.
  • A interpretabilidade do modelo continua a ser um desafio, afetando a confiança e adoção clínica.

 

Use Case 2: IA Multimodal na Educação

A IA multimodal apresenta muitas possibilidades na área da educação, pois os materiais de aprendizagem, geralmente, incluem uma combinação de texto, imagens, gráficos e diagramas. As ferramentas tradicionais de IA educacional concentravam-se principalmente em texto, mas ao incorporar outros tipos de conteúdo (elementos visuais e interativos), os sistemas multimodais podem aproximar-se mais do modo como os humanos aprendem. Isto resulta em experiências educativas mais envolventes e eficazes, adaptadas a diferentes estilos de aprendizagem.

Um dos exemplos mais promissores desta abordagem é o sistema MuDoC (Multimodal Document-grounded Conversational AI). O MuDoC foi concebido para apoiar os alunos, combinando processamento de linguagem natural e computer vision para analisar materiais educativos, incluindo texto escrito e elementos visuais. Quando um aluno faz uma pergunta, o sistema não responde apenas com um simples texto. Em vez disso, analisa o material de origem, recupera a secção relevante e fornece uma resposta que integra o texto e as imagens necessários do documento original. Isto ajuda os alunos a construir mapas mentais mais fortes e a verificar as respostas da IA diretamente nos materiais de aprendizagem, o que vai promover a transparência e a confiança.

Tecnicamente, o MuDoC utiliza um modelo de linguagem (como o GPT-4) para processar e gerar respostas em linguagem natural. Ao mesmo tempo, aplica técnicas de computer vision para analisar conteúdo visual (como diagramas, figuras e ilustrações) embutido em documentos educativos. O sistema mapeia estes diferentes tipos de conteúdo numa representação que une os diversos conteúdos e que lhe permite selecioná-los e combiná-los de forma contextual. Este processo resulta em respostas ricas e fundamentadas que vão além do que os sistemas de IA baseados apenas em texto podem oferecer. Assim é criado um assistente de aprendizagem dinâmico que não só explica, mas também mostra, apoiando numa melhor compreensão de assuntos mais complexos.

Fig 2. [2504.13884] Towards a Multimodal Document-grounded Conversational AI System for Education

 

Benefícios:

  • Desperta o interesse dos alunos e envolve-os, tornando a aprendizagem mais interativa.
  • Combina palavras e imagens para comunicar informações de forma eficaz.
  • Simplifica conceitos complexos, como física, biologia e matemática, através de representações visuais.
  • Reforça a confiança, proporcionando visibilidade clara das fontes das respostas.
  • Incentiva uma aprendizagem mais profunda, inspirando à curiosidade.

Desafios:

  • Combinar perfeitamente palavras e imagens pode ser um desafio, e os visuais desajustados podem causar alguma confusão.
  • Garantir acessibilidade para todos os alunos, incluindo aqueles com dificuldades visuais ou de aprendizagem, é essencial.
  • Gerir o uso simultâneo de palavras e imagens requer uma capacidade computacional significativa.

 

Conclusão

Em resumo, a IA multimodal está a transformar a forma como as máquinas compreendem e interagem com o mundo, ao combinar dados de várias fontes, como texto, imagens, áudio e sinais em séries temporais.

A framework HAIM utiliza esta abordagem para criar perfis de saúde, alcançando melhorias de desempenho, incluindo no diagnóstico de doenças e na previsão de prognósticos. No entanto, enfrenta desafios como a necessidade de um pré-processamento de dados sofisticado, elevadas exigências computacionais, medidas rigorosas de privacidade e capacidae de interpretabilidade do modelo, que são cruciais para a confiança clínica e a escalabilidade.

Da mesma forma, na educação, o sistema MuDoC utiliza IA multimodal para aumentar o envolvimento dos alunos, tornando a aprendizagem mais acessível e compreensível através da combinação de palavras e imagens. No entanto, deve superar desafios como a combinação entre texto e imagens, garantir a acessibilidade para todos os alunos e gerir os elevados requisitos computacionais.

Como demonstrado pela framework HAIM e pelo sistema MuDoC, esta abordagem permite previsões mais precisas, insights mais profundos e melhores experiências para os utilizadores. Embora persistam desafios, o potencial da IA multimodal para melhorar a tomada de decisões, personalizar experiências e estar mais próximo da comunicação humana faz dela uma ferramenta essencial para o futuro da inteligência artificial.

Autor

Marta Carreira

Marta Carreira

Consultant

Partilhar

Conteúdos relacionados

Soberania de dados: o trunfo estratégico para as empresas Blog

Soberania de dados: o trunfo estratégico para as empresas

Em 2025, a soberania de dados tornou-se o novo motor de competitividade - transformando volumes massivos de informação em inovação, eficiência e vantagem estratégica.

Deteção de Anomalias: Técnicas, Desafios e Considerações Éticas Blog

Deteção de Anomalias: Técnicas, Desafios e Considerações Éticas

A Deteção de Anomalias identifica padrões invulgares nos dados para prevenir riscos, recorrendo a técnicas de machine learning.

Frameworks orientadas por metadados no Microsoft Fabric: Implementações em YAML (Parte 3) Blog

Frameworks orientadas por metadados no Microsoft Fabric: Implementações em YAML (Parte 3)

Implementações YAML no Microsoft Fabric usam Azure DevOps para validação, estrutura por ambientes e pipelines com aprovações, garantindo consistência.

Frameworks orientadas por metadados no Microsoft Fabric: Logging com Eventhouse (Parte 2) Blog

Frameworks orientadas por metadados no Microsoft Fabric: Logging com Eventhouse (Parte 2)

Logging no Microsoft Fabric com Eventhouse garante visibilidade centralizada e análise em tempo real de pipelines, usando KQL para ingestão escalável.

Como simplificar frameworks orientadas por metadados no Microsoft Fabric com YAML Blog

Como simplificar frameworks orientadas por metadados no Microsoft Fabric com YAML

Simplifique frameworks orientadas por metadados no Microsoft Fabric com YAML para ganhar escalabilidade, legibilidade e integração CI/CD.

Solução analítica em Fabric para garantir Escalabilidade, Single Source of Truth e Autonomia Use Cases

Solução analítica em Fabric para garantir Escalabilidade, Single Source of Truth e Autonomia

A nova arquitetura analítica baseada em Microsoft Fabric assegurou integração de dados, fiabilidade e escalabilidade, promovendo autonomia analítica e preparação para futuras exigências.

video title

Vamos começar

Tem uma questão? Quer iniciar um novo projeto?
Contacte-nos

Menu

  • Expertise
  • Knowledge Centre
  • Sobre Nós
  • Carreiras
  • Contactos

Mantenha-se atualizado e impulsione o sucesso com inovação

Newsletter

2025 Todos os direitos reservados

Política de Privacidade e Proteção de Dados Política de Segurança de Informação
URS - ISO 27001
URS - ISO 27701
Cookies Settings

BI4ALL may use cookies to memorise your login data, collect statistics to optimise the functionality of the website and to carry out marketing actions based on your interests.
You can customise the cookies used in .

Opções para ativar ou desativar cookies por preferência.

These cookies are essential to provide services available on our website and to enable you to use certain features on our website. Without these cookies, we cannot provide certain services on our website.

These cookies are used to provide a more personalised experience on our website and to remember the choices you make when using our website.

These cookies are used to recognise visitors when they return to our website. This enables us to personalise the content of the website for you, greet you by name and remember your preferences (for example, your choice of language or region).

These cookies are used to protect the security of our website and your data. This includes cookies that are used to enable you to log into secure areas of our website.

These cookies are used to collect information to analyse traffic on our website and understand how visitors are using our website. For example, these cookies can measure factors such as time spent on the website or pages visited, which will allow us to understand how we can improve our website for users. The information collected through these measurement and performance cookies does not identify any individual visitor.

These cookies are used to deliver advertisements that are more relevant to you and your interests. They are also used to limit the number of times you see an advertisement and to help measure the effectiveness of an advertising campaign. They may be placed by us or by third parties with our permission. They remember that you have visited a website and this information is shared with other organisations, such as advertisers.

Política de Privacidade