22 Maio 2025
Modelos Preditivos Multimodais: Uma abordagem prática na medicina e no ensino

Na primeira parte deste artigo, explorámos os fundamentos da Inteligência Artificial Multimodal: o que é, como funciona e quais os seus principais métodos de fusão de dados. Vimos de que forma os sistemas multimodais são capazes de integrar diferentes modalidades — como texto, imagem, fala ou sinais biométricos — para criar interações mais ricas, precisas e contextualizadas. Também analisámos os desafios técnicos e as vantagens desta abordagem, que procura aproximar a capacidade de perceção e resposta da IA à forma como os humanos comunicam com o mundo.
Nesta segunda parte, iremos explorar o papel da IA multimodal na saúde e na educação. Ambos os setores estão a ser progressivamente transformados pela IA, que está a melhorar os cuidados aos pacientes e a personalizar o ensino. Vamos analisar dois exemplos para compreender os benefícios e os desafios da implementação da IA multimodal nestes setores.
Use Case 1: IA Multimodal na Saúde
O setor da saúde gera uma quantidade massiva e diversificada de dados em diferentes formatos, como imagens médicas, notas clínicas, testes laboratoriais e registos de pacientes. A combinação destes tipos de dados oferece a possibilidade de uma visão mais holística e completa da condição do paciente. Os motores de IA multimodal são projetados para processar e integrar as múltiplas fontes de dados, resultando em melhores diagnósticos e planos de tratamento individualizados.
Um exemplo de como a IA multimodal é utilizada na saúde é a framework Holistic AI in Medicine (HAIM). A HAIM combina um conjunto diversificado de diferentes tipos de dados (por exemplo, EHR, imagiologia médica e notas clínicas) para melhorar a aprendizagem dos modelos preditivos na saúde. Ao integrar estes três tipos de conjuntos de dados, a HAIM demonstrou melhores resultados em várias tarefas, incluindo identificação de doenças e previsão do prognóstico dos pacientes. A melhoria média percentual dos sistemas preditivos multimodais do HAIM varia entre 9% e 28% em todas as tarefas avaliadas. (Integrated multimodal artificial intelligence framework for healthcare applications | npj Digital Medicine).
O HAIM combina dados de várias fontes para criar perfis abrangentes dos pacientes. Cada perfil inclui:
Cada tipo de dado é processado separadamente para criar representações numéricas, conhecidas como embeddings:
Os embeddings individuais de cada modalidade são concatenados para formar um embedding resultante da fusão dos anteriores. Esta representação serve como entrada para modelos preditivos, como o XGBoost, para realizar tarefas como diagnóstico de doenças e previsão de prognósticos dos pacientes.
Benefícios:
Desafios:
Use Case 2: IA Multimodal na Educação
A IA multimodal apresenta muitas possibilidades na área da educação, pois os materiais de aprendizagem, geralmente, incluem uma combinação de texto, imagens, gráficos e diagramas. As ferramentas tradicionais de IA educacional concentravam-se principalmente em texto, mas ao incorporar outros tipos de conteúdo (elementos visuais e interativos), os sistemas multimodais podem aproximar-se mais do modo como os humanos aprendem. Isto resulta em experiências educativas mais envolventes e eficazes, adaptadas a diferentes estilos de aprendizagem.
Um dos exemplos mais promissores desta abordagem é o sistema MuDoC (Multimodal Document-grounded Conversational AI). O MuDoC foi concebido para apoiar os alunos, combinando processamento de linguagem natural e computer vision para analisar materiais educativos, incluindo texto escrito e elementos visuais. Quando um aluno faz uma pergunta, o sistema não responde apenas com um simples texto. Em vez disso, analisa o material de origem, recupera a secção relevante e fornece uma resposta que integra o texto e as imagens necessários do documento original. Isto ajuda os alunos a construir mapas mentais mais fortes e a verificar as respostas da IA diretamente nos materiais de aprendizagem, o que vai promover a transparência e a confiança.
Tecnicamente, o MuDoC utiliza um modelo de linguagem (como o GPT-4) para processar e gerar respostas em linguagem natural. Ao mesmo tempo, aplica técnicas de computer vision para analisar conteúdo visual (como diagramas, figuras e ilustrações) embutido em documentos educativos. O sistema mapeia estes diferentes tipos de conteúdo numa representação que une os diversos conteúdos e que lhe permite selecioná-los e combiná-los de forma contextual. Este processo resulta em respostas ricas e fundamentadas que vão além do que os sistemas de IA baseados apenas em texto podem oferecer. Assim é criado um assistente de aprendizagem dinâmico que não só explica, mas também mostra, apoiando numa melhor compreensão de assuntos mais complexos.
Fig 2. [2504.13884] Towards a Multimodal Document-grounded Conversational AI System for Education
Benefícios:
Desafios:
Conclusão
Em resumo, a IA multimodal está a transformar a forma como as máquinas compreendem e interagem com o mundo, ao combinar dados de várias fontes, como texto, imagens, áudio e sinais em séries temporais.
A framework HAIM utiliza esta abordagem para criar perfis de saúde, alcançando melhorias de desempenho, incluindo no diagnóstico de doenças e na previsão de prognósticos. No entanto, enfrenta desafios como a necessidade de um pré-processamento de dados sofisticado, elevadas exigências computacionais, medidas rigorosas de privacidade e capacidae de interpretabilidade do modelo, que são cruciais para a confiança clínica e a escalabilidade.
Da mesma forma, na educação, o sistema MuDoC utiliza IA multimodal para aumentar o envolvimento dos alunos, tornando a aprendizagem mais acessível e compreensível através da combinação de palavras e imagens. No entanto, deve superar desafios como a combinação entre texto e imagens, garantir a acessibilidade para todos os alunos e gerir os elevados requisitos computacionais.
Como demonstrado pela framework HAIM e pelo sistema MuDoC, esta abordagem permite previsões mais precisas, insights mais profundos e melhores experiências para os utilizadores. Embora persistam desafios, o potencial da IA multimodal para melhorar a tomada de decisões, personalizar experiências e estar mais próximo da comunicação humana faz dela uma ferramenta essencial para o futuro da inteligência artificial.