
Fonte
Tanya Petersen, EPFL
Publicação Original
Áreas
Resumo
Além dos ‘grandes modelos de linguagem’ usados atualmente em sistemas de inteligência artificial generativa, tem sido desenvolvida uma nova geração de modelos para IA que incorporam outros tipos de conteúdos além dos textos – os chamados modelos multimodais.
Recentemente, pesquisadores apresentaram uma nova plataforma de código aberto que incorpora treinamento simultâneo com textos, imagens e vídeos, o que viabilizaria um próximo nível em IA generativa, com aplicações importantes em ciências biológicas, biomédicas e ambientais.
Além dos Large Language Models (LLMs), que usam quantidades enormes de texto para treinamento, a Inteligência Artificial (IA) generativa pode ser impulsionada pelos chamados ‘modelos multimodais’, que não são apenas treinados com textos, mas também podem processar várias outras modalidades de informação, incluindo imagens, vídeos e sons, por exemplo.
Este próximo nível da IA generativa pode mudar completamente o tratamento de dados biológicos ou atmosféricos. Mas, obviamente, ainda são muitos os desafios da IA com modelos multimodais – que coloca no mesmo arcabouço fontes de informação tão diversas – principalmente com relação ao desempenho.
Recentemente, e após vários anos de desenvolvimento, pesquisadores do Visual Intelligence and Learning Laboratory (VILAB) da Escola Politécnica Federal de Lausanne (EPFL), na Suíça, com o apoio da Aple, nos EUA, apresentaram a plataforma de modelagem multimodal 4M (Massively Masked Multimodal Modeling).
Trata-se de um grande modelo de redes neurais únicas que considera tarefas e modalidades de treinamento variadas, e que expande as capacidades dos modelos existentes de várias maneiras.
Quando avançamos para a modelagem multimodal, não precisamos nos limitar à linguagem. Trazemos outras modalidades, incluindo sensores. Por exemplo, podemos comunicar uma laranja por meio da palavra ‘laranja’, assim como em modelos de linguagem, mas também por meio de uma coleção de pixels, significando como a laranja se parece, ou por meio do sentido do tato, capturando a sensação de tocar uma laranja. Se você reunir várias modalidades, terá um encapsulamento mais completo da realidade física que estamos tentando modelar
O modelo público usado na plataforma 4M foi dimensionado para 3 bilhões de parâmetros e treinado em mais de 500 bilhões de tokens, com modelos simultâneos de linguagem e visão.
A equipe de pesquisa continua trabalhando na construção de mais estruturas e na unificação da plataforma 4M, com o objetivo de desenvolver uma arquitetura genérica de código aberto, permitindo que especialistas em outros domínios a adaptem às suas necessidades específicas, como é o caso da modelagem climática ou da pesquisa biomédica.
“O objetivo do código aberto é que as pessoas possam adaptar o modelo para si mesmas com seus próprios dados e suas próprias especificações. O 4M está chegando no momento certo, e estamos especialmente entusiasmados com outros domínios adotando essa linha de modelagem para seus casos de uso específicos. Estamos animados para ver aonde isso leva. Mas ainda há muitos desafios, e ainda há muito a fazer”, disseram os doutorandos Oguzhan Fatih Kar e Roman Bachmann, pesquisadores do VILAB e coautores do artigo.
A equipe também trabalha para abordar outros aspectos importantes, como aumentar ainda mais a escalabilidade e métodos para a especialização de modelos em contextos de implantação.
Em suas publicações, o Portal SciAdvances tem o único objetivo de divulgação científica, tecnológica ou de informações comerciais para disseminar conhecimento. Nenhuma publicação do Portal SciAdvances tem o objetivo de aconselhamento, diagnóstico, tratamento médico ou de substituição de qualquer profissional da área da saúde. Consulte sempre um profissional de saúde qualificado para a devida orientação, medicação ou tratamento, que seja compatível com suas necessidades específicas.
Autores/Pesquisadores Citados
Instituições Citadas
Mais Informações
Acesse a notícia original completa na página da Escola Politécnica Federal de Lausanne (em inglês).
Leia também:

Universidade Técnica de Munique
Universidade de Quioto
Universidade de Barcelona