IA chinesa supera ChatGPT-4o

Novo modelo de inteligência artificial da Alibaba oferece novas funcionalidades no âmbito visual, superando concorrentes em diversos atributos.

01/09/20242 minutos
Salvar
ia-chinesa-supera-chatgpt-4o

A Alibaba Cloud, vertente de computação em nuvem do Alibaba Group Ltd. da China, anunciou na última quinta-feira (29) o lançamento de um novo modelo de inteligência artificial chamado Qwen2-VL, projetado para oferecer capacidades avançadas de compreensão visual e conversação multilíngue. Desenvolvido ao longo de um ano, a plataforma teve como base seu antecessor Qwen-VL e é capaz de entender e interagir com vídeos de alta qualidade.



Funcionalidades



De acordo com a empresa, o Qwen2-VL pode resumir conteúdos de vídeo, responder perguntas relacionadas a eles e manter uma conversa contínua em tempo real, funcionando como um assistente pessoal que utiliza informações diretamente extraídas dos vídeos. Em um exemplo demonstrado, o modelo foi capaz de descrever corretamente o conteúdo de um vídeo sobre a Estação Espacial Internacional, embora tenha cometido pequenos erros, como confundir roupas comuns com trajes espaciais.



Além disso, a ferramenta possui a capacidade de realizar chamadas de função e utilizar recursos baseados em visão, o que lhe permite acessar dados externos como status de voos, previsões meteorológicas e rastreamento de pacotes.



Melhorias



Uma das melhorias significativas da IA em relação ao seu predecessor é a continuidade do uso do modelo Vision Transformer (ViT), juntamente com o modelo de linguagem Qwen2. O ViT foi aprimorado para lidar simultaneamente com entradas de imagem e vídeo, utilizando cerca de 600 milhões de parâmetros. Ademais, o sistema agora suporta Resolução Dinâmica Nativa, permitindo que ele processe uma variedade arbitrária de taxa de quadros, ajudando na compreensão de dados textuais, visuais 2D e posicionais 3D ao mesmo tempo.



Superioridade



Mesmo com algumas limitações, a Alibaba destacou que o desempenho do Qwen2-VL superou benchmarks de muitos modelos fechados, como o GPT-4o da OpenAI e o Claude 3.5-Sonnet da Anthropic PBC. Assim, a empresa enxerga sua nova invenção como um passo importante em direção a IAs mais robustas, com planos de integrar mais recursos no futuro para criar um assistente "omni" capaz de raciocinar tanto com informações visuais quanto auditivas.



Confira todas as demonstrações e especificações do modelo aqui.


Fonte: GitHub



------------------------------------------------------------------------------------------------------------------------------



🚀 Gostou do conteúdo? Então continue lendo as principais notícias do mercado de IA.


📩 Assine a nossa newsletter e fique por dentro de tudo sobre a Inteligência Artificial.


Foto: GitHub (reprodução)

Salvar

Inscreva-se em nossa newsletter!

Receba semanalmente, atualizações, ferramentas, tutoriais e prompts em seu e-mail.