A Apple treinou modelos de IA compactos para descrever imagens melhor do que seus concorrentes maiores

08.04.2026 19 software

Apple revela nova tecnologia “RubiCap” para descrição de imagens

Os cientistas da Apple criaram um método chamado *RubiCap*, que permite a pequenos modelos de IA gerar descrições mais precisas e detalhadas das imagens do que os equivalentes em grande escala.

Como funciona o RubiCap
1. Análise da imagem

Para criar um texto detalhado, o modelo primeiro reconhece múltiplos objetos e áreas na cena. Isso fornece uma compreensão profunda da composição, ao invés de uma descrição superficial.

2. Valor prático

Essas habilidades são úteis para treinar modelos de IA filhos, geradores de imagens a partir de texto e funções especializadas (por exemplo, melhoria de conteúdo visual).

3. Problema de recursos

Abordagens tradicionais de treinamento de sistemas de descrição detalhada exigem grandes custos computacionais tanto na fase inicial quanto no aprendizado por reforço subsequente.

Metodologia experimental
- Seleção de imagens – 50 000 fotos foram escolhidas aleatoriamente dos conjuntos *PixMoCap* e *DenseFusion‑4V‑100K*.

- Geração de descrições – foram usadas modelos existentes de visão computacional: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT e Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, além dos modelos em treinamento da Apple.

- Avaliação de qualidade – Gemini 2.5 Pro atuou como especialista: analisava as descrições, identificava coincidências e erros, formulando critérios claros de avaliação.

- Avaliação do júri – o modelo Qwen 2.5‑7B‑Instruct atribuía pontuações a cada critério e gerava um sinal de recompensa para o modelo em treinamento.

Resultados
- O modelo em treinamento recebia feedback específico, permitindo melhorar rapidamente a precisão das descrições sem depender de uma única resposta “correta”.

- Em seguida, a Apple criou três modelos próprios: RubiCap‑2B, RubiCap‑3B e RubiCap‑7B (respectivamente 2, 3 e 7 bilhões de parâmetros).

- Nos testes de descrição de imagens, o RubiCap superou os concorrentes com 32 milhões e até 72 milhões de parâmetros. Em alguns casos, o RubiCap‑3B apresentou melhores resultados que o RubiCap‑7B, confirmando que o tamanho do modelo nem sempre garante melhor desempenho.

Assim, a tecnologia RubiCap demonstra como alcançar alta qualidade na descrição de imagens com menos recursos e treinamento mais eficiente.

A Apple treinou modelos de IA compactos para descrever imagens melhor do que seus concorrentes maiores

Related news

O Google Gemini atingiu 750 milhões de usuários ativos mensais, deixando o ChatGPT apenas ligeiramente atrás do líder.

A Nothing apresentou a versão beta do Essential Apps — uma plataforma para criar mini-aplicativos usando inteligência artificial

A Microsoft explicou por que as contas do VeraCrypt e de outros serviços abertos foram bloqueadas — devido à negligência de seus criadores

O aplicativo Meta✴ AI ocupou o quinto lugar na App Store após o lançamento do Muse Spark

Comentários (0)

Faça login para comentar

A Apple treinou modelos de IA compactos para descrever imagens melhor do que seus concorrentes maiores

Related news

O Google Gemini atingiu 750 milhões de usuários ativos mensais, deixando o ChatGPT apenas ligeiramente atrás do líder.

A Nothing apresentou a versão beta do Essential Apps — uma plataforma para criar mini-aplicativos usando inteligência artificial

A Microsoft explicou por que as contas do VeraCrypt e de outros serviços abertos foram bloqueadas — devido à negligência de seus criadores

O aplicativo Meta✴ AI ocupou o quinto lugar na App Store após o lançamento do Muse Spark

Faça login para comentar

O aplicativo Meta✴ AI ocupou o quinto lugar na App Store após o lançamento do Muse Spark