A Apple treinou modelos de IA compactos para descrever imagens melhor do que seus concorrentes maiores

A Apple treinou modelos de IA compactos para descrever imagens melhor do que seus concorrentes maiores

19 software

Apple revela nova tecnologia “RubiCap” para descrição de imagens

Os cientistas da Apple criaram um método chamado *RubiCap*, que permite a pequenos modelos de IA gerar descrições mais precisas e detalhadas das imagens do que os equivalentes em grande escala.

Como funciona o RubiCap
1. Análise da imagem

Para criar um texto detalhado, o modelo primeiro reconhece múltiplos objetos e áreas na cena. Isso fornece uma compreensão profunda da composição, ao invés de uma descrição superficial.

2. Valor prático

Essas habilidades são úteis para treinar modelos de IA filhos, geradores de imagens a partir de texto e funções especializadas (por exemplo, melhoria de conteúdo visual).

3. Problema de recursos

Abordagens tradicionais de treinamento de sistemas de descrição detalhada exigem grandes custos computacionais tanto na fase inicial quanto no aprendizado por reforço subsequente.

Metodologia experimental
- Seleção de imagens – 50 000 fotos foram escolhidas aleatoriamente dos conjuntos *PixMoCap* e *DenseFusion‑4V‑100K*.

- Geração de descrições – foram usadas modelos existentes de visão computacional: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT e Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, além dos modelos em treinamento da Apple.

- Avaliação de qualidade – Gemini 2.5 Pro atuou como especialista: analisava as descrições, identificava coincidências e erros, formulando critérios claros de avaliação.

- Avaliação do júri – o modelo Qwen 2.5‑7B‑Instruct atribuía pontuações a cada critério e gerava um sinal de recompensa para o modelo em treinamento.

Resultados
- O modelo em treinamento recebia feedback específico, permitindo melhorar rapidamente a precisão das descrições sem depender de uma única resposta “correta”.

- Em seguida, a Apple criou três modelos próprios: RubiCap‑2B, RubiCap‑3B e RubiCap‑7B (respectivamente 2, 3 e 7 bilhões de parâmetros).

- Nos testes de descrição de imagens, o RubiCap superou os concorrentes com 32 milhões e até 72 milhões de parâmetros. Em alguns casos, o RubiCap‑3B apresentou melhores resultados que o RubiCap‑7B, confirmando que o tamanho do modelo nem sempre garante melhor desempenho.

Assim, a tecnologia RubiCap demonstra como alcançar alta qualidade na descrição de imagens com menos recursos e treinamento mais eficiente.

Comentários (0)

Compartilhe sua opinião — por favor, seja educado e mantenha-se no tema.

Ainda não há comentários. Deixe um comentário e compartilhe sua opinião!

Para deixar um comentário, faça login.

Faça login para comentar