A Apple treinou modelos de IA compactos para descrever imagens melhor do que seus concorrentes maiores
Apple revela nova tecnologia “RubiCap” para descrição de imagens
Os cientistas da Apple criaram um método chamado *RubiCap*, que permite a pequenos modelos de IA gerar descrições mais precisas e detalhadas das imagens do que os equivalentes em grande escala.
Como funciona o RubiCap
1. Análise da imagem
Para criar um texto detalhado, o modelo primeiro reconhece múltiplos objetos e áreas na cena. Isso fornece uma compreensão profunda da composição, ao invés de uma descrição superficial.
2. Valor prático
Essas habilidades são úteis para treinar modelos de IA filhos, geradores de imagens a partir de texto e funções especializadas (por exemplo, melhoria de conteúdo visual).
3. Problema de recursos
Abordagens tradicionais de treinamento de sistemas de descrição detalhada exigem grandes custos computacionais tanto na fase inicial quanto no aprendizado por reforço subsequente.
Metodologia experimental
- Seleção de imagens – 50 000 fotos foram escolhidas aleatoriamente dos conjuntos *PixMoCap* e *DenseFusion‑4V‑100K*.
- Geração de descrições – foram usadas modelos existentes de visão computacional: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT e Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, além dos modelos em treinamento da Apple.
- Avaliação de qualidade – Gemini 2.5 Pro atuou como especialista: analisava as descrições, identificava coincidências e erros, formulando critérios claros de avaliação.
- Avaliação do júri – o modelo Qwen 2.5‑7B‑Instruct atribuía pontuações a cada critério e gerava um sinal de recompensa para o modelo em treinamento.
Resultados
- O modelo em treinamento recebia feedback específico, permitindo melhorar rapidamente a precisão das descrições sem depender de uma única resposta “correta”.
- Em seguida, a Apple criou três modelos próprios: RubiCap‑2B, RubiCap‑3B e RubiCap‑7B (respectivamente 2, 3 e 7 bilhões de parâmetros).
- Nos testes de descrição de imagens, o RubiCap superou os concorrentes com 32 milhões e até 72 milhões de parâmetros. Em alguns casos, o RubiCap‑3B apresentou melhores resultados que o RubiCap‑7B, confirmando que o tamanho do modelo nem sempre garante melhor desempenho.
Assim, a tecnologia RubiCap demonstra como alcançar alta qualidade na descrição de imagens com menos recursos e treinamento mais eficiente.
Comentários (0)
Compartilhe sua opinião — por favor, seja educado e mantenha-se no tema.
Faça login para comentar