A Apple está desenvolvendo um assistente de IA próprio para o iPhone, capaz de iniciar aplicativos em nome do usuário
Apple desenvolve um agente de IA local compacto para trabalhar com interfaces do usuário
A Apple está trabalhando em um novo algoritmo – Ferret‑UI Lite, que pode “compreender” as interfaces dos aplicativos e interagir com elas em nome do usuário, mas tudo acontece no próprio dispositivo. O modelo tem 3 bilhões de parâmetros e em testes mostra resultados comparáveis ou até superiores a modelos maiores por até 24 vezes.
Origens do projeto
Em dezembro de 2023, uma equipe de nove pesquisadores publicou o trabalho FERRET: Refer and Ground Anything Anywhere at Any Granularity. Nele foi apresentada uma multimodalidade linguística que aprende com diferentes tipos de dados e consegue associar descrições textuais a partes específicas da imagem.
Desde então, a Apple expandiu a família de modelos Ferret:
| Modelo | Propósito |
|---|---|
| Ferretv2 | Versão base aprimorada |
| Ferret‑UI | MLLM especializado em interfaces móveis |
| Ferret‑UI 2 | Suporte a múltiplas plataformas e resolução mais alta |
O Ferret‑UI, em particular, resolve um dos problemas das grandes multimodalidades de linguagem (MLLM): elas têm dificuldade em reconhecer elementos da interface. O modelo adiciona “resolução arbitrária” sobre o Ferret, aumentando a detalhamento das imagens e usando recursos visuais aprimorados.
Novas conquistas
Recentemente, a Apple apresentou duas versões adicionais:
1. Ferret‑UI Lite – modelo leve com 3 bilhões de parâmetros, otimizado para execução local em dispositivos móveis.
2. Ferret‑UI 2 – versão expandida que suporta múltiplas plataformas e resoluções mais altas de capturas de tela.
A principal diferença do Ferret‑UI Lite em relação aos grandes modelos baseados em servidores é que ele mantém competitividade com requisitos computacionais significativamente menores.
Por que isso importa
A maioria dos agentes GUI existentes baseia-se em modelos fundamentais gigantes, porque suas capacidades de raciocínio e planejamento permitem resultados excepcionais na navegação por interfaces gráficas. No entanto, esses modelos são muito pesados para execução direta no dispositivo.
O Ferret‑UI Lite resolve essa questão ao combinar:
- Múltiplos componentes-chave e ideias do treinamento de LLMs pequenos;
- Dados reais e sintéticos de diversas áreas GUI;
- Técnicas de recorte dinâmico e otimização da qualidade da segmentação da interface;
- Ajuste fino controlado e aprendizado por reforço.
O resultado é um modelo que está praticamente à altura ou até supera os agentes GUI concorrentes maiores em tarefas de associação de baixo nível com elementos UI, compreensão do que acontece na tela, planejamento multi‑passo e autoanálise.
Comentários (0)
Compartilhe sua opinião — por favor, seja educado e mantenha-se no tema.
Faça login para comentar