A Apple está desenvolvendo um assistente de IA próprio para o iPhone, capaz de iniciar aplicativos em nome do usuário

A Apple está desenvolvendo um assistente de IA próprio para o iPhone, capaz de iniciar aplicativos em nome do usuário

11 hardware

Apple desenvolve um agente de IA local compacto para trabalhar com interfaces do usuário

A Apple está trabalhando em um novo algoritmo – Ferret‑UI Lite, que pode “compreender” as interfaces dos aplicativos e interagir com elas em nome do usuário, mas tudo acontece no próprio dispositivo. O modelo tem 3 bilhões de parâmetros e em testes mostra resultados comparáveis ou até superiores a modelos maiores por até 24 vezes.

Origens do projeto
Em dezembro de 2023, uma equipe de nove pesquisadores publicou o trabalho FERRET: Refer and Ground Anything Anywhere at Any Granularity. Nele foi apresentada uma multimodalidade linguística que aprende com diferentes tipos de dados e consegue associar descrições textuais a partes específicas da imagem.

Desde então, a Apple expandiu a família de modelos Ferret:

ModeloPropósito
Ferretv2Versão base aprimorada
Ferret‑UIMLLM especializado em interfaces móveis
Ferret‑UI 2Suporte a múltiplas plataformas e resolução mais alta

O Ferret‑UI, em particular, resolve um dos problemas das grandes multimodalidades de linguagem (MLLM): elas têm dificuldade em reconhecer elementos da interface. O modelo adiciona “resolução arbitrária” sobre o Ferret, aumentando a detalhamento das imagens e usando recursos visuais aprimorados.

Novas conquistas
Recentemente, a Apple apresentou duas versões adicionais:

1. Ferret‑UI Lite – modelo leve com 3 bilhões de parâmetros, otimizado para execução local em dispositivos móveis.
2. Ferret‑UI 2 – versão expandida que suporta múltiplas plataformas e resoluções mais altas de capturas de tela.

A principal diferença do Ferret‑UI Lite em relação aos grandes modelos baseados em servidores é que ele mantém competitividade com requisitos computacionais significativamente menores.

Por que isso importa
A maioria dos agentes GUI existentes baseia-se em modelos fundamentais gigantes, porque suas capacidades de raciocínio e planejamento permitem resultados excepcionais na navegação por interfaces gráficas. No entanto, esses modelos são muito pesados para execução direta no dispositivo.

O Ferret‑UI Lite resolve essa questão ao combinar:

- Múltiplos componentes-chave e ideias do treinamento de LLMs pequenos;
- Dados reais e sintéticos de diversas áreas GUI;
- Técnicas de recorte dinâmico e otimização da qualidade da segmentação da interface;
- Ajuste fino controlado e aprendizado por reforço.

O resultado é um modelo que está praticamente à altura ou até supera os agentes GUI concorrentes maiores em tarefas de associação de baixo nível com elementos UI, compreensão do que acontece na tela, planejamento multi‑passo e autoanálise.

Comentários (0)

Compartilhe sua opinião — por favor, seja educado e mantenha-se no tema.

Ainda não há comentários. Deixe um comentário e compartilhe sua opinião!

Para deixar um comentário, faça login.

Faça login para comentar