A Xiaomi desenvolveu um modelo de IA com 4,7 bilhões de parâmetros, combinando percepção visual, fala e controle para robôs.

A Xiaomi desenvolveu um modelo de IA com 4,7 bilhões de parâmetros, combinando percepção visual, fala e controle para robôs.

10 hardware

Xiaomi entra no mercado de robótica

O gigante chinês de dispositivos móveis e casas inteligentes, conhecido como Xiaomi, anunciou um novo passo: o desenvolvimento de seu próprio modelo de inteligência artificial para robôs. A empresa apresentou a Xiaomi‑Robotics‑0, um sistema de código aberto que combina reconhecimento visual, compreensão da linguagem e controle de ações em tempo real. O modelo possui 4,7 bilhões de parâmetros e já estabeleceu vários recordes tanto em simulações quanto na prática.

Como funciona o modelo
O robô normalmente passa pelo ciclo “percepção → decisão → ação”. A Xiaomi‑Robotics‑0 equilibra a compreensão ampla da situação com o controle preciso da motricidade graças à arquitetura Mixture‑of‑Transformers (MoT).

1. Modelo visual-linguístico (VLM) – o “cérebro” do sistema.
* Treinado para interpretar comandos, mesmo os vagos (“por favor, dobre a toalha”).
* Compreende relações espaciais com base em imagens de alta qualidade.
* Tarefas: detecção de objetos, respostas a perguntas visuais e raciocínio lógico.

2. Especialista em ações (Action Expert) – gerador de movimentos.
* Baseado em um transformador difusivo (DiT).
* Não gera uma ação por vez; forma sequências de ações através da correspondência de fluxos, garantindo fluidez e precisão.

Aprendizagem sem perda de compreensão
VLMs comuns perdem parte de suas habilidades perceptivas ao serem treinados em tarefas físicas. A Xiaomi resolveu esse problema treinando simultaneamente o modelo com dados multimodais (imagem + texto) e dados de ação. O processo de treinamento consiste em várias etapas:

1. Proposição de ações – o VLM prevê distribuições possíveis de ações sobre as imagens, sincronizando a representação interna com operações reais.
2. Em seguida, o VLM “desliga”, e o DiT passa por um treinamento separado para gerar sequências precisas a partir do ruído, baseando-se em características-chave, não em tokens de linguagem.

Minimização de atrasos
Para eliminar pausas entre as previsões do modelo e os movimentos reais do robô, utiliza‑se entrega assíncrona: cálculos de IA e ações do robô são separados. Isso permite que os robôs se movam continuamente mesmo quando há necessidade de cálculo adicional.

* Clean Action Prefix – método de retorno da ação previamente prevista, garantindo fluidez sem sobressaltos.
* Máscara de atenção foca na sequência visual atual, ignorando estados anteriores, tornando o robô mais responsivo a mudanças súbitas no ambiente.

Resultados
Em ambientes simulados LIBERO, CALVIN e SimplerEnv, a Xiaomi‑Robotics‑0 superou cerca de 30 concorrentes. Em um robô real com dois manipuladores, o modelo lidou com sucesso com tarefas complexas: dobrar toalhas, desmontar um brinquedo de montar. O robô demonstrou coordenação estável entre mãos e olhos, manipulando objetos de forma igualmente eficaz em diversos cenários.

Assim, a Xiaomi não apenas expandiu seu portfólio de produtos, mas também lançou as bases para pesquisas futuras na área de “inteligência física” dos robôs.

Comentários (0)

Compartilhe sua opinião — por favor, seja educado e mantenha-se no tema.

Ainda não há comentários. Deixe um comentário e compartilhe sua opinião!

Para deixar um comentário, faça login.

Faça login para comentar