A Nvidia lançou o chip Groq 3 LPU, que acelera a inferência de modelos de IA até o nível de tokens.

Nvidia revela novas funcionalidades da plataforma Vera Rubin

Na conferência GTC deste ano, o CEO da Nvidia, Jensen Huang, anunciou a expansão da plataforma Vera Rubin. A base das novas capacidades é a propriedade intelectual adquirida da empresa Groq, e o chip *Groq 3 LPU* – um acelerador de inferência projetado para emitir tokens com alta velocidade e baixa latência – foi incorporado ao Rubin.

O que já existe no Vera Rubin
A plataforma consiste em seis componentes-chave que a Nvidia reúne em sistemas de rack e escala para grandes fábricas de IA:

Componente	Descrição
GPU Rubin	Placa gráfica com 288 GB HBM4
CPU Vera	Processador central
NVLink 6	Sistema de escalonamento intra-sistema
ConnectX‑9	Adaptador de rede inteligente
BlueField‑4	Processador de dados
Spectrum‑X	Switch de escalonamento inter-sistema com óptica integrada

O Groq 3 LPU agora foi adicionado como um novo bloco de construção que será usado na implantação de sistemas maiores.

Por que o Groq 3 LPU se destaca
A principal diferença é a arquitetura da memória. Enquanto a maioria dos aceleradores usa HBM como memória de trabalho, cada Groq 3 LPU contém 500 MB SRAM. Comparação:

Parâmetro	GPU Rubin (HBM4)	Groq 3 LPU (SRAM)
Capacidade	288 GB	0,5 GB
Largura de banda	~22 TB/s	até 150 TB/s

Para tarefas de inferência sensíveis à largura de banda, a vantagem da SRAM é evidente. É por isso que a Nvidia incluiu o Groq 3 no Rubin – para aumentar a velocidade de emissão de tokens.

Rack Groq 3 LPX
O rack contém 256 chips Groq 3 LPU, proporcionando:

- 128 GB SRAM
- 40 PB/s de largura de banda total
- 640 TB/s de interface intra-sistema

O vice-presidente de soluções hiper‑escaláveis, Ian Buck, descreveu esse rack como um coprocessador para o Rubin, destacando seu papel em aumentar a performance de decodificação em cada camada do modelo e token.

Impacto nos sistemas multiagentes
Buck observou que o Groq 3 LPX será um elemento chave para o futuro mercado de IA – sistemas multiagentes. Quando os agentes trocam dados diretamente, em vez de por meio de chat‑bots, as exigências de resposta mudam: de 100 tokens/s até mais de 1 500+ tokens/s.

Concorrentes e perspectivas
O texto menciona um concorrente – Cerebras, que usa o Wafer‑Scale Engine (WSE) com enorme SRAM para inferência de baixa latência. A OpenAI já empregou a Cerebras em seus modelos avançados graças à sua latência favorável.

Buck também observou que a introdução do Groq 3 LPU pode reduzir a dependência do acelerador Rubin CPX. Enquanto a Nvidia foca na integração do rack Groq 3 LPX com a plataforma, ambos os chips têm como objetivo fortalecer a inferência sem necessidade de grandes volumes de memória GDDR7.

Conclusão:

O novo chip Groq 3 LPU e seu rack LPX reforçam o Vera Rubin no segmento de inferência de baixa latência, abrindo caminho para sistemas multiagentes de IA mais rápidos e competindo com players como a Cerebras.

A Nvidia lançou o chip Groq 3 LPU, que acelera a inferência de modelos de IA até o nível de tokens.

Related news

O Google Gemini atingiu 750 milhões de usuários ativos mensais, deixando o ChatGPT apenas ligeiramente atrás do líder.

A Nothing apresentou a versão beta do Essential Apps — uma plataforma para criar mini-aplicativos usando inteligência artificial

A Microsoft explicou por que as contas do VeraCrypt e de outros serviços abertos foram bloqueadas — devido à negligência de seus criadores

O aplicativo Meta✴ AI ocupou o quinto lugar na App Store após o lançamento do Muse Spark

Comentários (0)

Faça login para comentar

A Nvidia lançou o chip Groq 3 LPU, que acelera a inferência de modelos de IA até o nível de tokens.

Related news

O Google Gemini atingiu 750 milhões de usuários ativos mensais, deixando o ChatGPT apenas ligeiramente atrás do líder.

A Nothing apresentou a versão beta do Essential Apps — uma plataforma para criar mini-aplicativos usando inteligência artificial

A Microsoft explicou por que as contas do VeraCrypt e de outros serviços abertos foram bloqueadas — devido à negligência de seus criadores

O aplicativo Meta✴ AI ocupou o quinto lugar na App Store após o lançamento do Muse Spark

Faça login para comentar

A Nvidia lançou o chip Groq 3 LPU, que acelera a inferência de modelos de IA até o nível de tokens.

O aplicativo Meta✴ AI ocupou o quinto lugar na App Store após o lançamento do Muse Spark