A Nvidia observou que, graças às melhorias na arquitetura Blackwell, a redução de custos de inferência de redes neurais atingiu um nível decuplicado, e atribui o sucesso não apenas ao hardware.

Redução do custo de inferência na arquitetura Nvidia Blackwell

Os novos aceleradores Nvidia Blackwell permitem reduzir o preço de execução de sistemas de IA treinados em 4–10 vezes. Esses são dados publicados pela própria Nvidia. No entanto, sem melhorias concomitantes em software e infraestrutura, tal ganho não é alcançável.

Como foi possível obter uma redução significativa nos custos
Indicador | O que ajudou
---|---
Arquitetura Blackwell | Aceleradores
Modelos | Código aberto (MoE, NVFP4 e outros)
Plataformas | Baseten, DeepInfra, Fireworks AI, Together AI
Pilhas de software | Pipelines otimizados para baixa precisão

* A migração para o Blackwell dobra a eficiência em comparação com a geração anterior de aceleradores.
* O uso de formatos de baixa precisão (por exemplo NVFP4) reduz ainda mais os custos.

Exemplos práticos
Empresa | Tarefa | Resultado
---|---|---
Sully.ai | Saúde, modelos abertos no Baseten | 90 % de economia em inferência (redução de 10×), 65 % de redução no tempo de resposta. A automação de código e registros médicos economizou 30 milhões de minutos de trabalho.
Latitude (AI Dungeon) | Jogos, modelos MoE na DeepInfra | O custo da inferência por 1 milhão de tokens caiu de US$0,20 para US$0,05: primeiro com MoE (até US$0,10), depois com NVFP4.
Sentient Foundation | Chat de agente, Fireworks AI | Eficiência econômica aumentou entre 25–50 %. A plataforma processou 5,6 milhões de solicitações por semana sem aumento de latência.
Decagon | Suporte ao cliente por voz, Together AI | O custo da solicitação diminuiu seis vezes graças à pilha multimodelo no Blackwell. Tempo de resposta <400 ms mesmo com milhares de tokens.

Por que as características da carga de trabalho são importantes
* Modelos racionais geram mais tokens, exigindo aceleradores mais potentes.
* As plataformas utilizam *serviço desagregado*: contexto prévio separado e geração de tokens para lidar eficientemente com sequências longas.
* Em volumes grandes de geração pode-se alcançar até 10 vezes a eficiência; em menores, apenas até 4 vezes.

Alternativas ao Blackwell
A migração para aceleradores AMD Instinct MI300, Google TPU, Groq ou Cerebras também reduz custos. O ponto chave é escolher a combinação certa de hardware, software e modelos para a carga de trabalho específica, não apenas usar o Blackwell.

Conclusão:

A redução do custo da inferência é alcançada por uma abordagem integrada: poder computacional (Blackwell), modelos abertos, pilhas otimizadas e distribuição adequada das tarefas. Isso permite que as empresas economizem até dez vezes em saúde, jogos, IA de agente e suporte vocal sem perda de qualidade ou velocidade.

A Nvidia observou que, graças às melhorias na arquitetura Blackwell, a redução de custos de inferência de redes neurais atingiu um nível decuplicado, e atribui o sucesso não apenas ao hardware.

Related news

O Apple‑Car poderia ficar assim: a Ferrari apresenta o interior do carro elétrico Luce, desenvolvido por Johnny Aiv.

As vendas de Mortal Kombat 1 ultrapassaram 8 milhões de cópias, mas o recorde do jogo anterior ainda está fora de alcance

A Tesla lançou uma campanha contra os métodos “enganadores” de ativação do piloto automático em regiões onde seu uso é proibido.

Nos próximos cinco anos, a demanda por memória deverá crescer mais de 600 vezes, segundo o chefe da Dell, impulsionada pelo aumento do uso de IA.

Comentários (0)

Faça login para comentar

A Nvidia observou que, graças às melhorias na arquitetura Blackwell, a redução de custos de inferência de redes neurais atingiu um nível decuplicado, e atribui o sucesso não apenas ao hardware.

Related news

O Apple‑Car poderia ficar assim: a Ferrari apresenta o interior do carro elétrico Luce, desenvolvido por Johnny Aiv.

As vendas de Mortal Kombat 1 ultrapassaram 8 milhões de cópias, mas o recorde do jogo anterior ainda está fora de alcance

A Tesla lançou uma campanha contra os métodos “enganadores” de ativação do piloto automático em regiões onde seu uso é proibido.

Nos próximos cinco anos, a demanda por memória deverá crescer mais de 600 vezes, segundo o chefe da Dell, impulsionada pelo aumento do uso de IA.

Faça login para comentar

As vendas de Mortal Kombat 1 ultrapassaram 8 milhões de cópias, mas o recorde do jogo anterior ainda está fora de alcance