O Google reduziu o consumo de memória das modelos de IA em seis vezes, mantendo a precisão, graças ao algoritmo TurboQuant

Resumo

O Google Research apresentou uma nova forma de comprimir o KV‑cache de grandes modelos de linguagem – TurboQuant. O algoritmo reduz a precisão do cache para 3 bits (4 bits, se incluir correção de erros), sem degradar a acurácia das respostas e sem treinamento adicional. Nos aceleradores Nvidia H100, TurboQuant aumentou em 8 vezes o desempenho na computação dos logits de atenção e reduziu o tamanho do KV‑cache seis vezes.

O que é o KV‑cache e por que ele importa
* O KV‑cache armazena as chaves (K) e valores (V) obtidos durante o cálculo do mecanismo de atenção.
Isso permite que o modelo não recalcule esses vetores em cada passo da geração de tokens.
* Quando a janela de contexto aumenta, o cache cresce exponencialmente, resultando em altos custos de memória.
* Métodos tradicionais de quantização reduzem o tamanho do cache, mas exigem armazenamento de constantes de quantização (dicionários), semelhantes a ZIP/RAR.
Esses dicionários geram despesas significativas.

Como funciona TurboQuant
TurboQuant consiste em duas etapas e elimina completamente os dicionários.

Etapa	O que é feito	Por que isso importa
1. PolarQuant	Conversão de vetores de coordenadas cartesianas para polares (raio + ângulo).	As distribuições angulares são previsíveis e concentradas, então não há necessidade de um caro passo de normalização em cada bloco. Resulta em compressão de alta qualidade sem dicionários.
2. Camada de correção de erros de 1 bit	Aplica o algoritmo quantizado Johnson‑Lindenstrauss; o erro residual é reduzido a um único bit.	Elimina o viés sistemático nos cálculos de atenção com custos adicionais mínimos.

Resultados práticos
Teste | Algoritmos | Resultados
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: compressão mínima de 6× do KV‑cache; em tarefas de busca “agulha no palheiro” – sem perda de acurácia. Em LongBench – igual ou melhor que o KIVI.
Busca vetorial (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Mesmo sem treinamento, TurboQuant superou concorrentes treinados em qualidade de resultados e consumo de memória.

Conclusões
* TurboQuant oferece compressão forte do KV‑cache até 3–4 bits sem perda de acurácia e sem treinamento adicional.
* O desempenho no Nvidia H100 aumentou 8 vezes, e o tamanho do cache diminuiu seis vezes.
* O algoritmo funciona tanto para grandes modelos de linguagem quanto para tarefas de busca vetorial, sem necessidade de ajuste fino.

Assim, TurboQuant está pronto para uso prático mesmo sob alta carga e abre novas possibilidades para trabalhar eficientemente com grandes modelos.

O Google reduziu o consumo de memória das modelos de IA em seis vezes, mantendo a precisão, graças ao algoritmo TurboQuant

Related news

O Apple‑Car poderia ficar assim: a Ferrari apresenta o interior do carro elétrico Luce, desenvolvido por Johnny Aiv.

As vendas de Mortal Kombat 1 ultrapassaram 8 milhões de cópias, mas o recorde do jogo anterior ainda está fora de alcance

A Tesla lançou uma campanha contra os métodos “enganadores” de ativação do piloto automático em regiões onde seu uso é proibido.

Nos próximos cinco anos, a demanda por memória deverá crescer mais de 600 vezes, segundo o chefe da Dell, impulsionada pelo aumento do uso de IA.

Comentários (0)

Faça login para comentar

O Google reduziu o consumo de memória das modelos de IA em seis vezes, mantendo a precisão, graças ao algoritmo TurboQuant

Related news

O Apple‑Car poderia ficar assim: a Ferrari apresenta o interior do carro elétrico Luce, desenvolvido por Johnny Aiv.

As vendas de Mortal Kombat 1 ultrapassaram 8 milhões de cópias, mas o recorde do jogo anterior ainda está fora de alcance

A Tesla lançou uma campanha contra os métodos “enganadores” de ativação do piloto automático em regiões onde seu uso é proibido.

Nos próximos cinco anos, a demanda por memória deverá crescer mais de 600 vezes, segundo o chefe da Dell, impulsionada pelo aumento do uso de IA.

Faça login para comentar

As vendas de Mortal Kombat 1 ultrapassaram 8 milhões de cópias, mas o recorde do jogo anterior ainda está fora de alcance