O Google reduziu o consumo de memória das modelos de IA em seis vezes, mantendo a precisão, graças ao algoritmo TurboQuant
Resumo
O Google Research apresentou uma nova forma de comprimir o KV‑cache de grandes modelos de linguagem – TurboQuant. O algoritmo reduz a precisão do cache para 3 bits (4 bits, se incluir correção de erros), sem degradar a acurácia das respostas e sem treinamento adicional. Nos aceleradores Nvidia H100, TurboQuant aumentou em 8 vezes o desempenho na computação dos logits de atenção e reduziu o tamanho do KV‑cache seis vezes.
O que é o KV‑cache e por que ele importa
* O KV‑cache armazena as chaves (K) e valores (V) obtidos durante o cálculo do mecanismo de atenção.
Isso permite que o modelo não recalcule esses vetores em cada passo da geração de tokens.
* Quando a janela de contexto aumenta, o cache cresce exponencialmente, resultando em altos custos de memória.
* Métodos tradicionais de quantização reduzem o tamanho do cache, mas exigem armazenamento de constantes de quantização (dicionários), semelhantes a ZIP/RAR.
Esses dicionários geram despesas significativas.
Como funciona TurboQuant
TurboQuant consiste em duas etapas e elimina completamente os dicionários.
| Etapa | O que é feito | Por que isso importa |
|---|---|---|
| 1. PolarQuant | Conversão de vetores de coordenadas cartesianas para polares (raio + ângulo). | As distribuições angulares são previsíveis e concentradas, então não há necessidade de um caro passo de normalização em cada bloco. Resulta em compressão de alta qualidade sem dicionários. |
| 2. Camada de correção de erros de 1 bit | Aplica o algoritmo quantizado Johnson‑Lindenstrauss; o erro residual é reduzido a um único bit. | Elimina o viés sistemático nos cálculos de atenção com custos adicionais mínimos. |
Resultados práticos
Teste | Algoritmos | Resultados
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: compressão mínima de 6× do KV‑cache; em tarefas de busca “agulha no palheiro” – sem perda de acurácia. Em LongBench – igual ou melhor que o KIVI.
Busca vetorial (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Mesmo sem treinamento, TurboQuant superou concorrentes treinados em qualidade de resultados e consumo de memória.
Conclusões
* TurboQuant oferece compressão forte do KV‑cache até 3–4 bits sem perda de acurácia e sem treinamento adicional.
* O desempenho no Nvidia H100 aumentou 8 vezes, e o tamanho do cache diminuiu seis vezes.
* O algoritmo funciona tanto para grandes modelos de linguagem quanto para tarefas de busca vetorial, sem necessidade de ajuste fino.
Assim, TurboQuant está pronto para uso prático mesmo sob alta carga e abre novas possibilidades para trabalhar eficientemente com grandes modelos.
Comentários (0)
Compartilhe sua opinião — por favor, seja educado e mantenha-se no tema.
Faça login para comentar