Lançamento de um modelo de IA em um antigo PDP-11: um entusiasta utilizou uma CPU de 6 MHz e 64 KB de RAM
Veterano da Microsoft demonstra o funcionamento de um transformador em um computador antigo
*Dave Plummer – conhecido desenvolvedor do Windows,*
*mostra que modelos de IA modernos podem ser treinados mesmo em equipamentos com décadas de idade.*
O que foi feito
- Equipamento: PDP‑11 / 44, computador de 47 anos com processador de 6 MHz e 64 KB de RAM.
- Modelo: “Attention 11” – rede transformadora escrita em assembly do PDP‑11 por Damien Buret.
- Tarefa de treinamento: construir a sequência inversa de oito números.
O modelo não precisa memorizar exemplos; ele deve aprender a regra de “inversão” da sequência.
Como funciona
1. Inicialização – o modelo começa com pesos aleatórios, precisão quase zero.
2. Treinamento – em cada passo é executada uma passagem direta (ponto fixo de 8 bits) e atualização dos pesos.
3. Aprendizado gradual do padrão – após algumas centenas de iterações o mecanismo de atenção “descobre” a regra, e o modelo passa de adivinhação para conhecimento real.
> “Observamos a anatomia simplificada da própria aprendizagem… a máquina acaba cruzando uma linha invisível — de adivinhação ao conhecimento.” – Plummer
Resultados
- Precisão: 100 % na tarefa de sequência inversa.
- Velocidade: cerca de 350 passos de treinamento, o que levou ~3,5 minutos no PDP‑11/44 com cache.
O que isso significa para a IA moderna
Plummer enfatiza que os princípios fundamentais do aprendizado – operações aritméticas repetitivas e correção de erros – são totalmente implementados mesmo em um sistema tão simples.
“Esta máquina antiga não pensa misticamente; ela simplesmente atualiza alguns milhares de números. A essência da IA moderna é escalar esse processo.”
Assim, o autor provou que o mecanismo básico dos transformadores permanece o mesmo, independentemente do hardware em que operam.
Comentários (0)
Compartilhe sua opinião — por favor, seja educado e mantenha-se no tema.
Faça login para comentar