🖥 Percepta встроили компьютер прямо внутрь трансформера
LLM умеют решать сложные математические задачи, но спотыкаются на простой арифметике. Команда Christos Tzamos из Percepta нашла способ это исправить - они буквально встроили виртуальную машину в веса модели.
Как это работает: программа подается как токены, и модель выполняет ее шаг за шагом через свои веса, выдавая результат токен за токеном. Никаких внешних инструментов - все вычисления происходят авторегрессивно внутри самого трансформера.
Главная проблема обычного attention - он слишком медленный для реальных вычислений. Percepta обошли это с помощью нового decoding path, который делает attention экспоненциально быстрее - почти постоянная работа на каждый токен. Результат - 30,000+ токенов в секунду на обычном CPU.
На практике модель выполняет программы на C (скомпилированные в WebAssembly) на протяжении миллионов шагов и решает самые сложные Sudoku со 100% точностью.