CoLT5: Faster Long-Range Transformers with Conditional Computation
Большое количество задач работы с текстом требуют обработки огромных размеров входных данных. Основная проблема в том, что работа с большими документами в трансформерах (тип нейронных сетей) дорогое удовольствие. Взяв за гипотезу, что не вся часть входных данных одинаково полезна, ученые построили сеть, способную обрабатывать до 64000 токенов (это порядка 100 листов). Это делает реалистичным обработку целых книг или больших статей.
Paper: https://arxiv.org/abs/2303.09752
Github: https://github.com/lucidrains/CoLT5-attention