EN / RU / 🤖
← К эссе
· Эссе · 1 мин

CoLT5: Быстрые трансформеры с условными вычислениями

CoLT5 обрабатывает до 64000 токенов, что позволяет работать с большими текстами.

CoLT5: Faster Long-Range Transformers with Conditional Computation

Большое количество задач работы с текстом требуют обработки огромных размеров входных данных. Основная проблема в том, что работа с большими документами в трансформерах (тип нейронных сетей) дорогое удовольствие. Взяв за гипотезу, что не вся часть входных данных одинаково полезна, ученые построили сеть, способную обрабатывать до 64000 токенов (это порядка 100 листов). Это делает реалистичным обработку целых книг или больших статей.

Paper: https://arxiv.org/abs/2303.09752
Github: https://github.com/lucidrains/CoLT5-attention