rvachev.orgEN / RU / 🤖
← К эссе
· Эссе · 1 мин

Ошибки и самокоррекция в LLM

LLM не исправляет себя на лету, в отличие от человека. Интересно, как можно натренировать модель для самокоррекции.

Пока писал после тяжелой недели сообщени и пару раз на лету исправлял его, так как допустил ошибки (а-ля написал кофе, вместо вино) подумал, что в отличии от человека LLM не исправляет себя на лету в формате «ой, не так».

Связано это с тем, что модель каждый раз предсказывает следующий токен, но никак не влияет на предыдущий. Да, можно прогнать весь результат потом еще раз через модель, но это не совсем то, что делает человек.

Было бы интересно попробовать натренировать/нафайнтюнить модель, которая иногда выдает токен «удалить последнее слово» и «удалить последнее предложение».

Что думаете?