Ошибки и самокоррекция в LLM

Пока писал после тяжелой недели сообщени и пару раз на лету исправлял его, так как допустил ошибки (а-ля написал кофе, вместо вино) подумал, что в отличии от человека LLM не исправляет себя на лету в формате «ой, не так».

Связано это с тем, что модель каждый раз предсказывает следующий токен, но никак не влияет на предыдущий. Да, можно прогнать весь результат потом еще раз через модель, но это не совсем то, что делает человек.

Было бы интересно попробовать натренировать/нафайнтюнить модель, которая иногда выдает токен «удалить последнее слово» и «удалить последнее предложение».

Что думаете?