OpenAI только что представила впечатляющие обновления для аудио и речи в своем API. Теперь это не просто синтез или распознавание речи, а возможность буквально управлять интонацией и настроением речи, выбирая подходящий «vibe».
Сам попробовал демо на OpenAI.fm и был поражен: голос звучит невероятно естественно, а возможность на лету выбрать настроение речи — это нечто совершенно новое.
Что это значит? Скоро голосовые помощники перестанут звучать «роботизированно». Теперь у любого приложения есть шанс заговорить не хуже, чем живой человек, и даже тонко выражать эмоции.
Попробовать самому можно здесь: https://www.openai.fm
Документация и API: https://platform.openai.com/docs/guides/audio
P.S. Не знаю как у вас, у меня на последнюю неделю вернулось ощущение "все это слишком быстро развивается и становится понастоящему страшным". Разделяете ощущения?
