← На главную Воспоминания

Воскресенье, 11 Августа 2024

Решил поразмыслять над идеальным переводчиком, таким как мне бы хотелось. Переводчик должен быть аудио переводчиком. Идеальный переводчик, как я это вижу, это по сути актер озвучки с многоголосым переводом, как переводчик фильмов. Причем он должен точно копировать голос говорящего, убирать изначальную речь, но оставлять другие звуки, вроде проезжающей машины. Он должен слушать все что слышит человек, заглушать или полностью убирать речь на другом языке и пересоздавать речь на выбраном языке.

Идеальным устройством для этого будут наушники с шумоподавлением. При таком переводе нужно как можно быстрее начать переводить, идеально несколько миллисекунд, думаю до 300 миллисекунд с начала слушания до начала ответа будет самый раз. Из-за таких рамок, невозможно использовать интернет, нужно чтобы обработка либо велась в наушниках, либо на подключенном на проводе устройстве. Также переводчик должен быть всегда включен и сам понимать когда начать переводить. Из-за этого не использовать интернет вдвойне хорошая идея.

Что касается интерфейса, то должна быть возможность выбрать целевой язык на который переводить. Сам язык аудио с которого переводить должен быть понят из контекста. По сути единственное что человек должен выбрать - это язык на который переводить. Остальное переводчик должен делать сам, включая определения момента когда начать переводить.

Как первый шаг, можно попробовать сделать нейросеть которая бы переозвучивала фильмы и видео с ютюба.

По сути то что heygen переводчик делает, только видео губ это лишнее и нужно лучшее качество аудио, качество перевода и возможность запустить это на устройстве, чтобы переводить в режиме реального времени, и шумоподавление в наушниках, чтобы заглушать изначальную речь. Не знаю как сделана эта нейросеть, но скорей всего она переводит аудио в текст, переводит текст и из текста создает новое аудио. Если сделать нейросеть аудио в аудио, думаю качество будет лучше. Скорей всего удастся сохранить просодию изначальной речи, интонацию, ударение, темп, ритм, паузы, мелодику, тональность и другие особенности. Можно попробовать перевести Мистера Фримена Вадима Демчога на другие языки, и чтобы это все еще остался Мистер Фримен, со всеми его чертами речи.

Создавать датасет для такого переводчика думаю будет интересно, нужны билингвы, в идеале билингвы актеры озвучки, и очень много часов аудио.


Другие идеи: сделать хром экстеншн, который позволяет спрашивать страницу вопросы, используя локальную оламу


Интересная цитата: the value only comes when you deploy it and change existing operations