Среда, 15 Мая 2024
Текущая цель звучит так "В мире 7,117 языков. Моя цель создать языковую ИИ модель, которая сможет говорить на всех."
Кризис цели. Что считать языком. Некоторые языки отличаются друг от друга меньше, чем диалекты одного языка или даже чем один и тот же язык разных людей. Похоже язык - это одно из тех понятий которое интуитивно понятно, но если попытаться точно обозначить что такое язык, где заканчивается один язык и начинается другой, тут же понимаешь что у разных людей разное мнение, то есть по сути границы нет. Даже кажется что у каждого человека свой язык. Мой русский содержит много англицизмов, но не я тут один такой, в русском и так уже много заимствований из греческого или француского сделано до меня. Мой английский использует много конструкций из русского языка при построении предложений, как будто это русский в который ввентили английские слова. Если еще учесть сколько в моем русском слов из польского и белорусского, и трасянки, получается такое месиво что это чудо что меня кто-то понимает. Похоже даже свой язык я не могу отнести к чистому русскому. Я могу назвать это диалектом, но если экстраполировать, по сути каждый человек имеет свой уникальный диалект, в зависимости где он жил, какие языки учил, какие фильмы/песни/книги смотрел слушал и читал, на какой работе работал. Мы можем придумать один стандарт и учить детей одному стандарту, но если мы перестанем это делать, все опять будет стремится к тому что у каждого человека будет уникальный набор предложений которые они понимают и могут говорить.
Я думаю стоит отказать от понятия что язык это что-то коллективное и принять что язык это индивидуальная вещь. У каждого человека есть запомненый набор предложений который он может понимать и создавать. Он может совпадать с набором другого человека, на какой-то процент, чем процент выше тем человек будет казаться ближе в языковом плане. Но он никогда не будет 100%, чтобы можно было сказать что оба человека говорят на одном языке. Всегда будет что-то вроде эти два человека говорят на 98% одинаково и могут друг друга хорошо понимать, или на 60% и понимать с большего, или на 10% и понимать и говорить через пень колоду.
Чем ближе пережитой опыт людей, тем больше будет процент совпадений между людьми, но не 100%. У государств с единой языковой политикой будет большой процент совпадений, а также у субкультур, у профессионалалов в разных областях, у регионов/городов/деревень/общин будет некий сходный набор.
Идальный ии должен слушать человека и понимать сколько предложений человек знает, по тому что ии услышит, ии может понять к какой группе человек относится, его субкультуру, профессию, возраст, где вырос, его интересы, хоби и желания.
Идея для приложения знакомств. Идеальный матч по языку который люди используют. Чем больше одинаковых предложений, тем ближе пережитой опыт. Главное чтобы это приложение не начало рекомендовать братьев и сестер :)
Лучшая цель это не ии который говорит на 7,117 языков. А ии, который говорит на персональном языке каждого, слушая его и подстраиваясь под то что человек знает. Также этот ии должен давать возможность человеку обогощать словарный запас человека, рассказывая и обучая его новому, но в режиме обучения, не в режиме взаимодействия.
Новая цель - "Моя цель создать языковую ИИ модель, которая сможет говорить на языке каждого."
И начну с себя, обучу ии говорить на своем русско-польско-белоанглийском
Также не нужно зацикливаться что язык это текст. Это может быть звук, изображения, даже движение рук и моргание лампочки. Стоит делать что то универсальное. Думаю изображение/картинка - это универсальное представление данных. Звук можно превратить с спектограмму без потери информации, движение и моргание на по себе визуальные образы. Текст тоже визуальный образ.
В таком виде можно выразить что язык - это определенная последовательность пискелей, типо входных данных для нейросети человека, которые нейросеть человека превратит в другие выходные данные, которые потом наш ии примет как входные. Замкнутый круг обработки данных.
Думаю тут как раз пригодится большой набор данных. Чем больше ии уже знает предложений, тем легче ей будет понять по речи человека кто перед ии, и легче подстроится под человека.
Думаю супер полезным для человекчества будет создать универсальную тысячу, универсальный н-ный набор понятий, которые понимает каждый человек, универсальный набор знаков, необходимый для базового общения. И ии может научить этим знакам каждого человека. Что-то вроде есперанто, только вкрученый в каждый уже существующий язык каждого человека