Пятница, 5 Сентября 2025
Лучшие входные данные для нейросети это 2 токена: 0 и 1. Первый слой должен быть нейросеть токенизатор. Именно нейросеть. ИИ сама должны придумывать токены. Она должна придумывать единичный токен для очень долгих последовательностей. Только в этом случае получится сделать настоящее планирование. То есть она должна рассуждать в разных точках токенного пространства. Например:
- Я сьел булочку - я сыт.
- Была мной булочка сьета, и я насытился.
- Ах сьеденная булочка мной насытила меня.
Высказывания разные, но должны каждый создать 3 токена: булочка, сьел, сыт. В таком случае, даже если изначальная последовательность будет очень большой, миллионы токенов, но ее можно свести до 100 токенов, в таком случае можно делать долгосрочное планирование в пространстве смысловых токенов. По сути речь это попытка нашего мозга создать смысловые токены. Мозг точно умеет их создавать и мы мыслим по сути этими урезанными смысловыми токенами. Куча визуальной, аудио и сенсорной информации может описываться одним смысловым токеном. Например яблоко. И высказывание яблоко сьедено мной. 3 смысловых токена. Миллионы токенов контекста. Обоняние, осязание, зрение, вкус, слух, все сенсоры посылали чистый инпут, по сути 0 и 1, но наш мозг обьединил эти миллионы если не миллиарды 0 и 1 в один токен - яблоко. То есть тысячи обсалютно разных последовательностей, все замапились на один токен яблоко. Также со словом сьедено. Также тысячи обсалютно разных токенов с абсолютно разных сенсоров в нашем теле, все замапилось на один токен сьедено.
В общем, сделать механизм, когда нейросеть сможет получать 0 и 1 на вход и выдавать токен - это один из основных частей которые как я понимаю еще не заимплеменчены. А по этим токенам можно учить уже следующую нейросеть. По сути это как слоеный пирог из нейросетей, где токен одной это входной токен в другую. А 0 и 1 - это входные данные сенсоров, по сути не нужно даже указывать какой это сенсор: аудио, видео, обоняние, осязание и тд. Нейросеть токенизатор должна сама понять это основываясь на данных. Вроде у некоторых людей существует даже такая особенность, когда их нейросеть дает сбой и они начинают видеть звуки, или слышать цвета. По сути если все будет только 0 и 1, то это и есть настоящая мультимодальная система.