|
Professor Seleznov
|
 Помните то самое платье?
В 2015 году интернет раскололся пополам: одни клялись, что оно бело-золотое, другие — мол, сине-черное. Люди ругались в комментах, крутили яркость на мониторе, а самые умные врубали пипетку в Paint. Само платье, кстати, оказалось сине-черным, но дело вообще не в этом. Проблема в том, что двое условных человека смотрели на одни и те же пиксели и видели разные цвета. Не интерпретировали по-разному, не спорили о вкусах — буквально видели разное. И оба лагеря не ошибались: сетчатка у всех отрабатывала штатно, а дальтонизм тут вообще ни при чем (поскольку речь не об оттенках одного цвета). Последние лет двадцать нейронаука потихоньку сходится на одной неуютной идее: вы никогда не видели реальность напрямую. Ни платье, ни эту статью, ни собственные руки. Все, что вы воспринимаете прямо сейчас, догадка вашего мозга о том, что, вероятно, находится снаружи. Образованная догадка, обычно очень точная, но все же догадка. Эта концепция называется байесовским мозгом, и я хочу о ней рассказать. Потому что, во-первых, она красиво объясняет кучу странных вещей: от оптических иллюзий до галлюцинаций и эффекта плацебо. А во-вторых, ровно по такому же принципу работает половина современного машинного обучения. Stable Diffusion, которая дорисовывает картинку из шума, Языковые модели, которые предсказывают следующее слово. Автоэнкодеры, world models, диффузионки — все это, если снять маркетинговую обертку, машины, которые делают то же самое, что и ваш мозг прямо сейчас. Гадают. Так что начнем с мозга, а закончим нейросетями, и по дороге, надеюсь, вы начнете чуть меньше доверять собственным глазам.
Содержание
- Как мозг угадывает мир
- Гельмгольц в темноте
- Байес на пальцах
- Поток восприятия всегда идет сверху вниз
- Контролируемая галлюцинация
- Машины, которые предсказывают
- Общий знаменатель
- ИИ как микроскоп для нейронауки
- Плохие новости для метафоры
- Что остается
Как мозг угадывает мир Гельмгольц в темноте Представьте, что вас посадили в абсолютно темную комнату без окон и дверей. Вам запрещено выходить, а единственная связь с внешним миром — пучок проводов, торчащих из стены. По ним время от времени пробегают электрические импульсы. Ваша задача по импульсам понять, что происходит снаружи. Идет ли там дождь, стоит ли кто-то под окном, какого цвета небо и так далее. Звучит как завязка плохого сайфай-фанфика.
Но это ровно та ситуация, в которой находится ваш мозг прямо сейчас и, в принципе, всегда.
 Мозг наглухо заперт в черепной коробке, и у него фактически нет глаз или ушей, они снаружи. Все, что до него доходит, — электрохимические импульсы по нервным волокнам от сетчатки, по улитке уха, от рецепторов кожи. Сами импульсы при этом относительно одинаковые: маленькие всплески напряжения. Там нет ни цвета, ни звука, ни боли — все это мозг достраивает сам. Первым данную проблему всерьез сформулировал немецкий физик и физиолог Герман фон Гельмгольц еще в XIX веке.
Он назвал восприятие мозга бессознательным умозаключением. Мозг, по его мысли, решает задачу: по косвенным данным догадывается о причинах этих сигналов. Что во внешнем мире вероятнее всего вызвало именно такой паттерн импульсов?
По классике идея пролежала на полке примерно сто пятьдесят лет. Но чтобы понимать глубину вопроса, обратимся к еще более ранним зачаткам сегодняшней теории. Байес на пальцах В XVIII веке жил обычный английский священник, по совместительству любитель теории вероятностей, со звучным именем Томас Байес. Его теорема — кусок арифметики, который описывает, как рационально обновлять свои убеждения, получив новые данные. Если выразить это формулой получилось бы что-то вроде: Насколько стоит верить в гипотезу после получения новых данных = насколько мы в нее верили до + насколько эти данные в нее вписываются. Пример: вы лежите ночью в кровати — вдруг на кухне что-то шуршит. Гипотез две — кот или грабитель. До шуршания вы в грабителя особо не верили: район спокойный, дверь заперта, а вы живете тут десять лет, к тому же у вас есть кот, и он регулярно проверяет, не завалялось ли чего в миске. Поэтому ваша первая мысль — «кот шуршит». Это и есть байесовский вывод: вы скомбинировали априорные знания (priors) с новыми данными (в мою квартиру ночью обычно никто не лезет, а кот часто шара шуршит) и выбрали наиболее вероятное объяснение. Теперь поменяем вводные.
Тот же звук, но накануне по району прошла волна краж, соседи писали в чат, что прошлой ночью был странный звук, а утром пропал телевизор в гостиной, и вы легли спать встревоженным. Априорная вероятность грабителя резко выросла, и вдруг раздается шуршание на кухне. Тот же звук вы уже интерпретируете иначе: ноги холодеют, рука тянется к телефону. Восприятие оказалось другим, потому что мозг комбинирует сенсорный сигнал со своими ожиданиями. Это не баг, это единственный способ вообще что-то понять про мир: сам по себе звук многозначен, а ожидания подсказывают, какое из объяснений правдоподобнее. Байесовский мозг — гипотеза о том, что мозг проделывает такую операцию постоянно и на всех уровнях. От распознавания букв на экране до понимания намерений собеседника. Поток восприятия всегда идет сверху вниз Картина работы мозга по умолчанию выглядит так: сигнал входит через органы чувств, поднимается по иерархии зон коры (сначала простые признаки — линии, края; потом сложнее — формы; затем детали, лица и так далее), а как итог в финале появляется готовое восприятие. Снизу вверх — от данных к смыслу. Байесовский подход переворачивает эту картину практически наизнанку.
Основной поток информации в коре идет сверху вниз. Высокие уровни постоянно посылают нижним свои предсказания: «я ожидаю здесь увидеть край под таким углом», «я ожидаю здесь услышать продолжение фразы вот таким словом», «я ожидаю, что моя рука через полсекунды будет вот тут». Нижние уровни сравнивают эти предсказания с реальным сенсорным входом и отправляют наверх только ошибку. То есть то, что не совпало.
Если предсказание идеально совпало с сигналом — наверх не идет почти ничего. Мозг в этот момент работает в режиме «все по плану, продолжаем». Если совпало плохо, вверх летит ошибка и высокие уровни корректируют свою модель мира.
И это невероятно экономичная схема, которой позавидует любой высокоэффективный ЦОД. Мозгу не надо каждый миг заново строить картинку мира из пикселей — у него уже есть модель, он только сверяет ее с реальностью и обновляет по мере необходимости. Примерно как видеокодек, который передает не каждый кадр целиком, а только разницу между соседними кадрами. Отсюда можно сделать неприятный вывод. То, что вы сейчас «видите», — в основном, предсказание вашего мозга о том, что он должен видеть. Сенсорные данные только подправляют это предсказание там, где оно ошибается. Большую часть времени вы смотрите не на мир, а на собственную и хорошо откалиброванную модель мира.

Или как-то так Есть еще один важный параметр.
Мозг оценивает и то, чтоему сообщают сенсоры, но и насколько этому сообщению в принципе можно верить. В нейронауке это называется точностью (precision) — весом, с которым ошибка предсказания влияет на обновление модели. Интуитивно это легко представить. Вы идете по подозрительно темной улице, зрение работает плохо, и мозг автоматически снижает доверие к глазам, зато повышает доверие к слуху и к своим ожиданиям. Отсюда классическое ощущение, что в темноте «что-то мерещится»: мозг подставляет на место размытых сенсорных данных свои априорные знания и любой куст может на секунду стать зловещим человеком. Или другой пример.
Если вы очень ждете в гости друга и слышите чьи-то шаги на лестнице, вы скорее всего узнаете в этом звуке его шаги, даже если это соседский ребенок в подъезде. Большое ожидание получило большой вес, слабый сенсорный сигнал — маленький, и мозг склеил восприятие в пользу ожидания. Precision — это ручка громкости на каждом уровне иерархии. И, как мы увидим дальше, если эту ручку крутануть не туда, начинается интересное: от галлюцинаций до аутизма. И давайте соберем последний кусочек механики, чтобы сломать ваши представления уже окончательно. Если мозг постоянно минимизирует ошибку предсказания, у него есть два способа это делать:
- Первый — обновить модель под реальность. Это мы и называем восприятием: мир такой, какой он есть, я подстраиваю свои представления.
- Второй способ — изменить реальность под модель, то есть действовать.
Эта идея называется активным выводом (active inference), и звучит она странновато, пока не вдумаешься. Когда вы тянетесь к чашке кофе, ваш мозг, согласно теории, не посылает команду «двинуть рукой туда-то». Он предсказывает, что рука сейчас будет у чашки, а тело минимизирует ошибку между предсказанием и реальным положением руки, то есть двигается в нужную сторону. Движение — это ошибка предсказания, которую тело гасит, приводя себя к ожидаемому состоянию. Звучит как перевернутая логика, и у нее есть красивое следствие: восприятие и действие — одна и та же операция с разных сторон, а не два разных действия. Мозг все время что-то предсказывает и либо поправляет гипотезу, либо подправляет мир. Контролируемая галлюцинация Соберем все вместе. Мозг сидит в темноте черепа. У него есть накопленная модель мира: огромная свалка ожиданий, усвоенных за жизнь: как выглядят лица, как звучит речь, как ведет себя чашка, если ее уронить. На основе этой модели он постоянно предсказывает, что должно происходить на входе сенсоров. Сенсоры сообщают ошибки. Модель обновляется, а иногда мир подстраивается под модель через действие. Британский нейроученый Анил Сет предложил формулировку, которая, по-моему, лучше всего передает суть:
Восприятие — это контролируемая галлюцинация.
Галлюцинация — потому что картинка мира генерируется мозгом изнутри, а не приходит снаружи готовой. Контролируемая — потому что ее постоянно сверяют с сенсорным входом и не дают уйти в отрыв. Разница между обычным восприятием и, скажем, галлюцинацией шизофреника не в принципе работы, а в степени контроля. И тут возникает закономерный вопрос: а если мозг в основе своей — это машина, предсказывающая сенсорный вход и обновляющая внутреннюю модель мира по ошибкам?.. Не напоминает ли это кое-что еще? Машины, которые предсказывают Снова немножко истории, начала 1990-х. Джеффри Хинтон — тот самый, которого сейчас называют крестным отцом ИИ, который вместе с Питером Даяном и коллегами работает над вопросом, как нейросеть может научиться строить внутреннюю модель мира без учителя. То есть без размеченных данных или правильных ответов, как, по идее, учится мозг ребенка. И они пришли к архитектуре, которую называют машиной Гельмгольца, в честь того самого физика из XIX века. Объясняю идею. У сети идут два встречных потока:
- Один — снизу вверх, распознающий: он берет сырые данные (скажем, картинку) и пытается понять, какие скрытые факторы ее породили.
- Второй — сверху вниз, генеративный: он берет эти скрытые факторы и пытается восстановить из них исходные данные.
Сеть тренируют так, чтобы эти два потока согласовывались: если распознающая часть правильно поняла, что на картинке кот, то генеративная часть из кота должна уметь нарисовать похожую картинку. Механизм называется предиктивным кодированием, Модель учится не запоминать данные, а объяснять их, то есть находить причины, из которых они могли получиться. Ровно то, чем по Гельмгольцу занимается мозг. Гельмгольц-машина в свое время не выстрелила — тупо не хватило вычислительных мощностей и данных. Но, как видим, ее идейные потомки сейчас везде.
 Году в 2013-м выходит работа Кингма и Веллинга про вариационные автоэнкодеры (VAE) — прямое развитие той самой идеи, только уже на современном уровне. Принцип до смешного похож на предиктивное кодирование в мозге.
VAE — сеть, которая берет вход (картинку, звук, что угодно), сжимает его в маленькое внутреннее представление (несколько десятков чисел), а потом пытается из этих чисел восстановить исходный вход. Если восстановление получилось плохим, сеть считает ошибку и подкручивает веса. Что тут важно: эти несколько десятков чисел во внутреннем слое и есть модель мира, которую сеть построила сама. Она вынуждена сжать все существенное о картинке в компактную догадку, потому что пропускного канала мало, и именно в сжатии рождается понимание: сеть начинает выделять осмысленные оси вариаций — «ракурс»; «освещение»; «возраст лица» — потому что иначе не удастся потом все восстановить. Мозг делает, по сути, то же самое. Он не станет хранить все, что увидел за день, он хранит сжатую модель мира, из которой может при необходимости догенерировать детали. Когда вы закрываете глаза и представляете свою кухню, вы запускаете генеративную модель, а не воспроизводите фотографию. Теперь о самом зрелищном. Stable Diffusion, DALL-E, Midjourney — это диффузионные модели, с жутко байесовской логикой.
Диффузионные модели — это тип нейросетей, которые учатся создавать данные, чаще всего изображения, через обратный процесс шума. Модель сначала учится, как картинка постепенно превращается в случайный шум. А потом обучается делать обратное: брать шум и шаг за шагом «очищать» его, пока из хаоса не появится осмысленное изображение.
Когда вы просите у Stable Diffusion «астронавта верхом на лошади», сеть начинает с чистого шума и делает десятки итераций, на каждой из которых угадывает, как этот шум должен выглядеть чуть менее шумно, чтобы в итоге стать астронавтом на лошади. Это почти буквально то, что Анил Сет называет контролируемой галлюцинацией: модель генерирует картинку изнутри, опираясь на накопленные априорные знания о том, как выглядит мир, но направляется текстовой подсказкой, которая работает как ограничение. Параллель с мозгом тут, если честно, почти неприличная. Когда вы смотрите в темноте на смутный силуэт и узнаете в нем друга, вы делаете ровно то же самое. Берете зашумленный сенсорный вход, прогоняете через накопленную модель мира и шаг за шагом доводите до узнаваемого образа.

Быть может, это тоже диффузионные генерации, которые пока себя не проявили? Теперь о LLM. GPT и его родственники устроены так просто, что это даже кажется слишком простым для громкого слова ИИ (хотя и не ИИ это вовсе, маркетинг сделал свое дело): все, что они делают, — предсказывают следующий токен в последовательности. Миллиарды раз на терабайтах текста. И в принципе все. Но вот что нам любопытно: именно задача «предскажи следующее» заставляет модель выучить, по сути, модель мира. Чтобы правильно угадать следующее слово в фразе «чашка упала со стола и…», надо знать, что чашки падают вниз, а не вверх, что они обычно бьются, что это звучит как звон и что полетят осколки.
Предсказание следующего слова — предсказание того, как развивается мир.
Здесь начинается интересная заруба полемика. Одни исследователи (включая Анила Сета и часть лаборатории Фристона) считают, что LLM реализуют предиктивное кодирование в почти чистом виде, на языковом уровне. Другие возражают: мозг предсказывает сенсорный ввод, связанный с реальным телом в реальном мире, а LLM предсказывает токены, оторванные от всякого опыта. Это, мол, имитация предиктивного кодирования без его сути. Спор пока не решен, но сам факт, что он идет всерьез, кое о чем говорит. Идем далее по хронологии.
В 2018 году Дэвид Ха и Юрген Шмидхубер публикуют работу с лаконичным названием World Models. Идея: чтобы агент хорошо действовал в мире, ему надо сначала построить внутреннюю модель этого мира, а потом внутри этой модели тренироваться грезить о возможных будущих и учиться на этих грезах. Агент у них играл в видеоигры.
Сначала он просто смотрел, как мир себя ведет, и строил генеративную модель среды — такую же, по сути, как VAE, только умеющую предсказывать, что будет на следующем кадре. А потом агент отключался от настоящей игры и тренировался внутри собственной головы, на симуляциях, которые генерировала его же модель. И когда его возвращали в настоящую игру, там он уже умел в нее играть. Случилась практически буквальная реализация активного вывода первой главы этой статьи. Агент имеет модель мира, предсказывает последствия своих действий, выбирает действия так, чтобы прийти в ожидаемые состояния. И что еще ближе к мозгу: он учится частично «во сне», прогоняя сценарии во внутренней симуляции. Есть довольно настойчивая гипотеза, что именно этим занимается мозг во время сна: докручивает модели мира на сгенерированных данных. Общий знаменатель Если отойти на шаг назад и посмотреть на все эти архитектуры вместе (VAE, диффузионки, LLM, world models), видно ну примерно одно и то же. Все они так или иначе учатся генеративным моделям: внутренним представлениям о том, как устроены данные, из которых можно эти данные реконструировать, предсказывать или продолжать. Это ровно то, что предполагает байесовская теория про мозг. Мозг (повторю раз так пятый) — генеративная модель мира, которая предсказывает сенсорный вход и обновляется по ошибкам.
Машинное обучение последних пятнадцати лет — это в огромной степени построение таких же генеративных моделей, только в кремнии, без всяких биожидкостей.
Совпадение?
Да нет, конечно. Как мы видели, многие из этих архитектур выросли напрямую из попыток формализовать, как работает восприятие. Линия Гельмгольц — Хинтон — Кингма — Ха тянется непрерывно. ML в значительной части происходит от теорий мозга, а не просто на него похож. Но это палка о двух концах. Давайте посмотрим на обратное движение: как ИИ сегодня возвращает нейронауке инструменты для проверки ее собственных теорий и вдохновение. ИИ как микроскоп для нейронауки В этой статье я очевидно и старательно сближал мозг и нейросеть. Теперь попробуем разобраться, насколько близость настоящая и где она заканчивается. Потому что метафора — вещь опасная (тем более на Хабре): если ей слишком доверять, начинаешь путать «похоже» с «одно и то же». Начнем с хороших новостей (для метафоры). Последние лет десять нейробиологи, исследователи машинного обучения и ряд смежных инженеров обнаружили странную вещь: если взять нейросеть, обученную на какой-нибудь человеческой задаче (распознать объекты, понять речь, предсказывать следующее слово), и заглянуть под капот, ее внутренние представления окажутся похожими на то, что мы видим в мозге. Это превратилось в полноценное научное направление. Нейросеть используют как инструмент — примерно как микроскоп: обучаешь ее на задаче, смотришь, какие внутренние структуры у нее сложились, и сравниваешь с мозгом. Если совпадает — значит, эти структуры, вероятно, нужны для самой задачи, а не являются случайной особенностью биологии. Чтобы было понятно, о чем речь, расскажу про три линии исследований. Первая — зрительная кора и сверточные сети.В 2014 году группа Джима Дикарло в MIT опубликовала работу, которая многих удивила. Они взяли сверточные нейросети (CNN), натренированные на распознавание объектов в ImageNet, и сравнили их внутренние активации с записями от нейронов обезьян, которым показывали те же картинки. Сравнение шло по слоям: насколько активации слоя 1 сети похожи на активности в аналогичной зоне v1 мозга, насколько слой 5 похож на зону v5, и так далее. Оказалось, что соответствие поразительно близкое. Причем — ключевой момент — иерархия совпадает. Ранние слои сети коррелируют с ранними зрительными зонами мозга, поздние — с поздними. Никто специально не программировал сеть быть похожей на мозг, ее вообще обучали узнавать котиков от собак. А она самопроизвольно вырастила внутри себя что-то очень напоминающее биологический зрительный путь. Это сильный аргумент. Если две совершенно разных физических системы — 20-ваттная биологическая (столько потребляет мозг) и кремниевая на видеокартах — при решении одной и той же задачи сходятся к похожим внутренним представлениям — значит, эти представления, скорее всего, определяются самой задачей. Зрение устроено так, потому что распознавать объекты иначе трудно. Вторая линия — язык и LLM.В лаборатории Ури Хассона в Принстоне несколько лет занимаются тем, что сажают людей в МРТ-сканер, дают им слушать истории или подкасты — и одновременно прогоняют те же тексты через GPT-2 и подобные модели. А потом смотрят, насколько внутренние состояния LLM предсказывают активность мозга в языковых зонах. И в 2022 году опубликовали результаты исследований в Nature Neuroscience, и они, прямо говоря, ошеломительные. Внутренние представления LLM предсказывают активность в языковой коре лучше, чем любая другая модель, которую нейронаука пробовала до этого. Более того, у Хассона есть работы, показывающие, что мозг, «слушая» речь, как будто сам предсказывает следующее слово: в нем видна активность, соответствующая предсказанию, еще до того, как слово реально произнесено. А когда оно звучит — можно измерить ошибку предсказания в том же духе, как ее измеряют в LLM.
 Это ровно тот факт, который теоретики байесовского мозга предсказывали много лет. Просто раньше его было нечем измерять: нужно было иметь модель языка, которая реально что-то предсказывает. А теперь такая модель есть, и совпадение с мозгом до жути фантастическое. Третья линия — гиппокамп и world models.
Гиппокамп-зона, отвечающая за пространственную память и, по свежим теориям, за построение внутренних моделей мира в целом. В 2023-м вышло несколько работ (включая группу Тима Беренса в Оксфорде), где структуры, возникающие в искусственных моделях мира, сравнивают с активностью гиппокампа у грызунов и людей. И снова — похоже.
Модели мира — класс ИИ-систем, которые обучаются понимать физику, причинно-следственные связи и структуру окружающего мира для прогнозирования будущих состояний.
Раньше спорить о предиктивном кодировании было как спорить о стиле — аргументы выглядели чисто риторическими. Теперь можно взять модель, посмотреть, что у нее внутри, сравнить с мозгом и получить конкретное «да, похоже» или «нет, непохоже». Теперь плохие новости для метафоры Потому что у нее хватает серьезных ограничений. Энергия и масштабЧеловеческий мозг, как упоминал, работает на ~20 ваттах, как лампочка в вашем холодильнике. GPT-4 на инференсе ест сотни ватт на один запрос, а на обучении — мегаватты на протяжении месяцев. Если мозг и правда реализует предиктивное кодирование, он делает это в миллионы раз эффективнее, чем наши лучшие модели. Значит, либо архитектуры радикально разные, либо мы упускаем что-то важное, какой-то трюк биологии, который пока не воспроизвели. Тело
Байесовский мозг в исходной формулировке — это мозг, встроенный в тело, которому важно выжить. Активный вывод предполагает, что предсказания служат поддержанию организма в жизнеспособных состояниях: не умереть от голода, не упасть со скалы, найти партнера. У LLM и диффузионок ничего этого нет, они предсказывают токены или пиксели в вакууме, без привязки к выживанию и без последствий. А без тела и ставок на кону это не предиктивное кодирование в полном смысле, а только его вычислительная тень. Онлайн vs батчМозг учится непрерывно: каждый опыт чуть-чуть меняет модель, прямо сейчас, без перерыва. Большие модели учатся пакетно — их тренируют на гигантском датасете, потом веса замораживают, и модель уходит в эксплуатацию неизменной. GPT-4 не учится на ваших разговорах с ним. Это принципиально другой режим работы, и многие нейробиологи считают, что именно непрерывное обучение — то, без чего сравнивать мозг и LLM всерьез нельзя. Предиктивное кодирование — все еще гипотеза
Хочется напомнить важное: байесовский мозг и предиктивное кодирование — это пока теория, за которой стоит много косвенных данных. Есть школа нейронауки, которая считает, что корковые потоки сверху вниз не предсказания в техническом смысле, а что-то другое: внимание, модуляция, контекст. Точечное совпадение сетей с мозгом, аргумент в пользу теории, но не аксиома. Теорию еще предстоит проверить прямыми нейрофизиологическими экспериментами, а это медленно и дорого. Свободная энергия и теория всегоЗдесь уместно наконец сказать про Карла Фристона, главного современника теории байесовского мозга. Фристон обобщил идею до принципа свободной энергии: по его утверждению, любая живая система, которая сохраняет свою целостность во времени, обязана вести себя так, будто минимизирует ошибку предсказания. Это, мол, не свойство мозга, а свойство жизни как таковой. Принцип формализован через математику, и у Фристона огромная армия последователей. Но у него и не менее внушительная армия критиков.
Основная претензия: принцип настолько общий, что объясняет все, — а значит, не объясняет ничего. Любой наблюдаемый факт можно постфактум втиснуть в его рамку. А теория, которую нельзя опровергнуть, в принципе не научная теория, а философская позиция.
Спор не утихает, и я не возьмусь его решать. Но стоит сказать: когда вам встретится фраза «принцип свободной энергии объясняет сознание/эволюцию/жизнь», относитесь к ней с вдумчивой осторожностью. И главный пробел — сознаниеДаже если окажется, что мозг и LLM реализуют одну и ту же вычислительную схему, это ничего не говорит о том, есть ли у LLM что-то вроде опыта. Почему одна предиктивная система (ваш мозг) сопровождается субъективным переживанием (красным цветом, вкусом кофе, ощущением «я есть»), а другая (GPT-4), возможно, нет? Или все-таки да? На этот вопрос нет ни одного внятного ответа. Байесовская теория мозга хорошо объясняет, как устроено восприятие, но молчит о том, почему оно вообще субъективно. Это, кстати, ровно тот зазор, через который проваливается большинство наивных рассуждений «нейросеть думает как человек». Она может обрабатывать информацию похожим образом. Это не значит, что ей при этом что-то чувствуется. Что остается Если подводить черту: метафору мозга и нейросети не получится назвать ложной. Но она и не такая уютная, как хотелось бы. Связь между ними реальная, генеалогическая и местами даже количественная: одни и те же архитектуры, похожие внутренние представления, похожие ошибки. Не похоже на случайное сходство. Но отождествлять их — ошибка другого порядка.
Мозг — это байесовская машина, встроенная в тело, которому есть что терять, учащаяся все время, работающая на лампочке. Нейросеть — байесовская машина, живущая на видеокартах, обученная раз и замороженная без страха и голода. Обе угадывают мир, и делают это очень по-разному.-В самом начале я пообещал, что после этого текста вы будете чуть меньше доверять собственным глазам. Надеюсь, вышло. Вы сидите и дочитываете статью. Вам кажется, что вы видите экран, на нем буквы и фон. А на самом деле (возможно) вы смотрите на модель мира, которую мозг собрал за вашу жизнь и сейчас использует, чтобы предсказать, что должно быть перед вами. Сенсорные данные лишь подправляют эту модель там, где она ошибается. Ваш мозг прямо сейчас создает галлюцинацию этого текста — но делает это аккуратно, сверяясь с реальностью. Где-то в другой части света видеокарта занимается примерно тем же самым. Она предсказывает, как из шума должна получиться картинка по запросу «человек читает статью на Хабре». У нее свои априорные знания, накопленные из миллионов изображений. Обе системы сидят в темноте и гадают. Одна из них при этом, видимо, что-то чувствует. Какая — вопрос пока открытый...-Источник
|