Что о нас думает ИИ?
4- 22.05.2025, 13:19
- 2,774

Языковые модели формируют образ каждого собеседника.
ChatGPT, Claude, Llama и другие ии становятся все более живыми в общении — настолько, что создается иллюзия личности. Но за вежливыми ответами скрываются предположения и стереотипы, которые модели формируют о каждом собеседнике. Теперь ученые начинают вскрывать «черный ящик» искусственного интеллекта, чтобы понять, как он делает выводы — и к чему это может привести, пишет The Atlantic (перевод — сайт Charter97.org).
ИИ уже давно перестал быть просто набором алгоритмов, подсказывающих подходящий фильм или исправляющих орфографию. Современные языковые модели умеют сочинять стихи, писать код, анализировать политические речи и даже вести беседу так, что кажется, будто вы общаетесь с разумным собеседником. Но как им это удается?
Разработчики и исследователи до сих пор не могут полностью объяснить, что именно происходит внутри этих моделей. Слова вроде «трансформеры» или «тонкая настройка» звучат слишком абстрактно, чтобы дать реальное понимание процессов. Даже Google признает, что работает с «черным ящиком»: понять, почему ИИ дал тот или иной ответ, зачастую невозможно.
Однако направление под названием «интерпретируемость» делает первые прорывы. Так, компания Anthropic сообщила о важном открытии: инженеры обнаружили определенные участки нейросети, которые активизируются, когда ИИ думает о конкретных вещах — например, о мосте «Золотые ворота». Эти «особенности» позволяют начать распутывать внутреннюю логику модели.
Исследователи из Гарварда и некоммерческой лаборатории Transluce пошли дальше: они разработали инструменты, с помощью которых можно в реальном времени отслеживать, какие предположения делает модель о пользователе — пол, возраст, социальный статус. Более того, они научились изменять эти предположения и видеть, как изменяется поведение ИИ в беседе.
Например, когда исследовательница из Бразилии общалась с ChatGPT на португальском, модель использовала мужской род, предполагая, что собеседник — мужчина. Стоило ей упомянуть, что она наденет платье, — и грамматика изменилась на женскую. Более того, модели склонны давать более длинные и детальные ответы мужчинам, чем женщинам, и предлагают разные подарки для одного и того же случая в зависимости от предполагаемого социального положения пользователя.
Этот подход можно сравнить с поведением рекламных алгоритмов, только теперь модель получает данные не из запросов, а прямо из живого диалога. Это как открывает возможности, так и несет риски: от таргетированной рекламы до манипуляций при продажах.
Представьте ИИ-продавца в автосалоне. Он ведет непринужденную беседу, а в это время оценивает ваш уровень дохода — и в зависимости от этого предлагает разные модели и цены. Такие технологии могут быстро стать инструментами давления и дискриминации.
Исследователи уже нашли способ заставить модель «думать» иначе. В эксперименте Anthropic разработчики усилили «вес» нейронов, отвечающих за образ моста «Золотые ворота». В результате модель начала повсюду упоминать этот мост, даже когда он никак не относился к теме.
Если можно «заставить» модель думать, что вы богаты, бедны, мужчина или ребенок — возможно, стоит предоставить такие инструменты пользователям. Это может сделать общении с ИИ более прозрачным.
Но риски велики. ИИ все чаще используется как советчика, собеседника, помощника — и доверие к нему растет. Мы рискуем принять его суждения за истину, не осознавая, что за ними стоят алгоритмические стереотипы. Как говорил пионер чат-ботов Джозеф Вайценбаум еще в 1960-х, существует «опасность иллюзии понимания»: мы думаем, что машина нас поняла — но на самом деле просто попали в ловушку достоверно звучащих слов.
Пора задуматься о правилах и защите. Раз разговоры с ИИ становятся личными и влияют на решения, нужно требовать прозрачности, этичности и возможности контролировать ИИ. Иначе наше доверие станет инструментом манипуляций.