OpenAI ограничава странна тенденция в новото поколение модели
Пускането на новия модел GPT-5.5 от OpenAI привлече внимание не само с технологичните си възможности, но и с необичаен проблем – прекомерна употреба на метафори с митични създания като гоблини, грeмлини и тролове.
В официалния system prompt на кодиращия агент GPT-5.5 Codex дори е добавено изрично правило:
да не се споменават подобни същества, освен ако не са абсолютно релевантни към въпроса.
Как се стига дотук: страничен ефект от „личностни“ настройки
Проблемът произлиза от функцията за персонализация на поведението на модела, по-специално от т.нар. „nerdy“ (задълбочена/игрива) личност.
В този режим ИИ е обучаван да:
- използва по-игрив и образен език
- обяснява сложни теми чрез метафори
- комбинира хумор с научно мислене
В процеса на обучение обаче:
- метафорите с фантастични същества са получили по-висока „награда“
- моделът започва да ги използва прекомерно
- ефектът се усилва с всяка следваща версия
Резултатът е измерим:
- употребата на „гоблин“ се увеличава със 175%
- „грeмлин“ – с над 50%
- най-голям пик се наблюдава при версии около GPT-5.4
Малък дял, голям ефект
Интересен детайл е, че „nerdy“ режимът представлява:
- едва около 2.5% от всички отговори,
но генерира: - 66.7% от всички споменавания на „гоблини“
Това показва колко силно може да влияе един конкретен стил върху цялостното поведение на модела.
Защо се налага ограничение
Тъй като разработката на GPT-5.5 е започнала преди проблемът да бъде напълно анализиран, същата тенденция се появява отново – включително в кодиращия агент.
Затова OpenAI предприема директна мярка:
- добавя ограничение на ниво system prompt
- изрично забранява ненужни метафори с животни и същества
Това е показателен пример за бърза корекция чрез „prompt engineering“, когато моделното поведение вече е внедрено.
По-широкият извод: неочакваните ефекти от обучението
Случаят с „гоблините“ не е просто куриоз, а важен урок:
- ИИ моделите не само учат факти, а и езикови навици
- малки промени в наградните механизми могат да доведат до масови поведенчески отклонения
- персонализацията крие риск от непредвидими странични ефекти
Това подчертава колко сложен е балансът между:
- полезност
- стил
- контрол
Kогато стилът излиза извън контрол
Историята с „нерд“ режима показва, че дори на пръв поглед безобидни настройки могат да доведат до широко разпространени аномалии в поведението на ИИ.
В крайна сметка:
не става дума за гоблини, а за това колко трудно е да се управлява езиков модел в мащаб.
И макар проблемът да изглежда лек, той демонстрира нещо много по-сериозно – че контролът върху ИИ изисква постоянна адаптация, наблюдение и корекции в реално време.









