„Гоблините“ в ChatGPT

OpenAI ограничава странна тенденция в новото поколение модели

Пускането на новия модел GPT-5.5 от OpenAI привлече внимание не само с технологичните си възможности, но и с необичаен проблем – прекомерна употреба на метафори с митични създания като гоблини, грeмлини и тролове.

В официалния system prompt на кодиращия агент GPT-5.5 Codex дори е добавено изрично правило:

да не се споменават подобни същества, освен ако не са абсолютно релевантни към въпроса.

Как се стига дотук: страничен ефект от „личностни“ настройки

Проблемът произлиза от функцията за персонализация на поведението на модела, по-специално от т.нар. „nerdy“ (задълбочена/игрива) личност.

В този режим ИИ е обучаван да:

  • използва по-игрив и образен език
  • обяснява сложни теми чрез метафори
  • комбинира хумор с научно мислене

В процеса на обучение обаче:

  • метафорите с фантастични същества са получили по-висока „награда“
  • моделът започва да ги използва прекомерно
  • ефектът се усилва с всяка следваща версия

Резултатът е измерим:

  • употребата на „гоблин“ се увеличава със 175%
  • „грeмлин“ – с над 50%
  • най-голям пик се наблюдава при версии около GPT-5.4

Малък дял, голям ефект

Интересен детайл е, че „nerdy“ режимът представлява:

  • едва около 2.5% от всички отговори,
    но генерира:
  • 66.7% от всички споменавания на „гоблини“

Това показва колко силно може да влияе един конкретен стил върху цялостното поведение на модела.

Защо се налага ограничение

Тъй като разработката на GPT-5.5 е започнала преди проблемът да бъде напълно анализиран, същата тенденция се появява отново – включително в кодиращия агент.

Затова OpenAI предприема директна мярка:

  • добавя ограничение на ниво system prompt
  • изрично забранява ненужни метафори с животни и същества

Това е показателен пример за бърза корекция чрез „prompt engineering“, когато моделното поведение вече е внедрено.

По-широкият извод: неочакваните ефекти от обучението

Случаят с „гоблините“ не е просто куриоз, а важен урок:

  • ИИ моделите не само учат факти, а и езикови навици
  • малки промени в наградните механизми могат да доведат до масови поведенчески отклонения
  • персонализацията крие риск от непредвидими странични ефекти

Това подчертава колко сложен е балансът между:

  • полезност
  • стил
  • контрол

Kогато стилът излиза извън контрол

Историята с „нерд“ режима показва, че дори на пръв поглед безобидни настройки могат да доведат до широко разпространени аномалии в поведението на ИИ.

В крайна сметка:

не става дума за гоблини, а за това колко трудно е да се управлява езиков модел в мащаб.

И макар проблемът да изглежда лек, той демонстрира нещо много по-сериозно – че контролът върху ИИ изисква постоянна адаптация, наблюдение и корекции в реално време.

По материали от Интернет

Подобни

Как ИИ променя умните домове
15.06.2026
smart-home-2769210_640
Eксперимент разкри критични слабости в OpenClaw
10.06.2026
irenna-boiled-crayfish-4028132_640
Масова smishing кампания използва емоционален натиск
7.06.2026
bulgaria
Почти половината европейци се сблъскват с враждебно съдържание онлайн
1.06.2026
Europäische Flaggen im Wind, Louise-Weiss-Gebäude, Sitz des Europäischen Parlaments in Straßburg, Frankreich, Europa
Microsoft: Windows компютрите може да се рестартират многократно при обновяване на Secure Boot
28.05.2026
windows-6281710_1280
ИИ променя пазара на труда
27.05.2026
ai-generated-8706749_640

Споделете

Facebook
LinkedIn

Бюлетин

С нашия бюлетин ще бъдеш сред първите, които научават за нови заплахи, практични решения и добри практики. Напълно безплатно и с грижа за твоята сигурност.

Популярни

Българските торент сайтове продължават да изчезват
27.02.2026
pirate-flag-7541041_640
Изземване на Zamunda, Arena и други торент сайтове
30.01.2026
seizure
Измамническите сайтове в България: как да ги разпознаем, проверим и защитим себе си
6.10.2025
bulgaria3
Bitdefender пусна безплатен инструмент за проверка на телефонни номера
12.12.2025
telephoneAlamy