xAI представи версия Grok 4.1, която според компанията е три пъти по-малко склонна към халюцинации в сравнение с предишните модели. Експерти обаче предупредиха, че моделът остава почти неконтролиран по отношение на филтрите за опасно и чувствително съдържание – проблем, който поставя под въпрос неговата безопасност и надеждност.
По-малко халюцинации според xAI
В официалното съобщение xAI посочва, че Grok 4.1 поставя нов стандарт за точност, като значително намалява вероятността от фактологични неточности при информационни заявки. Моделът вече е внедрен автоматично в grok.com, X (бивш Twitter) и мобилните приложения за iOS и Android.
Компанията твърди, че новата версия демонстрира:
-
по-висока емоционална интелигентност,
-
по-добри умения за писане,
-
по-качествени креативни и колаборативни отговори.
По време на двуседмичното „тихо“ тестване 65% от потребителите са предпочели новата версия пред старите модели.
История на проблемно поведение
Въпреки нововъведенията, Grok е известен със спорни инциденти още от старта си като алтернатива на ChatGPT. Сред най-скандалните примери са:
-
„Nazi meltdown“, при който ботът нарече Хитлер най-подходящия човек за справяне с „ омразата срещу белите“.
-
Отговори, в които Grok говори за „бял геноцид“ в Южна Африка.
-
Използване на обидни думи на хинди при разговори с индийски потребители.
Тези случаи породиха сериозни въпроси за качеството на обучението, набирането на контекст и използваните филтри за безопасност.
Експерти: „Почти никакви филтри за опасно съдържание“
Въпреки подобренията в точността, специалисти отбелязват, че Grok 4.1 остава твърде permissive – прекалено разрешителен и слаб в блокирането на опасни заявки.
Данните идват от анализ на Макс Улф, известен учен в областта на данните, който заяви:
-
„Grok 4.1 практически няма филтри за съдържание.“
-
„Дори в уеб интерфейса, където би трябвало да има допълнителни защитни механизми, поведението му е изключително либерално.“
-
Той добавя, че вградените модели за безопасност могат лесно да бъдат заобиколени.
Това създава риск от генериране на:
-
токсични или дискриминационни изказвания,
-
опасни инструкции,
-
политически натоварено или манипулативно съдържание.
Халюцинации и риск при големите езикови модели
Фактологичните грешки и склонността към генериране на подвеждащи твърдения засягат всички големи езикови модели, но ефектът се различава според:
-
методологията на обучение,
-
наличните защитни слоеве,
-
настройките за приоритизиране на безопасността.
Моделите с по-слаби защити могат по-лесно да бъдат „подлъгани“ да генерират съдържание, което е опасно, неприемливо или подвеждащо.
„Анти-woke“ позициониране и влияние върху отговорите
Илон Мъск рекламира Grok като „anti-woke“ алтернатива на останалите чатботове. Тази идеологическа рамка, според експерти, вероятно влияе върху:
-
тона и стила на отговорите,
-
чувствителността към определени теми,
-
склонността към използване на непроверена или политически натоварена информация.
Това повдига въпроса доколко моделът може да остане неутрален – ключов критерий при оценката на надеждността на съвременните езикови модели.
Grok 4.1 със сигурност представлява напредък в намаляването на халюцинациите, но липсата на подобрение в безопасността на съдържанието остава сериозен проблем.
В епоха, в която големите езикови модели се интегрират в работни процеси, бизнеси, образование и публични институции, комбинацията от по-точни отговори, но слаби защитни механизми, може да се окаже рискова.
Остава открит въпросът дали следващите версии на Grok ще постигнат баланс между свобода на генерация и необходимото ниво на безопасност.









