Ново проучване на Университета на Мериленд и Microsoft установи, че полският език се оказва най-ефективен при работа с големи езикови модели (LLM), изпреварвайки английския, китайския и редица други световни езици. Изненадващо за мнозина, полските подканвания (prompts) са постигнали точност от 88% – най-висок резултат сред 26 изследвани езика.
Полският език и структурата на точността
Експертите посочват, че богатата граматическа структура и гъвкавият синтаксис на полския език допринасят за намаляване на двусмислието и по-прецизно изразяване на командите. Това изглежда прави езика особено подходящ за взаимодействие с ИИ системи, които разчитат на яснота и контекст.
В изследването са участвали шест водещи езикови модела – OpenAI o3-mini, Google Gemini, Alibaba Qwen, Meta Llama и DeepSeek, като всички са били тествани с идентични подканвания на 26 различни езика.
Английският не е толкова надежден, колкото се смяташе
Английският, макар и доминиращ в обучението на ИИ, се нарежда едва на шесто място по точност. Според изследователите това може да се дължи на огромното количество неструктурирани и неформални данни в интернет – жаргон, разговорен език, сарказъм и граматически грешки, които създават шум и затрудняват разбирането на модела.
Примерите за това не липсват – системи като ChatGPT понякога допускат правописни грешки или съставят фрази, които звучат нелогично, именно поради „замърсени“ обучителни набори от данни.
Романските езици също показват висока ефективност
След полския, най-добри резултати показват френският (87%), италианският (86%) и испанският (85%). Според анализа техният изразителен характер и гъвкава граматика позволяват по-интуитивна комуникация с машините.
Нов етап в обучението на ИИ
Изследването показва, че бъдещето на ИИ може да премине отвъд англоцентричния подход. Обучаването на модели върху по-разнообразни езици би могло значително да повиши точността, контекстното разбиране и културната чувствителност на изкуствения интелект.









