Китайската компания за изкуствен интелект DeepSeek обяви пускането на новия експериментален модел DeepSeek-V3.2-Exp, който според разработчиците е по-евтин за обучение и по-ефективен при обработка на дълги текстови последователности.
Компанията представи модела на форума Hugging Face, описвайки го като „промеждно стъпало към следващото поколение архитектури“ и част от текущите си изследвания за по-ефективни трансформър архитектури.
Технологията зад модела
DeepSeek-V3.2-Exp се базира на предишната версия V3.1-Terminus, като въвежда Sparse Attention – техника, която позволява на модела да фокусира вниманието си върху най-важните части от текста. Това води до значително по-бързо обучение и изпълнение, без да се компрометира качеството на генерирания резултат.
Компанията посочва, че новият подход намалява използването на изчислителни ресурси, тъй като моделът не „чете“ всяка дума с еднаква тежест, а се концентрира върху ключовите сегменти на текста.
Очаквания и предимства
DeepSeek обяви, че новият модел ще позволи намаляване на цените на API услугите с над 50%, което го прави по-достъпен за разработчици и компании. Според медийни източници, DeepSeek-V3.2-Exp е най-голямото пускане на компанията след моделите V3 и R1, които предизвикаха интерес сред инвеститори в Силициевата долина и по света.
Компанията продължава да експериментира с нови механизми за оптимизация, за да предоставя по-мощни и по-евтини AI модели в бъдеще. За справка, R1 моделът с фокус върху reasoning задачи е трениран за около $294,000, което е значително по-ниска цена в сравнение със стотици милиони долари за подобни западни модели.
DeepSeek-V3.2-Exp демонстрира тенденцията за оптимизация на трансформър моделите чрез Sparse Attention и други техники, които позволяват обработка на дълги текстови секвенции с по-ниски разходи. Това може да ускори достъпа до високо производителни AI услуги и да стимулира иновации в индустрията за изкуствен интелект.









