https://habr.com/ru/companies/selectel/articles/934902/

GPT-OSS-120b и GPT-OSS-20b — это большие языковые модели под лицензией Apache 2.0
с архитектурой Transformer, в которой применен метод Mixture-of-Experts (MoE).

Модели GPT-OSS  на корпусе текстовых данных, основной язык — английский, срез знаний июнь 2024 года
Модель плохо работает на русском домене.

GPT-OSS-20b потребовала порядка 210 тысяч GPU-часов для обучения (24 года на одном GPU)

GPT-OSS-20b можно запустить даже на относительно простом оборудовании:
модель помещается в 16 ГБ памяти, то есть может работать на потребительских видеокартах
или на CPU-серверах без специализированных ускорителей.
модели распространяются в 4-бит формате MXFP4,
что упрощает их развертывание: файл весов GPT-OSS-120b весит около 80 ГБ, а GPT-OSS-20b — всего ≈16 ГБ.

Для токенизации данных OpenAI разработала токенизатор o200k_harmony
с вокабуляром ~200k токенов, открытый словарь Harmony (o200k) объемом ~201k токенов.
Токенизатор также открыли для сообщества вместе с самими моделями.
оптимизированный под длинные контексты. крупный словарь позволил уменьшить
длину токенизированного представления текстов (т.е. длинные слова или фразы кодируются одним токеном)
рендерер Harmony на Python и Rust для подготовки входов модели.

Каждая модель содержит множество так называемых «экспертов» – отдельно обучаемых блоков в слоях Transformer.
У младшей 20b — 32 эксперта (также с 4 активными).

MoE позволяет значительно уменьшить число активных параметров,
необходимых для обработки каждого токена,
за счет распределения вычислений между набором экспертных подсетей.

у GPT-OSS-20b из ≈21 млрд общих параметров активно используются 3,6 млрд.
GPT-OSS-20b — состоит из 24 слоев.

Таким образом, модель экономит вычислительные ресурсы, выбирая наиболее подходящих «экспертов» для каждого фрагмента текста.

Контекстное окно 128k
Это позволяет моделям удерживать очень большие объемы текста (например, несколько глав книги или относительно крупную кодовую базу)
и выполнять сложные многоступенчатые рассуждения без обрыва цепочки внимания.

это единственная локальная LLM до 32b которая четко следует описанному формату вывода.
Например, ни разу не ошиблась в структуре JSON описанному в промте.

Они поддерживают полный вывод цепочки рассуждений (Chain-of-Thought, CoT) —
модель может по запросу возвращать не только финальный ответ, но и подробный ход своих размышлений.

OpenAI применяла фильтры для удаления данных, связанных с опасными
биологическими, химическими, ядерными тематиками (CBRN), а также
другой токсичной или запрещенной информации.

Пока можно запустить только на llama.cpp.

поддерживают OpenAI Responses API – новый интерфейс чат-моделей OpenAI.

Отредактировано Лис (2025-08-27 21:48:33)