Разработчики из Sina Weibo представили VibeThinker-3B — языковую модель с 3 миллиардами параметров, демонстрирующую производительность в математике и программировании на уровне моделей, превосходящих её по размеру в сотни раз. Исследователи выдвинули гипотезу, что логические способности эффективно сжимаются в малые архитектуры, тогда как хранение обширных фактологических знаний требует значительного масштабирования параметров.
Успех VibeThinker-3B обусловлен применением многоэтапного процесса пост-тренировки (post-training), который позволяет оптимизировать модель для решения сложных задач без необходимости наращивания количества параметров. В ходе тестов новинка показала результаты, сопоставимые с такими системами, как DeepSeek V3.2 и Kimi K2.5, несмотря на то, что последние значительно крупнее. Это подтверждает возможность создания узкоспециализированных, высокоэффективных моделей для выполнения вычислительно сложных задач на ограниченном железе.
Данное исследование ставит под сомнение необходимость бесконечного увеличения размера моделей для достижения высокого качества логического вывода. Вместо этого акцент смещается на качество данных и методы обучения, которые позволяют «упаковать» алгоритмическое мышление в компактные веса. Такой подход открывает перспективы для более доступного и быстрого инференса в задачах, требующих глубокой аналитики и написания кода.
Ключевые факты
- VibeThinker-3B содержит 3 миллиарда параметров, что до 333 раз меньше, чем у сопоставимых по качеству моделей.
- Модель демонстрирует результаты, эквивалентные DeepSeek V3.2 и Kimi K2.5 в бенчмарках по математике и программированию.
- Основным методом достижения производительности стало многоэтапное пост-обучение (multi-stage post-training).
- Исследование доказывает, что логическое мышление поддается сжатию лучше, чем накопленные фактологические знания о мире.
