Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения
newsare.net
Долгие 10 лет индустрия молилась на оптимизатор AdamW, слепо применяя его ко всем параметрам нейросети. Но весной 2026 года вышли DeepSeek-V4 и Kimi K2 от MoonГеометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения
Долгие 10 лет индустрия молилась на оптимизатор AdamW, слепо применяя его ко всем параметрам нейросети. Но весной 2026 года вышли DeepSeek-V4 и Kimi K2 от Moonshot AI, которые переписали правила игры. В их основе лежит Muon оптимизатор, который снижает затраты на обучение в два раза. В этой статье мы разберем, почему AdamW стал архитектурным рудиментом, как Muon использует итерации Ньютона-Шульца для ортогонализации градиентов, и почему этот алгоритм работает только с 2D-матрицами. Если вы все еще пытаетесь объяснить ИИ через философию, добро пожаловать в реальный мир спектральной нормализаци Читать далее Read more












