Содержание
Коротко
В прямом сравнении DeepSeek V4 Pro набрал 38 баллов против 33 у GPT-5.5 Pro на наборе задач, где важны точное следование инструкциям и соответствие схемам. Разрыв заметен там, где модель должна выполнить промпт буквально, а не «улучшить» его.
Что произошло
Авторы прогнали обе модели через несколько прикладных сценариев. DeepSeek стабильнее следовал инструкциям и выходным схемам; GPT-5.5 чаще допускал избегаемые отклонения от заданного формата.
В задаче python-log-redactor нужно было замаскировать чувствительные фрагменты в логах одним регулярным выражением с перекрывающимися шаблонами. DeepSeek собрал единый regex; GPT-5.5 разбил работу на части — это повышает риск пропусков на стыках паттернов.
В vendor-delay-update DeepSeek вернул ровно то, что просил промпт. GPT-5.5 добавил лишние поля и пояснения, которых не было в спецификации. Для пайплайнов с жёсткой валидацией это ломает интеграцию.
В messy-orders-to-json обе модели сработали одинаково: валидный JSON без существенных различий. На «грязных» данных с неоднозначной структурой преимущество не проявилось.
Почему это важно
В продакшене LLM часто выступают как «умный парсер»: извлечь данные по схеме, сгенерировать конфиг, пройти линтер. Здесь важнее точность, чем красота текста. Модель, которая «дописывает от себя», создаёт скрытые баги: лишние ключи в JSON, неверные regex-границы, расхождение с Pydantic-схемой.
Для команд, выбирающих модель под агентные пайплайны, такие head-to-head тесты полезнее маркетинговых бенчмарков. Они показывают поведение на задачах, близких к реальной разработке.
На практике
- Тестируйте модели на своих промптах со схемами, а не только на общих рейтингах.
- Для задач «строго по инструкции» проверяйте, не добавляет ли модель лишние поля.
- В regex- и парсинг-задачах сравнивайте количество шагов: один проход надёжнее нескольких.
- Держите автоматическую валидацию выхода (JSON Schema, Pydantic) — модель может ошибиться даже при высоком счёте.
- На «грязных» данных без жёсткой схемы разница между топ-моделями может исчезнуть.
Итог
DeepSeek V4 Pro в этом сравнении точнее и предсказуемее на задачах со строгими инструкциями и схемами. Для генерации «красивого текста» разрыв может быть менее заметен; для инженерных пайплайнов — критичен. Детали бенчмарка — в оригинале.