← Все статьи

DeepSeek V4 Pro обходит GPT-5.5 Pro по точности

Сравнение на задачах со схемами и инструкциями: DeepSeek 38:33, один regex вместо двух, меньше лишних деталей.

Содержание

Коротко

В прямом сравнении DeepSeek V4 Pro набрал 38 баллов против 33 у GPT-5.5 Pro на наборе задач, где важны точное следование инструкциям и соответствие схемам. Разрыв заметен там, где модель должна выполнить промпт буквально, а не «улучшить» его.

Что произошло

Авторы прогнали обе модели через несколько прикладных сценариев. DeepSeek стабильнее следовал инструкциям и выходным схемам; GPT-5.5 чаще допускал избегаемые отклонения от заданного формата.

В задаче python-log-redactor нужно было замаскировать чувствительные фрагменты в логах одним регулярным выражением с перекрывающимися шаблонами. DeepSeek собрал единый regex; GPT-5.5 разбил работу на части — это повышает риск пропусков на стыках паттернов.

В vendor-delay-update DeepSeek вернул ровно то, что просил промпт. GPT-5.5 добавил лишние поля и пояснения, которых не было в спецификации. Для пайплайнов с жёсткой валидацией это ломает интеграцию.

В messy-orders-to-json обе модели сработали одинаково: валидный JSON без существенных различий. На «грязных» данных с неоднозначной структурой преимущество не проявилось.

Почему это важно

В продакшене LLM часто выступают как «умный парсер»: извлечь данные по схеме, сгенерировать конфиг, пройти линтер. Здесь важнее точность, чем красота текста. Модель, которая «дописывает от себя», создаёт скрытые баги: лишние ключи в JSON, неверные regex-границы, расхождение с Pydantic-схемой.

Для команд, выбирающих модель под агентные пайплайны, такие head-to-head тесты полезнее маркетинговых бенчмарков. Они показывают поведение на задачах, близких к реальной разработке.

На практике

  1. Тестируйте модели на своих промптах со схемами, а не только на общих рейтингах.
  2. Для задач «строго по инструкции» проверяйте, не добавляет ли модель лишние поля.
  3. В regex- и парсинг-задачах сравнивайте количество шагов: один проход надёжнее нескольких.
  4. Держите автоматическую валидацию выхода (JSON Schema, Pydantic) — модель может ошибиться даже при высоком счёте.
  5. На «грязных» данных без жёсткой схемы разница между топ-моделями может исчезнуть.

Итог

DeepSeek V4 Pro в этом сравнении точнее и предсказуемее на задачах со строгими инструкциями и схемами. Для генерации «красивого текста» разрыв может быть менее заметен; для инженерных пайплайнов — критичен. Детали бенчмарка — в оригинале.