OpenAI официально представила GPT-5 — свою самую продвинутую модель, способную обрабатывать видео, аудио и текстовый ввод в реальном времени с задержкой менее 200 миллисекунд.

Новая модель демонстрирует значительный прорыв в мультимодальном понимании. GPT-5 может анализировать видеопоток с камеры, одновременно обрабатывая голосовые команды и текстовые инструкции.

По словам Сэма Альтмана, GPT-5 обучена на данных, включающих более 100 триллионов токенов из мультимодальных источников. Архитектура модели была полностью переработана для обеспечения нативной мультимодальности.

Модель уже доступна через API для разработчиков с подпиской Plus и Team.