Feature documentada pero no disponible: input_audio_transcription.confidence y detailed provocan error 400

nepal.everest · October 14, 2025, 3:46pm

Contexto

Estoy desarrollando una integración médica en tiempo real usando OpenAI Realtime API
con el modelo gpt-4o-realtime-preview-2024-12-17.
El objetivo es obtener transcripción médica en español palabra por palabra con colores según nivel de confianza.

Configuración utilizada

Al crear la sesión o enviar el response.create, según la documentación oficial,
es posible habilitar transcripción detallada con confianza:

"input_audio_transcription": {
  "model": "gpt-4o-transcribe-realtime-preview-2024-12-17",
  "detailed": true,
  "confidence": true,
  "enable_word_timestamps": true,
  "language": "es"
}
 y la respuesta es
{
  "error": {
    "message": "Unknown parameter: 'input_audio_transcription.detailed'",
    "type": "invalid_request_error",
    "param": "input_audio_transcription.detailed"
  }
}

En otras palabras, la API no reconoce los parámetros documentados,
aunque aparecen en ejemplos oficiales y en la documentación de gpt-4o-realtime-preview.

Endpoint: https://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2024-12-17

SDK: conexión WebRTC directa (sin SDK intermedio)

Lenguaje: JavaScript + PHP (para token efímero)

Resultado reproducido en múltiples entornos (IIS, Node, localhost HTTPS)

Esta inconsistencia impide acceder a información de confianza palabra por palabra,
lo cual es crítico en contextos médicos, legales o de voz profesional
donde el usuario necesita indicadores visuales de precisión (por ejemplo, text-red si < 50%).

Además, genera confusión entre desarrolladores, porque la documentación da a entender que la funcionalidad ya está disponible.

Sugerencias Aclarar en la documentación oficial si "confidence" y "detailed" son parámetros reservados futuros o si están disponibles bajo versión interna.

Actualizar la respuesta del API o los ejemplos para evitar tiempo perdido en pruebas.
(Opcional) Exponer confianza en el flujo response.audio_transcript.delta o response.content_part.delta.

Topic		Replies	Views
Transcription errors in realtime API API realtime	3	193	December 1, 2025
Turn_detection null breaks manual audio control in Realtime API - Web RTC Bugs realtime , api-realtime , api-realtime-speech	1	370	March 18, 2025
Whisper Translation API documentation bug API whisper	5	2078	December 16, 2023
Transcription Accuracy on different language API realtime	3	646	November 7, 2024
Transcription config for `gpt-4o-mini-transcribe` doesn't work? Bugs	4	831	March 21, 2025

Feature documentada pero no disponible: input_audio_transcription.confidence y detailed provocan error 400

Contexto

Configuración utilizada

Related topics