Contexto
Estoy desarrollando una integración médica en tiempo real usando OpenAI Realtime API
con el modelo gpt-4o-realtime-preview-2024-12-17.
El objetivo es obtener transcripción médica en español palabra por palabra con colores según nivel de confianza.
Configuración utilizada
Al crear la sesión o enviar el response.create, según la documentación oficial,
es posible habilitar transcripción detallada con confianza:
"input_audio_transcription": {
"model": "gpt-4o-transcribe-realtime-preview-2024-12-17",
"detailed": true,
"confidence": true,
"enable_word_timestamps": true,
"language": "es"
}
y la respuesta es
{
"error": {
"message": "Unknown parameter: 'input_audio_transcription.detailed'",
"type": "invalid_request_error",
"param": "input_audio_transcription.detailed"
}
}
En otras palabras, la API no reconoce los parámetros documentados,
aunque aparecen en ejemplos oficiales y en la documentación de gpt-4o-realtime-preview.
Endpoint: https://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2024-12-17
SDK: conexión WebRTC directa (sin SDK intermedio)
Lenguaje: JavaScript + PHP (para token efímero)
Resultado reproducido en múltiples entornos (IIS, Node, localhost HTTPS)
Esta inconsistencia impide acceder a información de confianza palabra por palabra,
lo cual es crítico en contextos médicos, legales o de voz profesional
donde el usuario necesita indicadores visuales de precisión (por ejemplo, text-red si < 50%).
Además, genera confusión entre desarrolladores, porque la documentación da a entender que la funcionalidad ya está disponible.
Sugerencias Aclarar en la documentación oficial si "confidence" y "detailed" son parámetros reservados futuros o si están disponibles bajo versión interna.
- Actualizar la respuesta del API o los ejemplos para evitar tiempo perdido en pruebas.
- (Opcional) Exponer confianza en el flujo
response.audio_transcript.deltaoresponse.content_part.delta.