Inconsistencies in the Temperature parameter in Transcriptions endpoint

Hi,
I’m currently trying to transcribe a 34-second .wav audio file in French (I can share the audio if needed). I’ve encountered different results depending on whether I specify the temperature parameter or not.

I have made a simple request in Postman to test it. The only difference between both calls is whether I specify the temperature parameter as 0 or not.

curl /v1/audio/transcriptions
-H “Authorization: Bearer $OPENAI_API_KEY”
-H “Content-Type: multipart/form-data”
-F file=@“/path/to/file/audio.wav”
-F model=“whisper-1”
-F response_format=“json”
-F temperature=“0”

According to OpenAI’s API documentation, the temperature parameter (which defaults to 0) is defined as follows:
“The sampling temperature, between 0 and 1. Higher values like 0.8 will make the output more random, while lower values like 0.2 will make it more focused and deterministic. If set to 0, the model will use log probability to automatically increase the temperature until certain thresholds are hit.”

In theory, these two behaviors should be equivalent since OpenAI defaults the parameter to 0.
However, in practice, specifying or omitting this parameter leads to significant differences in the transcription results.

If I ommit it, I get a correct transcription of the audio:

{
“text”: “pour sewer. Je vous entends Madame? Vous avez un problème? Oui, j’ai un problème de téléphone. Les appels ne sontarbent pas. OK , votre code client? 23 0 0 8 1 OK , un technicien dotera , il y aura un équipe aussi. Merci beaucoup, au revoir! Merci.”
}

If I specify temperature=0, I get an incorrect transcription where a single sentence is repeated throughout the entire text. This is not just a minor variation, it’s a major discrepancy:

{
“text”: “Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie. Je vous en prie, je vous en prie.”
}

I have tried it many times, and for each case, the same result happens consistently. I understand that AI can produce different responses each time; in fact, the correct transcription tends to vary. But this behavior suggests that something else is happening.

This is the first time I have encountered such an error. I have been using Whisper for months, and this is the first time I have come across this issue. The audio quality isn’t perfect, but the results seem completely different to me.

I’m not sure if this is an issue on OpenAI’s end or if there’s an actual explanation for this. It seems like OpenAI does not treat 0 as the default value, so the only way to use the default value is by actually omitting it and letting OpenAI set the value.

I’d appreciate any insights or possible explanations.