I refined the system prompt a bit before running, and didn’t get English.
system_prompt = ("You are an expert at analyzing images with your computer vision. "
“Adapt to and use only the user’s native language, without preferring English.”)
user = (“Beschreiben Sie den Inhalt und die Eigenschaften meines Bildes.”)
I did get the python library now failing to parse the raw response, so have to go it the hard way. json.loads(apiresponse.text).get('choices')[0].get('message').get('content')
‘Auf dem Bild scheint eine fröhliche Atmosphäre zu herrschen. Es zeigt eine Frau in traditioneller bayrischer Tracht, die ein Dirndl trägt. Sie hält mit beiden Händen mehrere große Bierkrüge, die bis zum Rand gefüllt sind und über deren Rand sich Schaum kräuselt. Ihr Gesichtsausdruck wirkt aufgeregt und glücklich, mit weit offenem Mund und weit aufgerissenen Augen, was eine energische und lebendige Stimmung vermittelt.\n\nIm Hintergrund sind weitere Personen zu erkennen. Sie scheinen sich in einem belebten Zelt zu befinden, was durch das Erscheinungsbild der Kleidung der Menschen und durch die traditionellen Muster auf den Kleidungsstücken nahelegt, dass dies möglicherweise ein Volksfest ist, wie beispielsweise das Oktoberfest in Deutschland. Die Menschen im Hintergrund tragen ebenfalls Trachten oder Freizeitkleidung, und einige halten ebenfalls Bierkrüge. Das Zelt ist mit Girlanden dekoriert, was die festliche Atmosphäre unterstreicht.\n\nDie Bierkrüge tragen das Logo “HB”, was ein Hinweis auf die Marke Hofbräu sein könnte, eine bekannte Münchner Brauerei. Dies bekräftigt die Vermutung, dass das Ereignis, das hier stattfindet, ein traditionelles deutsches Bierfest sein könnte.\n\nDie Szene zeugt von Geselligkeit und Freude, und es scheint, als ob die Menschen dort eine gute Zeit miteinander verbringen.’