Create emebeddings API does not work if the text embedded is in iso-8859-1 format

Hi,
I am trying to generate embeds for the following texts:

['ALBERNAZ, HUGO DANIEL C/ SENTENCIA Nº 183/2019 DICTADA POR EL JUZGADO LETRADO DE PRIMERA INSTANCIA DE ATLANTIDA DE 2º TURNO Y SENTENCIA Nº 287/2020 DICTADA POR EL TRIBUNAL DE APELACIONES DE2º TURNO - RECURSO DE REVISION  ', 'ALMEIDA CADENAS, RUBEN MAURICIO Y OTROS C/ PODER EJECUTIVO - MINISTERIO DE DEFENSA NACIONAL\nACCIÓN DE INCONSTITUCIONALIDAD\nARTS. 1°, 38, 45 Y 76 DE LA LEY N° 19.695  ', 'ADMINISTRACION NACIONAL DE EDUCACION PUBLICA (ANEP) C/ SENTENCIA N° 102/2020 DE FECHA 10/8/2020, DICTADA POR EL TRIBUNAL DE APELACIONES EN LO CIVIL DE 7° TURNO\n\nRECURSO DE REVISION  ', 'MESSANO PEREIRA, JOSE EDUARDO \nC/ \nSENTENCIA N° CED-0014-001538/2019 DE FECHA 21/11/2019 , DICTADA POR EL TRIBUNAL DE APELACIONES DEL TRABAJO DE 3° TURNO Y SENT. N° 65 DE FECHA 28/08/2019, DICTADA POR EL JDO. LDO. 1º INSTANCIA DE SAN CARLOS\n\nRECURSO DE REVISION   ', 'MACIEL IRAZABAL, AYRTHON C/ SENTENCIA N° 292/2020 DE FECHA 4 DE NOVIEMBRE DEL 2020, DICTADA POR EL JUZGADO LETRADO DE PRIMERA INSTANCIA ENLO PENAL DE 45° TURNO  ', 'SOUST CALCAGNO, MIGUEL ANGEL C/ SENTENCIA N| 34/2020, DE FECHA 9 DE JULIO DEL 2020, DITADA POR EL JUZGADO LETRADO DE ATLANTIDA DE 3° TURNO   ', 'FISCALÍA PENAL DE MONTEVIDEO DE FLAGRANCIA Y TURNO DE 1° TURNO\nC/\nSENTENCIA N° 13/2021 DE FECHA 9 DE ENERO DE 2021 DICTADA POR EL JUZGADO LETRADO DE PRIMERA INSTANCIA EN LO PENAL DE 43° TURNO\n-RECURSO DE REVISION-  ', 'FISCALIA LETRADA PENAL DE MONTEVIDEO DE FLAGRANCIA DE 7º TURNO  \nC/\nSENTENCIA Nº 373/2020 DE FECHA 26 DE DICIEMBRE DE 2020, DICTADA POR EL JUZGADO LETRADO DE PRIMERA INSTANCIA EN LO PENAL DE 42º TURNO\n\nRECURSO DE REVISIÓN  ', 'FISCALIA LETRADA PENAL DE MONTEVIDEO DE FLAGRANCIA Y TURNO DE 7° TURNO\nC/\nSENTENCIA N° 23/2021 DE FECHA 21 DE ENERO DE 2021, DICTADA POR EL JUZGADO LETRADO DE PRIMERA INSTANCIA EN LO PENAL DE 37° TURNO\n-RECURSO DE REVISION-  ', 'OCAMPO MACHIN, LUIS ALBERTO\nC/\nSENTENCIA Nº18/2019 DE FECHA 6 DE ABRIL DE 2019, DICTADA POR EL JUZGADO LETRADO DE FLORIDA DE 1º TURNO\n\nRECURSO DE REVISION\n  ', 'DARCEL S.A Y OTRAS \nC/\nMINISTERIO DEL INTERIOR Y OTROS\n\nACCION DE INCONSTITUCIONALIDAD \nART. 314 DE LA LEY Nº 19.889 EN LA REDACCION DADA POR EL ART. 482 LITERAL "D" NUMERAL 16 DE LA LEY Nº 15.903\n  ', 'BRITOS VALERIA Y OTRO \nC/ \nMINISTERIO DE SALUD PUBLICA Y OTRO.\n\nACCIÓN DE INCONSTITUCIONALIDAD\nARTS. 2 Y 7 LIT. B DE LA LEY Nº 19.167.  ', 'BENITEZ, JHON\nC/\nSENTENCIA N° 29/2019 DE FECHA 13/11/2019 Y SENTENCIA N°1897/2020, DICTADAS POR EL JUZGADO DE PAZ DEPARTAMENTAL DE COLONIA\n\nRECURSO DE REVISIÓN  ', 'BARRIOS CATICHA, John Washington c/ MINISTERIO DEL INTERIOR y otra\nAcción de Inconstitucionalidad Art. 206 en su inciso final de la Ley N° 18719  ', 'CAJA DE JUBILACIONES Y PENSIONES DE PROFESIONALES UNIVERSITARIOS \nC/ \nPODER LEGISLATIVO\n\nACCION DE INCONSTITUCIONALIDAD \nArt. 772 de la Ley N° 19.924  ', 'FISCALIA DE FLAGRANCIA Y TURNO DE 6° TURNO DE MONTEVIDEO C/ SENTENCIA N° 234/2020 DE FECHA 26/9/2020, DICTADA POR EL JUZGADO LETRADO DE PRIMERA INSTANCIA EN LO PENAL DE 44° TURNO\n\nRECURSO DE REVISION  ', 'BERRONDO SCAVINO, FLORENCIA NATALY Y OTROS C/ PODER EJECUTIVO Y OTROS\n\nACCION DE INCONSTITUCIONALIDAD\nARTS. 15 Y 16 DE LA LEY N° 18.996 Y ARTS. 2, 4, 5, 6 Y 7 DE LA LEY N° 19.310  ', 'FISCAL LETRADO DEPARTAMENTAL DE CIUDAD DE LA COSTA 2° TURNO Y OTRA C/ SENTENCIA N° 67/2021 DE FECHA 19 DE MARZO DE 2021 DICTADA POR EL JUZGADO LETRADO DE PRIMERA INSTANCIA DE CIUDAD DE LA COSTA DE 3° TURNO\n\nRECURSO DE REVISION  ', 'ALVAREZ NIETO, RODOLFO GREGORIO TRES DELITOS DE ENCUBRIMIENTO EN CONCURRENCIA FUERA DE LA REITERACION CON TRES DELITOS DE PRIVACION DE LIBERTAD EN CALIDAD DE CO AUTOR - OTRO - SOLICITUD DE SALIDAS TRANSITORIAS  ', 'ANTUNEZ SOUZA, HERMES Y OTROS C/ PODER LEGISLATIVO Y OTRO\n\nACCIÓN DE INCONSTITUCIONALIDAD\nARTS. 1, 3, 4, 5, 6 Y 7 DE LA LEY N° 19.949\n\n  ', 'FISCALÍA LETRADA PENAL DE MONTEVIDEO DE FLAGRANCIA Y TURNO DE 7º TURNO\nC/\nSENTENCIA Nº 40/2021 DE FECHA 19 DE FEBRERO DE 2021,  DICTADA POR EL \nJUZGADO LETRADO DE PRIMERA INSTANCIA EN LO PENAL DE 31º TURNO\n\n\n\nRECURSO DE REVISIÓN  ', None, 'SOSA BASAISTEGUI, ANA CECILIA Y OTROS C/ PODER EJECUTIVO Y OTRO\n\nACCION DE INCONSTITUCIONALIDAD\nARTS. 1, 3, 4, 5,  7, 13 Y 14 DE LA LEY N° 19.949  ', 'DE LEON LAUN, LUJAN LOURDES C/ PODER LEGISLATIVO Y OTRO\n\nACCION DE INCONSTITUCIONALIDAD\n\nARTS. 1, 3, 6,  7 Y 14 DE LA LEY N° 19.949  ', 'INTENDENCIA DEPARTAMENTAL DE MALDONADO\nC/\nSENTENCIA Nº 84/2020 DE FECHA 23 DE DICIEMBRE DE 2020, DICTADA POR EL JUZGADO LETRADO \nDE SAN CARLOS DE 2º TURNO\n\nRECURSO DE REVISION  ', 'SOUTO, RODOLFO Y OTROS C/ PODER EJECUTIVO Y OTRO\n\nACCION DE INCONSTITUCIONALIDAD \n\nARTS. 1, 3, 4, 5, 7, 13 Y 14 DE LA LEY N° 19.949  ', 'ACEVEDO AMARAL, VICTORIA Y OTROS C/ PODER LEGISLATIVO Y OTRO - ACCION DE INCONSTITUCIONALIDAD  ', 'Fiscalía Letrada de Montevideo de Flagrancia y turno de 3er C/ Sentencia nro 106/2021 dictada el 31 de mayo de 2021 por el Juzgado Letrado de Primera Instancia en lo Penal de 45° turno - Recurso de Revisión  ', 'ACOSTA CASCO, NATALIA Y OTROS\nC/ \nPODER EJECUTIVO Y OTROS\nACCIÓN DE INCONSTITUCIONALIDAD\nART. 1, 2, 3 NUM. 1, 4, 5, 6, 7, 12, 13 Y 14 DE LA LEY Nº 19.949  ', 'HORNOS SILVA, WASHINGTON DARIO C/ SENTENCIA N| 84/2020 DE FECHA 13 DE OCTUBRE DE 2020, DICTADA POR EL JUZGADO LETRADO DE PRIMERA INSTANCIA DE PAYSANDU DE 1° TURNO - RECURSO DE REVISION  ', 'SRA. FISCAL LETRADA DE FLAGRANCIA DE MONTEVIDEO DE 1º TURNO \nC/\nSENTENCIA Nº 12/2021 DE FECHA 9 DE ENERO DE 2021, DICTADA POR \nEL JUZGADO LETRADO DE PRIMERA INSTANCIA EN LO PENAL DE 40º TURNO\n\nRECURSO DE REVISIÓN   ', 'OLIVERA, MARIA FERNANDA Y OTRA C/ PODER LEGISLATIVO - ACCION DE INCONSTITUCIONALIDAD  ', 'ACUÑA, SILVIA Y OTROS C/ PODER EJECUTIVO - MINISTERIO DE DEFENSA NACIONAL - ACCION DE INCONSTITUCIONALIDAD  ', 'ZUCCA CORRADINO, GERARDO OSCAR Y OTROS\nC/ \nMINISTERIO DE ECONOMÍA Y FINANZAS \n\nACCIÓN DE INCONSTITUCIONALIDAD\nARTS. 1, 3 , 4, 5, 6, 13 Y 14 DE LA LEY Nº 19.949  ', 'UMPIERREZ CASTRO, Mary Mabel c/ SENTENCIA DE SEGUNDA INSTANCIA DEL TRIBUNAL DE APELACIONES EN L CIVIL DE 2º TURNO DE FECHA 20 DE NOVIEMBRE DEL 2019 EN EXP. IUE: 24-16/2018\n\nRECURSO DE REVISIÓN  ', 'INTENDENCIA DEPARTAMENTAL DE MALDONADO C/SENTENCIA Nº 79 de fecha 22 de diciembre de 2020 dictada por el JUZGADO LETRADO DE PRIMERA INSTANCIA DE SAN CARLOS DE 1º TURNO\n\nRECURSO DE REVISIÓN  ', 'PERDOMO RIVERO, Pedro EduardO c/MINISTERIO DEL INTERIOR- DIRECCION NACIONAL DE ASISTENCIA Y SEGURIDAD SOCIAL POLICIAL\n\nACCIÓN DE INCONSTITUCIONALIDAD ARTS. 1, 36, 38 LIT. A) DE LA LEY Nº 18.405\n  ', 'FISCALIA DE FLAGRANCIA DE 10º TURNO DE MONTEVIDEO C/ Sentencia Nº 31/2021 dictada por el JUZGADO LETRADO DE PRIMERA INSTANCIA EN LO PENAL DE 32º TURNO\n\nRECURSO DE REVISIÓN  ', None, 'FEDERACION DE FUNCIONARIOS DE OSE (FFOSE) Y OTROS C/ PODER JUDICIAL Y OTROS\n\nINCIDENTE DE RECUSACIÓN  ']

and I get the following error:

InvalidRequestError: [{all the text pasted above] is not valid under any of the given schemas - 'input'

The API call I am making is the following:

embed_output = openai.Embedding.create(model="text-embedding-ada-002",input=data_to_embed)

I suspect the issue is the encoding of my data using iso-8859-1 because I see in the stacktrace that it is trying to decode the data using utf-8.

File ~/anaconda3/envs/python3/lib/python3.10/site-packages/openai/api_requestor.py:619, in APIRequestor._interpret_response(self, result, stream)
    611     return (
    612         self._interpret_response_line(
    613             line, result.status_code, result.headers, stream=True
    614         )
    615         for line in parse_stream(result.iter_lines())
    616     ), True
    617 else:
    618     return (
--> 619         self._interpret_response_line(
    620             result.content.decode("utf-8"),
    621             result.status_code,
    622             result.headers,
    623             stream=False,
    624         ),
    625         False,
    626     )

File ~/anaconda3/envs/python3/lib/python3.10/site-packages/openai/api_requestor.py:682, in APIRequestor._interpret_response_line(self, rbody, rcode, rheaders, stream)
    680 stream_error = stream and "error" in resp.data
    681 if stream_error or not 200 <= rcode < 300:
--> 682     raise self.handle_error_response(
    683         rbody, rcode, resp.data, rheaders, stream_error=stream_error
    684     )
    685 return resp

So it would be great if we can pass the encoding as part of the API parameters. Can this be added?

Thanks,
Federico

I found the problem I am passing to embed some None and this makes the embedding fail. It would be great to get a better error message.

Also I still think that if it is decoding the string as utf-8 this will have some impact and probably the embeds are going to be generated without some special characters.