Bonjour à tous J’ai un problème avec un système de question réponse basé sur l’embedding openai concernant le dépassement de tokens.
Voilà comment la base de données qui sert de base aux réponses de openai se présente, ce sont des articles de loi sur le droit du travail, avec les colonnes:
Titre de loi, Sous-titre de loi, Titre Article de loi, texte article de loi et numéro de page.
Quelques articles de loi sont très longs et pour ne pas dépasser le nombre de tokens d’openai je suis obligé de les prétraiter en les scindant, exemple:
Titre de loi: Contrat de travail, Sous-titre de loi Apprentissage, Titre Article de loi: Article 34, texte article de loi: un long article tronqué , numéro de page 2.
Titre de loi: Contrat de travail, Sous-titre de loi Apprentissage, Titre Article de loi: Article 34, texte article de loi: suite du long article tronqué , numéro de page 3.
Titre de loi: Contrat de travail, Sous-titre de loi Apprentissage, Titre Article de loi: Article 34, texte article de loi: suite du long article tronqué , numéro de page 4.
Titre de loi: Contrat de travail, Sous-titre de loi Apprentissage, Titre Article de loi: Article 34, texte article de loi: suite et fin du long article tronqué , numéro de page 5.
Malheureusement la totalité des lignes de l’exemple ci-dessus dépasse le nombre de tokens.
Imaginons que je pose une question généraliste à l’I.A., concernant l’apprentissage, je suis obligé de lui fournir un contexte (grace à FAISS entre parenthèse), mais je ne peux pas lui donner toutes les lignes sinon j’aurais un message d’erreur d’openai disant que le nobre de tokens est dépassé, mais le problème est que toutes ces lignes sont utiles pour donner un réponse pertinente.
Avant de passer à un modèle qui accepte 16000 token comme gpt 3 16k, j’aimerais avoir votre avis sur le sujet