Evaluations for Assistants (with file_search)

lyonn · November 11, 2024, 9:41pm

I am looking for a tool to run end to end evaluations on my OpenAI assistants (which use file_search/RAG). Ideally hosted and low/no code.

Two questions:

Will OpenAI’s beta Evals (https://platform.openai.com/docs/guides/evals) eventually support Assistants, and if so, when?
What 3rd party tools exist to do this? (i.e. E2E RAG evals with OpenAI Assistants)

Here’s what I have found so far:

OpenAI’s Evaluations (on-platform, in beta) https://platform.openai.com/docs/guides/evals are nice but don’t connect to Assistants AFAICT
OpenAI’s Evals library has one eval which talks to Assistants. evals/evals/solvers/providers/openai/openai_assistants_solver.py at a32c9826cd7d5d33d60a39b54fb96d1085498d9a · openai/evals · GitHub I could create my own, but would prefer a no/low-code solution.
LangChain, Llama index route.
3rd Party: Confident, Scorecard, PromptFoo, Vellum, Ragas

Topic		Replies	Views
Evaluation Tools for Assistants API gpt-4 , gpt-35-turbo , chatgpt , api , assistants-api	1	651	April 12, 2024
Benchmark & Evaluation Frameworks for Assistants API gpt-4 , chatgpt , api , assistants-api	0	420	April 25, 2024
Approach for using Evals for Assistants? API assistants , assistants-api , evals	1	36	December 20, 2024
OpenAI Evals - plans for future? API	2	1078	October 11, 2023
UI Admin for OpenAI Assistants Community gpt-4 , chatgpt , api , assistants , assistants-api	0	381	May 26, 2024