What is the tokenizer used for openai text-embedding-3-large?

SomebodySysop · February 10, 2024, 7:40am

The tokenizer used for text-embedding-ada-002 was cl100k_base. What is the tokenizer used for the new embedding model openai text-embedding-3-large ?

Also, anyone have any feedback on it’s performance so far?

Diet · February 10, 2024, 7:43am

cl100k_base

TLDR:

I don’t know if there’s a TLDR yet, it’s complicated. They’re certainly different. I do recommend you check out the thread!

Topic		Replies	Views
Which embedding tokenizer should I use? API	6	6856	September 5, 2023
Are OpenAI text-embedding-ada-002 embedding model greater than text-embedding-3-large? Community embeddings , chatgpt , api	1	1495	February 21, 2024
Using a Custom Tokenizer with GPT Embeddings API	5	3465	March 4, 2024
Anybody using text-embedding-3-large? API embeddings	2	1103	September 1, 2024
What is difference between GPT2 and GPT3 tokenizers? API	1	1721	February 21, 2024