Preprocessing Guidelines for Embedding

evanmcfarland · February 7, 2023, 4:37pm

Say you’re doing an embedding project on large text with ada-002, is there any guidelines on how the Vector Store is made based on how you preprocess text chunks?

More on my use case:

I’m training a QA model on a variety of research papers/documents. Much of the chunks are normal text, but many mix in experimental processes and results (numbers) with text. I can’t find guidelines on how different preprocessing techniques affect outcomes, e.g., should I remove chunks with numbers, delete line breaks that indicate different paragraphs, make all characters lowercase, etc.?

I imagine the answer to this would be uniform across a large variety of use cases, so if anyone has resources on ideal input formats for ada-002 embdeddings, please share.

Topic		Replies	Views
Text Pre-processing for text-embedding-ada-002 Community embeddings	2	5170	December 17, 2023
Preprocessing for embeddings API	4	5426	December 17, 2023
Preprocessing Techniques for Generating Embedding Vectors from Legal Texts with text-embedding-3-large API embeddings	4	1093	June 3, 2024
Training with Large PDF FIles API	10	25398	December 15, 2023
Embeddings Text Prep API	1	631	December 17, 2023

Preprocessing Guidelines for Embedding

Related topics