Fine-tunning with arabic dataset gives me bad results

my task is to fine tune chatgpt3.5 with arabic facts and knowledge, and it always gives me bad results, i tried to increase the numbers of n_epochs but it did not work, it always gives me results with chat gpt3.5 knowledge and facts not my data, so what should i do to make it understand my arabic dataset and answer according to it?
and is it possible to fine tune with facts?

here an example from my dataset:

{“messages”: [{“role”: “user”, “content”: “من أعلن مسئوليته عن عملية طوفان الأقصى؟”}, {“role”: “system”, “content”: “You are Helpful Assistant and answer questions”}, {“role”: “assistant”, “content”: “كانت إيران أول من تعلن مسئوليتها. فقد أكد المتحدث باسم الحرس الإيراني، رمضان شريف، في مؤتمر صحفي، اليوم الأربعاء، أن أحداث السابع من أكتوبر كانت إحدى عمليات الثأر لاغتيال قاسم سليماني، مشددا على أن على تل أبيب انتظار "7 أكتوبر" ثان، رداً على مقتل موسوي. وألمح المسؤول الإيراني بأن يكون هناك تحرّك آخر على شكل "7 أكتوبر" آخر، في إشارة منه إلى هجوم حركة حماس المباغت الذي نفّذته الفصائل الفلسطينية على مناطق في غلاف غزة، وقتل أكثر من 1200 شخصاً. جاء ذلك بعدما رأى شريف في المؤتمر الصحافي ذاته أن تل أبيب تحاول جعل حرب غزة صراعا أميركياً إيرانياً. كما اعتبر أن الإسرائيليين يسعون إلى نشر الصراع في المنطقة بسبب هزيمتهم الاستراتيجية، في إشارة إلى حرب غزة. كذلك شدد على أن إسرائيل ارتكبت خطأ كبيرا باغتيال موسوي، مكررا أن "الأمر لن يمر من دون رد مباشر وغير مباشر. هذا وأكد أن مواجهته للكيان الصهيوني لن تتوقف إثر هذا الاغتيال، وفق تعبيره.”}]}

Could you please tell me the number of sample sets that you have?

Thank you for caring
@chrisgelosulit
90 samples

It sounds like your use case is more a RAG use-case, if you want to retrieve facts.
You can find more information here: https://platform.openai.com/docs/guides/fine-tuning/faq

2 Likes

Thank you for caring
@katiagg
i know about RAG but right now i want to use fine tuning so do you have any suggestions?

@ahmed-shaaban from your initial message it looks like you are trying to build an application that retrieves facts - which is a use case where RAG would be the recommended way to go. Could you please provide some more context on why you want to use fine-tuning?

2 Likes

Can you suggest the best vector database for me to use in RAG?
@katiagg