I have extended a model using the fine-tuning approach. The training, here with 5 epochs, worked without errors. For example, the training data looks like this:
{"messages": [
{"role":"system","content":"Benutzer ist IT-Sicherheitsexperte. Nutze Fachterminologie."},
{"role":"system","content":"Gespräch ist professionell. Nutze förmlichen Ton."},
{"role":"system","content":"Nach Risiken, thematisiere Präventivmaßnahmen."},
{"role": "user","content": "Welche Gefahr geht im Zusammenhang mit dem IT-Grundschutz von Feuer aus?"},{"role": "assistant","content": "Feuer können schwere Schäden an Menschen, Gebäuden und deren Einrichtung verursachen. Neben direkten durch Feuer verursachten Schäden lassen sich Folgeschäden aufzeigen, die insbesondere für die Informationstechnik in ihrer Schadenswirkung ein katastrophales Ausmaß erreichen können. Löschwasserschäden treten beispielsweise nicht nur an der Brandstelle auf. Sie können auch in tiefer liegenden Gebäudeteilen entstehen. Bei der Verbrennung von PVC entstehen Chlorgase, die zusammen mit der Luftfeuchtigkeit und dem Löschwasser Salzsäure bilden. Werden die Salzsäuredämpfe über die Klimaanlage verteilt, können auf diese Weise Schäden an empfindlichen elektronischen Geräten entstehen, die in einem vom Brandort weit entfernten Teil des Gebäudes stehen. Aber auch \"normaler\"Brandrauch kann auf diesem Weg beschädigend auf die IT-Einrichtung einwirken. Ein Brand entsteht nicht nur durch den fahrlässigen Umgang mit Feuer (z. B. durch unbeaufsichtigte offene Flammen, Schweiß- und Lötarbeiten), sondern auch durch unsachgemäße Benutzung elektrischer Einrichtungen (z. B. unbeaufsichtigte Kaffeemaschine, Überlastung von Mehrfachsteckdosen). Technische Defekte an elektrischen Geräten können ebenfalls zu einem Brand führen. Die Ausbreitung eines Brandes kann unter anderem begünstigt werden durch: \n* Aufhalten von Brandabschnittstüren durch Keile,\n* unsachgemäße Lagerung brennbarer Materialien (z. B. Altpapier),\n* Nichtbeachtung der einschlägigen Normen und Vorschriften zur Brandvermeidung,\n* fehlende Brandmeldeeinrichtungen (z. B. Rauchmelder),\n* fehlende oder nicht einsatzbereite Handfeuerlöscher oder automatische Löscheinrichtungen (z. B. Gaslöschanlagen),\n* mangelhaften vorbeugenden Brandschutz (z. B. Fehlen von Brandabschottungen auf Kabeltrassen oder Verwendung ungeeigneter Dämmmaterialien zur Wärme- und Schallisolierung)."}
]}
…
When using the model, I get repetitive response fragments “ad infinitum” (ad nauseam) within a chat completion until the length constraint is reached:
…
"message": {
"role": "assistant",
"content": "- Regelmäßige Updates der Antivirensoftware\n- Regelmäßige Updates des Betriebssystems und der installierten Programme\n- Regelmäßige Überprüfung des Systems auf Viren\n- Keine unbekannten Dateien öffnen oder ausführen\n- Keine unbekannten E-Mails öffnen oder Anhänge herunterladen\n- Keine unbekannten Webseiten besuchen\n- Keine unbekannten USB-Sticks oder andere Wechseldatenträger anschließen\n- Keine unbekannten Geräte über Bluetooth verbinden\n- Keine unbekannten WLAN-Netze nutzen\n- Keine unbekannten Apps installieren\n- Keine unbekannten Cloud-Dienste nutzen\n- Keine unbekannten Online-Dienste nutzen\n- Keine unbekannten sozialen Netzwerke nutzen\n- Keine unbekannten Messenger-Dienste nutzen\n- Keine unbekannten Zahlungsdienste nutzen\n- Keine unbekannten Online-Shops nutzen\n- Keine unbekannten Webseiten besuchen\n- Keine unbekannten Suchmaschinen nutzen\n- Keine unbekannten E-Mail-Dienste nutzen\n- Keine unbekannten E-Mail-Adressen nutzen\n- Keine unbekannten E-Mails versenden\n- Keine unbekannten E-Mails empfangen\n- Keine unbekannten E-Mails lesen\n- Keine unbekannten E-Mails beantworten\n- Keine unbekannten E-Mails weiterleiten\n- Keine unbekannten E-Mails drucken\n- Keine unbekannten E-Mails archivieren\n- Keine unbekannten E-Mails löschen\n- Keine unbekannten E-Mails wiederherstellen\n- Keine unbekannten E-Mails in den Spam-Ordner verschieben\n- Keine unbekannten E-Mails aus dem Spam-Ordner wiederherstellen\n- Keine unbekannten E-Mails in den Papierkorb verschieben\n- Keine unbekannten E-Mails aus dem Papierkorb wiederherstellen\n- Keine unbekannten E-Mails in den Archiv-Ordner verschieben\n- Keine unbekannten E-Mails aus dem Archiv-Ordner wiederherstellen\n- Keine unbekannten E-Mails in den Gelöscht-Ordner verschieben\n- Keine unbekannten E-Mails aus dem Gelöscht-Ordner wiederherstellen\n- Keine unbekannten E-Mails in den Spam-Ordner verschieben\n- Keine unbekannten E-Mails aus dem Spam-Ordner wiederherstellen
…
Is the error already in the training data, in that I need to include a stop statement in the response, for example? Or do I have to design the user or system prompt differently?
I am grateful for any hint.