flozi00 commited on
Commit
0d8164f
·
verified ·
1 Parent(s): a690550

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +45 -4
README.md CHANGED
@@ -211,9 +211,9 @@ Amongst all tested models 'Command r plus' showed highest precision especially n
211
  The final model was developed using full ORPO finetune technique on VAGOsolutions/SauerkrautLM-1.5b which is based on qwen2 architecture achieving an impressive accuracy rate close approximating that seen with ‘Command r plus’.
212
 
213
  Training specifics included:
214
- * Dataset size : 500k unique entries
215
- * Epochs : One
216
- * Batch Size : 64
217
 
218
  This configuration resulted in significant performance improvements particularly in terms relevant feature recognition and response structuring according prescribed evaluation metrics.
219
 
@@ -236,7 +236,48 @@ Given these limitations observed in both models regarding token economy and cont
236
 
237
  In conclusion, while earlier iterations with other models provided valuable insights into necessary features and performance thresholds; transitioning towards using Qwen2 has significantly advanced our project’s capability delivering refined assessments aligned closely with set objectives ensuring robustness scalability future expansions within this domain.
238
 
239
- **6.Future Work & Acknowledgements:**
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
240
  Continued efforts will focus on labeling additional datasets within this domain which will be made publicly available under our organizational repository enhancing accessibility for further research applications within academic settings or other pedagogical assessments tools development initiatives .
241
 
242
  Special thanks are due David and Daryoush from Vago Solutions; Björn and Jan from Ellamind / DiscoResearch whose insights into dataset reviews ,prompt formulations discussions about final trained model configurations were invaluable throughout this project’s lifecycle .
 
211
  The final model was developed using full ORPO finetune technique on VAGOsolutions/SauerkrautLM-1.5b which is based on qwen2 architecture achieving an impressive accuracy rate close approximating that seen with ‘Command r plus’.
212
 
213
  Training specifics included:
214
+ * Dataset size : 380k unique entries
215
+ * Epochs : 3
216
+ * Batch Size : 512
217
 
218
  This configuration resulted in significant performance improvements particularly in terms relevant feature recognition and response structuring according prescribed evaluation metrics.
219
 
 
236
 
237
  In conclusion, while earlier iterations with other models provided valuable insights into necessary features and performance thresholds; transitioning towards using Qwen2 has significantly advanced our project’s capability delivering refined assessments aligned closely with set objectives ensuring robustness scalability future expansions within this domain.
238
 
239
+ **7. How to use**
240
+ ```python
241
+ from transformers import pipeline
242
+ import datasets
243
+
244
+ pipe = pipeline("text-generation", model="pL-Community/GermanEduScorer-Qwen2-1.5b", device = 0)
245
+
246
+ ds_eval = datasets.load_dataset("cis-lmu/GlotCC-V1", "deu-Latn", split="train").shuffle(42)
247
+
248
+ iterations = 0
249
+ right = 0
250
+ diff = 0
251
+ false_counter = 0
252
+
253
+ for i in ds_eval:
254
+ messages = [
255
+ {"role": "system", "content": """Nachfolgend findest du einen Auszug aus einer Webseite. Beurteile, ob die Seite einen hohen pädagogischen Wert hat und in einem pädagogischen Umfeld für den Unterricht von der Grundschule bis zur Universität nützlich sein könnte, indem du das unten beschriebene 5-Punkte-Bewertungssystem anwendest. Die Punkte werden auf der Grundlage der Erfüllung der am besten passenden Kriterien gewählt:
256
+
257
+ - 0 Punkte: Der Inhalt ist nicht organisiert und schwer zu lesen. Der Text enthält Werbung oder irrelevante Informationen zum lehren von Inhalten. Der Text ist nicht neutral sondern enthält persöhnliche Sichtweisen. Beispiel: Tweets, Chatnachrichten oder Forenbeiträge.
258
+ - 1 Punkt: Der Text ist für den privaten Gebrauch bestimmt und enthält Werbung oder irrelevante Informationen. Der Text ist nicht neutral und spiegelt zum Teil persönliche Sichtweisen wider. Beispiel: Ein Blogbeitrag, der hauptsächlich auf persönliche Erfahrungen eingeht und nur gelegentlich nützliche Informationen bietet.
259
+ - 2 Punkte: Der Text ist neutral geschrieben, aber enthält Werbung oder irrelevante Informationen. Die enthaltenen Informationen können zeitlich vergänglich sein. Beispiel: Ein Artikel oder Nachrichtenbeitrag.
260
+ - 3 Punkte: Der Text enthält viele Informationen und ist leicht verständlich. Der Text ist neutral geschrieben und enthält keine Werbung oder irrelevante Informationen. Beispiel: Ein Wikipedia-Artikel.
261
+ - 4 Punkte: Der Text ist neutral geschrieben und enthält keine Werbung oder irrelevante Informationen. Der Text enthält tiefergehendes Wissen und ist für den Unterricht von der Grundschule bis zur Universität nützlich. Beispiel: Ein wissenschaftlicher Artikel oder ein Lehrbuch
262
+ - 5 Punkte: Der Text beeinhaltet tiefergehendes Wissen, ist dabei aber dennoch leicht verständlich, sodass jeder daraus lernen und sich neue Fähigkeiten aneignen kann. Beispielsweise Schritt für Schritt Anleitungen, Erklärungen oder Definitionen.
263
+
264
+ Nachdem du den Auszug geprüft hast:
265
+ - Wähle eine Punktzahl von 0 bis 5, die am besten beschreibt, wie nützlich der Inhalt für den Unterricht von der Grundschule bis zur Universität ist.
266
+ - Begründe kurz deine ausgewählte Punktzahl, bis zu 100 Wörter.
267
+ - Antworte im folgenden Format "<Gesamtpunktzahl>"""},
268
+ {"role": "user", "content": i["text"]},
269
+ ]
270
+
271
+ result = pipe(messages, do_sample=False, temperature=0.1, max_new_tokens=1)
272
+
273
+ pred = result[0]["generated_text"][-1]["content"]
274
+ pred = int(pred)
275
+
276
+ print("Score: ", pred)
277
+ ```
278
+
279
+
280
+ **7.Future Work & Acknowledgements:**
281
  Continued efforts will focus on labeling additional datasets within this domain which will be made publicly available under our organizational repository enhancing accessibility for further research applications within academic settings or other pedagogical assessments tools development initiatives .
282
 
283
  Special thanks are due David and Daryoush from Vago Solutions; Björn and Jan from Ellamind / DiscoResearch whose insights into dataset reviews ,prompt formulations discussions about final trained model configurations were invaluable throughout this project’s lifecycle .