RLMT Experiments - a princeton-nlp Collection

princeton-nlp 's Collections

RLMT Experiments

SimPO

ProLong

SimCSE

RLMT Experiments

updated 16 days ago

The *RLMT* collection. Coming soon!

princeton-nlp/warm-start__sft__think__Llama-3.1-8B-Instruct

8B • Updated 18 days ago • 15
princeton-nlp/warm-start__sft__nothink__Qwen2.5-7B-Instruct

8B • Updated 18 days ago • 18
princeton-nlp/warm-start__sft__think__Llama-3.1-8B

8B • Updated 18 days ago • 18
princeton-nlp/warm-start__sft__think__Qwen2.5-7B

8B • Updated 18 days ago • 15
princeton-nlp/warm-start__sft__nothink__Llama-3.1-8B-Instruct

8B • Updated 18 days ago • 19
princeton-nlp/warm-start__sft__think__Qwen2.5-7B-Instruct

8B • Updated 18 days ago • 17
princeton-nlp/warm-start__sft__nothink__Llama-3.1-8B

8B • Updated 18 days ago • 13
princeton-nlp/warm-start__sft__nothink__Qwen2.5-7B

8B • Updated 18 days ago • 21
princeton-nlp/warm-start__dpo__think__Llama-3.1-8B

8B • Updated 18 days ago • 18
princeton-nlp/warm-start__dpo__think__Qwen2.5-7B

8B • Updated 18 days ago • 18
princeton-nlp/warm-start__dpo__think__Llama-3.1-8B-Instruct

8B • Updated 18 days ago • 17
princeton-nlp/warm-start__dpo__think__Qwen2.5-7B-Instruct

8B • Updated 18 days ago • 17
princeton-nlp/warm-start__dpo__nothink__Llama-3.1-8B

8B • Updated 18 days ago • 16
princeton-nlp/warm-start__dpo__nothink__Qwen2.5-7B

8B • Updated 18 days ago • 15
princeton-nlp/warm-start__dpo__nothink__Llama-3.1-8B-Instruct

8B • Updated 18 days ago • 14
princeton-nlp/warm-start__dpo__nothink__Qwen2.5-7B-Instruct

8B • Updated 18 days ago • 13
princeton-nlp/warm-start__ppo__think__Qwen2.5-7B

8B • Updated 18 days ago • 18
princeton-nlp/warm-start__ppo__think__Llama-3.1-8B-Instruct

8B • Updated 18 days ago • 17
princeton-nlp/warm-start__ppo__think__Qwen2.5-7B-Instruct

8B • Updated 18 days ago • 23
princeton-nlp/warm-start__ppo__nothink__Llama-3.1-8B

8B • Updated 18 days ago • 15
princeton-nlp/warm-start__ppo__nothink__Qwen2.5-7B

8B • Updated 18 days ago • 15
princeton-nlp/warm-start__ppo__nothink__Llama-3.1-8B-Instruct

8B • Updated 18 days ago • 19
princeton-nlp/warm-start__ppo__nothink__Qwen2.5-7B-Instruct

8B • Updated 18 days ago • 17
princeton-nlp/zero__base__think__Llama-3.1-8B

8B • Updated 18 days ago • 17
princeton-nlp/zero__base__nothink__Llama-3.1-8B

8B • Updated 18 days ago • 18
princeton-nlp/zero__base__think__Qwen2.5-7B

8B • Updated 18 days ago • 15
princeton-nlp/zero__base__nothink__Qwen2.5-7B

8B • Updated 18 days ago • 14
princeton-nlp/zero__dpo__think__Llama-3.1-8B

8B • Updated 18 days ago • 14
princeton-nlp/zero__dpo__think__Qwen2.5-7B

8B • Updated 18 days ago • 17
princeton-nlp/zero__dpo__nothink__Llama-3.1-8B

8B • Updated 18 days ago • 17
princeton-nlp/zero__dpo__nothink__Qwen2.5-7B

8B • Updated 18 days ago • 14
princeton-nlp/zero__ppo__think__Llama-3.1-8B

8B • Updated 18 days ago • 17
princeton-nlp/zero__ppo__think__Qwen2.5-7B

8B • Updated 18 days ago • 16
princeton-nlp/warm-start__ppo__think__Llama-3.1-8B

8B • Updated 18 days ago • 21
princeton-nlp/zero__ppo__nothink__Qwen2.5-7B

8B • Updated 18 days ago • 13
princeton-nlp/zero__grpo__think__Llama-3.1-8B

8B • Updated 18 days ago • 19
princeton-nlp/zero__grpo__think__Qwen2.5-7B

8B • Updated 18 days ago • 18
princeton-nlp/zero__grpo__nothink__Llama-3.1-8B

8B • Updated 18 days ago • 16
princeton-nlp/zero__grpo__nothink__Qwen2.5-7B

8B • Updated 18 days ago • 16
princeton-nlp/rl_tulu3_wildchat-if_prompts

Viewer • Updated 18 days ago • 7.79k • 114 • 1
princeton-nlp/gemini_2.5_flash_0417_sft-data

Viewer • Updated 18 days ago • 6k • 115
princeton-nlp/warm-start__grpo__nothink__Qwen2.5-7B-Instruct

8B • Updated 16 days ago • 18
princeton-nlp/warm-start__grpo__nothink__Llama-3.1-8B-Instruct

8B • Updated 16 days ago • 17
princeton-nlp/warm-start__grpo__nothink__Qwen2.5-7B

8B • Updated 16 days ago • 13
princeton-nlp/warm-start__grpo__nothink__Llama-3.1-8B

8B • Updated 16 days ago • 16
princeton-nlp/warm-start__grpo__think__Qwen2.5-7B-Instruct

8B • Updated 16 days ago • 20
princeton-nlp/warm-start__grpo__think__Llama-3.1-8B-Instruct

8B • Updated 16 days ago • 28
princeton-nlp/warm-start__grpo__think__Qwen2.5-7B

8B • Updated 16 days ago • 17
princeton-nlp/warm-start__grpo__think__Llama-3.1-8B

8B • Updated 16 days ago • 16