Yuhang Zhou's picture

5

Yuhang Zhou

zyhang1998

·

AI & ML interests

None yet

Recent Activity

updated a model 7 days ago

zyhang1998/qwen3_8b_answer_rankmind_rl

published a model 7 days ago

zyhang1998/qwen3_8b_answer_rankmind_rl

updated a model 7 days ago

zyhang1998/qwen3_8b_code_rankmind_rl

View all activity

Organizations

updated a model 7 days ago

zyhang1998/qwen3_8b_answer_rankmind_rl

8B • Updated 7 days ago • 10

published a model 7 days ago

zyhang1998/qwen3_8b_answer_rankmind_rl

8B • Updated 7 days ago • 10

updated a model 7 days ago

zyhang1998/qwen3_8b_code_rankmind_rl

8B • Updated 7 days ago • 10

published a model 7 days ago

zyhang1998/qwen3_8b_code_rankmind_rl

8B • Updated 7 days ago • 10

updated a model 7 days ago

zyhang1998/qwen3_8b_plan_rankmind_rl

8B • Updated 7 days ago • 6

published a model 7 days ago

zyhang1998/qwen3_8b_plan_rankmind_rl

8B • Updated 7 days ago • 6

upvoted a paper 28 days ago

Self-Rewarding Vision-Language Model via Reasoning Decomposition

Paper • 2508.19652 • Published 29 days ago • 84

updated a model about 1 month ago

zyhang1998/gemma3_27b_textonly

27B • Updated Aug 22 • 4

published a model about 1 month ago

zyhang1998/gemma3_27b_textonly

27B • Updated Aug 22 • 4

upvoted a paper 3 months ago

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

Paper • 2506.15068 • Published Jun 18 • 13

updated a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_imdb_main_2K

Viewer • Updated May 6 • 2k • 16

published a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_imdb_main_2K

Viewer • Updated May 6 • 2k • 16

updated a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_metamath_main_2K

Viewer • Updated May 6 • 2k • 11

published a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_metamath_main_2K

Viewer • Updated May 6 • 2k • 11

updated a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_arc_main_2K

Viewer • Updated May 6 • 2k • 11

published a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_arc_main_2K

Viewer • Updated May 6 • 2k • 11

updated a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_nq_main_2K

Viewer • Updated May 6 • 2k • 12

published a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_nq_main_2K

Viewer • Updated May 6 • 2k • 12

updated a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_equal_dist_2K

Viewer • Updated May 6 • 2k • 11

published a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_equal_dist_2K

Viewer • Updated May 6 • 2k • 11