Models

157

Full-text search

Active filters: reward-model

mradermacher/ThinkPRM-14B-i1-GGUF

15B • Updated Jul 11, 2025 • 301

mradermacher/ThinkPRM-1.5B-GGUF

2B • Updated Jul 11, 2025 • 157

ilgee/Binary-Think-RM-8B

8B • Updated Nov 2, 2025 • 3

ilgee/Multiclass-Think-RM-8B

8B • Updated Nov 2, 2025 • 82

launch/ThinkPRM-7B

Text Generation • 8B • Updated May 17, 2025 • 386 • 1

mradermacher/ThinkPRM-7B-GGUF

8B • Updated Jul 11, 2025 • 153

mradermacher/ThinkPRM-7B-i1-GGUF

8B • Updated Jul 11, 2025 • 326

Huanghz/align2llava-7b-lora-question

Updated May 21, 2025 • 1

Huanghz/align2llava-7b-lora-answer

Updated May 21, 2025 • 3

nvidia/Qwen-2.5-Nemotron-32B-Reward

Text Classification • 32B • Updated Jun 26, 2025 • 13 • 2

nvidia/Qwen-3-Nemotron-32B-Reward

Text Classification • 32B • Updated Jun 26, 2025 • 410 • 19

zhuohaoyu/RewardAnything-8B-v1

Text Generation • 8B • Updated Jun 5, 2025 • 49 • 4

mradermacher/RewardAnything-8B-v1-GGUF

8B • Updated Jul 11, 2025 • 108

WisdomShell/RewardAnything-8B-v1

Text Generation • 8B • Updated Jun 5, 2025 • 67 • • 22

Skywork/Skywork-Reward-V2-Qwen3-8B

Text Classification • 8B • Updated Jul 6, 2025 • 8.86k • 24

ContextualAI/ctx-bird-reward-250121

Text Generation • 33B • Updated Dec 2, 2025 • 6 • 5

Bifrost-AI/Qwen-3-Nemotron-32B-Reward-F16

Text Classification • 32B • Updated Jul 11, 2025 • 2

tensorblock/WisdomShell_RewardAnything-8B-v1-GGUF

Text Generation • 8B • Updated Jan 27 • 3

ulab-ai/sotopia-rl-qwen2.5-7B-rm

Feature Extraction • Updated Aug 7, 2025 • 1

ilgee/Binary-Think-RM-3B

3B • Updated Nov 2, 2025 • 5 • 1

gandhiraketla277/demo-lora-reward-model

Text Generation • Updated Aug 10, 2025

Schrieffer/Llama-SARM-4B

Reinforcement Learning • 5B • Updated Dec 11, 2025 • 8 • 1

phuongntc/Multi_EvalSumViet2

Summarization • 0.2B • Updated about 18 hours ago • 61

ykorkmaz/rfm_no_failure

4B • Updated Aug 30, 2025 • 1

abraranwar/spur_metaworld

4B • Updated Aug 31, 2025 • 3

ykorkmaz/rfm_progress_only

4B • Updated Sep 1, 2025 • 2

kewu93/skywork-medarena-lora-v1

Updated Sep 18, 2025

kewu93/skywork-medarena-lora-v2

Text Classification • Updated Sep 18, 2025

nabeelshan/rlhf-gpt2-pipeline

Text Generation • Updated Sep 24, 2025

Schrieffer/Llama-SARM-4B-PostSAEPretrain

Feature Extraction • 5B • Updated Dec 11, 2025 • 44 • 1