Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
- Website
- Community
- Solutions
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2503.01933

Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 156
Orion-14B: Open-source Multilingual Large Language Models

Paper • 2401.12246 • Published Jan 20, 2024 • 14
MambaByte: Token-free Selective State Space Model

Paper • 2401.13660 • Published Jan 24, 2024 • 59
MM-LLMs: Recent Advances in MultiModal Large Language Models

Paper • 2401.13601 • Published Jan 24, 2024 • 47

Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Paper • 2503.01933 • Published Mar 3, 2025 • 13

Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Paper • 2503.01933 • Published Mar 3, 2025 • 13
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

Paper • 2505.24189 • Published May 30, 2025 • 5

Prompt-to-Leaderboard

Paper • 2502.14855 • Published Feb 20, 2025 • 7
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Paper • 2502.16894 • Published Feb 24, 2025 • 33
Generating Skyline Datasets for Data Science Models

Paper • 2502.11262 • Published Feb 16, 2025 • 7
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge

Paper • 2502.12501 • Published Feb 18, 2025 • 6

On Domain-Specific Post-Training for Multimodal Large Language Models

Paper • 2411.19930 • Published Nov 29, 2024 • 30
START: Self-taught Reasoner with Tools

Paper • 2503.04625 • Published Mar 6, 2025 • 113
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Paper • 2503.02495 • Published Mar 4, 2025 • 9
Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Paper • 2503.01933 • Published Mar 3, 2025 • 13

Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 156
Orion-14B: Open-source Multilingual Large Language Models

Paper • 2401.12246 • Published Jan 20, 2024 • 14
MambaByte: Token-free Selective State Space Model

Paper • 2401.13660 • Published Jan 24, 2024 • 59
MM-LLMs: Recent Advances in MultiModal Large Language Models

Paper • 2401.13601 • Published Jan 24, 2024 • 47

Small Language Models

Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Paper • 2503.01933 • Published Mar 3, 2025 • 13
Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published Oct 6, 2025 • 515
Small Language Models: Survey, Measurements, and Insights

Paper • 2409.15790 • Published Sep 24, 2024 • 1
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

Paper • 2505.24189 • Published May 30, 2025 • 5

Sparse Mixture of Experts datasets for mathematical reasoning and complex calculations.

open-r1/OpenR1-Math-220k

Viewer • Updated Feb 18, 2025 • 450k • 46.3k • 753
QuixiAI/dolphin-r1

Viewer • Updated Jan 30, 2025 • 814k • 1.58k • 301
open-r1/OpenThoughts-114k-math

Viewer • Updated Jan 30, 2025 • 89.1k • 956 • 92
open-thoughts/OpenThoughts-114k

Viewer • Updated Aug 31, 2025 • 228k • 109k • 852

impactful-papers

Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning

Paper • 2311.11077 • Published Nov 18, 2023 • 29
Tensor Product Attention Is All You Need

Paper • 2501.06425 • Published Jan 11, 2025 • 91
LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 61
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

Paper • 2403.03853 • Published Mar 6, 2024 • 65

Self-Boosting Large Language Models with Synthetic Preference Data

Paper • 2410.06961 • Published Oct 9, 2024 • 16
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 380
SCOPE: Optimizing Key-Value Cache Compression in Long-context Generation

Paper • 2412.13649 • Published Dec 18, 2024 • 21
NeoBERT: A Next-Generation BERT

Paper • 2502.19587 • Published Feb 26, 2025 • 39

Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 156
Orion-14B: Open-source Multilingual Large Language Models

Paper • 2401.12246 • Published Jan 20, 2024 • 14
MambaByte: Token-free Selective State Space Model

Paper • 2401.13660 • Published Jan 24, 2024 • 59
MM-LLMs: Recent Advances in MultiModal Large Language Models

Paper • 2401.13601 • Published Jan 24, 2024 • 47

Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 156
Orion-14B: Open-source Multilingual Large Language Models

Paper • 2401.12246 • Published Jan 20, 2024 • 14
MambaByte: Token-free Selective State Space Model

Paper • 2401.13660 • Published Jan 24, 2024 • 59
MM-LLMs: Recent Advances in MultiModal Large Language Models

Paper • 2401.13601 • Published Jan 24, 2024 • 47

Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Paper • 2503.01933 • Published Mar 3, 2025 • 13

Small Language Models

Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Paper • 2503.01933 • Published Mar 3, 2025 • 13
Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published Oct 6, 2025 • 515
Small Language Models: Survey, Measurements, and Insights

Paper • 2409.15790 • Published Sep 24, 2024 • 1
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

Paper • 2505.24189 • Published May 30, 2025 • 5

Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Paper • 2503.01933 • Published Mar 3, 2025 • 13
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

Paper • 2505.24189 • Published May 30, 2025 • 5

Sparse Mixture of Experts datasets for mathematical reasoning and complex calculations.

open-r1/OpenR1-Math-220k

Viewer • Updated Feb 18, 2025 • 450k • 46.3k • 753
QuixiAI/dolphin-r1

Viewer • Updated Jan 30, 2025 • 814k • 1.58k • 301
open-r1/OpenThoughts-114k-math

Viewer • Updated Jan 30, 2025 • 89.1k • 956 • 92
open-thoughts/OpenThoughts-114k

Viewer • Updated Aug 31, 2025 • 228k • 109k • 852

Prompt-to-Leaderboard

Paper • 2502.14855 • Published Feb 20, 2025 • 7
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Paper • 2502.16894 • Published Feb 24, 2025 • 33
Generating Skyline Datasets for Data Science Models

Paper • 2502.11262 • Published Feb 16, 2025 • 7
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge

Paper • 2502.12501 • Published Feb 18, 2025 • 6

impactful-papers

Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning

Paper • 2311.11077 • Published Nov 18, 2023 • 29
Tensor Product Attention Is All You Need

Paper • 2501.06425 • Published Jan 11, 2025 • 91
LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 61
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

Paper • 2403.03853 • Published Mar 6, 2024 • 65

On Domain-Specific Post-Training for Multimodal Large Language Models

Paper • 2411.19930 • Published Nov 29, 2024 • 30
START: Self-taught Reasoner with Tools

Paper • 2503.04625 • Published Mar 6, 2025 • 113
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Paper • 2503.02495 • Published Mar 4, 2025 • 9
Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Paper • 2503.01933 • Published Mar 3, 2025 • 13

Self-Boosting Large Language Models with Synthetic Preference Data

Paper • 2410.06961 • Published Oct 9, 2024 • 16
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 380
SCOPE: Optimizing Key-Value Cache Compression in Long-context Generation

Paper • 2412.13649 • Published Dec 18, 2024 • 21
NeoBERT: A Next-Generation BERT

Paper • 2502.19587 • Published Feb 26, 2025 • 39

Previous
1
2
Next

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs