vision-r1 - a spillai Collection

spillai 's Collections

vision-r1

updated Oct 3, 2025

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Paper • 2503.06749 • Published Mar 9, 2025 • 31
Executable Code Actions Elicit Better LLM Agents

Paper • 2402.01030 • Published Feb 1, 2024 • 188
VGR: Visual Grounded Reasoning

Paper • 2506.11991 • Published Jun 13, 2025 • 20
Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images

Paper • 2509.07966 • Published Sep 9, 2025 • 5
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

Paper • 2504.15279 • Published Apr 21, 2025 • 78
Visual Abstract Thinking Empowers Multimodal Reasoning

Paper • 2505.20164 • Published May 26, 2025 • 1
PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images

Paper • 2509.25185 • Published Sep 29, 2025 • 5
Seeing Culture: A Benchmark for Visual Reasoning and Grounding

Paper • 2509.16517 • Published Sep 20, 2025 • 3
VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception

Paper • 2509.21100 • Published Sep 25, 2025 • 1
Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

Paper • 2505.23590 • Published May 29, 2025 • 25