Papers to Read - a swami2004 Collection

swami2004 's Collections

Papers to Read

updated Jun 19, 2024

mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Paper • 2406.11839 • Published Jun 17, 2024 • 40
Pandora: Towards General World Model with Natural Language Actions and Video States

Paper • 2406.09455 • Published Jun 12, 2024 • 16
WPO: Enhancing RLHF with Weighted Preference Optimization

Paper • 2406.11827 • Published Jun 17, 2024 • 17
In-Context Editing: Learning Knowledge from Self-Induced Distributions

Paper • 2406.11194 • Published Jun 17, 2024 • 20
Breaking the Attention Bottleneck

Paper • 2406.10906 • Published Jun 16, 2024 • 4
Deep Bayesian Active Learning for Preference Modeling in Large Language Models

Paper • 2406.10023 • Published Jun 14, 2024 • 2
RVT-2: Learning Precise Manipulation from Few Demonstrations

Paper • 2406.08545 • Published Jun 12, 2024 • 8
Depth Anything V2

Paper • 2406.09414 • Published Jun 13, 2024 • 103
Transformers meet Neural Algorithmic Reasoners

Paper • 2406.09308 • Published Jun 13, 2024 • 44
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Paper • 2406.07522 • Published Jun 11, 2024 • 40
MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Paper • 2406.05338 • Published Jun 8, 2024 • 41
Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning

Paper • 2406.06469 • Published Jun 10, 2024 • 29
RePLan: Robotic Replanning with Perception and Language Models

Paper • 2401.04157 • Published Jan 8, 2024 • 3
Generative Expressive Robot Behaviors using Large Language Models

Paper • 2401.14673 • Published Jan 26, 2024 • 7
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms

Paper • 2406.02900 • Published Jun 5, 2024 • 13
PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs

Paper • 2406.02886 • Published Jun 5, 2024 • 10
Self-Improving Robust Preference Optimization

Paper • 2406.01660 • Published Jun 3, 2024 • 20
MotionLLM: Understanding Human Behaviors from Human Motions and Videos

Paper • 2405.20340 • Published May 30, 2024 • 20
Offline Regularised Reinforcement Learning for Large Language Models Alignment

Paper • 2405.19107 • Published May 29, 2024 • 15
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF

Paper • 2405.19320 • Published May 29, 2024 • 10
An Introduction to Vision-Language Modeling

Paper • 2405.17247 • Published May 27, 2024 • 90
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

Paper • 2405.11143 • Published May 20, 2024 • 41
Octo: An Open-Source Generalist Robot Policy

Paper • 2405.12213 • Published May 20, 2024 • 29
TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction

Paper • 2405.10315 • Published May 16, 2024 • 14
RLHF Workflow: From Reward Modeling to Online RLHF

Paper • 2405.07863 • Published May 13, 2024 • 71
Self-Play Preference Optimization for Language Model Alignment

Paper • 2405.00675 • Published May 1, 2024 • 28
Iterative Reasoning Preference Optimization

Paper • 2404.19733 • Published Apr 30, 2024 • 49
KAN: Kolmogorov-Arnold Networks

Paper • 2404.19756 • Published Apr 30, 2024 • 116
A Multimodal Automated Interpretability Agent

Paper • 2404.14394 • Published Apr 22, 2024 • 23
Learning H-Infinity Locomotion Control

Paper • 2404.14405 • Published Apr 22, 2024 • 7
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

Paper • 2404.12318 • Published Apr 18, 2024 • 15
Scaling Instructable Agents Across Many Simulated Worlds

Paper • 2404.10179 • Published Mar 13, 2024 • 28
Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15, 2024 • 90
Dataset Reset Policy Optimization for RLHF

Paper • 2404.08495 • Published Apr 12, 2024 • 9
UniFL: Improve Stable Diffusion via Unified Feedback Learning

Paper • 2404.05595 • Published Apr 8, 2024 • 24
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Paper • 2404.03715 • Published Apr 4, 2024 • 62
Robust Gaussian Splatting

Paper • 2404.04211 • Published Apr 5, 2024 • 9
RL for Consistency Models: Faster Reward Guided Text-to-Image Generation

Paper • 2404.03673 • Published Mar 25, 2024 • 15