Podcast Episodes

Back to Search

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

Episode 1272

🤗 Upvotes: 86 | cs.CV

Authors:
Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei …

6 months, 3 weeks ago

Short Long

View Episode

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

Episode 1271

🤗 Upvotes: 38 | cs.CV

Authors:
Hyunmin Cho, Donghoon Ahn, Susung Hong, Jee Eun Kim, Seungryong Kim, Kyong Hwan J…

6 months, 3 weeks ago

Short Long

View Episode

AutoPR: Let's Automate Your Academic Promotion!

Episode 1270

🤗 Upvotes: 38 | cs.CL

Authors:
Qiguang Chen, Zheng Yan, Mingda Yang, Libo Qin, Yixin Yuan, Hanjing Li, Jinhao Li…

6 months, 3 weeks ago

Short Long

View Episode

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

Episode 1269

🤗 Upvotes: 37 | cs.LG, cs.AI, cs.CL

Authors:
Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang

Tit…

6 months, 3 weeks ago

Short Long

View Episode

BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

Episode 1268

🤗 Upvotes: 30 | cs.CV, cs.RO

Authors:
Yu Qi, Haibo Zhao, Ziyu Guo, Siyuan Ma, Ziyan Chen, Yaokun Han, Renrui Zha…

6 months, 3 weeks ago

Short Long

View Episode

StreamingVLM: Real-Time Understanding for Infinite Video Streams

Episode 1267

🤗 Upvotes: 26 | cs.CV, cs.AI, cs.CL

Authors:
Ruyi Xu, Guangxuan Xiao, Yukang Chen, Liuning He, Kelly Peng, Yao L…

6 months, 3 weeks ago

Short Long

View Episode

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

Episode 1266

🤗 Upvotes: 22 | cs.CL, cs.AI

Authors:
Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Si…

6 months, 3 weeks ago

Short Long

View Episode

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

Episode 1265

🤗 Upvotes: 22 | cs.SE, cs.AI, cs.CL

Authors:
Terry Yue Zhuo, Xiaolong Jin, Hange Liu, Juyong Jiang, Tianyang Liu…

6 months, 3 weeks ago

Short Long

View Episode

R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

Episode 1264

🤗 Upvotes: 22 | cs.AI, cs.CL

Authors:
Yi Lu, Jianing Wang, Linsen Guo, Wei He, Hongyin Tang, Tao Gui, Xuanjing H…

6 months, 3 weeks ago

Short Long

View Episode

Agent Learning via Early Experience

Episode 1263

🤗 Upvotes: 124 | cs.AI, cs.CL, cs.IR, cs.LG

Authors:
Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Z…

6 months, 3 weeks ago

Short Long

View Episode

Podcast Episodes

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

AutoPR: Let's Automate Your Academic Promotion!

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

StreamingVLM: Real-Time Understanding for Infinite Video Streams

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

Agent Learning via Early Experience

Love PodBriefly?