Llms meet multimodal generation and editing: A survey.arXiv preprint arXiv:2405.19334

· 2024 · arXiv 2405.19334

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

Modality-Decoupled Online Recursive Editing

cs.LG · 2026-05-19 · conditional · novelty 7.0

M-ORE decouples text and visual update statistics in MLLMs and applies recursive low-rank edits in an orthogonal subspace to reduce cross-modal conflict and long-horizon interference.

Multimodal Knowledge Edit-Scoped Generalization for Online Recursive MLLM Editing

cs.AI · 2026-07-02 · unverdicted · novelty 6.0

ScopeEdit decomposes MLLM edits into modality-local and evidence-gated shared branches using orthogonal low-rank spaces and recursive updates to improve scoped cross-modal transfer while preserving locality and efficiency.

AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

cs.SD · 2026-06-10 · unverdicted · novelty 5.0

AudioX-Turbo distills a Multimodal Diffusion Transformer into a 4-step student model for efficient multimodal anything-to-audio generation, trained on a new 9.2M-sample dataset IF-caps-Pro.

citing papers explorer

Showing 3 of 3 citing papers.

Modality-Decoupled Online Recursive Editing cs.LG · 2026-05-19 · conditional · none · ref 10
M-ORE decouples text and visual update statistics in MLLMs and applies recursive low-rank edits in an orthogonal subspace to reduce cross-modal conflict and long-horizon interference.
Multimodal Knowledge Edit-Scoped Generalization for Online Recursive MLLM Editing cs.AI · 2026-07-02 · unverdicted · none · ref 48
ScopeEdit decomposes MLLM edits into modality-local and evidence-gated shared branches using orthogonal low-rank spaces and recursive updates to improve scoped cross-modal transfer while preserving locality and efficiency.
AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation cs.SD · 2026-06-10 · unverdicted · none · ref 29
AudioX-Turbo distills a Multimodal Diffusion Transformer into a 4-step student model for efficient multimodal anything-to-audio generation, trained on a new 9.2M-sample dataset IF-caps-Pro.

Llms meet multimodal generation and editing: A survey.arXiv preprint arXiv:2405.19334

fields

years

verdicts

representative citing papers

citing papers explorer