信通学院本科生主导的AIGC研究成果被国际顶级会议ACM MM2024录用

作者：js金沙3983总站发布时间：2024-08-16

（通讯员刘明君）

近日，我校js金沙3983总站毛琪副教授团队带领本科生与新加坡国立大学Mike Zheng Shou 助理教授团队合作的论文被人工智能与多媒体顶会2024 ACM Multimedia (ACM MM)录用。

ACM MM是中国计算机学会(CCF) 推荐的A类国际学术会议，ACM MM2024为该会议的第32届会议，将于2024年10月28日至11月1日在澳大利亚墨尔本举行。本届会议共收到 4385 篇有效投稿，其中 1149 篇被录用，录用率为 26.20%。

论文简介

题目：MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance

论文概览：大规模文本到图像（T2I）扩散模型的最新成果展示了它们在生成高质量、多样化图像方面的卓越能力，尤其是在反映特定文本描述时。经过大量数据集的训练，这些模型能有效地将文本与相应图像联系起来，开辟了基于文本图像编辑的新可能性。过去一年中，基于扩散模型的文本图像编辑方法显著增加，大致可分为三类：基于指令的训练、微调以及无需训练的方法。本文聚焦于改进无需训练的编辑方法。现有无需训练的方法，如混合潜在扩散模型（Blended Latent Diffusion），会导致编辑区域的结构显著改变，破坏与复杂背景的视觉和谐。基于注意力的编辑方法（如Prompt-to-Prompt）能保持原始图像的结构和布局，但编辑效果可能超出目标区域。尽管结合这两种方法可以减少目标区域之外的编辑，但在与文本提示的精确对齐方面仍存在挑战，导致编辑内容无法准确定位。为解决这些问题，本文提出了一种新颖的优化策略，称为基于掩码的注意力调整引导（MAG-Edit）。该方法在推理阶段使用两个基于掩码的交叉注意力约束条件，对噪声潜特征进行局部优化，以增强图像特征与文本的对齐程度，从而实现平衡效果和结构的局部编辑。

本工作由“中国传媒大学智能多媒体处理小组（CUC-MIPG）”主导完成。其中，我院2020级数字媒体技术系本科生陈澜同学和2021级人工智能系本科生方镇同学参与了该项研究。近年来，js金沙3983总站积极推动人工智能生成内容（AIGC）等前沿领域的科研团队建设。围绕“媒体内容智能生成”这一核心课题，学院推动本科生参与科研工作，通过设立科研项目、组织学术讲座、鼓励跨学科合作等多种形式，创造丰富的学习和研究机会。这不仅有助于发掘和培养媒体融合与传播研究的青年科技人才，也为推动媒体融合的深入发展贡献了力量。

算法效果

项目地址

https://mag-edit.github.io/