[ i_t | depth_t | S2D(WarpHighColor_{t-1→t}) ] (B,16,H,W)
│
Stem: 3×3 Conv+PReLU → ResBlock → f1 (32 ch)
│
├─ DownBlock(stride2) → 64 ch → f2
│
├─ DownBlock(stride2) → 128 ch → f3
│
└─ DownBlock(stride2) → 256 ch → DepthGuidedAttention → f4
Decoder(共享):
f4 → Up(×2, ConvT) → 128 ─ Add f3 → Refine(Conv+Res) → 128a
128a → Up → 64 ─ Add f2 → Refine → 64a
64a → Up → 32 ─ Add f1 → Refine → 32a
32a ─ Concat[ + f1 ] → Conv → 46 → Conv → 12 → PixelShuffle(scale=2) → I_t_high (B,3,2H,2W)
收集解码特征: [128a,64a,32a]