多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对AI自动化前端开发充满期待。 然而,一个网页的真正价值远不止于其静态布局。用户的点击、筛选、表单提交,乃至游戏中的每一步操作,都构成了其核心的交互功能。