推广 热搜: 采购方式  滤芯  带式称重给煤机  甲带  气动隔膜泵  减速机型号  无级变速机  链式给煤机  履带  减速机 

只给一份调研报告,4个小时后,用Qwen3.7-Max交出了一个完整 App

   日期:2026-06-02 19:24:25     来源:网络整理    作者:本站编辑    评论:0    
只给一份调研报告,4个小时后,用Qwen3.7-Max交出了一个完整 App

不是改一个按钮,不是修一个 bug,而是从 0  1,把一个完整应用的移动端与 Web 端一起交付出来。只给了AI一件东西:一份产品调研资料。

上周,专注 GUI  SWE 数据合成的企业平等智能联合阿里云设计了一个实验。设定很简单,也很苛刻:

• 模型:千问 Qwen3.7-Max

• 唯一输入:一份产品调研资料(目标 App 的用户流程文档、关键页面拆解

报告)

• 要求:在平等智能的 RL / Sandbox 环境里,从0交付一个可运行的应用——移动端与 Web 端双端

• 没有给的:没有设计稿、没有现成代码、没有分步骤的人工拆解

换句话说,没有“教”它怎么做,只给了它“要做成什么样”的调研结论,剩下的全靠它自己在环境里规划、动手、试错、修正。

下面这段日志,是 Agent 执行过程的真实片段。你能看到它在并行读取调研文档、逐份消化用户流程与页面报告,再据此一步步把产品搭起来——这正是一条“超长程任务链”被真实跑通的样子。

这不是一次常规的功能迭代,而是对建站全链路的重塑:帮你把网站从一个单纯的想法,真正推进到可上线可管理可持续运营的商业状态。

4个小时后,它交出了下面的答卷
01

 移动端 DEMO

移动端:发现页瀑布流 / 商城分类 / 商品卡片 
02

 WEB端 DEMO

Web 端:左侧导航/图文详情页/评论流

发现页的瀑布流、商城的分类与商品卡、内容详情页的图文与评论流,核心界面与主要交互都被几近还原。

说明:本次为内部技术能力验证,目标 App 为一款图文社区+商城形态的生活方式产品。文中界面均为模型自主复刻的还原效果,不含任何真实用户数据,不作商业用途。

如果你做过 Agent,你大概知道这件事的分量在哪——所以我们想把它背后的方法,完整讲一遍。


超长程Agent,到底卡在哪里?

过去一年,Coding Agent  GUI Agent 的能力提升,越来越依赖两样东西:长程轨迹数据,和可交互的环境。但主流做法,存在两个绕不过去的缺口。

① 模仿轨迹 ≠ 真正的 Coding 能力。今天很多训练数据,是对 SOTA 模型轨迹的模仿与蒸馏。模型学到的,往往只是“工具调用 + 长程思考”的表层形式——它会调 tool,但未必理解为什么要调这个 tool、这次调用在解决什么问题形似,而神不似。

② 改 feature、调 bug ≠ 真实产品交付。现有的 RL 任务,大多停留在改一个功能、修一个缺陷。任务边界小、上下文短、目标单一。它训练不出 0 交付一个真实应用产品的能力,因为它缺少真实环境里那种长程依赖与副作用反馈。

而真实的 delivery——从需求一路走到能跑的产品——才是超长程能力真正的试金石。

 俩条主线,补齐缺口

解法是两条相互咬合的主线。

面向Coding & GUI Agent 的训练数据。不止记录“调用了什么工具”,更标注“为什么调用、目标是什么”。它同时覆盖 Coding(代码)与 GUI(界面操作)双形态,强调从需求到交付的完整长程任务链。数据解决的是“理解什么”的问题。

② 可交付产品级的 Sandbox 环境。一套可交互、可复现、可验证的隔离运行环境,支撑真实产品交付级别的长程任务,并提供可验证的执行反馈与奖励信号。环境解决的是“在哪练、怎么验”的问题。

一句话:数据让模型学会“为什么调”,环境让 RL 在“接近真实”的条件下进行。

这件事,验证了什么?

这次实验,最在意的不是“还原得有多像”,而是它证明了一条路是通的:在一个足够真实、可验证的环境里,给定明确的调研输入,模型有能力把一个应用级产品 0 跑到 1——独立完成跨越数小时、涉及大量长程依赖的复杂交付任务,而不是只在小任务里打转。

这恰恰回应了上文提到的那两个缺口:它不是在模仿一条轨迹,而是在理解一份需求并交付一个产品;它不是在改 feature,而是在做真正的delivery

这次千问 Qwen3.7-Max和平等智能的配合,让我们相信一个判断:预训练时代的稀缺资源是数据,强化学习时代的稀缺资源是环境。谁能把“接近真实”的交付环境做扎实,谁就握住了下一代 Agent 能力增长的地基。


关于平等智能:

Efflora(平等智能)是一家专注 GUI  SWE 数据合成的公司,我们提供并构建训练与强化学习(RL)环境、沉淀可复用的结构化行为数据。让 Agent 在真实的应用场景中学习与执行任务,覆盖多端,并把每一次真实操作都转化为可被复用的行为轨迹和意图。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON