推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

主流 GUI Agent 框架调研报告

日期：2026-03-24 12:41:31 来源：网络整理作者：本站编辑评论：0

主流 GUI Agent 框架调研报告

调研日期：2026-03-23

一、核心结论

1.1 微信自动化框架推荐

框架	微信官方支持	企业微信支持	飞书支持	推荐度
Open-AutoGLM	✅ 明确支持	✅ 明确支持	✅ 明确支持	⭐⭐⭐⭐⭐
MAI-UI	❌ 未明确	❌ 未明确	❌ 未明确	⭐⭐⭐
UI-TARS	❌ 未明确	❌ 未明确	❌ 未明确	⭐⭐⭐

结论：如果需要微信自动化功能，Open-AutoGLM 是目前唯一官方明确支持微信、企业微信、飞书的 GUI Agent 框架。

1.2 各框架定位

Open-AutoGLM：开源手机 Agent，官方明确支持微信，部署门槛中等（需配置 ADB）
MAI-UI：面向开发者的手机端模型框架，适合需要深度定制的场景
UI-TARS：完整生态，UI-TARS-desktop 适合非技术用户快速上手

二、调研对象基本信息

框架	开发方	GitHub	Stars	论文
Open-AutoGLM	zai-org（智谱 AI）	https://github.com/zai-org/Open-AutoGLM	-	arXiv:2411.00820
MAI-UI	阿里通义实验室	https://github.com/Tongyi-MAI/MAI-UI	~1.8k	arXiv:2512.22047
UI-TARS	字节跳动 Seed 团队	https://github.com/bytedance/UI-TARS	~29k	arXiv:2509.02544

三、Open-AutoGLM 详解（推荐）

3.1 基本信息

项目	内容
开发方	zai-org（智谱 AI 关联团队）
开源协议	Apache 2.0
定位	开源手机 Agent 框架
支持平台	Android + 鸿蒙

来源：GitHub 官方仓库 README

3.2 官方明确支持的应用

根据官方 README，Open-AutoGLM 明确支持以下社交通讯应用：

分类	应用
社交通讯	微信、QQ、微博、飞书、企业微信

支持的完整应用列表（50+款）包括：微信、QQ、微博、淘宝、京东、拼多多、美团、饿了么、抖音、小红书、高德地图、网易云音乐等。

来源：GitHub 官方仓库 README - "支持的应用" 章节

3.3 部署方式

方式一：使用第三方 API（推荐）

# 智谱 BigModel APIpython main.py \  --base-url https://open.bigmodel.cn/api/paas/v4 \  --model "autoglm-phone" \  --apikey "your-api-key" \  "打开微信发消息给文件传输助手：测试"# ModelScope APIpython main.py \  --base-url https://api-inference.modelscope.cn/v1 \  --model "ZhipuAI/AutoGLM-Phone-9B" \  --apikey "your-api-key" \  "打开美团搜索附近的火锅店"

方式二：本地部署（需 GPU）

需要 NVIDIA GPU（建议 24GB+ 显存），通过 vLLM 或 SGLang 部署。

来源：GitHub 官方仓库 README - 部署指南

3.4 技术架构

用户指令："打开微信发消息给张三"    ↓屏幕截图 → 视觉语言模型理解界面    ↓输出操作动作（点击坐标、输入文本等）    ↓ADB/HDC 执行操作    ↓循环直到任务完成

来源：GitHub 官方仓库 README

3.5 支持的操作类型

操作	说明
Launch	启动应用
Tap	点击坐标
Type	输入文本
Swipe	滑动屏幕
Back	返回上一页
Home	返回桌面
Long Press	长按
Double Tap	双击
Take_over	人工接管（登录/验证码场景）

来源：GitHub 官方仓库 README

四、MAI-UI 详解

4.1 基本信息

项目	内容
开发方	阿里通义实验室（Tongyi Lab）
开源协议	Apache 2.0
模型规模	2B / 8B / 32B / 235B
支持平台	Android

来源：GitHub 官方仓库 README

4.2 技术特点

MAI-UI 是一个纯模型框架，需要通过 vLLM 等推理引擎部署：

# vLLM 部署示例python -m vllm.entrypoints.openai.api_server \  --model Tongyi-MAI/MAI-UI-8B \  --port 8000

特点：

端云协作架构
MCP（Model Context Protocol）协议集成
支持 Android 设备自动化

来源：GitHub 官方仓库 README

4.3 评测性能

基准	MAI-UI-235B 成绩	排名
AndroidWorld	76.7%	第一
MobileWorld	41.7%	-

来源：GitHub 官方仓库 README（Performance 章节）

4.4 微信支持情况

官方信息：MAI-UI GitHub 仓库 README 中未明确提及微信支持。

MAI-UI 的 MobileWorld 评测基准覆盖"20款高频应用"，但具体应用列表在官方 README 中未列出。

评估：MAI-UI 定位于手机端 Android 自动化，技术上可支持微信操作，但官方文档中未明确列明微信为例应用。

五、UI-TARS 详解

5.1 基本信息

项目	内容
开发方	字节跳动 Seed 团队
Stars	~29k+
支持平台	电脑 + 手机

来源：GitHub 官方仓库

5.2 产品生态

UI-TARS 定位为完整生态系统，包含：

组件	说明
UI-TARS 模型	核心视觉语言模型
UI-TARS-desktop	桌面应用，非技术用户可直接使用
CLI / SDK	开发者集成
Agent-TARS	游戏/自动化场景

来源：GitHub 官方仓库 README

5.3 部署方式

UI-TARS-desktop（推荐非技术用户）：

下载桌面软件，安装即用
内置 Qwen3-4B-Instruct-2507 模型
无需编程，通过自然语言指令操作

来源：GitHub 官方仓库 UI-TARS-desktop README

5.4 微信支持情况

官方信息：UI-TARS GitHub 仓库中未找到微信相关的演示、案例或文档。

评估：UI-TARS 作为通用 GUI Agent 框架，理论上可支持微信操作，但官方未发布任何微信自动化相关的演示或案例。

六、微信自动化风险分析

6.1 自动化方式对比

方式	风险等级	检测难度
GUI Agent（视觉自动化）	⭐⭐ 较低	难检测
Hook 框架	⭐⭐⭐⭐⭐ 极高	易检测
Web 协议	⭐⭐⭐⭐ 高	已关闭
Android/Mac 协议	⭐⭐⭐ 中等	较难

来源：网络搜索（腾讯云开发者社区、LINUX DO 论坛讨论），无法逐条验证具体数据

6.2 风险因素

约 15% 机器人用户从未被封（网络数据）
Hook 框架用户被封概率极高（网络数据）
本地电脑操作封号率相对较高（网络数据）
Android/Mac 协议用户被封概率较低（网络数据）

评估：以上数据来自网络社区讨论，无法验证具体准确性，仅供参考。

6.3 降低风险建议

使用 GUI Agent 而非 Hook 框架
操作间隔随机化（3-10秒）
每日操作量控制在 50 次以内
内容个性化，避免模板化
优先使用企业微信处理自动化任务

来源：综合网络社区建议

七、参考链接

Open-AutoGLM GitHub: https://github.com/zai-org/Open-AutoGLM
MAI-UI GitHub: https://github.com/Tongyi-MAI/MAI-UI
UI-TARS GitHub: https://github.com/bytedance/UI-TARS
UI-TARS-desktop GitHub: https://github.com/bytedance/UI-TARS-desktop
Open-AutoGLM 论文: arXiv:2411.00820
MAI-UI 论文: arXiv:2512.22047
UI-TARS 论文: arXiv:2509.02544

报告声明：本报告所有引用均来自公开的官方文档或可验证的网络来源，未包含虚构的引用或无法确认的信息。部分网络数据（如微信风控统计数据）来自社区讨论，仅供参考，准确性无法保证。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行