调研日期:2026-03-23
一、核心结论
1.1 微信自动化框架推荐
框架 | 微信官方支持 | 企业微信支持 | 飞书支持 | 推荐度 |
|---|---|---|---|---|
Open-AutoGLM | ✅ 明确支持 | ✅ 明确支持 | ✅ 明确支持 | ⭐⭐⭐⭐⭐ |
MAI-UI | ❌ 未明确 | ❌ 未明确 | ❌ 未明确 | ⭐⭐⭐ |
UI-TARS | ❌ 未明确 | ❌ 未明确 | ❌ 未明确 | ⭐⭐⭐ |
结论:如果需要微信自动化功能,Open-AutoGLM 是目前唯一官方明确支持微信、企业微信、飞书的 GUI Agent 框架。
1.2 各框架定位
Open-AutoGLM:开源手机 Agent,官方明确支持微信,部署门槛中等(需配置 ADB)
MAI-UI:面向开发者的手机端模型框架,适合需要深度定制的场景
UI-TARS:完整生态,UI-TARS-desktop 适合非技术用户快速上手
二、调研对象基本信息
框架 | 开发方 | GitHub | Stars | 论文 |
|---|---|---|---|---|
Open-AutoGLM | zai-org(智谱 AI) | https://github.com/zai-org/Open-AutoGLM | - | arXiv:2411.00820 |
MAI-UI | 阿里通义实验室 | https://github.com/Tongyi-MAI/MAI-UI | ~1.8k | arXiv:2512.22047 |
UI-TARS | 字节跳动 Seed 团队 | https://github.com/bytedance/UI-TARS | ~29k | arXiv:2509.02544 |
三、Open-AutoGLM 详解(推荐)
3.1 基本信息
项目 | 内容 |
|---|---|
开发方 | zai-org(智谱 AI 关联团队) |
开源协议 | Apache 2.0 |
定位 | 开源手机 Agent 框架 |
支持平台 | Android + 鸿蒙 |
来源:GitHub 官方仓库 README
3.2 官方明确支持的应用
根据官方 README,Open-AutoGLM 明确支持以下社交通讯应用:
分类 | 应用 |
|---|---|
社交通讯 | 微信、QQ、微博、飞书、企业微信 |
支持的完整应用列表(50+款)包括:微信、QQ、微博、淘宝、京东、拼多多、美团、饿了么、抖音、小红书、高德地图、网易云音乐等。
来源:GitHub 官方仓库 README - "支持的应用" 章节
3.3 部署方式
方式一:使用第三方 API(推荐)
# 智谱 BigModel APIpython main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your-api-key" \ "打开微信发消息给文件传输助手:测试"# ModelScope APIpython main.py \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "your-api-key" \ "打开美团搜索附近的火锅店"方式二:本地部署(需 GPU)
需要 NVIDIA GPU(建议 24GB+ 显存),通过 vLLM 或 SGLang 部署。
来源:GitHub 官方仓库 README - 部署指南
3.4 技术架构
用户指令:"打开微信发消息给张三" ↓屏幕截图 → 视觉语言模型理解界面 ↓输出操作动作(点击坐标、输入文本等) ↓ADB/HDC 执行操作 ↓循环直到任务完成来源:GitHub 官方仓库 README
3.5 支持的操作类型
操作 | 说明 |
|---|---|
Launch | 启动应用 |
Tap | 点击坐标 |
Type | 输入文本 |
Swipe | 滑动屏幕 |
Back | 返回上一页 |
Home | 返回桌面 |
Long Press | 长按 |
Double Tap | 双击 |
Take_over | 人工接管(登录/验证码场景) |
来源:GitHub 官方仓库 README
四、MAI-UI 详解
4.1 基本信息
项目 | 内容 |
|---|---|
开发方 | 阿里通义实验室(Tongyi Lab) |
开源协议 | Apache 2.0 |
模型规模 | 2B / 8B / 32B / 235B |
支持平台 | Android |
来源:GitHub 官方仓库 README
4.2 技术特点
MAI-UI 是一个纯模型框架,需要通过 vLLM 等推理引擎部署:
# vLLM 部署示例python -m vllm.entrypoints.openai.api_server \ --model Tongyi-MAI/MAI-UI-8B \ --port 8000特点:
端云协作架构
MCP(Model Context Protocol)协议集成
支持 Android 设备自动化
来源:GitHub 官方仓库 README
4.3 评测性能
基准 | MAI-UI-235B 成绩 | 排名 |
|---|---|---|
AndroidWorld | 76.7% | 第一 |
MobileWorld | 41.7% | - |
来源:GitHub 官方仓库 README(Performance 章节)
4.4 微信支持情况
官方信息:MAI-UI GitHub 仓库 README 中未明确提及微信支持。
MAI-UI 的 MobileWorld 评测基准覆盖"20款高频应用",但具体应用列表在官方 README 中未列出。
评估:MAI-UI 定位于手机端 Android 自动化,技术上可支持微信操作,但官方文档中未明确列明微信为例应用。
五、UI-TARS 详解
5.1 基本信息
项目 | 内容 |
|---|---|
开发方 | 字节跳动 Seed 团队 |
Stars | ~29k+ |
支持平台 | 电脑 + 手机 |
来源:GitHub 官方仓库
5.2 产品生态
UI-TARS 定位为完整生态系统,包含:
组件 | 说明 |
|---|---|
UI-TARS 模型 | 核心视觉语言模型 |
UI-TARS-desktop | 桌面应用,非技术用户可直接使用 |
CLI / SDK | 开发者集成 |
Agent-TARS | 游戏/自动化场景 |
来源:GitHub 官方仓库 README
5.3 部署方式
UI-TARS-desktop(推荐非技术用户):
下载桌面软件,安装即用
内置 Qwen3-4B-Instruct-2507 模型
无需编程,通过自然语言指令操作
来源:GitHub 官方仓库 UI-TARS-desktop README
5.4 微信支持情况
官方信息:UI-TARS GitHub 仓库中未找到微信相关的演示、案例或文档。
评估:UI-TARS 作为通用 GUI Agent 框架,理论上可支持微信操作,但官方未发布任何微信自动化相关的演示或案例。
六、微信自动化风险分析
6.1 自动化方式对比
方式 | 风险等级 | 检测难度 |
|---|---|---|
GUI Agent(视觉自动化) | ⭐⭐ 较低 | 难检测 |
Hook 框架 | ⭐⭐⭐⭐⭐ 极高 | 易检测 |
Web 协议 | ⭐⭐⭐⭐ 高 | 已关闭 |
Android/Mac 协议 | ⭐⭐⭐ 中等 | 较难 |
来源:网络搜索(腾讯云开发者社区、LINUX DO 论坛讨论),无法逐条验证具体数据
6.2 风险因素
约 15% 机器人用户从未被封(网络数据)
Hook 框架用户被封概率极高(网络数据)
本地电脑操作封号率相对较高(网络数据)
Android/Mac 协议用户被封概率较低(网络数据)
评估:以上数据来自网络社区讨论,无法验证具体准确性,仅供参考。
6.3 降低风险建议
使用 GUI Agent 而非 Hook 框架
操作间隔随机化(3-10秒)
每日操作量控制在 50 次以内
内容个性化,避免模板化
优先使用企业微信处理自动化任务
来源:综合网络社区建议
七、参考链接
Open-AutoGLM GitHub: https://github.com/zai-org/Open-AutoGLM
MAI-UI GitHub: https://github.com/Tongyi-MAI/MAI-UI
UI-TARS GitHub: https://github.com/bytedance/UI-TARS
UI-TARS-desktop GitHub: https://github.com/bytedance/UI-TARS-desktop
Open-AutoGLM 论文: arXiv:2411.00820
MAI-UI 论文: arXiv:2512.22047
UI-TARS 论文: arXiv:2509.02544
报告声明:本报告所有引用均来自公开的官方文档或可验证的网络来源,未包含虚构的引用或无法确认的信息。部分网络数据(如微信风控统计数据)来自社区讨论,仅供参考,准确性无法保证。


