推广 热搜： 采购方式甲带滤芯带式称重给煤机气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

通过行业周期观察的场景,看AI Skill 设计、多Agent协作模式以及不同大模型表现

日期：2026-04-26 22:55:45 来源：网络整理作者：本站编辑评论：0

今天练手做了一个行业周期观察工具，从概念到四轮迭代。过程对比了 DeepSeek V4 / Claude / Minimax 2.7三模型表现。

先说结论：Skill 设计重要性大于模型选择，多Agent协作非常流畅，DeepSeek V4性价比非常高。

▌一、标的是一个「行业周期」Skill

指向核心问题：当前市场处于什么位置，哪些行业值得关注，哪些该回避。

做Skill 的出发点——用 AI 自动完成数据检索、周期定位、报告撰写，输出一份简洁有观点的行业周期速览。

▌二、Skill 设计：两阶段架构 + 四色分级

2.1 为什么用 Skill 而非单次 Prompt

单次 Prompt 的问题在于：每次都要重新描述需求、重新定义格式、质量不稳定。Skill 的价值在于把方法论固化为可复用、可迭代的指令集。写好一次，每次触发都按同一标准执行。更重要的是，发现缺陷可以直接修改 Skill 文件，下次运行自动生效。

2.2 Skill核心流程和数据流转：4+1 两阶段流水线

四个 gather subagent 在同一时刻并行发起，分别检索宏观周期、资金情绪、行业基本面、政策研报四个维度。由一个 make-report subagent 读取全部数据，按固定结构撰写最终报告。

选择 gather + make-report 而不是一个大 agent 全包的原因很简单：上下文隔离。四个维度的检索数据量巨大，塞进单一 agent 会超过上下文窗口。拆成四个独立 agent 并行执行，既快又稳。

2.3 多模型策略

同一个 Skill，每一轮迭代都分别用 DeepSeek V4、Claude、Minimax 2.7 三个底层模型各跑一次，横向对比输出质量。这不是为了选出一个「最好的模型」，而是用多模型交叉验证来发现 Skill 本身的缺陷——如果一个行业在三个模型中周期判断完全一致，分类可信度高；如果三个模型给出三种不同判断，说明 Skill 的指令在该情况下不够清晰，需要优化。当然，共识并不是必须的，共识的内容也不一定对。

▌三、迭代：从「能跑」到「可靠」

▌四、模型横向对比：谁擅长什么

经过四轮迭代，三模型在统一 Skill 框架下的表现趋于稳定。

4.1 各模型特点

4.2 共识最强的行业

电子/半导体：?? 周期尾声
国防军工：? 扩张中期
银行：? 复苏早期
房地产： ? 复苏早期

4.3 分歧最大的行业

石油石化：三模型三种归类。PE 低位? vs 换手率极端? vs 周跌幅最大 ?，三要素全面冲突。
食品饮料/白酒：核心分歧在「底部是否已经到了」
煤炭：三模型共识变成三向分裂的行业

4.4 Skill 改进效果量化

▌五、核心发现：Skill 设计 > 模型选择

三份报告的初始质量差异，主要来自 Skill 指令的完整度，而不是模型能力。这也说明，目前大模型水平在复杂度不高的场景已经够用。

而在Skill没有数据来源要求、没明确禁止规则的情况下，模型还是显著影响结果。随着 Skill 指令不断细化，三模型的输出在核心维度上才趋于收敛。全程看，DeepSeek V4效果高于自己预期，从性价比看巨高。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行

通过行业周期观察的场景,看AI Skill 设计、多Agent协作模式以及不同大模型表现

▌一、标的是一个「行业周期」Skill

▌二、Skill 设计：两阶段架构 + 四色分级

2.1 为什么用 Skill 而非单次 Prompt

2.2 Skill核心流程和数据流转 ：4+1 两阶段流水线

2.3 多模型策略

▌三、迭代：从「能跑」到「可靠」

▌四、模型横向对比：谁擅长什么

4.1 各模型特点

4.2 共识最强的行业

4.3 分歧最大的行业

4.4 Skill 改进效果量化

▌五、核心发现：Skill 设计 > 模型选择

2.2 Skill核心流程和数据流转：4+1 两阶段流水线