推广 热搜: 采购方式  甲带  滤芯  带式称重给煤机  气动隔膜泵  减速机型号  无级变速机  链式给煤机  履带  减速机 

通过行业周期观察的场景,看AI Skill 设计、多Agent协作模式以及不同大模型表现

   日期:2026-04-26 22:55:45     来源:网络整理    作者:本站编辑    评论:0    
通过行业周期观察的场景,看AI Skill 设计、多Agent协作模式以及不同大模型表现

今天练手做了一个行业周期观察工具,从概念到四轮迭代。过程对比了 DeepSeek V4 / Claude / Minimax 2.7三模型表现。

先说结论:Skill 设计重要性大于模型选择,多Agent协作非常流畅,DeepSeek V4性价比非常高。

一、标的是一个「行业周期」Skill

指向核心问题:当前市场处于什么位置,哪些行业值得关注,哪些该回避。

做Skill 的出发点——用 AI 自动完成数据检索、周期定位、报告撰写,输出一份简洁有观点的行业周期速览。

二、Skill 设计:两阶段架构 + 四色分级

2.1 为什么用 Skill 而非单次 Prompt

单次 Prompt 的问题在于:每次都要重新描述需求、重新定义格式、质量不稳定。Skill 的价值在于把方法论固化为可复用、可迭代的指令集。写好一次,每次触发都按同一标准执行。更重要的是,发现缺陷可以直接修改 Skill 文件,下次运行自动生效。

2.2 Skill核心流程和数据流转 :4+1 两阶段流水线

四个 gather subagent 在同一时刻并行发起,分别检索宏观周期、资金情绪、行业基本面、政策研报四个维度。由一个 make-report subagent 读取全部数据,按固定结构撰写最终报告。

选择 gather + make-report 而不是一个大 agent 全包的原因很简单:上下文隔离。四个维度的检索数据量巨大,塞进单一 agent 会超过上下文窗口。拆成四个独立 agent 并行执行,既快又稳。

2.3  多模型策略

同一个 Skill,每一轮迭代都分别用 DeepSeek V4、Claude、Minimax 2.7 三个底层模型各跑一次,横向对比输出质量。这不是为了选出一个「最好的模型」,而是用多模型交叉验证来发现 Skill 本身的缺陷——如果一个行业在三个模型中周期判断完全一致,分类可信度高;如果三个模型给出三种不同判断,说明 Skill 的指令在该情况下不够清晰,需要优化。当然,共识并不是必须的,共识的内容也不一定对。

三、迭代:从「能跑」到「可靠」

四、模型横向对比:谁擅长什么

经过四轮迭代,三模型在统一 Skill 框架下的表现趋于稳定。

4.1 各模型特点

4.2 共识最强的行业

  • 电子/半导体:?? 周期尾声

  • 国防军工:? 扩张中期

  • 银行:? 复苏早期

  • 房地产: ? 复苏早期

4.3 分歧最大的行业

  • 石油石化:三模型三种归类。PE 低位? vs 换手率极端? vs 周跌幅最大 ?,三要素全面冲突。

  • 食品饮料/白酒:核心分歧在「底部是否已经到了」

  • 煤炭:三模型共识变成三向分裂的行业

4.4 Skill 改进效果量化

五、核心发现:Skill 设计 > 模型选择

三份报告的初始质量差异,主要来自 Skill 指令的完整度,而不是模型能力。这也说明,目前大模型水平在复杂度不高的场景已经够用。

而在Skill没有数据来源要求、没明确禁止规则的情况下,模型还是显著影响结果。随着 Skill 指令不断细化,三模型的输出在核心维度上才趋于收敛。全程看,DeepSeek V4效果高于自己预期,从性价比看巨高。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON