昨天写了竞品分析,有人问:"如果是完全陌生的行业呢?不知道竞品是谁、数据从哪找怎么办?"
这就是行业调研——比竞品分析高一个层级。
竞品分析是"已知对手,比谁强";行业调研是"未知全貌,从零构建认知"。
这篇文章教你怎么用AI做出咨询公司卖几万块的那部分:市场规模估算、竞争格局判断、趋势洞察。看完你能搭出框架——完整的方法论和实操要点,关注后私信获取。

从一份行业调研报告说起
上周有个做SaaS的朋友跟我吐槽:
"老板让我出一份'智能客服赛道行业调研报告',给投资人看。我上网搜了一圈,研报要么是两年前的,要么要花钱买。免费的数据东一块西一块,拼起来逻辑对不上。"
他的困境很典型:
竞品分析有明确的对象(你知道要查谁),但行业调研面对的是一片空白——市场有多大?谁是玩家?格局怎么分?趋势往哪走?
这些问题,百度搜不到完整答案,买研报动辄几万块,找咨询公司报价六位数起。
但他真正需要的,其实不是一份"完美报告",而是一个能自圆其说的分析框架 + 够用的数据支撑。
AI恰好擅长干这件事。
行业调研 vs 竞品分析:难度升级了什么?
先看对比:
| 已知条件 | ||
| 数据来源 | ||
| 数据量级 | ||
| 分析深度 | ||
| 输出物 |

核心区别就一句话:竞品分析是做减法(筛选和对比),行业调研是做加法(拼接和推断)。
所以昨天的4步流水线不够用了。今天升级成5步:
信息采集 → 数据清洗 → 分析建模 → 可视化 → 报告生成 ↑ ↑ ↑ ↑ ↑ 5类数据源 非结构化 三维度 7种图 叙事链条下面一步步拆。
第一步:信息采集——5类数据源怎么选

行业调研的数据来源远比电商抓取复杂。我把常用数据源分成5类:
1. 财报和公告(硬数据)
上市公司财报(年报/Q季报) 招股说明书(含行业竞争格局章节) 巨潮资讯网、SEC EDGAR、公司投资者关系页面
能拿到什么:营收、毛利率、用户数、增速、市场份额(如果公司主动披露)
AI能做什么:批量下载PDF → 自动提取关键财务指标 → 跨公司对比
2. 行业研报(二手研究)
艾瑞/易观/IDC/Gartner等机构的公开摘要版 咨询公司官网的白皮书(麦肯锡/BCG/贝恩常免费放前几页) 高校/智库的研究论文
能拿到什么:市场规模数字(注意:不同机构统计口径差异很大)、增长率预测、产业链图谱
AI能做什么:多份研报交叉验证 → 找共识区间 → 标注矛盾点
3. 新闻和舆情(时效数据)
36氪/虎嗅/钛媒体等科技媒体的行业报道 公司官方新闻稿(融资/合作/产品发布) 微博/公众号的行业讨论
能拿到什么:最新动态、融资事件、舆论风向、关键人物观点
AI能做什么:自动分类(融资/产品/政策/人才)→ 提取结构化事件 → 时间线梳理
4. 招聘数据(侧面印证)
Boss直聘/拉脉/猎聘的岗位JD 关注:哪些公司在招人、招什么岗位、薪资范围、技能要求
能拿到什么:各家公司业务重心(招算法多=在搞AI)、扩张速度(岗位数量变化)、人才流向
AI能做什么:批量解析JD → 提取公司→岗位→技能→薪资的结构化数据
5. 专利和论文(技术前瞻)
国家知识产权局/Google Patents/USPTO arXiv/Semantic Scholar(学术论文)
能拿到什么:技术路线布局、研发投入方向、学术前沿
AI能做什么:专利文本分类 → 技术热点词云 → 申请趋势图
这里有个关键问题:不是每个行业都需要5类数据源都用。To B的SaaS行业,财报+研报+招聘数据权重高;To C的消费品牌,电商评论+社交媒体更重要。具体怎么选、每种数据源的采集方案怎么设计——这部分细节和注意事项,我整理在了配套资料里。
第二步:数据清洗——最容易被忽略的一步
竞品分析时,你抓下来的数据大概率是表格形式的(商品名/价格/销量),清洗工作量不大。
但行业调研不一样。你拿到的原始材料是这样的:
一份50页的PDF研报(文字+表格+图片混排) 200篇新闻稿(每篇格式不同) 500条招聘JD(半结构化,字段不统一) 10份财报(专业术语+附注)
这些全是非结构化或半结构化数据。
数据清洗这一步要做三件事:
1. 格式统一
把PDF/网页/文档全部转成结构化文本。AI在这里特别好用:
PDF解析(PyMuPDF/pdfplumber提取文字和表格) 网页清洗(BeautifulSoup去掉标签和广告) 文档转换(python-docx/pptx提取正文)
2. 信息抽取
从非结构化文本中提取你需要的关键实体:
公司名 → 统一简称("字节跳动"="ByteDance"="字节") 金额 → 统一单位和币种("3亿人民币"="300M CNY") 时间 → 统一格式("2026Q1"="2026-03-31") 百分比 → 数值化("同比增长23%"=0.23)
3. 交叉验证
同一个指标在不同来源出现时,判断哪个更可信:
上市公司财报 > 媒体报道 > 公司PR稿 多源交叉验证:如果3份研报都给出相近的市场规模数字,可信度更高 标记异常值:某份报告的数字和其他来源差10倍以上,需要重点核查原因
这一步最容易踩的坑:不同来源的"市场规模"定义可能完全不同。有的按GMV算,有的按营收算,有的只算头部玩家。直接拿来对比会得出错误结论。具体怎么处理这些坑、Prompt怎么写才能让AI准确抽取——配套资料里有完整的清洗流程和检查清单。
第三步:分析建模——三个维度建立认知
数据洗干净之后,进入核心分析环节。行业调研通常覆盖三个维度:
维度一:市场规模估算(TAM/SAM/SOM)

这是投资人最看重的数字。
- TAM(Total Addressable Market)
:总潜在市场——理论上这个行业最多能做多大 - SAM(Serviceable Available Market)
:可服务市场——你的产品/模式能覆盖的部分 - SOM(Serviceable Obtainable Market)
:可获得市场——realistically 能拿下的份额
常用的估算方法:
- 自上而下法
:从宏观数据推演 例:中国SaaS市场 = 企业数量 × 平均IT预算 × SaaS渗透率 × 你的目标细分占比 数据来源:统计局/工信部/行业协会 - 自下而上法
:从微观数据累加 例:头部玩家公开营收 ÷ 估算市场份额 ≈ 总市场 数据来源:上市公司财报 + 合理假设 - 类比推导法
:参考成熟市场 例:美国SaaS市场占GDP的0.8%,中国市场目前0.3%,假设5年后达到0.6% 适用于新兴行业缺乏直接数据时
关键原则:不要只给一个数字。给一个区间 + 推导过程 + 关键假设。比如"中国智能客服市场规模在80-120亿之间,主要取决于如何定义'智能化'的边界"。
维度二:竞争格局分析
知道市场有多大之后,要知道蛋糕怎么分。

我习惯用一个简单的框架来定位玩家:
高技术含量 ↑ │ ┌────────────┼────────────┐ │ │ │ 领军者 │ 挑战者 │ 利基玩家│ (高市占)│ (高增长) │ (细分领域) │ │ │ │ └────────────┼────────────┘ │ 低技术含量 ← 低市场份额 —— 高市场份额 →四个象限各有含义:
- 领军者
:大公司、稳扎稳打(如智能客服领域的科大讯飞、网易七鱼) - 挑战者
:增长快、野心大(如创业公司拿到大额融资后快速扩张) - 利基玩家
:专注细分场景(如只做金融行业的客服解决方案) - 第四象限
:低市占+低技术,基本会被淘汰或被收购
AI能帮你做的:自动收集各玩家的公开数据(融资轮次/团队规模/客户案例/技术专利)→ 打标签 → 归入象限 → 输出格局图谱
维度三:趋势研判
最后一步是回答"这个行业的未来往哪走"。
我从三个层面来看趋势:
1. 政策层(PEST框架中的P)
相关监管政策(如《生成式AI服务管理办法》对AI客服的影响) 产业扶持方向(如"新质生产力""人工智能+"行动) 数据安全要求(影响部署方式:公有云vs私有化)
2. 技术层
大模型能力边界的变化(GPT-4o的多模态能力让语音客服有了新可能) 成本曲线(API价格下降速度决定产品形态) 开源 vs 闭源的格局演变
3. 市场层
客户需求变化(从"有没有"到"好不好用"再到"能不能定制") 付费意愿变化(SaaS订阅制接受度的提升) 人才流动方向(从大厂到创业公司的跳槽趋势反映行业热度)
这三个维度的分析方法论、具体的Prompt框架、以及怎么把分析结论写成"像咨询公司出品"的叙述风格——都在配套资料里。
第四步:数据可视化——7种图表怎么选
行业调研的可视化比竞品分析更复杂,因为要讲的故事线更长。
我整理了一张图表选择指南:
| 堆叠面积图 | ||
| 分组柱状图 | ||
| 散点矩阵图 | ||
| 桑基图 | ||
| 时间轴 | ||
| 雷达图 | ||
| 热力图 |
比昨天的6种多了桑基图(产业链)和时间轴(发展历程)——因为行业调研天然需要讲"来龙去脉"。
可视化的一条铁律:每张图只回答一个问题。
堆叠面积图回答"市场有多大、在怎么变" 分组柱状图回答"谁强谁弱" 散点矩阵回答"谁有潜力" 桑基图回答"钱从哪流到哪"
一张图塞太多信息,读者什么都记不住。
配色方案、布局参数、以及每种图表的matplotlib/Plotly实现要点——配套资料里有完整的可视化规范表。
第五步:报告生成——从数据到叙事
前面四步产出一堆图表和分析结论。最后一件事是把它们串成一个有逻辑的故事。
一份好的行业调研PPT,叙事结构通常是:
封面
标题 + 副标题(明确范围和时间)+ 日期
P1:执行摘要(最重要的一页)
用3个 bullet points 说清楚核心结论 这是大多数投资人只会认真看的一页 写完所有其他页面后再回来写这一页
P2-P3:市场概况
市场规模(TAM/SAM/SOM)+ 增长率 驱动因素(为什么在增长)+ 制约因素(瓶颈在哪) 配图:堆叠面积图
P4-P5:竞争格局
玩家分层(领军者/挑战者/利基) 各家优劣势对比 配图:分组柱状图 + 散点矩阵
P6:产业链分析
上游(技术供应商/数据源) 中游(产品方) 下游(客户群体) 配图:桑基图
P7:趋势与机会
政策/技术/市场三层面趋势 2-3个具体的机会点(越具体越好,不要泛泛而谈) 配图:热力图或时间轴
P8:建议与下一步
如果是对内报告:战略建议(进入/观望/退出) 如果是对外报告:为什么我们有机会 不要超过3条建议,每条要有数据支撑
这里有个昨天提到过的坑:用python-pptx生成PPT时,坐标系统是从左上角算的,(0,0)是左上角,y轴向下增长。如果你按照直觉去放元素,内容会跑到幻灯片外面去。具体的坐标计算方法、母版设计、字体选择规范——配套资料里有完整的模板和避坑指南。
总结:你用AI做了什么

回看这5步流水线:
┌─────────────────────────────────────────────────┐│ AI驱动的行业调研流水线 │├──────────┬──────────┬──────────┬────────────────┤│ 信息采集 │ 数据清洗 │ 分析建模 │ 可视化→报告 ││ │ │ │ ││ 5类数据源 │ 非结构化 │ 三维度 │ 7种图表 ││ AI采集 │ →结构化 │ 分析 │ PPT叙事链 ││ │ AI抽取 │ AI建模 │ AI生成 │└──────────┴──────────┴──────────┴────────────────┘咨询公司卖的是"分析师的时间 + 方法论 + 行业积累"。
其中"方法论"这部分,AI已经能做到80分了。
剩下的20%——行业insight、对未言明信息的解读、对数据矛盾的判断——还是需要人来完成。
但80分已经够用了。对于大多数"老板突然要一份报告"的场景,一个能自圆其说的框架 + 够用的数据支撑,比没有强一万倍。
但我知道你会碰到这些问题
根据实际经验,以下是做行业调研时最高频出现的5个问题:
问题1:找不到数据
现象:某个细分行业几乎没有公开数据,搜出来的全是广告
原因:太细分的领域确实缺乏系统性的数据采集
解决方向:用代理数据间接推断(如通过招聘数据反推公司规模,通过招投标公告反推项目金额)
问题2:数据打架
现象:A研报说市场100亿,B研报说300亿,C研报说50亿
原因:统计口径不同(是否包含上下游、是否只算软件不含服务、地域范围等)
解决方向:不纠结"正确答案",而是呈现"不同口径下的区间",并说明你采用的口径和理由
问题3:分析太浅
现象:堆了一堆图表,但结论都是"市场在增长""竞争激烈"这种废话
原因:只有描述性分析,没有归因分析和洞察
解决方向:每个结论后面跟"因为……所以……"的因果链,至少追问三次"为什么"
问题4:PPT排版丑
现象:数据分析做得不错,但PPT出来像Word文档
原因:没有提前定义视觉规范(配色/字体/间距/图表风格)
解决方向:先定一套design system(主色/辅色/标题字号/正文字号/留白规则),全程严格执行
问题5:老板不满意
现象:辛苦做了两周,老板看了说"这不是我要的东西"
原因:一开始没对齐预期(老板想要的是什么深度的东西、给谁看、用来做什么决策)
解决方向:开工前花10分钟确认三个问题:①报告给谁看 ②用来做什么决策 ③需要什么程度的详细程度
资料获取
这篇文章讲了框架和思路。完整的实操方法论和注意事项,我整理成了5份配套资料:
1. 《行业调研5步 Prompt 链》:从信息采集到报告生成的完整串联Prompt框架,含每一步的关键参数和衔接逻辑
2. 《行业调研PPT模板》:12页标准结构设计,每页写什么、放什么图、数据从哪读,含配色方案和数据模型说明
3. 《数据源选择与采集方案》:5类数据源的适用场景、优先级排序、采集工具选择、反爬应对策略
4. 《市场规模估算方法手册》:三种估算方法的完整公式、适用条件、常见误区、交叉验证技巧
5. 《行业调研踩坑记录》:全流程30个坑(采集5个/清洗5个/分析6个/可视化5个/PPT 5个/流程4个),每个坑含现象→原因→解决方向
关注「阿莱巫的智能巫术」,私信"行业调研"获取全部资料。
这套东西还能做什么?
同样的"5步流水线"思路,换个场景就能用:
- 尽职调查
:投资前摸底目标公司(数据源侧重财报/专利/诉讼)— 比行业调研更深一层 - 竞品追踪
:定期监控竞品动态(数据源侧重新闻/招聘/产品更新)— 可以做成自动化周报 - 用户研究
:深入了解目标用户群(数据源侧重评论/问卷/社交讨论)— 补充定性洞察
底层能力是一样的:AI采集 → AI清洗 → AI分析 → AI可视化 → AI生成报告。
换的是数据源和分析框架,不变的是流水线思维。
为什么我值得你关注?
市面上讲AI的文章分两类:
一类讲认知:"AI会改变世界""你要拥抱变化"。看完觉得有道理,然后呢?没有然后。
一类讲工具:"这个按钮点那个菜单"。学会了一个功能,换个场景又不会了。
我做的事情介于两者之间:
- 不只告诉你AI能做什么
,还告诉你具体怎么做、做到什么程度、哪里会踩坑 - 不只给你代码
,还告诉你背后的思考方式——这样下次遇到新场景你能自己推导 - 不只讲成功案例
,还会说"这里容易翻车",省得你重走弯路
认知看完就忘了。能力学会了就是你的。
关注「阿莱巫的智能巫术」,私信"行业调研"获取完整资料包。下一篇,教你怎么用AI搭建一套自动化竞品监控系统——不用每次手动跑脚本,系统自己定时干活。


