我是数据程序员,一个每天和 Hadoop、Hive、数据仓库打交道的大数据工程师。这是「数据程序员」的第五篇文章。今天我们做一件有点难度的事:拼出一家没有公开财报的公司的商业全貌。
说起来挺讽刺的:
腾讯每季度都在港交所乖乖交作业,美团、阿里的财报你一年能看到四次。但中国互联网行业最赚钱的公司,却从来不出现在任何证交所的数据库里。
这家公司就是字节跳动。
它创立于 2012 年,13 年后的今天,它的年营收超过了腾讯、超过了阿里,成为中国互联网历史上第一家突破万亿人民币营收的公司——但你在任何一个股票交易软件里都找不到它的代码。
今天,我们就用数据工程师的方式,把散落在各处的数据碎片拼起来,尽量还原这家公司的真实面貌。
先说清楚一件事: 由于字节跳动不披露财报,本文所有数据均来自 Bloomberg 报道、研究机构估算(Sacra、Statista)、以及字节内部人士向媒体透露的信息。我会在每个数据旁边标注来源,哪些是经过多方验证的,哪些是单一来源的估算,你自己判断可信度。
一、先上核心数字
让我们先看一张汇总表:
| 全年营收 | ||
| 同比增速 | +29% | |
| 净利润 | ||
| 净利率 | ||
| 公司估值 |
来源链接:
Bloomberg 报道字节2024营收 29% 增速至 155 亿美元(deepnewz.com 整理):https://deepnewz.com/company-earnings/bytedance-reports-29-revenue-growth-to-155-billion-2024-driven-tiktok-s-39-sales-61e61e74 Statista 字节跳动关键财务数据汇总:https://www.statista.com/statistics/1342778/bytedance-key-annual-financial-figures/ 雪球:先上硬核数字——2400亿元利润究竟什么水平:https://xueqiu.com/1461080850/365811456
1.13 万亿元人民币是什么概念?
2024 年,腾讯全年营收约 6,600 亿元。字节营收是腾讯的 1.7 倍。
阿里 2024 财年(截至 2024年3月)营收约 9,400 亿元。字节已经超过了阿里。
更关键的是:这家公司13 年前还不存在。而腾讯创立于 1998 年,阿里创立于 1999 年。
这个增长速度,在中国互联网历史上没有先例。
二、这 1.13 万亿元,从哪里来?
字节的收入拆解,业界目前普遍认同的结构大致如下:
| 广告(抖音信息流+TikTok广告) | 65% | ||
| 电商抽成(抖音电商+TikTok Shop) | 25% | ||
| +200%+ |
数据来源:
雪球分析文章《2400亿元利润究竟什么水平》:https://xueqiu.com/1461080850/365811456
用程序员的眼光来看,这个收入结构非常有意思。
广告:字节的主营数据库
广告占了 65%,这几乎和 Meta(广告占比约 97%)、Google(广告占比约 77%)的逻辑一样:拥有用户注意力,就拥有了变现能力。
字节的广告系统,本质是一个极其复杂的实时竞价系统(RTB):每一次刷抖音,后台都在毫秒级别运行一次竞价,决定在这个位置展示哪条广告、向哪个广告主收多少钱。
这套系统的关键指标是广告加载率——每100条内容里有多少条是广告。2024 年字节的广告加载率已超过 12%,基本到了极限。再高的话,用户会觉得刷的全是广告,不好用了。
这意味着广告收入的增长天花板正在逼近。
电商:字节真正的增量引擎
注意看,电商收入 +46% 的增速是所有业务里增长最快的(AI 除外)。
2024 年,抖音电商 GMV(商品交易总额)预计突破 4 万亿元人民币,同比增长约 **30%**。
GMV 对比:
| 抖音电商 | |
来源:36氪《过去一年抖音电商GMV增速34%》:https://www.36kr.com/p/3480136952077441
抖音从 2021 年才认真做电商,到 2024 年 GMV 已经和拼多多差不多量级。就算是阿里,建立这个规模的电商生态花了十多年。字节用了不到 4 年。
这背后的本质,是短视频的"内容即货架"逻辑: 传统电商是"人找货",用户要主动搜索;抖音电商是"货找人",算法推荐把商品放到最可能购买的用户面前。从数据库的角度来理解,这相当于把全量的"用户画像表"和"商品表"实时 JOIN,再根据 CTR(点击率)和转化率做排序——本质是一个效率极高的推荐系统。
三、海外战场:TikTok 这一块怎么样?
TikTok 是字节最引人关注、也是最具争议的业务。
先看数据:
| 230 亿美元 | ||
| +42.8% | ||
| 第四 | ||
| 超 15.8 亿 | ||
来源链接:
Business of Apps TikTok App Report 2024:https://www.businessofapps.com/news/tiktok-23-billion-revenue-2024-42-percent-increase/ 百家号整理报道:https://baijiahao.baidu.com/s?id=1838529948072098592&wfr=spider&for=pc
TikTok 230 亿美元的营收,是什么水平?它的体量已经接近 Twitter/X 加上 Snap 加上 Pinterest 三家加起来。这三家是正经上市公司,季季披露财报,而 TikTok 是一家中国公司旗下的海外产品,至今没有公开财报。
但同时,TikTok 面临一个极其复杂的外部环境:
2024 年 4 月,美国国会通过《保护美国人免受外国敌对势力控制应用法案》,要求字节跳动在 270 天内(即 2025 年 1 月 19 日前)剥离出售 TikTok,否则在美国下架。
字节向联邦最高法院提出紧急禁止令申请,被驳回。
最终 TikTok 在 2025 年初经历了短暂的"关停重启"风波……不过具体后续太复杂,本文不展开讲,因为这个议题本质是政治风险,而我更想聊商业本质。
对数据工程师来说,一个更有意思的角度是:TikTok 到底是怎么做数据的?
TikTok 在全球的成功,核心不是内容,而是推荐算法。
字节的推荐系统用的是双塔模型(Two-Tower Model):一侧是用户特征塔,一侧是内容特征塔,分别用深度学习计算 embedding,然后做近邻匹配。这种架构的优点是能同时处理海量用户和海量内容,实现毫秒级的个性化推荐——这是 YouTube、Instagram 也在用的技术路线,但字节把它做到了极致。
训练这个模型,每天需要消化的数据量是天文数字级别的。正是因为全球 15.8 亿月活带来的数据反馈,字节的推荐系型才越来越准。数据飞轮效应,是最难被复制的护城河。
四、字节为什么不上市?这个问题比它看起来更有意思
字节跳动是全球估值最高的未上市公司,约 4,800 亿美元(约 3.5 万亿元人民币)。它 5 年内被传上市至少 7 次,但每次都没有结果。
这到底为什么?
表面上的原因,很多人都在说:数据安全审查、地缘政治风险、TikTok 的不确定性。这些确实是障碍,但不是核心原因。
真正的核心原因,是字节根本不需要上市。
上市,本质上是一种融资行为。你把一部分公司卖给公众,换来扩张所需的资金。
但字节 2024 年净利润约 330 亿美元,每天净赚约 9,000 万美元。它根本不缺钱。
更深层的原因是:上市会带来巨大的约束。
来源:雪球《字节跳动为何迟迟不上市》:https://xueqiu.com/6916781846/371384604
字节建立了一套内部回购机制替代 IPO:定期以高价回购员工期权,给员工提供流动性出口。2025 年秋天的一轮回购价格是每股 200.41 美元,对应估值超过 3,300 亿美元。员工有钱赚,公司保持私有。
这个机制本身就是一个很精妙的制度设计:既给了核心人才留下来的激励,又避免了上市带来的外部压力。
五、字节 vs 腾讯:两种不同的商业基因
做大数据的人喜欢做 JOIN。我们来把字节和腾讯做一个横向对比:
| 2024年营收 | ||
| 核心产品 | ||
| 广告逻辑 | ||
| 电商逻辑 | ||
| AI 投入(2024) | ||
| 上市状态 |
两家公司的底层逻辑,代表了互联网两种不同的增长路径:
腾讯是"关系链"公司:你的朋友在哪儿,你就在哪儿。微信的护城河是社交网络的强粘性,切换成本极高,13 亿人的通讯录在腾讯的服务器上。 字节是"算法"公司:你不需要认识任何人,只要刷,算法就能找到你喜欢的内容。护城河是数据飞轮——用的人越多,算法越准;算法越准,用的人越多。
两种路径没有高下之分,但抵御竞争的方式不同:腾讯靠迁移成本,字节靠算法精度。
六、数据工程师视角:字节的技术基础设施到底有多大?
我在搜集资料时看到了一些字节内部技术基础设施的公开信息,作为大数据从业者,感触挺深的:
字节每天处理的数据量级:
抖音 DAU 约 8 亿,每人每天平均使用 120 分钟 每分钟被推荐、浏览、点赞、评论的行为事件,数以百亿计 这些事件要实时写入、实时计算用户反馈、实时反哺推荐模型
字节对外开源的部分技术栈包括:
ByteHouse:基于 ClickHouse 改造的 OLAP 引擎,支持 PB 级别的实时分析 Flink 优化版:字节是 Apache Flink 最大的工业用户之一,内部 Flink 任务规模超过 10 万个 特征工程平台:专门为推荐系统服务的 Feature Store,实时计算用户特征并写入推荐引擎
来源:字节跳动技术博客(ByteByteGo 和字节官方技术社区整理)
这让我想到一个问题:我们这些在 Hadoop/Hive 上做传统数仓的工程师,和字节这种级别的技术底座之间,差距到底在哪里?
不是技术本身,而是数据量级和实时性要求。传统数仓跑的是 T+1 的批处理任务,字节跑的是秒级实时的推荐反馈循环。这两种场景对系统设计的要求是不同量级的工程问题。
七、一个小总结
今天这篇文章,我们拼出了字节跳动的商业地图——不完整,因为它不披露财报,但轮廓已经清晰:
字节是一家年营收超过 1 万亿元、净利润超过 2,400 亿元、靠算法和数据飞轮驱动增长的科技公司。
它的广告业务接近天花板,电商业务正在高速增长,TikTok 面临地缘政治风险,AI 投入正在加速。
它选择不上市,是因为它足够有钱,而上市的代价(信息披露、短期压力、控制权稀释)远大于收益。
对我们数据工程师来说,字节的案例有一个特别的启示:
真正有价值的数据基础设施,是跑着数亿用户实时反馈的推荐系统,而不只是一个漂亮的 Hive 分层。 这不是说我们现在做的事没价值,而是当我们设计数据系统的时候,要更多问自己:这套系统,能不能最终服务于"数据飞轮"?
下一篇文章预告:
下周四,我们来拆一家所有人都知道、但背后逻辑很少有人细想的公司——拼多多。
拼多多 2024 年 GMV 约 5 万亿元,但它的员工数只有腾讯的 1/10,却能做到腾讯 60% 的利润。这是什么样的商业模式效率?它的"砍一刀"和极致低价背后,数据系统和运营逻辑是怎么运转的?为什么阿里和京东砸了这么多钱打"百亿补贴",还是拦不住拼多多的增长?
(这是一篇会让很多人看完觉得很不舒服但又无法反驳的文章。)
数据来源声明
本文所有数据均标注可查来源,你可以逐条核实:
Bloomberg 报道字节2024年营收增速 +29%,营收约1,560亿美元(deepnewz.com 整理):https://deepnewz.com/company-earnings/bytedance-reports-29-revenue-growth-to-155-billion-2024-driven-tiktok-s-39-sales-61e61e74 Statista:字节跳动关键年度财务数据(2024年):https://www.statista.com/statistics/1342778/bytedance-key-annual-financial-figures/ 雪球分析文章《2400亿元利润究竟什么水平》:https://xueqiu.com/1461080850/365811456 Business of Apps 《TikTok应用报告(2024)》,TikTok年营收230亿美元,增速+42.8%,排名全球社交第四:https://www.businessofapps.com/news/tiktok-23-billion-revenue-2024-42-percent-increase/ 百家号整理TikTok2024年数据:https://baijiahao.baidu.com/s?id=1838529948072098592&wfr=spider&for=pc 36氪:《过去一年抖音电商GMV增速34%》:https://www.36kr.com/p/3480136952077441 知乎:字节跳动历年营业收入整理:https://zhuanlan.zhihu.com/p/688689109 雪球:《字节跳动为何迟迟不上市?估值3.5万亿》:https://xueqiu.com/6916781846/371384604 Sacra 字节跳动研究报告(2026年4月):https://sacra-pdfs.s3.us-east-2.amazonaws.com/bytedance.pdf


