

基于音频特征的全球音乐市场流行度分析
与预测研究
以曲风—特征—流行度生态关系为核心

本文是中国传媒大学《传媒数据学》的结课作品,任课老师为王小宁,原创为王龙玺。
摘要
— ABSTRACT —
本研究聚焦全球市占率31.7% 的媒体巨头Spotify,立足当前音乐流媒体行业内容同质化严重、用户留存难的问题,围绕歌曲流行度与音频特征、曲风的内在关联展开深度研究,旨在通过数据挖掘技术构建音乐曲风-特征-流行度生态关系模型与流行度预测模型,为行业实务提供决策支撑。
研究首先明确了音乐流媒体行业的发展规模与音频特征、曲风的核心价值——当前全球流媒体音乐市场年复合增长率高,而精准把握用户偏好特征是平台突围的关键,据此设定了核心目标,揭示不同曲风在核心音频特征上的差异化规律。为实现研究目标,本研究规划了全面的数据需求,涵盖Spotify平台海量歌曲的核心音频特征数据(舞蹈性、能量、积极度等)、曲风分类数据及歌曲流行度评分数据。
研究的系统架构涵盖数据采集、数据预处理、模型构建与实践应用四大模块,综合采用统计分析机器学习等技术。论文详细阐述通过曲风差异分析、聚类分析揭示了音乐特征的分布规律。
研究通过实证分析验证了模型的实用价值:Chill曲风凭借全维度特征优势成为综合流行度最高的曲风。该研究成果已形成可落地的应用方案,可为音乐制作方提供爆款创作参考,为Spotify等平台优化个性化推荐系统,助力行业把握从“单一特征匹配”向“曲风-特征协同匹配”的转型趋势,提升用户留存率与商业转化率。
关键词:音频特征、曲风分类、流行度预测、三维生态分析、音乐数据挖掘
01
引言
1.1研究的背景
随着数字音乐平台的快速发展,音乐产业面临着前所未有的数据化变革。Spotify、Apple Music等平台积累了海量的音乐音频特征数据和用户行为数据,为音乐流行度预测和音乐产业分析提供了新的研究视角。理解哪些音频特征能够影响歌曲的流行度,对于音乐制作、市场推广和产业决策具有重要的理论价值和实践意义。
1.2研究的意义和需求分析
研究的意义体现在优化内容分发,提升用户体验与平台收入,通过将具有流行潜力的新歌精准推荐给用户,平台能够有效降低用户的音乐发现成本,减少因试错带来的体验损耗。这种“惊喜感”和“满足感”能够显著提升用户粘性与使用意愿,是驱动平台收入增长的关键。这使得音乐制作投入能够更精准地契合市场需求,最大程度转化为受听众喜欢的作品。

02
描述性统计分析
01
曲风分布

数据集中包含113227条音乐记录,涵盖了丰富多样的曲风类型。按样本量统计,前20大曲风每类均约为1000条数据,包括acoustic、alternative、children、anime、chill、edm、happy、grunge等。这种均衡的分布确保了各曲风在后续分析中不会因样本量差异产生偏倚,从而可以公平地比较各曲风的特征与流行度表现。
此外,曲风分布的均衡性意味着数据能够反映不同风格音乐的整体特征差异。例如,原声音乐和轻松风格音乐代表相对平缓、情绪舒缓的曲风,而硬式风格、硬核音乐等则代表节奏强烈、能量感高的曲风。通过对曲风数量分布的可视化,可以清晰地观察各曲风在样本中的占比。
从产业视角看,均衡的曲风分布反映了流媒体平台内容的多元化战略。这种多样性不仅是平台满足不同用户群体需求的体现,更是音乐市场细分和精准运营的基础。Chill、Anime等曲风的突出表现,揭示了当下音乐消费的场景化和情绪化趋势,为内容方的市场定位提供了明确方向。
02
流行度分布

正如如图中所展示的那样,流行度指标在0到100的范围内波动,平均值为33.28,中位数为35,标准差为22.33,显示整体分布偏向中低流行度。具体来看,25% 的歌曲流行度低于17,而 75% 的歌曲流行度低于50,可见大部分音乐的流行度集中在中低水平,高流行度音乐相对较少。

这一分布特性提示,流行度可能受到多种因素影响,音频特征只是其中一部分。流行度的右偏现象也说明在实际音乐市场中,爆款歌曲数量稀少,而大多数作品流行度平平。结合不同曲风的数据,可以进一步分析哪些风格更容易获得高流行度,以及特定特征组合对流行度的潜在影响。
03
曲风分布与流行度特征

图为各曲风平均流行度词云图,以词语大小和颜色深浅双重维度表征流行度值高低。可视化结果清晰显示,pop、chill、anime等为数据集中的高热度曲风,而folk、jazz、experimental等小众曲风平均流行度偏低。

04
流行度相关性分析

为了探讨音频特征对歌曲流行度的影响,本研究计算了主要音频特征与流行度的皮尔逊相关系数。表中汇总了各特征与流行度的相关系数结果。整体来看,绝大多数音频特征与流行度之间的线性相关性较弱,说明流行度不仅受音频特征影响,还可能受到营销策略、歌手知名度等多种因素的影响。为了直观地呈现各特征之间的关系,本研究绘制了相关性热力图,可以观察不同特征之间的相关模式。
从结果分析,instrumentalness(无人声程度)与流行度呈弱负相关(r=-0.0924),提示乐器成分比例较高的歌曲在流行度上略低。loudness与流行度呈弱正相关,表明响度较高的歌曲可能更容易吸引注意力,从而获得更高的流行度。Speechiness(语言成分比例)与流行度的负相关(r=-0.0446)可能反映了高语音成分的歌曲(如讲述类或说唱段落较多的歌曲)在总体流行度上略低。valence(情绪愉快程度)和 danceability(舞动性)均表现出轻微正相关,暗示节奏感和积极情绪可能对流行度有一定的促进作用。
综合绝对值排序,贡献最大的五个特征依次为instrumentalness(无人声程度)、loudness(响度)、speechiness(语言成分比例)、valence(情绪愉快程度)和 danceability(舞动性)。这些特征虽然相关性较低,但可作为流行度预测和聚类分析的参考维度。
对于行业启示是,Chill曲风在多个维度的卓越表现,印证了"放松经济"在音乐市场的崛起。这一发现提示唱片公司,在快节奏的现代社会,为用户提供情绪价值和放松体验的音乐产品具有广阔市场空间。同时,儿童音乐的高舞蹈性和积极情绪特征,反映了家庭娱乐场景的商业潜力

03
聚类分析
聚类分析的核心目的,是揭示曲风标签背后的底层特征聚合模式——即不同曲风之所以能形成差异化用户认知。基于前面的分析,我们选取了五个关键特征:energy、danceability、valence、tempo、acousticness,并使用K-means聚类算法对数据进行了分组。经过多轮实验,最终选择4个聚类簇作为最优分组方案。
聚类结果如下:
簇0:该簇曲目具有较高的能量水平,中等舞曲感和中等情绪值,节奏偏快,声学特征较低,平均流行度为33.96。此簇歌曲整体活力强,节奏感突出,但情绪中性,可能涵盖流行电子、摇滚等节奏感较强的曲目。
簇1:以低能量、高声学特征为主要特点,舞曲感和情绪值均偏低,节奏缓慢,平均流行度为32.00。可理解为Acoustic/Light Music类别。此簇代表轻音乐或声学类曲风,整体舒缓、声学感明显,适合低能量的聆听场景。
簇2:能量和舞曲感均较高,情绪值高,节奏中等,声学特征中等,平均流行度为32.16,可视为High Energy Pop曲目。此簇曲目典型为高能量流行歌曲(High Energy Pop),舞曲感和情绪值均较高,适合活跃或聚会场景。
簇3:能量较高,舞曲感中等,情绪值偏低,节奏适中,声学特征低,平均流行度最高,为35.53,表现出明显的低情绪值(Emotional)特征。此簇呈现低情绪值特征(Emotional),能量较高但情绪偏低,可能包含深情摇滚、情绪化电子或悲伤流行曲,平均流行度略高,显示受众偏好。

04
曲风–特征–流行度三维生态分析
01
曲风–特征–流行度维度分析

通过曲风–特征–流行度矩阵可以直观地发现,不同曲风在各音频特征维度上的平均流行度存在显著差异。例如,chill曲风在danceability、energy、valence、acousticness以及loudness等维度均表现出最高的平均Popularity(53.65),显示其在音乐市场中具有明显的生态位优势。这与前述描述性统计结果中的 Popularity 分布一致:在 Top 5 流行度均值曲风中,chill曲风同样位列首位(平均流行度53.65),而 grunge、anime 等曲风次之,说明不同曲风的市场表现具有稳定性。
进一步对比聚类分析结果,可以发现高能量、高danceability、正向情感(valence 高)的曲风簇(如簇2:High Energy Pop)与矩阵中高流行度曲风存在一定重合,这表明音频特征组合确实对流行度有潜在影响,但曲风标签仍是关键决定因素。这与 XGBoost流行度预测模型和 SHAP 分析的发现高度一致:在预测流行度时,曲风特征(genre)的重要性占总贡献的 82.29%,远高于单一音频特征(14.88%),显示曲风不仅作为分类标签存在,更是流行度高低的强指示信号。
此外,通过矩阵观察也能看出特定特征组合可能对流行度产生增强效应。例如,高 danceability与高energy的组合(典型chill或High Energy Pop曲风)通常对应较高的Popularity,而低energy 或低danceability 的曲风(如 happy、hardstyle)在同样的特征空间下流行度表现较低。这提示,虽然音频特征单独影响有限,但其组合与曲风标签共同作用时,能够显著增强歌曲在市场中的潜在受欢迎程度。
综上,曲风–特征–流行度矩阵不仅直观反映了不同曲风的流行度水平,也将前期描述性统计、聚类分析及回归模型的结果有机结合,形成了完整的音乐“生态位”分析框架。这种三维生态分析提供了对音乐流行度的系统理解:曲风决定了市场定位,而音频特征组合则进一步细化了歌曲的流行潜力。


02
曲风—特征—流行度的三维空间关系可视化分析
为了进一步揭示不同曲风在关键音频特征上的结构性差异,并探索特征对流行度影响的潜在非线性关系,本研究引入三维散点图(3D Scatter Plot)对数据分布进行空间化表达。与前述的热力图相比,三维图不仅呈现“平均水平差异”,更展示了样本在特征维度上的真实离散结构,使得我们能够观察到不同曲风在某些特征维度上是否形成簇状、带状或梯度式分布。
第一张三维图展示了Danceability(舞蹈性)× Genre(曲风)× Popularity(流行度)的三维关系。从图中可观察到,部分曲风(如acoustic与chill)在舞蹈性维度上呈现明显不同的分布区间:前者主要集中在中等偏低的danceability区域,而后者显著偏向高舞蹈性区域。同时,它们在流行度维度的散点位置也表现出一致性,即分布区间的差异会伴随流行度水平的整体偏移,反映了舞蹈性与流行度之间潜在的调节效应,并带有曲风特异性。
第二张三维图展示了Energy(能量)× Genre× Popularity的空间关系。从图中特别可以看到 anime、grunge等曲风在energy维度上分布较为集中,而children或alternative则呈现更宽的能量跨度。更重要的是,某些曲风的高能量区域与更高流行度存在部分重叠(例如anime),而有些曲风则不具备类似趋势,这说明特征与流行度的关系具有曲风依赖性(genre-dependent effect)。


05
总结
本研究围绕 Spotify 音频特征与歌曲流行度之间的关系展开,通过多层次、多形式的分析方法,从特征分布、曲风差异、空间结构再到机器学习模型解释,构建了一套较为完整的“音乐特征—曲风—流行度”解析框架。
在全局特征层面,通过多维度统计可视化发现,energy、danceability等核心特征分布集中,而instrumentalness、acousticness呈强烈偏斜,这与行业内“主流曲风特征趋同、小众曲风特征差异化”的内容布局高度契合,明确了chill曲风的全维度生态位优势,其在多特征维度均保持最高平均流行度,而 alternative、happy 等曲风表现偏低,暴露了不同曲风对特征的敏感差异。三维散点图进一步证实,特征与流行度的关系具有显著的曲风依赖性与非线性特征,如 acoustic 曲风集中于低舞蹈性与低流行度区间,chill 曲风则聚集在高舞蹈性与中高流行度区域。
XGBoost 回归模型及 SHAP 分析量化了特征的宏观贡献,valence(情绪愉悦度)、danceability(舞蹈性)等是影响流行度的核心结构性特征,且特征作用存在差异化规律:高valence普遍提升流行度,danceabilit的贡献随取值非线性增强,instrumentalness 与 acousticness 则受曲风差异影响呈现双向作用。
综上,本研究核心结论为:音频特征与歌曲流行度存在显著的结构化关系,且该关系的表达强烈依赖于曲风这一宏观标签。这一结论不仅完善了流媒体音乐流行度的理论认知,更为行业实务提供了宏观决策依据。
文案 | 王龙玺
排版 | 王龙玺


