在大数据技术蓬勃发展的当下,数据降维技术已成为处理高维数据、精准提取关键信息的重要利器。5月27日下午,我系于逸夫楼111教室举办 “数据线性降维方法”专题讲座,此次讲座由党红老师主讲。
讲座开篇,党红老师以通俗易懂的语言切入主题,深入阐释主成分分析(PCA)的核心原理。她指出,PCA 通过构建协方差矩阵并计算特征值与特征向量,将原始数据映射至新的特征空间,其中第一主成分保留最大方差,后续主成分在正交约束下逐步提取剩余方差。党老师着重强调数据标准化处理的必要性,称其为消除变量量纲差异、保障分析准确性的关键步骤,并通过严谨的数学推导,系统展示从数据标准化、协方差矩阵构建到特征值分解的完整流程。
在主成分数量确定环节,党红老师详细介绍三大实用准则:Kaiser 准则主张保留特征值大于 1 的主成分;累计贡献率法建议选取累计解释方差达 80%-85% 的主成分;碎石图法则通过观察特征值曲线 “肘部” 拐点确定最优数量。为增强理论直观性,党老师以经典鸢尾花数据集为样本,运用 R 语言进行全流程实操演示,涵盖数据标准化、KMO 检验与 Bartlett 球形检验等适用性验证,以及主成分提取与结果解读,让复杂理论 “落地生根”。
讲座尾声,党老师全面剖析 PCA 方法的优劣。她表示,该方法在去除数据冗余、简化结构、规避维度灾难方面成效显著,但也存在主成分经济含义不明确、易受离群值干扰等局限。党老师特别提醒,应用 PCA 时务必严格执行数据标准化,并确保变量间具备一定相关性。



互动环节气氛热烈,师生围绕 PCA 在实际场景中的应用策略、参数优化等问题展开深入探讨。这场兼具理论深度与实践价值的讲座,不仅加深了与会人员对数据线性降维方法的理解,更为后续开展数据分析研究提供了新思路与新方向。