12月12日,“突破新边界·智见新未来”2024大模型技术与应用创新论坛在北京举行。会上,中国工程院院士、清华大学计算机系教授郑纬民表示,今年大模型发展有两个特点,第一是基础大模型进入多模态状态,文本之外,还有图像、视频,也就是多模态。第二是“用起来”,“大模型+”应用于各行各业,如“大模型+金融”“大模型+医疗”“大模型+汽车”“大模型+智能制造”等。
中国工程院院士、清华大学计算机系教授 郑纬民他表示,我国在“大模型+”领域,有希望超过美国。通过讲解大模型生命周期的五个环节,郑纬民认为,当前大模型发展的难点在于算力、存储、时间成本。构建国产万卡系统重要但尚存困难,需要避免“木桶效应”。
算力、存储、时间成本是大模型开发过程的难点
郑纬民通过讲解大模型生命周期的五个环节,阐述当前大模型发展的难点。他介绍,大模型生命周期的五个环节分别是数据获取、数据预处理、模型训练、模型微调和模型推理。
在数据获取环节,核心任务是从全球各地收集训练数据。尽管收集到的文件体积较小,有利于节省存储空间,但数量极其庞大,达到数百亿个。这些文件需要被存储在硬盘上,并记录其在硬盘上的具体位置,这个过程被称为源数据处理。由于文件数量巨大,需要多台计算机协同工作以存储、记忆这些位置,这对计算机来说是一项挑战。随着位置数量的增加,查找特定文件的位置变得更加耗时,因此如何高效地存储和检索数据成为数据获取阶段的关键问题。
其次是数据预处理环节。在这一阶段,收集到的数据由于质量参差不齐、格式不一致,并且包含广告、重复内容等不需要的信息,因此需要进行预处理以提升数据质量。预处理包括去除重复内容、广告等,以确保数据质量的提高能够带来更好的训练结果。预处理过程相当复杂,据统计,在GPT4的训练过程中,预处理占据了一半的时间,成为训练效率的瓶颈。如何提高预处理的速度,是大数据处理中的一个难题。
第三阶段是模型训练。这一阶段需要大量的算力和存储空间,最终得到基础大模型,面临的问题众多。例如,如果在训练过程中硬件出现故障,就需要重新开始训练。为了避免这种情况,可以在训练到一定时间后主动暂停,记录当时的硬件和软件环境,以便在故障发生后能够从记录的点继续训练,而不是从头开始。然而,对于大模型来说,训练数据量巨大,主动保存数据到硬盘可能需要数小时,这会导致效率低下。因此,如何缩短这一过程,使其在10到20分钟内完成,是训练阶段需要解决的问题。
第四阶段是模型微调。基础大模型虽然已经训练完成,但若要应用于特定领域,如医疗,还需要进一步的训练。微调是在基础大模型的基础上,针对特定领域的数据进行的第二次训练。例如,基础大模型训练数据中医院的数据量太少,因此需要在基础大模型的基础上进行微调,以适应医院的需求。这个过程可以继续细分,例如,可以针对B超数据进行第三次训练,以得到专门用于B超的模型。微调实际上是在基础大模型的基础上,根据不同领域的需求形成领域、行业大模型。
最后是模型推理阶段,这是模型实际应用的过程。推理阶段同样需要大量的算力和存储,并且耗时较长。整个大模型的开发过程都需要考虑到算力和存储的需求,以及时间成本。
构建国产万卡系统应避免“木桶效应”
谈到产业期待,郑纬民院士表示,构建国产万卡系统(由一万张及以上的加速卡,包括GPU、TPU及其他专用AI加速芯片,组成的高性能计算系统)很重要。目前,异地卡、异构卡训练效果较差,资金有限的公司暂时不要考虑,资金充裕的公司可以尝试。
首先,万卡系统的重要性不言而喻,我们都非常希望能够拥有这样的系统,但目前的发展状况并不理想,实现起来相当困难。构建国产万卡系统不仅重要,而且难度很大。由于外部供应受限,我们迫切需要建立自己的万卡系统,尽管这是一个艰巨的任务。对万卡系统而言,所谓的“好”,指的是一旦建成,能够被广泛接受并认为好用,但要达到这样的目标非常具有挑战性。
目前,我们构建的卡系统用户接受度如何?例如,第一块卡来自A公司,第二块来自B公司,第三块来自C公司。当这些卡一起使用时,使用的效果取决于最差的那张卡。我们应该避免这种组合方式,建议减少数量,深入研究,避免“木桶效应”。1000个旧CPU和1000个新CPU组合使用时,性能甚至还不如单独使用2000个旧CPU,我们为什么要这样做呢?
其次,异地卡和异构卡在训练中的效果非常差,目前不建议考虑。异构卡和异地卡的联合训练效果并不理想。在异构卡的情况下,问题变得更加复杂。即使是静态情况下,我们也不将它们组合使用,中国人和美国人都不这样做,因为不划算。我们所说的联合训练,以及异地卡的问题,更是难上加难。例如,数据从北京传输到贵州可能需要5天时间,而贵州处理完结果再发送到上海又需要5天,这如何实现?因此,异构卡和异地卡的训练效果不佳。资金有限的公司暂时不要考虑,资金充裕的公司可以尝试。