关于GPT-4模型的训练，有一些相关的报道和信息：

1 训练成本和GPU使用

OpenAI在GPT-4的训练中使用了大约2.15e25的浮点运算（FLOPS），使用了约25,000个A100 GPU，训练过程持续了90到100天。这种极低的利用率部分是由于大量的故障导致需要重新启动检查点

2 训练数据集

GPT-4的训练数据集是基于GPT-3和GPT-3.5的训练数据集构建的，并在两者基础上增加了多模态数据集。GPT-4的数据收集是由Wojciech Zaremba（数据集团队经理）和Qiming Yuan（数据集采购和处理负责人）领导的一项艰巨任务

GPT-4大模型具有数据量大、数据带宽要求高、算力要求高的计算特点，且算法相对单一。为了提高计算效率和性价比，应该选择更高计算密度的算力芯片

GPT-4具有1.8万亿巨量参数，使用了13万亿token进行训练

综上所述，GPT-4的训练是一个极其复杂和资源密集型的过程，需要大量的GPU和大量的数据来训练。这些信息展示了人工智能领域在模型训练方面的发展速度和所面临的挑战。