Autonomys中文
AI3.0 的基础层

SUBSPACE NETWORK单个 GPU 实例与多个 GPU 实例的比较

已完成单个实例和多个实例之间的性能指标比较。分析包括绘制时间、GPU 功耗、GPU 利用率(以 % 为单位)和 GPU 内存使用情况。我还添加了图表来突出显示任何显着差异。我希望这有助于理解如何更好地提高单个实例的性能,以更好地匹配多个实例的性能。nvtop

性能基准

这些性能基准测试是使用两个 RTX 4090 GPU 通过以下方法进行的:

  • 快照版本 #383
  • 总共使用了 9 个驱动器来防止它们成为瓶颈。
  • 将每个绘图仪添加到群集后,我允许至少一分钟的绘图,以减少初始上升期的影响。
  • 从每个 GPU 收集 GPU 统计数据,平均 300 秒。每 5 秒捕获一次数据。
  • 扇区时间是根据在同一 300 秒内绘制的成功扇区计算的,与 GPU 统计数据一致。

观察

  • 扇区时间在一定程度上是扭曲的,因为失败的扇区浪费了处理时间。不幸的是,此问题一直存在,并且过去曾报告过。这种行为使得复制理想条件变得困难。
  • 通过运行五个以上的 4 并发绘图仪来解决 GPU 利用率的差距。
2024-09-15T16:12:45.525621Z  WARN {farm_index=3}:{sector_index=37}: Autonomys_farmer::single_disk_farm::plotting: Failed to plot sector, retrying in 1s error=Low-level plotting error: Plotting progress stream ended before plotting finished
2024-09-15T16:12:45.540373Z  WARN {farm_index=3}:{sector_index=31}: Autonomys_farmer::cluster::nats_client: Received unexpected response stream index, aborting stream actual_index=16 expected_index=15 message_type=Autonomys_farmer::cluster::plotter::ClusterSectorPlottingProgress response_subject=stream-response.01J7V767AZR6MEJKYSTQAZFBXS
2024-09-15T16:12:45.540633Z  WARN {farm_index=3}:{sector_index=31}: Autonomys_farmer::single_disk_farm::plotting: Failed to plot sector, retrying in 1s error=Low-level plotting error: Plotting progress stream ended before plotting finished
2024-09-15T16:12:45.655387Z  INFO {farm_index=0}:{sector_index=19}: Autonomys_farmer::single_disk_farm::plotting: Plotting sector retry

思潮

  • 结果以并发 6 重新运行,因为初始数字似乎不一致。这解释了该运行存在重复结果的原因。
  • 昨天,8 并发产生了最好的结果,扇区时间为 2.7 秒。对于这两个 GPU,并发数 7 或 8 似乎是最佳设置。
赞(0)
未经允许不得转载:Autonomys 之家 » SUBSPACE NETWORK单个 GPU 实例与多个 GPU 实例的比较
欧意OKX币安Binance芝麻开门GATE