背景知识
详见SCUT科学计算公共服务平台,使用超算平台需有SCUT账号(一般为老师申请)
大部分教程可查阅科学计算公共服务平台用户手册,本章仅讲超算使用示例
遇到技术问题可咨询答疑群263814144(华工算力服务),仅限本校师生
新建环境
登录平台与上传文件等操作自行查阅用户手册(本章上传文件采用WinSCP),根据软件资源选择合适的集群(本章采用python3.9+torch2.3.0+cuda11.8+cuDNN8.0,故采用集群1)
点击shell-hpckapok1-任意节点,打开终端

1 | #导入anaconda,后可在终端运行conda指令 |
依照conda流程新建环境,若环境需安装特定whl,可用WinSCP将whl上传至对应的集群文件管理后安装,路径为/share/home/用户名/whl路径
1 | #新建环境 |
创建应用(jupyter)
点击交互式应用-hpckapok1-创建应用,选择所需应用(本章采用jupyter notebook)


根据GPU加速与并行计算选择分区与节点数等,conda环境需设置为绝对路径:/share/home/用户名/your/conda/path

提交,等一会儿,点击连接
1 | #GPU加速测试 |
任务提交
在本地确保代码无报错后上传至超算
点击作业-提交作业

1 | module load cuda/11.8 |
导入cuda与anaconda后激活对应的环境,后cd到自己的绝对路径
第 5/6 行代码二选一运行
运行.py代码可采用python -u命令行运行
若采用多卡并行,需用torchrun命令行运行
下方设置仅需修改分区、节点数、单节点加速卡卡数,最长运行时间
!!!代码未进行并行计算的修改下,勾选了多个节点或多个线程,也仅在单CPU或单GPU运行,将造成资源浪费,默认单CPU或单GPU运行代码即可
!!!最长运行时间不宜拉满,否则代码报错循环卡死时将持续运行造成浪费
提交作业后,可在未结束的作业或所有作业中查看作业运行情况,点击进入目录,.out文件保存输出结果,.err文件保存代码报错时的报错信息
备注
SCUT超算交互式应用在读取环境时容易报错(部分库下载后在交互式应用中识别不到),推荐采用上传任务的方式运行代码
单卡A800计算性能相较于3080提高50%左右,同时由于可多卡计算,效率提高较为显著
在本地确保代码无报错后,记得将代码中设置的文件路径修改为超算的文件路径再上传
视频教程与相关资源可联系博主
