Schrodinger的Active Learning Glide软件对硬件要求
$SCHRODINGER/run -FROM glide active_learning_glide.py -h
驱动程序要求
驱动程序(主作业)必须在作业的整个持续时间内运行而不会中断。这意味着运行它的计算资源不能是现货或可抢占的云实例。这些节点可以被抢占(终止),如果发生这种情况,您的整个作业将丢失。
该参数确定驱动程序的运行位置。选择用于按需(即不可抢占)节点类型的主机条目。-DRIVERHOST
如果有足够的许可证和计算资源来同时运行多个 AL-Glide 作业,建议配置驱动程序主机条目,以便它请求整个节点,以避免多个驱动程序可能使用相同的节点和暂存文件系统,从而使空间需求增加一倍(或更多)。
暂存空间
驱动程序主机上所需的暂存空间量与输入配体文件的大小有关。具体而言,驱动程序主机必须有足够的暂存空间来容纳下面所述的文件。
示例的暂存要求以红色提供。所有参数均符合我们对具有主动学习滑行功能的超大屏幕的建议。
示例筛选参数,基于 10 亿个输入配体
- 10 亿个 SMILES 格式的药物样配体 (100 GB)
-
主动学习的 3 次迭代 (
-iter 3
) -
50 000个配体的批量训练大小(
-train_size 50000
) -
每次迭代后保留的顶级配体数量为 1 亿个 (
-keep 100000000
) -
使用 Glide SP 对前 100 万个配体进行重新评分 (
-num_rescore_ligands 1000000
) -
以 Maestro 格式为重新评分的配体 (
-write_pose
)
暂存空间细分
- 输入文件的副本:100 GB
- 将输入文件拆分为单个子作业输入批处理:100 GB
- 包含每个批次前 10% 的预测的 CSV 文件(按不确定性排序)。它们用于为每次训练迭代选择输入配体:30 GB
-
包含所有批次配体ligand_ml预测的 CSV 文件:100 GB×
num_iteration
-
每次训练迭代的输出文件,其中包含命令行参数指定的得分最高的化合物数量的预测:30 GB
×num_iteration
-keep
-
自选:如果指定,则包含使用 Glide SP 化合物重新评分的顶部姿势的单个 CSV 文件,指定如下: 200 MB
-num_rescore_ligand
-num_rescore_ligand
-
自选:如果提供,则包含重新评分配体姿势的 Maestro 文件:2 GB
-write_pose
- 此示例的总空间:622.2 GB(3 次迭代)
内存
对于 Active Learning Glide 的典型运行,建议在驱动程序主机上使用 64 GB 的 RAM。
这是基于上述示例工作流。
子作业要求
下面列出了内存、磁盘空间和推荐的 Google Cloud Platform (GCP) 实例类型的要求。
所有值均基于上述示例工作流。
机器学习培训
建议使用 Nvidia T4 GPU。
- 暂存空间:600 GB
- 内存:64 GB(每个 CPU 内核 8 GB)
- 与抢占式节点兼容:否
- 推荐的 GCP 节点类型:n1-highmem-8
ML评估
- 暂存空间:100 GB
- 内存:32 GB(每个 CPU 内核 4 GB)
- 与抢占式节点兼容:是
- 推荐的 GCP 节点类型:n2-standard-8
Glide
- 暂存空间:100 GB
- 内存 32 GB(每个 CPU 内核 4 GB)
- 与抢占式节点兼容:是
- 推荐的 GCP 节点类型:n2-standard-8