You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
Uh oh!
There was an error while loading. Please reload this page.
-
torch_samples_list.txt 2456 情况
数据结果:总量 2456 个,成功 1644 个 (66.9%),全程 0 Crash/OOM。
典型失败现象分类
TorchDynamo 运行期追踪中断 [607 例,占比 74.8%]
日志大规模抛出 TorchRuntimeError。在处理 FakeTensor 时,系统在调用 embedding、matmul 或 add 等基础函数时发生中断。该现象高度集中在 transformers-auto-model 路径下的 NLP 模型(如 opus-mt)。
模型入口参数缺失/签名不一致 [约 50 例]
执行测试脚本时触发 TypeError,提示 forward() 函数缺少必要位置参数。错误信息中频繁出现 stack0_、hidden_state_xxx_ 等非原生定义的参数名。受影响模型集中在 facebook_regnet 和 resnet 系列。
框架一致性断言触发 (AssertionError) [约 110 例]
任务直接在 get_error_model_path() 处报错退出,未进入后续计算阶段。受影响范围涵盖了 ultralytics (YOLO11/v8)、facebook_sam 及 google_vit 等主流计算机视觉模型。
设备张量分布冲突 (Device Mismatch) [14 例]
在 A100 环境下抛出 RuntimeError,明确指出同一个算子中同时检测到 cuda 和 cpu 设备上的张量。该现象多见于 AlphaMaze 和 all-mpnet-base 等特定模型。
计算图重写数值异常 [极少数]
日志记录到 dropout probability 出现 -nan。现象发生于 microsoft_trocr 等 OCR 相关模型。
Beta Was this translation helpful? Give feedback.
All reactions