[bugfix] enable faster rcnn and sd model with oneflow backend #10439

crazy-JiangDongHua · 2024-03-05T14:33:51Z

oneflow backend 对接 torch compile ，在关闭和打开动态形状的时候，跑通了 faster rcnn 和 sd 模型。相关 issue: oneflow backend 对接 torch compile ，运行 faster rcnn

主要改动包括：

修复 oneflow 模型转 torch 模型时，部分 torch.nn.functional.func 转换失败的 bug
在 oneflow backend 中打开 nn.Graph 的动态形状支持，环境变量对其 oneflow compile
在 oneflow backend 中对推理场景添加了 flow.no_grad ，避免了编译时错误：RuntimeError: The gradient function for op fused_multi_head_attention_inference is not found. Please check whether it has been implemented and registered correctly.
补全了对 nn.Graph 的不同返回数据类型的处理

levi131 · 2024-03-06T03:30:10Z

python/oneflow/framework/infer_compiler/with_fx_graph.py


        of_g = OfGraph()
+        of_g._dynamic_input_graph_cache.set_cache_size(9)
+        of_g._dynamic_input_graph_cache.enable_shared(True)


这两个参数是不是对应了 compile_from_torch 接口 option 中 size 和 dynamic 参数。torch.compile接口参数中有dynamic 参数，我理解应该使用用户传进来的dynamic 参数而不是固定值 True。size 这里设置为默认的9，可以定义一个常量表示，不使用魔鬼数字。

基本上是对应的。size 这个确实可以改一下，我给加一个常量。dynamic 这个参数我觉得不用改，一是用户的参数传给了 torch，oneflow backend 拿不到，二是因为 torch compile 这个前端的存在，这里 dynamic 写死为 True 和设置成用户传的值，两者是等价的。

levi131 · 2024-03-06T04:11:37Z

python/oneflow/framework/infer_compiler/with_fx_graph.py

-                return self.fx_md(*args, **kwargs)
+                if self.fx_md.training:
+                    return self.fx_md(*args, **kwargs)
+                with flow.no_grad():


训练或者推理模式的区分，with flow.no_grad，理论上不应该在这里的build函数中体现，而是在用户模型表达中。对于issue中提到的报错，可以确认一下是不是真的缺少对应的反向算子，通过补充反向算子解决问题。

这个我问了开发 fused_multi_head_attention_inference 的俊丞，他说这个算子只实现了前向，没实现反向。如果不在build 里面添加，那要修改 test compile 仓库里面的代码？我测试了只用 model.eval() 无法规避 issue中提到的报错

[bugfix] enable faster rcnn and sd model with oneflow backend

ca33f43

crazy-JiangDongHua added automerge bug system labels Mar 5, 2024

crazy-JiangDongHua requested review from mosout, linzs148, oneflow-ci-bot and levi131 March 5, 2024 14:33

levi131 reviewed Mar 6, 2024

View reviewed changes

levi131 requested a review from strint March 6, 2024 03:30

levi131 reviewed Mar 6, 2024

View reviewed changes

[format]add const default cache size

a1f06af

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[bugfix] enable faster rcnn and sd model with oneflow backend #10439

[bugfix] enable faster rcnn and sd model with oneflow backend #10439

crazy-JiangDongHua commented Mar 5, 2024

levi131 Mar 6, 2024

crazy-JiangDongHua Mar 6, 2024

levi131 Mar 6, 2024

crazy-JiangDongHua Mar 6, 2024

[bugfix] enable faster rcnn and sd model with oneflow backend #10439

Are you sure you want to change the base?

[bugfix] enable faster rcnn and sd model with oneflow backend #10439

Conversation

crazy-JiangDongHua commented Mar 5, 2024

levi131 Mar 6, 2024

Choose a reason for hiding this comment

crazy-JiangDongHua Mar 6, 2024

Choose a reason for hiding this comment

levi131 Mar 6, 2024

Choose a reason for hiding this comment

crazy-JiangDongHua Mar 6, 2024

Choose a reason for hiding this comment