我采用了8台8卡80g的a100,每张卡大概800g的cpu内存,进行权重转换,发现出现了内存OOM。 请问需要多少卡才能转换deepseekv3权重? 还有deepseekv3转化成megatron权重的最佳实践是怎么样的? swift export \ --model DeepSeek-V3-0324-bf16/ \ --to_mcore true \ --torch_dtype bfloat16 \ --output_dir DeepSeek-V3-0324-bf16-mcore