[KERNELS] Improve block sizes for batched matmul_ogs with small m/n/k. #7897

yongjik · 2025-08-19T00:31:01Z

(Previously, block sizes could be much bigger than m/n/k.)

Example perf difference:

H100:
    B=500000 M=8 N=8 K=8
        >> torch.float16     0.850 ms -> 0.388 ms
        >> torch.bfloat16    0.828 ms -> 0.354 ms
        >> torch.float8_e5m2 0.829 ms -> 0.373 ms
    B=500000 M=16 N=16 K=16
        >> torch.float16     0.791 ms -> 0.381 ms
        >> torch.bfloat16    0.790 ms -> 0.382 ms
        >> torch.float8_e5m2 0.779 ms -> 0.366 ms

GB200:
    B=500000 M=8 N=8 K=8
        >> torch.float16     0.676 ms -> 0.314 ms
        >> torch.bfloat16    0.652 ms -> 0.297 ms
        >> torch.float8_e5m2 0.659 ms -> 0.294 ms
    B=500000 M=16 N=16 K=16
        >> torch.float16     0.622 ms -> 0.305 ms
        >> torch.bfloat16    0.606 ms -> 0.306 ms
        >> torch.float8_e5m2 0.616 ms -> 0.296 ms

(Previously, block sizes could be much bigger than m/n/k.)

[KERNELS] Improve block sizes for batched matmul_ogs with small m/n/k.

dca414e

(Previously, block sizes could be much bigger than m/n/k.)

yongjik requested a review from ptillet as a code owner August 19, 2025 00:31

yongjik added 3 commits August 18, 2025 17:31

typo

5daaa64

Merge remote-tracking branch 'origin/main' into yongjik-250818-batch

2d17881

simplify logic

70305ba

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[KERNELS] Improve block sizes for batched matmul_ogs with small m/n/k. #7897

[KERNELS] Improve block sizes for batched matmul_ogs with small m/n/k. #7897

Uh oh!

yongjik commented Aug 19, 2025

Uh oh!

Uh oh!

[KERNELS] Improve block sizes for batched matmul_ogs with small m/n/k. #7897

Are you sure you want to change the base?

[KERNELS] Improve block sizes for batched matmul_ogs with small m/n/k. #7897

Uh oh!

Conversation

yongjik commented Aug 19, 2025

Uh oh!

Uh oh!