Revert "kernel: use tensor cores for flashinfer gqa kernels" #1511

Ying1123 · 2024-09-25T05:49:14Z

Reverts #1403

This commit creates significant accuracy degradation, detected by llama3.1-70b-instruct on humaneval.

# reproduce
python3 -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-70B-Instruct --tp 4 --enable-p2p-check
python3 run_eval.py --host 127.0.0.1 --port 30000 --model meta-llama/Meta-Llama-3.1-70B-Instruct --eval-name humaneval

This reverts commit debbdb5.

zhyncs · 2024-09-25T15:50:44Z

cc @yzh119

Revert "kernel: use tensor cores for flashinfer gqa kernels (#1403)"

46ed962

This reverts commit debbdb5.

Ying1123 requested review from yzh119 and merrymercy September 25, 2024 05:49

Ying1123 enabled auto-merge (squash) September 25, 2024 05:50

Ying1123 disabled auto-merge September 25, 2024 05:50

Ying1123 merged commit f39a019 into main Sep 25, 2024
1 of 10 checks passed

Ying1123 deleted the revert-1403-main branch September 25, 2024 05:50

zhyncs approved these changes Sep 25, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Revert "kernel: use tensor cores for flashinfer gqa kernels" #1511

Revert "kernel: use tensor cores for flashinfer gqa kernels" #1511

Ying1123 commented Sep 25, 2024 •

edited

Loading

zhyncs commented Sep 25, 2024

Revert "kernel: use tensor cores for flashinfer gqa kernels" #1511

Revert "kernel: use tensor cores for flashinfer gqa kernels" #1511

Conversation

Ying1123 commented Sep 25, 2024 • edited Loading

zhyncs commented Sep 25, 2024

Ying1123 commented Sep 25, 2024 •

edited

Loading