推論最適化

ハードウェア

Vulkan 1.4.352新拡張でNVIDIA GPU推論性能が劇的に向上?検証

Vulkan 1.4.352がリリースされ、NVIDIA独自拡張「cooperative_matrix_decode_vector」が追加されました。ローカルLLM運用でボトルネックだったGPU演算性能がどう変わるか、Ollamaやllama.cpp環境での検証結果とベンチマークデータを詳しく解説します。
ローカルLLM

Transformerの位置表現徹底比較:AbsPE vs RoPEの性能と課題を実験で検証

Transformerの位置表現(AbsPE vs RoPE)を実験で比較。長系列対応の性能差と課題を解説。LLM開発者が必見の検証結果をチェック!