O Firmie:
Nasz klient jest liderem w dziedzinie przetwarzania w chmurze, specjalizując się w dostarczaniu innowacyjnych rozwiązań, które umożliwiają firmom rozwiązywanie rzeczywistych wyzwań bez potrzeby inwestowania w kosztowną infrastrukturę lub duże zespoły AI/ML.

Opis roli:
Nasz klient buduje nowoczesną platformę inferencyjną dla modeli AI, umożliwiającą wydajne i masowe wdrażanie architektur tekstowych, wizualnych, dźwiękowych oraz multimodalnych. Rola ta wiąże się z pracą z jedną z największych chmur GPU na świecie, obsługującą dziesiątki tysięcy procesorów GPU.

Obowiązki:

Rozwój i optymalizacja komponentów kernelowych oraz runtime dla inferencji AI
Poprawa wydajności silników inferencyjnych na platformach GPU
Profilowanie i debugowanie problemów z wydajnością na poziomie systemu i sprzętu
Integracja wsparcia dla nowych architektur sprzętowych (Hopper, Blackwell, Rubin)
Współpraca z zespołami ML i backendowymi w celu optymalizacji end-to-end

Wymagane kwalifikacje:

Doskonała znajomość C++ lub doświadczenie w programowaniu GPU, ze szczególnym uwzględnieniem programowania o wysokiej wydajności i zarządzania pamięcią
Doświadczenie w programowaniu GPU lub rozwoju oprogramowania na poziomie systemu (np. wewnętrzne mechanizmy systemu operacyjnego, moduły jądra, sterowniki urządzeń)
Doświadczenie z narzędziami do profilowania i debugowania wydajności CPU i GPU
Solidne zrozumienie architektury CPU/GPU oraz hierarchii pamięci

Preferowane kwalifikacje:

Doświadczenie w programowaniu GPU (CUDA, ROCm, CUTLASS, Cute, ThunderKittens, Triton, Pallas, Mosaic GPU)
Znajomość ML inference runtimes (np. TensorRT, TVM)
Wiedza na temat wewnętrznych mechanizmów systemu Linux, sterowników lub narzędzi kompilacyjnych
Doświadczenie z narzędziami takimi jak perf, VTune, Nsight, lub profiler ROCm
Znajomość popularnych silników inferencyjnych (np. vLLM, sglang, TGI)

Wakat w Poland: System engineer Wynagrodzenie