O Firmie: Nasz klient jest liderem w dziedzinie przetwarzania w chmurze, specjalizując się w dostarczaniu innowacyjnych rozwiązań, które umożliwiają firmom rozwiązywanie rzeczywistych wyzwań bez potrzeby inwestowania w kosztowną infrastrukturę lub duże zespoły AI/ML.
Opis roli: Nasz klient buduje nowoczesną platformę inferencyjną dla modeli AI, umożliwiającą wydajne i masowe wdrażanie architektur tekstowych, wizualnych, dźwiękowych oraz multimodalnych. Rola ta wiąże się z pracą z jedną z największych chmur GPU na świecie, obsługującą dziesiątki tysięcy procesorów GPU.
Obowiązki:
Rozwój i optymalizacja komponentów kernelowych oraz runtime dla inferencji AI
Poprawa wydajności silników inferencyjnych na platformach GPU
Profilowanie i debugowanie problemów z wydajnością na poziomie systemu i sprzętu
Integracja wsparcia dla nowych architektur sprzętowych (Hopper, Blackwell, Rubin)
Współpraca z zespołami ML i backendowymi w celu optymalizacji end-to-end
Wymagane kwalifikacje:
Doskonała znajomość C++ lub doświadczenie w programowaniu GPU, ze szczególnym uwzględnieniem programowania o wysokiej wydajności i zarządzania pamięcią
Doświadczenie w programowaniu GPU lub rozwoju oprogramowania na poziomie systemu (np. wewnętrzne mechanizmy systemu operacyjnego, moduły jądra, sterowniki urządzeń)
Doświadczenie z narzędziami do profilowania i debugowania wydajności CPU i GPU
Solidne zrozumienie architektury CPU/GPU oraz hierarchii pamięci