Lokalizacje: Londyn, Praga, Amsterdam | Zdalnie lub hybrydowo | Pełny etat
Jesteśmy zespołem R&D zajmującym się zaawansowanymi badaniami stosowanymi i rozwojem produktów opartych na sztucznej inteligencji. Nasze ostatnie projekty obejmują:
Zastosowanie test-time guided search dla budowy wydajniejszych agentów
Skalowanie zbierania danych zadaniowych dla RL w agentach programistycznych
Optymalizacja trenowania LLM-ów na trajektoriach agentowych
Szukamy doświadczonych inżynierów ML (Senior/Staff) do budowania i optymalizacji systemów trenowania i inferencji AI w środowiskach wielowęzłowych i wielo-GPU.
Projektowanie i implementacja rozproszonych pipeline’ów trenowania i inferencji (równoległość danych, tensora, kontekstu, ekspertów)
Optymalizacja inferencji z wykorzystaniem nowoczesnych technik (np. speculative decoding, CUDA Graphs, kompilacja dynamiczna)
Tworzenie własnych wydajnych kerneli CUDA/Triton dla krytycznych komponentów modeli
Współpraca z zespołami R&D i infrastrukturą w celu maksymalizacji wydajności
Głęboka wiedza teoretyczna z zakresu ML
Doświadczenie w optymalizacji trenowania i inferencji dużych modeli neuronowych
Ekspertyza w przynajmniej jednym z obszarów:
Implementacja niestandardowych kerneli GPU (CUDA/Triton)
Trenowanie rozproszone na wielu węzłach z różnymi technikami równoległości
Optymalizacja inferencji (paged attention, continuous batching, speculative decoding)
Bardzo dobre umiejętności programistyczne (Python)
Doświadczenie z PyTorch i/lub JAX
Praktyka w nowoczesnych procesach inżynieryjnych (CI/CD, testy, Git)
Samodzielność i dobra komunikacja
Znajomość frameworków inferencyjnych LLM (vLLM, SGLang, TensorRT-LLM)
Znajomość pojęć jak Flash Attention, MoE, RoPE, ZeRO, kwantyzacja
Tytuł magistra lub doktora z informatyki, AI, Data Science lub pokrewnych dziedzin
Doświadczenie w budowaniu produktów w środowiskach startupowych
Open source projekty prezentujące Twoje umiejętności
Doświadczenie z systemami rozproszonymi i wysokowydajnymi usługami
Dołącz do społeczności Znoydzem.
Podobne CV