Dlaczego warto do nas dołączyć?
Tworzymy nową erę chmury obliczeniowej, aby wspierać globalną gospodarkę AI. Naszą misją jest umożliwienie klientom rozwiązywania rzeczywistych problemów i transformowania branż—bez ogromnych kosztów infrastruktury i konieczności budowania dużych zespołów AI. U nas będziesz pracować na styku najnowszych technologii i sztucznej inteligencji razem z doświadczonymi i innowacyjnymi inżynierami.
Gdzie pracujemy
Firma z siedzibą główną w Amsterdamie, notowana na Nasdaq, działa globalnie i posiada centra R&D w Europie, Ameryce Północnej oraz Izraelu. Zespół liczy ponad 800 osób, w tym ponad 400 wysoko wykwalifikowanych inżynierów specjalizujących się w sprzęcie, oprogramowaniu i badaniach nad AI.
O roli
Dołączysz do zespołu AI R&D, który koncentruje się na badaniach stosowanych i rozwoju produktów opartych na AI. Przykłady naszych niedawnych publikacji:
Badanie, jak test-time guided search może tworzyć bardziej zaawansowanych agentów.
Skalowanie zbierania danych do przyspieszenia reinforcement learning dla agentów wspierających inżynierię oprogramowania.
Zwiększanie efektywności trenowania dużych modeli językowych.
Jednym z kluczowych produktów, nad którym będziesz pracować, jest platforma do inferencji i fine-tuningu modeli AI.
Szukamy obecnie inżynierów ML na poziomie senior i staff, którzy będą optymalizować wydajność trenowania i inference w dużych środowiskach multi-GPU i multi-node. Rola wymaga głębokiej wiedzy z zakresu systemów rozproszonych i HPC.
Zakres obowiązków
Projektowanie i implementacja rozproszonych pipeline’ów trenowania i inference z użyciem technik takich jak data, tensor, context, expert (MoE) i pipeline parallelism.
Implementacja technik optymalizacji inference, w tym speculative decoding i jego rozszerzeń (Medusa, EAGLE), CUDA graphs oraz kompilacji.
Tworzenie własnych kernelów CUDA/Triton dla krytycznych warstw sieci neuronowych.
Wymagania
Głęboka wiedza teoretyczna z zakresu machine learning.
Doskonałe zrozumienie aspektów wydajności trenowania i inference dużych sieci neuronowych (równoległość, offloading, własne kernele, przyspieszenia sprzętowe, dynamic batching).
Ekspertyza w co najmniej jednym z obszarów:
Tworzenie wydajnych kernelów GPU w CUDA i/lub Triton.
Trenowanie dużych modeli na wielu node’ach z zaawansowaną równoległością.
Optymalizacja inference (speculative decoding, paged attention, continuous batching).
Mocne umiejętności inżynierskie (głównie Python).
Doświadczenie z nowoczesnymi frameworkami deep learning (JAX, PyTorch).
Znajomość współczesnych praktyk inżynieryjnych (CI/CD, kontrola wersji, testy jednostkowe).
Świetne umiejętności komunikacyjne i samodzielność.
Mile widziane
Znajomość nowoczesnych frameworków inference dla LLM (vLLM, SGLang, TensorRT-LLM, Dynamo).
Wiedza o kluczowych koncepcjach w LLM (MHA, RoPE, ZeRO/FSDP, Flash Attention, kwantyzacja).
Dyplom licencjacki w informatyce, AI, data science lub pokrewnej dziedzinie (preferowany magister lub doktorat).
Doświadczenie w budowaniu produktów w dynamicznym środowisku przypominającym startup.
Doświadczenie w inżynierii złożonych systemów rozproszonych lub usług wysokiej dostępności.
Projekty open-source prezentujące Twoje umiejętności.
Biegła znajomość języka angielskiego i doskonałe umiejętności komunikacyjne.
Oferujemy
Konkurencyjne wynagrodzenie i pełny pakiet benefitów.
Możliwości rozwoju zawodowego w szybko rozwijającej się organizacji.
Hybrydowy model pracy.
Dynamiczne i zespołowe środowisko ceniące inicjatywę i innowacyjność.
Dołącz do społeczności Znoydzem.
Podobne CV