Usługi pośrednictwa pracy IT Zdalne zespoły Abonament rekrutacyjny O nas Kontakt Wszystkie prace Praca w IT Przykłady CV Nasz blog 2 Case Studies

Wakat w Poland: Senior Site Reliability Engineer — AI Studio Wynagrodzenie

Dlaczego warto do nas dołączyć?
Tworzymy nową erę chmury obliczeniowej, aby wspierać globalną gospodarkę AI. Naszym celem jest budowanie narzędzi i infrastruktury, które umożliwiają klientom wdrażanie zaawansowanych rozwiązań AI na dużą skalę—bez ogromnych kosztów ani konieczności budowania dużych zespołów wewnętrznych. U nas będziesz pracować na styku najnowszych technologii i sztucznej inteligencji z najbardziej innowacyjnymi inżynierami w branży.

Gdzie pracujemy
Firma z siedzibą główną w Amsterdamie, notowana na Nasdaq, działa globalnie, posiadając centra R&D w Europie, Ameryce Północnej i Izraelu. Nasz zespół liczy ponad 800 osób, w tym ponad 400 wysoko wykwalifikowanych inżynierów specjalizujących się w sprzęcie, oprogramowaniu i badaniach nad AI.

O roli
Dołączysz do zespołu tworzącego jedną z największych chmur GPU na świecie, wspierającą platformę inferencyjną, która umożliwia szybkie, niezawodne i bezproblemowe wdrażanie dowolnych modeli bazowych—tekstowych, wizualnych, audio i multimodalnych.

W tej roli będziesz odpowiadać za niezawodność, wydajność i obserwowalność całego stosu inferencyjnego. Twoje obowiązki obejmą:

  • Projektowanie i doskonalenie pipeline’ów telemetrycznych przetwarzających setki terabajtów sygnałów w jasne i przydatne informacje.

  • Strojenie autoskalerów Kubernetes w celu maksymalizacji efektywności GPU.

  • Tworzenie modułów Terraform, które budują odporność w każdej nowej infrastrukturze.

  • Udoskonalanie logiki routingu i retry, aby przejściowe awarie były niewidoczne dla użytkowników.

  • Rozwijanie automatyzacji i runbooków pozwalających szybko wykrywać, izolować i rozwiązywać incydenty.

  • Wdrażanie kultury post-mortem, która zapobiega powtarzaniu problemów.

Wszystkie te działania prowadzą do jednego celu: skalowania platformy płynnie i przy zachowaniu ambitnych celów kosztowych oraz niezawodności.

Wymagania

  • Doświadczenie w pracy z Kubernetes, Prometheus, Grafana, Terraform oraz infrastrukturą jako kod.

  • Biegłość w skryptowaniu w Python lub Bash.

  • Świetne zrozumienie alertowania, SLO i niezawodności API o wysokiej przepustowości.

  • Znajomość zachowania systemów rozproszonych w środowisku produkcyjnym.

  • Doświadczenie w obsłudze obciążeń GPU (vLLM, Triton, Ray lub podobne).

  • Mile widziane doświadczenie w MLOps lub platformach hostowania modeli.

  • Pasja do budowania samonaprawiających się systemów i debugowania wydajności od kernela po warstwę aplikacji.

  • Umiejętność współpracy i podejście, które czyni niezawodność niewidocznym atutem dla użytkowników.

Oferujemy

  • Konkurencyjne wynagrodzenie i szeroki pakiet benefitów.

  • Możliwości rozwoju zawodowego w szybko rosnącej organizacji.

  • Hybrydowy model pracy.

  • Dynamiczne i zespołowe środowisko ceniące inicjatywę i innowacyjność.

Dołącz do społeczności Znoydzem.

Aplikuj jako Specjalista ds