Głowna Wakaty DevOps Senior Site Reliability Engineer — AI Studio

Wakat w Poland: Senior Site Reliability Engineer — AI Studio Wynagrodzenie

Dlaczego warto do nas dołączyć?
Tworzymy nową erę chmury obliczeniowej, aby wspierać globalną gospodarkę AI. Naszym celem jest budowanie narzędzi i infrastruktury, które umożliwiają klientom wdrażanie zaawansowanych rozwiązań AI na dużą skalę—bez ogromnych kosztów ani konieczności budowania dużych zespołów wewnętrznych. U nas będziesz pracować na styku najnowszych technologii i sztucznej inteligencji z najbardziej innowacyjnymi inżynierami w branży.

Gdzie pracujemy
Firma z siedzibą główną w Amsterdamie, notowana na Nasdaq, działa globalnie, posiadając centra R&D w Europie, Ameryce Północnej i Izraelu. Nasz zespół liczy ponad 800 osób, w tym ponad 400 wysoko wykwalifikowanych inżynierów specjalizujących się w sprzęcie, oprogramowaniu i badaniach nad AI.

O roli
Dołączysz do zespołu tworzącego jedną z największych chmur GPU na świecie, wspierającą platformę inferencyjną, która umożliwia szybkie, niezawodne i bezproblemowe wdrażanie dowolnych modeli bazowych—tekstowych, wizualnych, audio i multimodalnych.

W tej roli będziesz odpowiadać za niezawodność, wydajność i obserwowalność całego stosu inferencyjnego. Twoje obowiązki obejmą:

Projektowanie i doskonalenie pipeline’ów telemetrycznych przetwarzających setki terabajtów sygnałów w jasne i przydatne informacje.
Strojenie autoskalerów Kubernetes w celu maksymalizacji efektywności GPU.
Tworzenie modułów Terraform, które budują odporność w każdej nowej infrastrukturze.
Udoskonalanie logiki routingu i retry, aby przejściowe awarie były niewidoczne dla użytkowników.
Rozwijanie automatyzacji i runbooków pozwalających szybko wykrywać, izolować i rozwiązywać incydenty.
Wdrażanie kultury post-mortem, która zapobiega powtarzaniu problemów.

Wszystkie te działania prowadzą do jednego celu: skalowania platformy płynnie i przy zachowaniu ambitnych celów kosztowych oraz niezawodności.

Wymagania

Doświadczenie w pracy z Kubernetes, Prometheus, Grafana, Terraform oraz infrastrukturą jako kod.
Biegłość w skryptowaniu w Python lub Bash.
Świetne zrozumienie alertowania, SLO i niezawodności API o wysokiej przepustowości.
Znajomość zachowania systemów rozproszonych w środowisku produkcyjnym.
Doświadczenie w obsłudze obciążeń GPU (vLLM, Triton, Ray lub podobne).
Mile widziane doświadczenie w MLOps lub platformach hostowania modeli.
Pasja do budowania samonaprawiających się systemów i debugowania wydajności od kernela po warstwę aplikacji.
Umiejętność współpracy i podejście, które czyni niezawodność niewidocznym atutem dla użytkowników.

Oferujemy

Konkurencyjne wynagrodzenie i szeroki pakiet benefitów.
Możliwości rozwoju zawodowego w szybko rosnącej organizacji.
Hybrydowy model pracy.
Dynamiczne i zespołowe środowisko ceniące inicjatywę i innowacyjność.

Dołącz do społeczności Znoydzem.

Aplikuj jako Specjalista ds

Podobne CV

DevOps Engineer

Jesteśmy dynamicznie rozwijającą się firmą technologiczną specjalizującą się w pracy i inwestowaniu w czołowe start-upy i marki w...

DevOps

Będziesz odpowiedzialny za: Utrzymywanie wysoko bezpiecznej infrastruktury serwera płatności; Analizowanie i poprawę dostępności, efektywności, po...

DevInfraOps engineer

Poszukujemy inżyniera Intermediate/Senior DevInfraOps, który pomoże w utrzymaniu platformy Data Engineering, wdrażaniu najlepszych praktyk i ul...

DBA / DBRE (Database Administrator / Database Reliability engineer)

O firmieNasz klient to globalna platforma live-streamingowa z ponad 450 milionami zarejestrowanych użytkowników na całym świecie, działająca w...