Luku 5, Kappale 1

Käynnissä

Arkkitehtuurinen skaalautuvuus

Jukka 23.10.2025

Luku Edistyminen

0% suoritettu

Kuvittele LMS kuin kasvava kaupunki: liikenneväylien täytyy kantaa kasvavaa kuljetusta, energiarakenteiden on kestettävä kulutushuippuja ja hätätilanteissa järjestelmien pitää pystyä ohjaamaan liikennettä sulavasti vaihtoehtoreiteille. Tekoäly lisää kaupunkiin uusia raskaita kuorma-autoja (suuret mallit, datavirrat) — miten suunnittelet infrastruktuurin niin, että kaupunki pysyy toiminnassa kustannustehokkaasti? Tässä käytännönläheinen ja konkreettinen opas arkkitehtuuriseen skaalautuvuuteen LMS:n ja AI:n yhteispelissä.

Periaatteet lyhyesti

Hajautus ennen keskittämistä: pilko kuorma pienempiin osiin ja skaalaa vaakasuunnassa.
Epäyhtenäisyyden sietokyky (resilience): olet pumppaavasi virtaa pois yksittäisten komponenttien hetkellisestä katkeamisesta.
Työn jaosta: erottele datan tallennus, datan käsittely ja mallien inferenssi omiksi kerroksikseen.
Kustannustehokkuus: käytä oikeanlaista laskentatyyppiä (CPU/GPU/TPU/FPGA) oikeaan tehtävään.
Observability ja automaatio ovat ensisijaiset — ilman niitä skaalautuvuus kääntyy hallitsemattomaksi kustannuslaskuksi.

Arkkitehtuurin ydinkomponentit

API- ja palvelukerros (microservices, gateway)
Viestinvälitys/striimaus (Kafka, Pulsar, Pub/Sub)
Taustaprosessit ja batch-jobs (Kubernetes CronJobs, Airflow)
Mallien serving-kerros (Triton, KFServing/InferenceService, TorchServe, BentoML)
Feature store ja data lake (S3/MinIO + Delta Lake / Hudi / Iceberg)
Nopea cache (Redis, Memcached) ja CDN staattiselle sisällölle
Metadata- ja transaktiotietokannat (Postgres, CockroachDB)
Observability (Prometheus, Grafana, OpenTelemetry, Jaeger)
MLOps (MLflow, Model Registry, CI/CD pipelines)

Tiedon- Ja laskennan jakaminen: Batch vs. Realtime vs. Hybrid

Batch-käsittely: sopii suurille dataset-päivityksille, offline-ominaisuuksien laskentaan ja joukkoinferenssiin. Käytä spot/ephemeral compute -resursseja kustannustehokkaasti.
Reaaliaika: käyttäjäinteraktioihin (esim. personointi, palautteen välitön käsittely). Tarvitsee matalan latenssin infraa, tehokkaan cache-tason ja mahdollisesti pienemmät, kvantisoidut mallit.
Hybrid: ennakkalaskettuja ominaisuuksia batchissä + reaaliaikainen päivitys delta-pohjaisesti (feature store -pattern). Tämä on tyypillinen ai-LMS-ratkaisu, joka pitää kustannukset kurissa ja reagointikyvyn korkeana.

Skaalausstrategiat

Vaakasuuntainen skaalautuvuus (horizontal scaling)
- Useita instansseja samoista palveluista (microservices).
- Helppo manuaalinen tai automaattinen skaalaus (Kubernetes HPA/VPA).
- Sopii käyttäjäpyyntöihin ja tilapäisiin kuormahuippuihin.
Pystysuuntainen skaalautuvuus (vertical scaling)
- Lisää tehoa yksittäiselle instanssille (isompi VM/GPU). Käytä varoen; raja tulee nopeasti vastaan ja se on usein kalliimpaa.
Autoscaling
- Pod/instance autoscaling perustuen CPU/GPU- ja mukautettuihin mittareihin (latenssi, queue length).
- Skaalaus sekä inferenssiin että batch-poolien kapasiteettiin.
- Muista grace periodit ja cooldownit, jottei skaalaus reagoi jokaisen piikin mukaan.
Pooling- ja tilankäyttöstrategiat (GPU-pooling)
- Jaa GPU-resurssit eri mallitöiden kesken, käytä multi-model servingia tai virtuaalisointia (NVIDIA MPS, MIG).
- Spot / preemptible -instanssit kustannussäästöihin, mutta aina fallback-strategia.

Mallien servaus ja optimointi

Mallien kevyttäminen: quantization, pruning, distillation — käytä pienempiä malleja reaaliaikaiseen inferenssiin ja suuria malleja batchiksi.
Batching: yhdistä useita inferenssipyyntöjä yhteen batchiin GPU:n tehokkaan käytön takaamiseksi. Huomioi latenssivaikutus.
Model serverit: käytä Tritonia tai KFServingia tehokkaaseen GPU-pohjaiseen servingiin; BentoML tarjoaa helpon integraation CI/CD:n kanssa.
Canary- ja shadow-deployments: testaa uusia malleja ilman tuotannon vaikutusta.
Model registry ja versiointi: tallenna metatiedot, testitulokset ja hyväksyntä.

Tiedon tallennus ja läpipuhallus

Raw data -> Data lake (S3) -> ETL -> Feature store -> Model training.
Korkean läpivirtauksen vaatimuksiin käytä object storagea (S3/MinIO) ja rinnakkainen I/O (Parquet, ORC).
NoSQL (Cassandra, DynamoDB) tai Redis Streams käsittelee matalan latenssin lokaaleja asetuksia ja jopa reaaliaikaisia tapahtumia.
Partitiointi ja sharding: avain tehokkaaseen hakuun ja rinnakkaiseen käsittelyyn.

Kustannustehokkuus käytännössä

Matchaa laskentatyypit: CPU pikaintegraatioihin, GPU/TPU isompiin mallilaskuihin.
Käytä spot/preemptible -instansseja epäaikaisiin batch-jobpeihin.
Mixed precision & quantization vähentää muistia ja nostaa throughputia.
Autoscaling + cold-start -optimointi: pidä pieni warm pool valmiina korkeiden latenssivaatimusten kohdalla.
Säilytä ja käytä ennakkolaskettuja tuloksia (cache) yleisille kyselyille.
Seuraa jatkuvasti kustannusmetriikoita ja aseta budjettialertit.

Multi-tenant ja eristys

Eri yliopistot/kurssit/opettajat vaativat datan eristystä: käytä Kubernetes namespaces, resource quotas, ja tenant-scoped databases.
Tietoturva & data governance: tenant-specific encryption keys, RBAC, audit-logit.
Huomio GDPR: minimoi henkilödata, anonymisoi lokit ja käytä konsenttimenetelmiä.

Resilience, Throttling ja backpressure

Implementoi rate limiting ja per-tenant quota.
Backpressure-mekanismit putkissa: viestijonot puskuroimaan piikit (Kafka, Pulsar).
Circuit breakers ja graceful degradation: jos inferenssipalvelin kaatuu, palauta kevyempi malli tai cachettu arvo.
Idempotentti käsittely ja tapahtumien deduplikointi.

Observability ja testaus

Metrics (Prometheus), traces (OpenTelemetry/Jaeger) ja logs (ELK/EFK).
SLO/SLA-määrittelyt: latenssi, saatavuus, throughput per-tenant.
Load- ja stress-testit: käytä k6, Locust tai Gatling; testaa myös GPU-pullonkaulat.
Chaos engineering: testaa riippuvuuksia ja degradointitilat (k8s pod-killing, verkkoviiveet).

Turvallisuus ja vaatimustenmukaisuus

Salaus in-transit ja at-rest.
PII-suodatus pipelineissa — älä syötä henkilötietoa suoraan suuriin modelleihin ilman anonymisointia.
Audit-logit ja datan elinkaaren hallinta (retention policies).
Mahdolliset sertifikaatit (ISO, SOC2) ja paikalliset lakeja koskevat vaatimukset.

Käytännön checklist ennen laajentamista

Erota palvelut selkeästi (API, inference, data processing).
Ota käyttöön viestijärjestelmä kuormanhallintaan (Kafka/Pulsar).
Pystytä feature store: nopeuttaa mallien käyttöönottoa.
Valitse model serving -alustat, jotka tukevat GPU/CPU sekä batch- ja realtime-tyyppejä.
Suunnittele autoscaling ja warm pools.
Määrittele cachausstrategia ja CDN staattiselle sisällölle.
Ota observability heti käyttöön: metrics, traces, logs.
Käytä spot-instansseja batchiin ja varmista rollback-strategiat.
Implementoi tenant-isolaatio ja tietoturvapolitiikat.
Suorita skaalautuvuus- ja chaos-testit säännöllisesti.

Esimerkkikuvailu arkkitehtuurista (suullinen diagrammi)

Käyttäjä -> API Gateway (rate limiting, auth) -> Frontend microservices.
Reaaliaikapyynnöt -> Load balancer -> Inference microservice -> Cache (Redis) -> Model serving (GPU-pool) -> Feature store + DB.
Offline/Batch -> Scheduler (Airflow/K8s Cron) -> ETL -> Data lake (S3) -> Training cluster (spot GPU/TPU) -> Model registry -> Canary deploy inference.
Observability ja logging kerätään keskitettyyn palveluun. Viestit ja tapahtumat kulkevat Kafka-topiceissa.

Kauan kestää ja miten aloittaa (roadmap)

MVP: pystytä yksinkertainen microservice-arkkitehtuuri, S3-datalake ja yksi model-serving endpoint.
Introduce feature store ja batch pipeline.
Lisää cache & CDN, ota käyttöön autoscaling.
Lisää GPU-pool ja optimoi mallit.
Skaalaa multi-tenant -ominaisuuksiin ja lisää monitorointi ja vaatimustenmukaisuus.

Lopuksi — suunnittelun mentaliteetti

Skaalautuva LMS AI-aikakaudella ei ole yhden kirjaimen ratkaisu, vaan jatkuva tasapainottelu suorituskyvyn, latenssin ja kustannusten välillä. Suunnittele kuin kaupunginarkkitehti: ennakoi huippuja, varaa vaihtoehtoiset reitit, priorisoi kriittiset palvelut ja rakentaminen vaiheittain — pienistä, testatuista palasista kohti laajenevaa ja kestävästi toimivaa ekosysteemiä.

Tarvitsetko esimerkkikonfiguraation (Kubernetes HPA, GPU-pool tai Kafka-topic -asetukset) tai kustannusarvion tietylle skaalaukselle? Voin luoda mallin teidän LMS-ympäristöön sopivaksi.

AI-koulutuksen tämänhetkisiä osaamistarpeita