2010-07-11

Håndtering av sensitive data.

De fleste som kjenner meg vet at jeg har jobbet for et knippe søkemotorselskaper tidligere.  Dette i seg selv gjør meg ikke noen ekspert på informasjonssikkerhet (jeg ville være veldig forsiktig med å ærklære meg som ekspert på noe som helst), men jeg har i det minste sett på nært hold hvordan endel toneangivende selskaper angriper problematikken.

Å sikre sensitive, eller potensielt sensitive data, er ikke enkelt.  Organisasjonens størrelse og mengden data er begge faktorer som kompliserer oppgaven.  Er organisasjonen stor øker sjansen for utro tjenere eller kommunikasjonssvikt.  Med voksende mengder data er det ikke bare vanskelig å beholde oversikten over hva man har og hvem som har tilgang, men dataene blir i seg selv en risikofaktor fordi veldig mye latent kunnskap kan trekkes ut av dataene.

Iboende informasjon.

La meg gi et eksempel.  I 2006 publiserte en AOL loggmateriale med søkeuttrykk fra litt over 650.000 brukere.  Disse dataene inneholdt ingen opplysninger som direkte identifiserte hvem som hadde utført søkene:  brukernes identiteter ble anonymisert ved å bytte ut bruker-id med et tall.  Det var ingen vond vilje bak dette.  Disse loggene ble publisert for å fremme forskning på området.

Kort tid etter publikasjon ble det klart at dette var en enorm tabbe.  Det viste seg at å anonymisere denne typen data er veldig vanskelig og mange av de presumptivt anonyme brukerne som hadde utført søk ble identifisert, kontaktet og identiteter ble verifisert kun dager etter at dataene ble sluppet.

Jeg vil påstå at en normalt oppegående tenåring uten forkunnskaper i informasjonsanalyse eller programmering vil være i stand til å gjøre tilsvarende i løpet av en ukes tid -- med tilgang til en datamaskin, en nettverksforbindelse, en håndfull bøker og dataene fra AOL.

Jeg har kolleger som har gjort lignende observasjoner i andre sammenhenger.  For eksempel i forbindelse med anonymisering av pasientdata i helsevesenet.  Kortversjonen er:  du kan bare glemme å anonymisere pasientdata;  det går ikke.  Det skal ekstremt lite data til for unikt å kunne identifisere et individ, og det finnes ingen gode måter å anonymisere slike data på uten å ødelegge deres verdi.

Disse to eksemplene representerer ytterpunkter.  I det ene tilfellet snakker vi om relativt "tynne" data med høyt volum, mens i det andre tilfellet snakker vi om "rike" data i betydelig lavere volum.  Det er viktig å merke seg at "tynne" data kan gjøres "rike" dersom man sammenstiller data fra flere kilder.

Datamining er langt fra noen ny disiplin.  Å ekstrahere dyp innsikt fra tilsynelatende meningsløse data er noe vitenskapen og de merkantile kreftene har drevet med i årevis. Kepler benyttet de omfattende observasjonene Tycho Brahe gjorde av himmellegemers bevegelse for å utlede lover som kunne prediktere deres baner -- og neste gang du besøker en dagligvarebutikk kan du merke deg at plasseringen av ulike varegrupper følger visse regler som er avledet av vår oppførsel som konsumenter.  Et relativt nytt tilskudd til dette rammer reisende:  dersom du har et uforutsigbart eller abnormalt reisemønster vil sjansene for at du ender opp på myndighetenes radar øke dramatisk.  Du må regne med at livet ditt gås etter nærmere i sømmene og at dette også rammer dine venner og bekjente.  For noen vil dette medføre betydelig tid tilbrakt i avhør.

Det som har forandret seg dramatisk de siste årene er at verktøyene for å behandle store datamengder nå er tilgjengelig for alle som ønsker å bruke dem.  I form av lettfattelig litteratur, i form av billig regnekraft og i form av billig eller gratis programvare som lar deg tygge gjennom datamengder som er så store at det er umulig å ha noe intuitivt forhold til tallene.
Du trenger hverken utdannelse eller noe stort budsjett.  Kun vilje, tid og tilgang på interessante datasett.

En nær komplett oversikt over hvor du har vært og hvem du har kommunisert med har potensialet til å blottlegge deg fullstendig.  Gi disse dataene til rett person og vedkommende vil antagelig kunne lage en ganske detaljert profil på deg.  Fra hva du spiser, via hva du leser, hva du stemmer til hvilke kjønssykdommer du sannsynligvis har og hvilke fobier du muligens lider av.


Lekkasjer er for alltid.

Det er ett aspekt til ved AOL-fadesen som det er viktig å merke seg.  Selv om de publiserte dataene ble trukket tilbake av AOL da det gikk opp for dem at de hadde blottlagt brukerne sine så forsvant ikke disse dataene.  De er fremdeles tilgjengelige den dag i dag dersom du spanderer noen minutters innsats på å få tak i dem.

Når data lekker så er de for alle praktiske formål permanent publisert.  Du kan ikke trekke dem tilbake.  Det finnes ingen mekanismer, juridiske eller praktiske, som kan putte tannekremen tilbake i tuben.  Datalekkasjer er for alltid.

Det er derfor det er ekstremt viktig å på forhånd tenke gjennom hva konsekvensene for å lekke et gitt datasett er.

For oss som jobber med store datamengder er ikke dette noen trivelig tanke.  Vi har lett for å se hvilken verdi vi kan skape for kunden og for sluttbrukeren, men ofte vil vi helst ikke tenke på hva som kan skje dersom dataene kommer på avveie.  Dette er problemstillinger vi som teknologer er smertelig klar over, men som er svært dårlig forstått av de fleste andre fagdisipliner.


Holdninger.

Som tidligere nevnt har jeg jobbet for endel større aktører i søkemotorbransjen.   Det er ikke akkurat noen hemmelighet at store søkemotorer aggregerer enorme mengder data om sine brukere.  Mange av disse datasettene er sensitive isolert sett -- de blir ekstremt sensitive når man kobler dem sammen.

Som tidligere nevnt er informasjonssikring en utfordring i store organisasjoner.  Når en organisasjon vokser vil den før eller siden nå en slik størrelse at det er umulig å kunne stole på alle i organisasjonen.

Dette impliserer at man før eller siden må sørge for å avgrense tilgang til (sensitive) data.  Men dette er ikke nok.  Man må i tillegg bygge en sterk kultur for å forstå hvilket forvaltningsansvar som hviler på skuldrene til de som har tilgang til sensitive data.  De som har tilgang til sensitive data må være bevisst viktigheten av å forvalte dem på en ansvarlig måte utover det som stipuleres i kontrakter og lover.

Organisasjoner jeg har sett fra innsiden forholder seg til disse spørsmålene på veldig ulike vis.  I noen bedrifter eksisterer nesten ikke et bevisst forhold til dette med vern av sensitive data.  I andre har man intensjoner, men mangler kompetansen til å angripe problemstillingen på noen meningsfylt måte.

Svært få organisasjoner jeg har sett fra innsiden kombinerer informerte intensjoner med realistiske tiltak og bygging av nødvendige holdninger.  De finnes, men bare der man utøver ekstremt streng kontroll og holdningsskapning.  Minst ett søkemotorselskap jeg har jobbet for har hatt ekstremt strenge krav til håndtering av sensitive data.


Hvorfor ikke staten?

Det er mange grunner til at jeg ikke føler meg konfortabel med at staten skal ha utvidede fullmakter til å samle inn, sammenstille og analysere data utover det staten har tilgang til i dag (som allerede er mer omfattende enn du ønsker å tenke på).

Prinsipp.

Den viktigste årsaken er rent prinsippiell:  intensivert overvåkning av privatpersoner strider mot vår oppfattelse av retten til privatliv i et fritt demokrati.  Det er ekstremt skremmende at vi har en justisminister som har gitt uttrykk for at det kan være aktuelt å slakke på de juridiske kravene for hvordan og når innsamling og utlevering av data om privatpersoner kan finne sted.  Personlig mener jeg slike holdninger er umiddelbart diskvalifiserende.

Vi har også sett noen graverende tilfeller av offentlige tjenestepersoner som har tatt til orde for at man skal kunne la private interesser få utvidet tilgang til informasjon om privatpersoners handlinger i forbindelse med opphavsrettslige konflikter.  Dette har ikke blitt påtalt fra offisielt hold, noe som i sin tur impliserer samtykke.  Med andre ord: det er viktigere å bistå rettighetshavere som ikke har gjort hjemmeleksen sin enn å verne om rettssikkerhet og folks privatliv.

Dette har gått fra å være skremmende tendenser til å bli en virkelighet vi må forholde oss til.  Det er vår plikt som velgere og som ansvarlige borgere å sørge for at vårt samfunn ikke eroderes bort av kortsiktige, naive og prinsippløse politikere og tjenestefolk.

Misbruk.

La det være sagt med en gang:  dersom tjenesteleverandører pålegges å aggregere, samt å utlevere, utvidede trafikkdata, vil disse før eller siden komme på avveie.  Å gi uttrykk for noe annet er i beste fall en konsekvens av manglende kunnskap om problemdomenet og i verste fall er det uærlighet.  Det vil skje.  Politikere og tjenestemenn som taler varmt for utvidet overvåkning vil helst ikke snakke om dette -- og når det skjer serveres garantier det er umulig å gi.

La meg gjenta det:  data vil komme på avveie.

Et mer subtilt problem er at en slik utvidet overvåkning kan misbrukes av parter med onde hensikter.  Dersom man vet, eller kan anta, hvilke datastrømmer som overvåkes er det mulig å gjøre kvalifiserte gjetninger om hvordan disse dataene anvendes og dermed syntetisere data som villeder en observatør eller analytiker.

Analoge våpenkappløp finnes i minst én observerbar form allerede:  spam (enten vi snakker om det å lure seg forbi søplefiltre for epost eller bevisst manipulering av f.eks søkemotorer).  Jeg kjenner noen av de som har jobbet med denne typen problemstillinger, og det er en særdeles asymmetrisk øvelse:  det koster en enorm innsats i forsvarsposisjon å nøytralisere en beskjeden innsats i angrepsposisjon.

Dette problemet har ikke engang vært del av den offentlige  debatten,  hvilket skulle si noe om det nesten totale fraværet av faglige hensyn.

Merk at vi ikke engang har nevnt problemet med utro tjenere.  Uforstand er mer enn farlig nok om vi ikke skal ta høyde for ond vilje hos de som gis nøklene til privatlivene våre.  Men ond vilje og privat agenda er likevel noe man må regne med.

Mennesker.

Det er ingen hemmelighet at den største utfordringen dette vil by på har å gjøre med mennesker.  For å verne om disse dataene må samspill mellom organisasjoner fungere.  Man må skape de riktige holdningene.  Man må være sikker på at meningsfylte rutiner utformes og følges.

Jeg har ingen tro på at dette er mulig i samspillet mellom stat og et stort antall private selskaper.

Vi vet at svært mange store organisasjoner (enten de er statlige, halvstatlige eller private) har en ansvarspulverisering som gjør at "ingen" er ansvalig når noe går galt.  Hva tror du vil skje den dagen trafikkdata for noen millioner mennesker kommer på avveie?  Og selv om noen ville bli holdt ansvarlig, hva tror du vil skje?  Noen bestemmer seg for å tilbringe mer tid med familien?  At Politiet på magisk vis vil klare å dytte tannkremen tilbake i tuben?

Selvsagt ikke.  Ikke vær naiv.

Vi vet også at ulike etater sliter med å rekruttere de beste i sitt felt av den enkle grunn at dyktige mennesker blir bedre betalt, og har større mulighet for meningsfylt utøvelse, i det private næringsliv.  Gitt valget mellom 450-550k i året for å jobbe for staten og fra 800k til 3.000k for å jobbe for private interesser, hva ville du valgt?

Du kan ta det for gitt at programmer for innsamling,  analyse, og anvendelse av sensitive personopplysninger kommer til å utføres av B-laget og vil administreres av byråkrater uten nødvendig kompetanse til å skape de forutsetningene som kreves for å løse en bråte problemer som rent objektivt sett er eksepsjonelt vanskelige.

Det er fullt mulig å komme til den konklusjonen at Datalagringsdirektivet er en dårlig idé kun ved overfladisk betraktning av typen problemer som skapes kontra sannsynligheten for at de i tilstrekkelig grad vil bli løst.

No comments:

Post a Comment