2010-12-30

DLD-utfordringen.

Etter en hyggelig kveld med oppildnet diskusjon omkring Datalagringsdirektivet slo det meg at jeg til stadighet overvurderer hvor godt problemstillingene rundt DLD er forstått.  Realiteten er at svært få mennesker forstår hvilken kunnskap man kan vri ut av tilsynelatende uskyldige data.

Dette gav meg en idé til et illustrerende eksperiment.

Hva om vi de neste 12 månedene samler inn de dataene DLD omfatter for et passende utvalg av mennesker og deretter gjør disse dataene tilgjengelige for alle og enhver som har lyst til å analysere dem?  Utvalget kan enkelt gjøres ved at alle som er tilhengere av DLD stiller sine trafikkdata til disposisjon.   Vi kan enkelt gjøre dette ved å sende ut et enkelt skjema til hele den norske befolkningen.

Vi kan godt "anonymisere" disse dataene ved å bytte ut A og B-nummer for telefonsamtaler med substitutt-numre.  Der noen som omfattes av eksperimentet ringer noen som ikke omfattes av eksperimentet kan A- eller B-nummer byttes ut med "0".

Selvsagt vet jeg, og alle andre som noensinne har bedrevet noen form for dataanalyse, at denne anonymiseringen ikke vil fungere, men dette er jo en del av den illustrerende øvelsen.

Jeg foreslår videre at eksperimentet får løpe i 18 måneder.  Data gjøres tilgjengelig for analyse og eksperimenter fra dag 1 samt at det gis 6 måneders ekstra tid etter forløpte 12 måneder slik at forskningsresultater kan gis nok tid til å fordøyes og publiseres i dertil egnede publikasjoner for så å dummes ned tilstrekkelig for den øvrige populasjonen.

Tilgang til dataene bør gjøres så enkel som mulig slik at flest mulig parter kan analysere dataene.

Videre foreslår jeg en rekke premier på 500.000 for metoder som med 90% sikkerhet kan fastslå:
  • politisk ståsted
  • seksuell legning
  • religion
  • utroskap
  • skattesnyteri
  • sykemelding
  • emosjonelt signifikante hendelser
Kanskje bør det være en premie på 500k til 1M for førstemann som korrekt identifiserer mer enn 50% av den overvåkede populasjonen?

Dersom du er tilhenger av DLD er dette sjansen din til å demonstrere hvor lite sensitive disse dataene er og du har ingen grunn til å være skeptisk.  Dersom du skulle være skeptisk bør du kanskje spørre deg selv hvorfor du er tilhenger av DLD.

Jeg tar det for gitt at samtlige av Arbeiderpartiets medlemmer (50.268 medlemmer pr. 2009) vil stille sine data til disposisjon, så disse trenger vi strengt tatt ikke å spørre. (Hvis de har motforestillinger kan de jo bare melde seg ut av Ap...).

Eller?

Etter avsluttet eksperiment kan vi så spørre de overvåkede på nytt om de fremdeles er tilhengere av DLD.  Hvis de fremdeles synes dette er en fantastisk idé kan vi gjenoppta debatten -- denne gangen med langt mer innsikt blant folk flest.

2010-12-28

Veldig kort om krypto

Å kryptere data for sikker lagring er ikke så rett frem som man skulle tro.  I essens har man to måter å angripe problemet på:  man kan kryptere innhold med symmetrisk krypto eller asymmetrisk krypto.  Dette er en svært, svært forenklet fremstilling av disse to valgene.  Kryptografi er et krevende felt og i tillegg til alle de rent teoretiske aspektene er det også mange fallgruber i den praktiske anvendelsen av kryptografiske systemer.

Symmetrisk krypto

Ved symmetrisk kryptografi bruker man samme nøkkel, eller hemmelighet, for å både kryptere og dekryptere dataene.  Det vil si at denne hemmeligheten må være tilstede både når man leser og når man skriver dataene.  I verste fall løses dette ved å putte nøkkelen i en konfigurasjonsfil på alle systemer som skal skrive dataene.  Sikkerheten er da redusert til hvor vanskelig det er å få tak i denne konfigurasjonsfilen eller hvor vanskelig det er å snappe opp nøkkelen når den distribueres til de som trenger å vite den.

En annen måte å løse dette på er å taste inn nøkkelen hver gang systemet starter slik at nøkkelen aldri lagres i noen konfigurasjonsfil.  Dette er, som du sikker forstår, ganske upraktisk fordi man for å starte systemet manuelt må ha noen til å taste inn nøkkelen.  Hvis nøkkelen er lang trenger operatøren noe for å hjelpe seg med å huske nøkkelen.  Som f.eks å skrive den ned et sted.  Det er uheldig fordi det øker sannsynligheten for at den kommer på avveie.  Man kan selvsagt velge nøkler som er enklere å huske, men man vil fremdeles risikere at noen skriver den ned og man har samme problemet med risiko for at den blir snappet opp når den kommuniseres til de parter som trenger tilgang til den.

Det finnes systemer som forsøker å håndtere symmetriske nøkler på en sikker måte, men dette involverer gjerne spesialutstyr og jeg er ikke kjent med hvorvidt det finnes noen slike systemer i utbredt praktisk bruk som faktisk er vist å ha tilstrekkelig motstandsdyktighet overfor en ressurssterk angriper.

Ulempe: kunnskapen for å dekryptere data og kryptere dem er den samme.

Asymmetrisk krypto

I asymmetrisk kryptografi opererer man med to nøkler.  Én nøkkel for å kryptere informasjon og en annen som brukes for å dekryptere informasjon.

Dersom jeg vil at hvem som helst skal kunne sende meg meldinger som bare jeg kan lese kan jeg distribuere nøkkelen som brukes for å kryptere meldingen.  Denne kalles "offentlig nøkkel".  For å dekryptere disse meldingene trengs da en "privat nøkkel" som bare jeg innehar og som jeg ikke distribuerer til noen.  Sikkerheten baserer seg på at det er svært vanskelig å finne ut hva den private nøkkelen er gitt den offentlige nøkkelen.

Dette er veldig praktisk i systemer der man bare trenger å skrive data, men ikke trenger å lese dem igjen.  For å lese dem trenger man tilgang til den private nøkkelen, så dersom det er et krav om at data skal kunne både skrives og leses av samme system er vi praksis tilbake ved utgangspunktet med symmetrisk krypto og problemene rundt håndtering av nøkler.


Merk forøvrig at fremstillingen ovenfor er grovt forenklet.  Kryptering med offentlig nøkkel er bitelitt mer komplisert enn som så i praksis, men la oss ikke henge oss opp i detaljer.

Ulempe: kunnskapen for å dekryptere data er separat fra kunnskapen for å kryptere data.  Trenger man å både lese og skrive data på et system er det praktiske sikkerhetsnivået omtrent ekvivalent med symmetrisk krypto. 


Fallgruber.

Som nevnt innledningsvis er kryptografi et svært krevende felt og djevelen er i detaljene.  For eksempel er det ikke uvanlig at implementasjoner av matematisk sunne metoder inneholder svakheter som ødelegger sikkerheten.  Det kan være ved at programmene "lekker" informasjon om sin interne tilstand, at de gjør forutsigbare valg ved generering av nøkler etc.

Det kan også være noe så banalt som at det er mulig å skaffe seg tilgang til nøkler i klartekst fra minnet på maskinen eller at dette minnet skrives til ubeskyttede disker under visse forutsetninger.

Hvis det er snakk om store mengder data med lik struktur og forholdsvis likt innhold kan dette gi en angriper fordeler dersom vedkommende ønsker å angripe problemet med mer dyptgående analyse.  For eksempel er det ikke sikkert det er nødvendig å dekryptere dataene, men å gjette på innhold og verifisere at innholdet man gjettet på var tilstede i de krypterte dataene.

Du kan lese mer om kryptoanalyse på Wikipedia.

Andre metoder

Det finnes selvsagt andre metoder for å sikre data.  En av disse metodene er å splitte data i flere deler slik at alle delene trengs for å kunne rekonstruere de opprinnelige dataene.  I 1994 publiserte Moni Naor and Adi Shamir en morsom metode for å kunne utføre dekrypteringen visuelt uten hjelp av en datamaskin.  Dette er selvsagt en kuriositet, men prinsippet kan anvendes for å dele opp informasjon på en slik måte at man må ha alle delene for å kunne få tilbake det opprinnelige innholdet. (Men som illustrasjon er metoden til Shamir og Naor morsom).

Det attraktive med denne metoden er at dersom man distribuerer kunnskapen til flere parter vil hver av disse partene i praksis ha en "vetorett":  opprinnelig melding kan ikke rekonstrueres uten at alle delene er tilstede.  Dette kan være attraktivt når partene ikke stoler på hverandre.

Man kan selvsagt også se for seg at disse dataene kan obfuskeres på ulike måter ved å klemme dem gjennom irreversible matematiske fuksjoner slik at man kan bruke de lagrede dataene til å verifisere påstander, men ikke å direkte få dataene tilbake som klartekst.  Dette kan ha en viss nytteverdi, men er ikke nødvendigvis så veldig sikkert og det introduserer veldig store begrensninger på hva man kan gjøre med dataene.

Uansett:  å kryptere data i et online-system er en ikke-triviell oppgave, det er vanskelig å balansere behovet for sikkerhet med praktiske hensyn og det skal veldig lite til for å kompromittere data selv ved bruk av teknikker som på papiret ser bombesikre ut.

Merk at jeg ikke på noen måte er noen autoritet på kryptografi.  Jeg har ørlittegrann teoretisk bakgrunnskunnskap samt litt praktisk erfaring med kryptografi, men dette representerer på ingen måte noen form for ekspertise.  Det viktigste jeg vet om kryptografi er at dette er et felt der praktisk anvendelse er ekstremt vanskelig.

Brev fra Onkel Reisende Mac

Brev fra Onkel Reisende Mac:

hei,


Her for ikke så lenge siden bestemte jeg meg for, i dannelses øyemed, å prøve ut en kunstinstallasjon som heter tog.  En kunstinstallasjon er når det hverken er pent eller virker.  Og togene er en sånn ting.  Heslige store ting menneskene later som om det er skikkelig vanskelig å få til å følge tidsskjemaer.  Enda de har brukt dem i nesten 200 år nå.  De tuller litt med genren ved å la dem virke litt.  Eller ved å snakke om at togene virker andre steder.  Men togene virker ikke der heller.  En svært høy og utspekulert kunstform dette.


Mens vi kjørte med toget deltok vi i en annen lek menneskene liker å leke.  Det er noe eller noen som heter "terrorist" og når noen sier "terrorist" eller "bombe", så skal alle være redde.  Den som er reddest vinner en premie og kommer i avisen.  


Men jeg vet ikke om noen som har sett terrorist ennå.  I alle fall var det terrorist som hadde lagt igjen en lapp på et tog.  Jeg tror også den sa noe om at han hadde glemt  igjen en bombe.  Kanskje på et annet tog.  Plutselig måtte alle som var på tog bytte forestilling til noe som heter buss.  Buss er nesten som tog, men med mer lokalt preg og med flere forestillinger for mindre publikum. 


Terrorist/Påskehare
En bombe er akkurat det samme som et påskeegg tror jeg.  Som legges igjen av påskeharen.  Påskeegg altså.  Ikke bombe.  Ingen har sett påskeharen heller forøvrig.  Han kommer hver påske for å legge igjen egg til minne om at noen mennesker var skikkelig slemme mot En Av Våre Nye Landsmenn, som de heter.  Pussig navn egentlig.  De ser ikke så veldig nye ut.  Mange av dem er helt brune i ansiktet.  Og så snakker de rart.  Ingen av dem snakker riktignok arameisk, slik som han de spikret opp.  Men de som går rundt med logoen til fanklubben hans liker merkelig nok ikke Nye Landsmenn.  I alle fall er det mange som er redd for dem.  Slik at de kan komme i avisen.


Men tilbake til lappen og leken.  Det er altså viktig å være redd.  Når noen sier at terrorist har vært der skal man stoppe det man driver med og gjøre noe annet enn det som er fornuftig eller riktig.


Storberget
Den reddeste av dem heter Storberget.  Han er så redd at han er i avisen ganske mye.  Noen ganger er han så redd at han er på teve og sier vi ikke skal være redde.  Da blir alle ordentlig redde.


Han sier det er farlig å være alene så han vil lage lister.  Mange, mange lister som passer på hvem vi snakker med og hvor vi er når vi snakker med dem.   Han kaller det Datalagringsdirektivet. Datalagringsdirektivet er litt sånn som med julenissen:  sånn liste med barn som har vært slemme.  Bare at det er for voksne også.  Det er det som han og Stasministeren kaller demokrati: når voksne får være med på leken også.  De har tenkt å trekke ut noen vinnere.  Vinnerne får bo gratis.


Stasministeren er han til venstre. 
Jeg tror de kaller ham Stasministeren fordi det er sånn stas når han er på teve.  Enda det ikke ser ut som om han har det så morsomt.  Han har aldri hatt noen jobb sånn som de andre menneskene, så jeg tror de lot ham være sånn stasminister for at han ikke skulle føle seg utafor.  Faren hans ble aldri stasminister.  Han het Torvald.  Jeg tror  han ikke ble stasminister fordi det var ingen som skjønte hva han mumlet.  Det er aldri noe stas hvis man ikke skjønner hva noen sier, så følgelig kunne han ikke bli stasminister.


Noen sa at det ikke var stasminister, men STASIminister.  Det heter STASI når man blir veldig flink til å leke sånn Storberget og Stoltenberg leker.  Når man blir ordentlig flink til å lage sånne lister med mennesker som har vært slemme.  Eller mennesker som har snakket med hverandre om å legge igjen lapp på toget.


For nesten 200 år siden var det noen stasmennesker som skrev et slags brev som de kalte grunnloven.  Det var ikke noe reisebrev altså.  Det var heller ikke noe langt brev, men åpenbart et brysomt brev som antydet masse tull om at folk ikke skulle være redde og at det skulle være lover og sånn.  (Med mindre man var i slekt med Jesus da.   De ville visst ikke ha slektningene hans her).  Uansett, dette brevet handlet om regler for å lage regler og i det siste har det blitt for mange regler som ikke handler om å være redd.  Så man har funnet ut at det er noe som heter frihet som vi ikke trenger lenger.


Det virker litt syklisk av natur det her.  De stasmenneskene som fant på reglene i starten var smartinger.  Og så, for at ting ikke skal bli så kjedelig, finner de progressivt dummere stasmennesker som lager nye regler som tar vekk sånne friheter.  Friheter kommer i veien for å være redd for terrorist.  Eller påskeharen.  Eller noe. Og da blir det ingen julegaver.  


Etter en stund tror jeg hele leken starter på nytt -- når nok dumme stasmennesker har tatt vekk alle frihetene og bare lager lister.  Når man bare lager lister heter det fascisme, og da skjer det noe merkelig:  da begynner togene å virke!  Det er helt sant, har jeg hørt.  


Men bare en liten stund.  For etter det kommer det sånn periode når de sender bort alle stasmenneskene eller henger dem opp til pynt, og så begynner de på nytt.  Med å lage nye snillere regler så ikke folk skal være så redde.  Helt til de er klare for en ny stasminister.  En eller annen elendig tølper som ingen vil ansette i noen ordentlig jobb og som trenger å bli gjort litt stas på.


Vel, vel.  Det var alt for denne gang.


Hilsen Onkel Reisende Mac.

2010-12-23

"Markedsundersøkelser"

Det har vært fremsatt påstander om at en majoritet av befolkningen ønsker Datalagringsdirektivet velkommen.   Jeg har ikke gått disse spørreundersøkelsene nærmere etter i sømmene, men jeg vil anta at de sikkert er utført etter akseptable normer for meningsmålinger.

Problemet jeg har med disse spørreundersøkelsene er at jeg ikke er overbevist om at den jevne velger har noe reflektert forhold til dette spørsmålet.  Årsaken er enkel:  det virker ikke som om den jevne velger har noen klar oppfatning om hva Datalagringsdirektivet omfatter eller hva man kan gjøre med disse dataene.

Jeg har ikke gjort noen systematiske undersøkelser som kan avdekke reelle holdningene til en signifikant populasjon, men siden temaet interesserer meg spør jeg ofte mennesker jeg møter hva de synes om Datalagringsdirektivet.

Hvis de ikke helt vet hva det omfatter pleier jeg å henvise til seksjonen om hvilke opplysninger som skal lagres på Wikipedia-siden om Datalagringsdirektivet.  Det som interesserer meg er den initielle reaksjonen folk har -- før jeg har flagget noen mening.  Den initielle reaksjonen har alltid, og hittil uten unntak vært den samme: overraskelse over at dette ansees som akseptabelt av regjeringen og en bekymring for at dette vil misbrukes.

Et annen interessant observasjon jeg har gjort er at personer som vet noe som helst om analyse av denne typen data uten unntak later til å være svært skeptiske til at disse dataene skal kunne samles inn, og spesielt at det er såpass ullent hva som skjer med disse dataene når de eventuelt overleveres politi eller private aktører.   Spesielt skremmende er dette med "forebyggende bruk" av dataene, som har endel direkte implikasjoner for hvordan dataene må behandles.  Det betyr nødvendigvis overvåkning av et signifikant antall mennesker uten forutgående grunn til mistanke for å kunne danne en basis for hva som er "normalt".  Når man vet hva som er normalt kan man observere avvik.

Dette er ikke en implikasjon som den jevne velger nødvendigvis forstår, men som er veldig åpenbar for alle som har drevet med noen form for dataanalyse.

Jeg er ikke så overbevist om at disse meningsmålingene nødvendigvis representerer  "folkets vilje".  Jeg tror det vi observerer er folks frykt og uvitenhet.  En frykt og uvitenhet politikerne vet å utnytte for å få det de ønsker.   Det er også påfallende at Arbeiderpartiet benytter media for å markedsføre synet sitt.  Fra Storbergets uimotsagte reklameinnslag for Datalagringsdirektivet i Dagsrevyen (slapp jobb fra NRK) til det faktum at Arbeiderpartiet kjøper annonseplass på Google for å markedsføre sitt syn.

Det er forståelig at Arbeiderpartiet ønsker å få aksept for Datalagringsdirektivet så fort som overhodet mulig.  De jobber mot klokka her.  De forstår at jo mer velgerne informerer seg om hva som faktisk er i ferd med å skje, desto mindre er sannsynligheten for at velgerne ønsker å kjøpe det Arbeiderpartiet har å selge.  De vet også at når direktivet er innført er det svært vanskelig å rulle tilbake.

2010-12-13

Funkspiel

Antenna searches
Retriever's nose in the wind
Ether's far secrets

I dager der Datalagringsdirektivet kaster lange og mørke skygger over rettsstaten er det kanskje på tide å grave opp igjen en gammel idé og tilpasse den dagens forhold. Lenge før myndighetene viste noen interesse for å overvåke, kontrollere, kneble og regulere Internet var det enkelte brukere av nettet som (antagelig rettmessig) antok at epost og annen kommunikasjon over nettet ble overvåket.

Antagelsen var at myndighetene, for å gjøre jobben litt enklere for seg selv, antagelig ville bruke varslingssystemer for å se etter bestemte ord og fraser, og så manuelt inspisere meldinger som inneholdt disse. For å drukne eventuelle avlyttere i falske alarmer sørget enkelte skøyere for å legge til samlinger av "tvilsomme" nøkkelord i meldingene sine. Enkelte tekstredigeringsprogrammer hadde til og med denne funksjonaliteten innebygget.

Her er noen eksempler på hva kommandoen M-x spook i Emacs kunne produsere:

fundamentalist analyzer Montenegro tempest NORAD pipeline import [Hello to all my friends and fans in domestic surveillance] Rubin David John Oates mindwar eavesdropping ANDVT ASDIC PET
NSA munitions ICE Osama LLNL Mole USCOI doctrine supercomputer analyzer mania lynch kilderkin Sears Tower MD2

Harmløs moro, med andre ord.  Ingen jeg kjenner har noengang kunnet fortelle meg om disse tilfeldige ordene faktisk hadde den ønskede effekten.  Jeg vil anta at en smart informasjonsanalytiker ville bruke en dag eller to på å forbedre et eventuelt nøkkelorddeteksjonssystem for kunne sile ut disse disse falske positivene.  De er ikke så vanskelige å kjenne igjen egentlig.

Med litt flid kan man dog prestere noe bedre.  Tidlig på 90-tallet viste en kompis meg (Anders Christensen) en svadagenerator han hadde skrevet.  Han hadde matet programmet med artikler om objektorientert programmering.  Deretter produserte den vilkårlige mengder plausibelt utseende tulletekst.  Statistisk sett halvveis plausible artikler i alle fall.

(Ok, for å være helt ærlig: de kunne faktisk se ut som faktiske vitenskaplige artikler for en menneskelig leser også.  Akademisk publisering om tema som er i til enhver tid er i vinden kan til forveksling se ut som noe en svadagenerator kunne produsert.  Det forholder seg sikkert på samme måten med mye som skrives i religiøs eller politisk affekt).

Jeg husker ikke eksakt hvordan han gjorde det.  Jeg vil tippe han brukte en Markov-modell samt noen heuristikker for å få teksten til å se plausibel ut (Anders?).  Dette er i så fall endel størrelsesordener mer slitsomt å avsløre enn naiv sammenstilling av tilfeldige ord og fraser fra en liste.  Men i dag burde det ikke være så altfor vanskelig å lage noe som kan avsløre slikt.  Selv når teksten man har gitt svadageneratoren som inndata er ukjent.  (Oppgave for den interesserte leser: lag et program som kan avsløre hvorvidt en tekst er produsert av en svadagenerator som bruker en Markov-modell).

Den observante leser har allerede merket seg et mønster her:  dette ligner på et våpenkappløp.  Og det er et kappløp som i tiltagende grad blir mer og mer asymmetrisk.  Det vil si:  å lage utfordringene krever ikke så veldig mye innsats, men å kontre disse utfordringene krever gradvis mer og mer kløkt og kapasitet.

Dette er langt fra noen ny idé.  Teknikker som dette har vært brukt i f.eks krigføring veldig, veldig lenge.  Tanken er at man binder opp motstanderens ressurser i å tyde, fange opp, tolke eller verifisere ulike former for desinformasjon eller tullball.

Med tiltagende økning i overvåkning blir disse teknikkene igjen interessante for nettbrukere.  Selvsagt er listen mye høyere i dag.  Ikke bare fordi eventuelle motstandere har årevis av erfaring i å bygge analysesystemer som kan skille skitt fra kanel, men fordi de har langt mer formidable ressurser å kaste på problemet.

Det er også en utfordring i dette å tilpasse lokkematen til konteksten den skal brukes i -- nå som myndighetene skal samle metadata (trafikkdata) snarere enn innhold.  Men akkurat det er ikke nødvendigvis den største utfordringen.  Den største utfordringen er at du må regne med at opponenten ser kortene dine.  Slik software vil antagelig mest effektivt utvikles og spres som åpen kildekode.

En annen form av dette angrepet er å feilaktig implisere en uskyldig tredjepart:  å sørge for at denne tredjeparten havner i myndighetenes søkelys.   Dette er selvsagt umoralsk og slemt, men man må nesten regne med at folk kommer til å gjøre slikt.  I alle fall i lys av alle smålige nabokrangler som ender opp i forliksråd over det ganske land.

I så måte vil det under Datalagringsdirektivet bli svært viktig å sørge for at man passer på å ha et potte tett trådløsnett eller et kablet nett det ikke er enkelt for uvedkommende å koble seg til.  Jeg ville sjekket den trådløsruteren du fikk av ISP'en din om jeg var deg:  det er sannsynligvis noe billig ræl og utgjør et attraktivt mål fordi det antagelig er endel tusen slike installert i husstander over det ganske land.

Hvis du synes dette var morsom lesning anbefaler jeg deg å finne ut hvor haiku-diktet i starten av denne blogposten stammer fra ;-)

2010-12-12

Du kan ikke gjemme deg.

Fra tid til annen pleier jeg å more meg med å spinne litt rundt tankeeksperimenter sammen med kompiser.  Rundt 11 år i søkemotorbransjen gjør at du får et ganske nært forhold til dette med store datamengder og hva man kan gjøre med dem.


Tankespill.

For ganske mange år siden regnet noen kollegaer og jeg på hva det ville koste å lagre all samtaletrafikken som går over det norske mobilnettet, og hva man kunne gjøre med dette.  Hvilke analyser som det var innenfor det mulige og omtrent hva det ville koste.  Gitt at mobilinfrastrukturen hadde tålt å dumpe lyd-dataene til en dertil egnet klynge av maskiner var det egentlig ikke rare kostnaden for å håndtere samtaletrafikken til Norge.  Tankene spant rundt hva man kunne gjøre selv med ganske beskjeden teknologi for talegjenkjenning og noen relativt enkle analyser.  Konklusjonen var "overraskende mye for overraskende lite penger".

Men det var den gangen.  For 10-11 år siden.  Nå dreier diskusjonen seg om metadata:  nøkkeldataene om vår kommunikasjon.  De tar mye mindre plass, men inneholder langt mer interessant informasjon i en analysekontekst.

Nå om dagen har jeg grublet litt på hva man kunne gjort med en sanntidsstrøm (eller "sanntid nok", det holder antagelig med en periodisk dump av data) av samtale og posisjonsdata for hele den norske befolkningen.


"Forebyggende tilgang"?

Leser man litt mellom linjene i forslaget til DLD er det jo ikke så utenkelig at hysjen kan få noe slikt.  Det står faktisk svart på hvitt at de skal ha tilgang til data i forebyggende øyemed.  Den eneste måten de kan forebygge på er ved å ha uhindret tilgang til dataene. Om ikke for hele befolkningen så i alle fall for et utvalgt av befolkningen.

Så hvem vil det være naturlig å konsentrere seg om?

En ting vi kan bruke dette til er for å overvåke alle individer som befinner seg i tillits- eller maktposisjoner.  Politikere, ministre, alle med tilgang til følsomme data, følsom infrastruktur, ledere, tillitsvalgte samt deres familie, venner og naboer.

Fra et sikkerhetsmessig synspunkt kunne ett av formålene å være å oppdage når disse gjør noe som setter dem i en sårbar posisjon.  Noe som gjør at de f.eks kan bli gjenstand for utpressing.  Det være seg utroskap, omgang med kjente kriminelle eller mennesker vi anser som "risikoelementer", pussige avvik fra etablerte rutiner og bevegelsesmønstre etc.

Man kan som potensielt mål forsøke å avstå fra elektronisk kommunikasjon og legge igjen telefonen hjemme, men hull i dataene representerer jo også data:  "hva har vedkommende å skjule som er så viktig at han eller hun tar seg bryet med å gjemme seg?"

Dette kunne sette PST i stand til å avlegge et besøk hos de det gjelder.  For "en prat", noen råd og formaninger om å holde seg på den smale sti.

For ikke å snakke om at PST ville kunne oppdage når deres ansatte f.eks snakker med VG-journalister.  Eller når de snakker med mennesker som har jevnlig omgang med journalister.  For å oppdage lekkasjer før de oppstår snarere enn å måtte finne ut av dette i ettertid og gå gjennom den slitsomme prosedyren med å forsøke å tvinge en uvillig presse til å avsløre hvem kildene deres er.

En annen ting vi kan bruke dette til er å kartlegge hvilke parter som later til å øve inflytelse på våre politikere og koble dette med hvilke posisjoner politikerne senere tar på tinget.  Det ville interessere meg om det var mulig å bygge prediktive modeller for hvordan vinglete politikere styres av utenforliggende interesser.

Etterretningen som politisk makt.

Fra et faglig synspunkt er alt dette sånt som er innenfor det som er teknisk mulig.  Ikke bare det:  det ville være veldig interessant å bygge systemer som tillater oss å gradvis bygge opp mer og mer sofistikerte måter å analysere folks gjøren og laden på.  Jeg vet om endel dyktige mennesker som ville vært i stand til å gjøre ganske utrolige ting med disse dataene.  Vi ville være i stand til å ha ekstremt god kontroll på de som er viktige for Norges ve og vel -- og hvorvidt de handler innenfor interessene til hvem det nå er som skal få bestemme disse tingene.

Sjef for PST ville i så fall bli den viktigste politiske stillingen i Norge.  Vedkommende vil, med dyktig spill, i praksis ende opp med mer makt enn statsministeren eller lederen for LO.  Litt som Hoover vil vedkommende ha "noe dritt på alle".

Og når lekkasjer først forekommer (for de vil forekomme, om ikke annet fordi PST-sjefen anser det som formålstjenelig):  tenk på de utrolig kule lekkasjene vi får.  Brysomme mennesker kan enkelt diskrediteres, mistenkeliggjøres, eksponeres og deres omdømme kan pulveriseres med den autoritet som ligger i harde data.

Orwell var optimist fordi Orwell ikke hadde noen anelse om at det ikke trengs så mange mennesker for å overvåke:  vi trenger bare regnekraft og data.  Mobilen og datamaskinen din holder øye på deg for oss og rapporterer inn automatisk.  Og Arbeiderpartiet har jo akkurat sørget for at tidenes mest spennende datagrunnlag skal kunne samles inn.  Regnekraft og lagringskapasitet er jo ikke lenger problemet.  Det er jo skitbillig.

2010-12-11

"Bare" trafikkdata

Politikere som forsøker å introdusere Datalagringsdirektivet har iherdig understreket at det ikke er innhold som skal lagres, men trafikkdata.   Altså data som forteller hvem, hvor og når, men ikke hva. (Eksempel: de vet hvem du ringer, når du ringer og hvor du befinner deg -- men ikke selve innholdet i samtalen.)   

De fremholder dette som om det var noe som skulle berolige oss: at innhold er sensitivt, men at de data som detaljerer hvor vi er og hvem vi kommuniserer med ikke skulle være sensitivt.  Dette er litt merkelig med tanke på at å samle inn, analysere og anvende kunnskap fra slike data er en svært stor industri og det er en pågående kamp mellom tjenestetilbydere, myndigheter og konsumenter for å forsøke å finne anstendige grenser.

Bedrifter er villige til å gå over lik for denne typen ekstremt verdifull informasjon.

Jeg kunne sagt mye om verdien av disse dataene og deres prediktive kraft -- hvordan man svært presist kan avlede informasjon fra disse dataene; informasjon som ikke eksplisitt opptrer i dataene.   At de kan brukes for å finne indikatorer på alt fra utroskap, demens, religion, legning, politisk syn, rusmiddelbruk til sannsynligheten for at du vil være mottagelig for tilbud om en toroms timeshare i Spania.  Men det er slikt de fleste allerede er vagt klar over og fint klarer å finne ut mer om selv.  Det er ingen mangel på svært lettilgjengelig litteratur på området selv for de med matte-fobier.

Isteden har jeg lyst til å si litt om hvorfor dette ikke dreier seg om "bare trafikkdata".

Det er viktig å ikke tenke på disse trafikkdataene i isolasjon.  Man må tenke på dem i sammenheng med hvilke andre datakilder som eksisterer.   Vi er vant med debatter om kobling av registre og hvor farlig dette er.   Som oftest snakker vi da om tilfeller der koblingen kan gjøres presis ved hjelp av en nøkkel.  Som f.eks personnummer.  Dette er en måte å koble data på som er triviell å forstå.

Men det er også mulig å koble informasjon uten slike nøkler.  Og det finnes endel forskning på hvordan man gjør slike koblinger f.eks på tvers av en informasjonsbarriere -- eller for å si det enklere:  å koble data som har gjennomgått en anonymiseringsprosess med data fra en annen kilde (som er ditto anonymisert ...  eller ikke).

For å forenkle litt: dette betyr at trafikkdataene myndighetene ønsker å samle kan brukes for å de-anonymisere annen informasjon.  Et godt eksempel på dette er arbeide som er gjort på å identifisere individer på tvers av sosiale nettverk uten å bruke "nøkler" som navn, mailadresse etc, men utelukkende ved å se på topologien i disse nettverkene.   For å forenkle enda mer:  din sosiale graf er ditt fingeravtrykk -- og selv om du ikke forsøker å skjule identiteten din på tvers av sosiale nettverk vil enhver kobling av dine identiteter og aktiviteter øke mengden informasjon som kan anvendes for å kartlegge deg.  Og for å finne ytringer og innhold du trodde du gjorde tilgjengelig under dekke av anonymitet.

I lys av dette blir forsikringene om at dette ikke dreier seg om innhold relativt hule påstander.

Og videre: dersom man kan koble tekstlig innhold til en identitet åpner det for enda flere måter å nøste opp i livet ditt ved hjelp av teknikker fra f.eks "forensic linguistics" (aner ikke om feltet har noe godt norsk navn). 

Jeg vil tippe at pådrivere for Datalagringsdirektivet i etterretningsmiljøet antagelig skjønner at politikerne bagatelliserer betydningen av dataene og hvor dypt de griper inn i vårt privatliv og vår integritet.  Dog tror jeg ikke at politikerne selv forstår omfanget av hvor sensitive disse dataene er og hvor blottlagt enkeltindividet er i ferd med å bli.  En indikasjon på dette fraværet av bevissthet hos politikerne er at politikerne later til å slippe unna med å bagatellisere rekkevidden av dataene i debatten.  Dessverre er det svært få med den rette kombinasjonen av faglig tyngde og retoriske evner som har kunnet belyse dette for pressen og dermed gjøre disse bekymringene til en del av den offentlige debatten.

Det er mange som synes jeg har vært ufin mot politikere når jeg sier at de er i ferd med å ta en avgjørelse de ikke er kompetente til å forstå rekkevidden av.  Selvsagt er det aldri hyggelig når noen påpeker slikt, men dersom overfladisk høflighet skal komme i veien for å påpeke et kritisk faktum i en sak som kan få katastrofale følger for samfunnet må man nesten tåle litt hard kritikk.

Såvidt jeg husker er ikke opphetet debatt forbudt.  Ennå.


Litt nyttig lesestoff:

2010-12-10

Med uforstand og naivitet skal fremtiden forvaltes.

I dagens kronikk "Datalagring eller personvern? Ja takk, begge deler", synliggjør Bjørn Jarle Røberg Larsen en nesten rørende naiv tillit til at politi, rettsvesen, tjenestetilbydere og andre det måtte angå i ett og alt vil oppføre seg aktverdig, aldri gjøre feil og alltid handle med den overvåkedes beste interesser for øye.

Det later til at Røberg-Larsens tro på de gode intensjonene er så sterk at den ikke i nevneverdig grad lar seg rokke av nærkontakt med virkeligheten.

Det er ikke så mye den ville ekstrapoleringen som plager meg i det Røberg-Larsen skriver.  Han er politiker.  Det er nærmest forventet at en politiker skal produsere fantasiprodukter for å forlede almuen. Utsagn som f.eks at Datalagringsdirektivet vil "styrke personvernet" støttes opp med en salig blanding av lettvinte konklusjoner,  hendige redefinisjoner av hva "personvern" innebærer og denne allestedsnærværende mangelen på forankring i noen observerbar virkelighet.  Dette er ikke så forferdelig vanskelig å gjennomskue og deretter avskrive som sludder.

Ekstrapoleringen er ille, men det er verre at Røberg-Larsen ekstrapolerer ut ifra et åpenbart fravær av anvendbar kunnskap, eller i mangel av kunnskap, forestillingsevne.  Han ignorerer det faktum at der noe kan gå galt vil det før eller siden gå galt og at man, som Richard Branson stadig maser om når det gjelder forretningsstrategi: må planlegge for nedsiden og worst-case scenarier.  For de vil slå til.  Med større regularitet enn vi liker å tenke på.

Røberg-Larsen lar seg ikke bry av at worst-case scenarier kan, og med overveldende sannsynlighet vil, slå til.

Det er selvsagt søtt at Røberg-Larsen har så stor tro på mennesker at han er rede til å legge sikkerheten til dine og mine data i hendene på et udefinert antall mennesker og uten at det er gitt noen troverdige garantier om hvem som skal være bemyndiget til å gjøre hva med disse dataene.   Dette er en blind tillit det er få forunt å ha til andre mennesker.  Spesielt når man ikke har den fjerneste anelse om hvem disse menneskene er eller hva de er motivert av.

Jeg stoler ikke engang såpass på meg selv.  Langt mindre horder av fremtidige minstepensjonister.

Videre er det betenkelig at Røberg-Larsen bagatelliserer hva man kan lese ut av disse dataene.  Det er litt merkelig, for det har aldri på noe tidspunkt i historien vært større fokus på nettopp det å klemme hard informasjon ut av ulne data.  Det har aldri vært mer lettfattelig litteratur tilgjengelig omkring dette temaet -- litteratur som er tilgjengelig for selv de med fremskreden fobi for realfag.  Det har aldri vært billigere og enklere å transportere og prosessere massive mengder data.

Med en kredittkort og forbløffende få penger kan hvem som helst i dag fullt lovlig leie maskinkraft som tidligere bare var tilgjengelig for velfinansierte organisasjoner.  Dertil kommer det faktum at man for visse typer problemstillinger kan leie langt større mengder maskiner på det sorte markedet for enda mindre penger.

Et gjengangstema for debatten er et markant fravær av faglig tyngde.  Man har involvert jurister, som kan si noe om hvordan slike grep forholder seg til eksisterende lovverk,  evolusjon av samme samt utøvelse av nevnte lover.  Man har involvert byråkrater, som kan ytre seg om hvordan deres organisasjoner vil forholde seg.  Man har involvert tjenestetilbydere, som stort sett er opptatt av kostnad og hvordan dette vil påvirke deres anseelse og tillit.

Dessverre har ikke de med en berettiget mening om de mer vitenskaplige aspektene ved DLD fått slippe til i noen særlig grad i denne debatten. Mennesker med kompetanse på praktisk sikkerhet.  Mennesker med kompetanse på informasjonsanalyse og kunsten å vri kunnskap ut av store, om enn glisne, datasett.

Dette er ikke minst pussig i lys av saker som figurerer prominent i media om dagen som omhandler nettopp massive mengder følsom informasjon som har kommet på avveie.  Eller for den saks skyld de periodiske tilfellene av kredittkortinformasjon som kommer på avveie (jeg får vel i snitt utstedt nytt kredittkort en gang i året fordi noen har kompromittert denne informasjonen).  Dog er lekkasjer av kredittkortopplysninger såpass dagligdags nå at media ikke engang gidder å dekke det.

Jeg synes det er skremmende at våre politikere er så rede til å introdusere lovgivning de så åpenbart ikke er i stand til å forstå rekkevidden av, og at de i lys av tvil ikke later til å ha noe sterkt ønske om å feile på rett side av prinsippene for hvordan man bygger en liberal rettsstat.

Jeg er skuffet og jeg er skremt.

2010-12-09

Feie for egen dør, Stoltenberg og Storberget.

I morgen, fredag 10 desember 2010, skal Regjeringen i statsråd angivelig legge frem Datalagringsdirektivet.  Samme dag deles Nobels fredspris ut til den kinesiske dissidenten Liu Xiaobo. Denne ironien er ikke tapt på Nettavisens Magnus Blaker som i dag publiserte artikkelen "Slik skal de unngå skandale".

Det er veldig trist å se vår statsminister og justisminister blamere seg selv ved å fremstå som hyklere på en slik dag.  På den ene siden fordømmer de andre regimers totalitære grep -- og på den annen side introduserer de lovgivning som legger en klam hånd over demokratiet og rettsstaten.

Det er sjelden man ser en slik skamløs prinsippløshet og mangel på ryggrad hos ledere som ønsker å bli ansett som Statsmenn.  De prinsippene som ligger til grunn for å bygge en rettsstat står høyest beklagelig ikke høyt i kurs hos politikere som ikke vet når det er deres plikt å være rake i ryggen og beskytte hardt tilkjempede prinsipper.

Jeg hadde helst sett at representanter for den sittende regjeringen hadde anstendigheten til å holde seg borte fra prisutdelingen og ikke skjende Nobelprisen ved sin tilstedeværelse.  Det passer seg dårlig.

Og mens jeg husker på det:

Forøvrig mener jeg fremdeles at Storberget bør fratre sin stilling som justisminister fordi han ved å mene at det ikke skal behøve å foreligge skjellig grunn til mistanke for å kunne overvåke privatpersoner er fundamentalt uegnet til å være justisminister i en liberal rettsstat.