E-mails

Der kan godt gå sport i at skrive den mest enkle syntaks eller kommando, når man vil automatisere en række handlinger, f.eks. når man ønsker at ekstrahere og manipulere tekst fra filer. Omvendt er det ikke altid man har tid til at finpudse sine kommandoer, og man vil bare gerne have et resultat hurtigst muligt. I første tilfælde kan man komme hele vejen med terminalen i Linux/MacOS (med eller uden Bash script) eller Windows Powershell. I sidstnævnte tilfælde kan man anvende en kombination af GUI programmer og kommandolinjen, eller blot kommandolinjen.

Hvis man skal anvende en applikation i den grafiske brugergrænseflade, hvad enten det er i MacOS eller Windows, så synes jeg det mest hensigtsmæssige er, at lære de medfølgende programmer at kende; dels er de ofte ret anvendelige, dels er de ofte tilgængelige på fremmede computere. Hvis man er nød til at bruge 3. part software, synes jeg i de fleste tilfælde at open source software er at foretrække. Der eksisterer et hav af fremragende open source software indenfor de fleste kategorier, og udover de er gratis, er de ofte let tilgængelige. Især stand alone software, som ikke skal installeres og kan afvikles direkte i en browser eller fra en USB, kan være en god mulighed, hvis man ikke har rettigheder til at installere programmer.

Der er altid mange måder hvorpå man kan opnå samme resultat. Et konkret eksempel er udtræk af e-mail adresser fra KUs online og offentligt tilgængelige telefonbog. Skal man hurtigt udhente et stort antal mailadresser og er det ikke så vigtigt at man får hver eneste mailadresse, så kan fremgangsmåden være den simple:

1. Site Sucker App til MacOS (vist nok en gratis version også). Man konfigurerer programmet til at downloade rub og stub fra KUs telefonbog.

2. TextWrangler til MacOS: et lille open source program til kodning og tekstmanipulation. Man laver en søgning med et regular expression, der matcher e-mail adresser i den folder, hvor man downloadede telefonbogen. Resultatet udgøres af en e-mail adresse på hver linje, over 5000 e-mail adresser i alt.

Et alternativ til TextWrangler er grep-kommandoen i terminal:

grep -E -o “\b[a-zA-Z0-9.-]+@[a-zA-Z0-9.-]+\.[a-zA-Z0-9.-]+\b” input.txt > fil.txt

Man kan nemt sætte et semikolon ind som suffiks på hver linje, og således copy paster man adresserne ind i f.eks. sin webmail. Nu kan man ofte ikke maile til 5000 på én gang (da de fleste mailservere vil tolke det som spam), men det er der råd for (kommer senere).

Der er mange måder at matche e-mails adresser på, hvilket udemærket illustrerer fleksibiliteten af regular expressions. Et alternativ til ovenstående regex er:

\b[AZ09._%+]+@[AZ09.]+\.[AZ]{2,}\b

Når man udsender mails til et stort antal modtagere, vil man ofte anvende en mailingliste – og sørme om KU ikke også er behjælpelige her (kommer senere).

Ad web-import
I Google Sheets kan følgende ofte anvendes til at importere lister (“list”) eller tabeller (“table”), f.eks. folketingspolitikeres data, som her:

=IMPORTHTML(“http://www.ft.dk/Folketinget/searchResults.aspx?spokesman=%7BFB4A94B8-0B09-4615-BC9F-38502E95BA98%7D”, “table”,1)

Links: http://findvej.regionh.dk/

Data

Videoen er gammel, og teknologien er forældet, men budskabet og metoderne er fortsat yderst relevante og overblikket er eminent. Præsentationen er fantastisk, fordi den pædagoisk og konkret gennemgår, hvor stor og vigtig mængde information, man helt lavpraktisk kan deducere fra en meget lille og ubetydelig mængde information. Konkret, hvordan hørbare lyde fra elektronik i omgivelserne, kan give ellers utilgængelig information. Fra blot at være klar over, at en særlig ringetone betyder at mobiltelefonen er en Nokia eller iPhone, til at analysere lyden på en computer, og dermed finde ud af, at ringetonen ikke blot er fra en iPhone, men også hvilken model, der er tale om, fra hvilket år og hvor den er produceret og mange andre informationer, der kan være meget relevante.

Der er utallige andre eksempler. Det mest interessante er naturligvis, hvor meget information man kan ekstrahere ved software analyse af lyde fra omgivelserne. Desuden er det facinerende, at man ved den form for analyse, kan henføre en eller få typer umuddelbar tilgængelig information til en helt specifik person. Det er en slags Sherlock Holmes agtig deduktion opløftet til et nyt niveau.

Princippet er selvfølgeligt applicerbart på alle modaliteter: lyde, billeder, vibrationer, bevægelser mv. Spørgsmålet er, hvilke karakteristiska eller informationer kan ekstraheres fra omgivelserne, som alene eller korreleret med andre informationer, er unikke for en person eller en begivenhed. Efter at have indhentet et tilstrækkeligt stort vidensgrundlag, kan man opsætte sandsyneligheder for en given persons fremtidige adfærd. Intet af dette er nyt, men teknologien og anvendelsesmulighederne ændres til stadighed. Især mobiltelefonen har øget tilgængeligheden betydeligt, og det medfører både spændende nye muligheder for informationsindhentning og skræmmende perspektiver.

Hver smartphone giver adgang til utroligt mange informationer i realtid, blot for at nævne nogle få: lokalisation (GPS, Wifi, Bluetooth, NFC, Telemastoplysninger), bevægelse (accelerometer), lys- og afstandssensorer (er min mobil i lommen, så deaktiveres touch input, tager jeg telefonen op til øret, deaktiveres headset osv.), lyd (mikrofon, højtalere) og billede (to eller flere kamerarer). Alle sansemodaliterer er repræsenteret, og alle informationerne kan anvendes til sundhedsvidenskabelig forskning (samt desværre også til overvågning af borgerne) på populationsniveau. Især acceleromaterinformationer og lokalisationsinformationer er utroligt interessante i sundhedsvidenskaben, men også analyse af billeder fra kameraret af f.eks. en foto af et modermærke, er der enorme perspektiver i.

Alle disse informationer kan indgå i en multivariabelanalyse sammen med alverdens kliniske og parakliniske informationer, hvorved man utroligt nemt og billigt kan udføre forskning, der i høj grad kan forbedre menneskers sundhed og livskvalitet. Der er lige så mange faldgrupper og muligheder for misbrug, som der er positive aspekter ved den type forskning. Det har jeg selv oplevet helt tæt på ved min ansættelse på FIUNIT på Glostrup Hospital. Og desværre har Datatilsynet, Regionerne eller staten hverken viljen eller evnen til at beskytte danskernes dybt følsomme helbredsoplysninger. Men hvis man etisk, juridisk og metodoligisk er helt stringent og korrekt, så er der utrolige muligheder for at gavne forude.

Open Source Intelligence (“OSINT”)

Inden for lægenvidenskaben er det mest interessante og vigtigste område diagnosticeringen. For at diagnosticere må man først indsamle forskellige typer information. Initialt screener man bredt og gennemgår alle aspekter, der kan være relevante. Det er en endog meget bred screning, som spænder fra konginitte forhold (ekspositioner in uteri, heriditære sygdomme), erhvervseksposition (asbestose, silikose) og levevilkår under opvæksten (blymaling i tapetet, arsenikforurening af jorden på legepladsen), patientens symptomer (trykkende venstresidige brystsmerter, sløring af synet på begge øjne i forbindelse med løbetræning) til det sanseligt, umiddelbart observerbare (bankeømhed over venstre nyreloge, nakkestivhed) og resultater af parakliniske tests (blodprøver, skanninger, vævsprøver). På baggrund af denne screening indsnævres det sandsynlige diagnostiske felt, og man går i dybden inden for få sygdomskategorier, både hvad angår patientens sygdoms- erhvervs og familiehistorie, de umiddelbare objektive fund, samt parakliniske undersøgelser. De detaljerede undersøgelser skulle gerne resultere i den eller de korrekte diagnoser, hvorefter et behandlingsforløb kan iværksættes.

Ikke overraskende kan samme fremgangsmåde anvendes inden for alle former for informations- eller vidensbaserede beslutninger og konklusioner. Start uanset din a priori hypotese med slavisk bred og overfladisk videnssøgning inden for alle potentielle kategorier. Fortsæt detaljeret og dybdegående videnssøgning inden for få sandsynelige kategorier. Drag en konklusion.

OSINT har ikke definitorisk noget med Open Source software at gøre, men hentyder til offentligt tilgængelige informationskilder. Metodologien inden for “OSINT Investigation” eller “Open Source informationsindsamling” kan minde lidt om den diagnostiske strategi inden for lægevidenskaben. Man starter ofte her med at søge efter en bestemt person eller et alias bredt, typisk på Google eller andre mainstream søgemaskiner. Finder man oplysninger om vedkommende på et site, eksplorerer man dette yderligere. Herefter går man tilbage til den mere generelle søgning, og tilgår f.eks. informationskilder, der ikke nødvendigvis kan søges på via Google. LinkedIn, Facebook, Twitter, Youtube, Soundcloud, Vimeo, Flicker osv. osv. Det er vigtigt ikke at anvende en konto med ens egen identitet, når man tilgår f.eks. LinkedIn, da personen, man søger efter informationer om, derved kan se, hvad man er i færd med, hvilket ikke er hensigtsmæssigt. Brug fakenamegenerator.com og opret en konto til formålet. Brug TOR, anden proxy og Tails Linux. Det er også relevant at søge efter historiske online oplysninger, og i den forbindelse er archieve.org er fremragende informationskilde. OSINT er netop karakteriseret ved IKKE at anvende uetiske eller ulovlige metoder til at indsamle oplysninger. Det er således ikke hacking eller stalking. Informationerne skal være offentligt tilgængelige. Det er langt fra kun normal tekst, man søger på. Googles billedesøgning og Google Goggles bruger billeder til at søge efter lignende billeder. Desuden er selve sproget ikke længere en hæmsko, hvis man anvender Google Translate. Også Google Maps er et særdeles nyttigt værktøj, hvis man har lokalisationsdata eller blot et billede, som mangler EXIF metadata, men viser et eller andet særligt kendetegn. Det var – angivligt – sådan Edward Snowdens hotel blev lokaliseret af en lokal avis, som i forbindelse med et tv-interview så karakteristiske kendetegn gennem et vindue bag Snowden. Om det passer aner jeg ikke, men jeg ved at Google Earth/Maps kan bruges på den måde. Lokalisationsdata i EXIF tastes blot ind, hvorefter lokalisationen vises på kortet.

Der er imidlertid en række online tjenester, der ikke umiddelbart er offentligt tilgængelige, men kræver et abonnement (videnskabelige tidsskrifter, aviser, avisarkiver, Riebers), at man registrerer sig først (bibliotekstjenester) eller tilgår oplysningerne ved fysisk fremmøde (Kongelige Bibliotek). Derudover kan man selvfølgelig altid indsamle informationer, der ikke er tilgængeligt online (Rigsarkivet). Det kan være yderst relevante oplysninger, men indgår nok ikke i OSINT begrebet. Der er mange eksempler på ikke-elektroniske registre, men tendensen er selvfølgelig, at de digitaliseres. I den forbindelse kan nævnes Google Books.

Det mest interessante er dog efter min mening de tekniske informationer og analysesoftware. Frem for at indtaste søgninger, indhente og analysere data manuelt, kan man bruge en af de mange, gratis (Open Source) og annerkendte programmer til at automatisere indhentningsprocessen, kategorisere data, finde og illustrere forbindelser mellem flere personer, organisationer mv. Dét er det virkeligt fascinerende og fantastiske aspekt. Som jeg i de seneste år har gået og tænkt på, kan meget af dette software med stor fordel anvendes inden for lægevidenskabelig forskning og kvalitetsudvikling. Det er med sikkerhed allerde gjort, men ikke (tilstrækkeligt) i Danmark og ikke i det omfang, som det har potentiale til internationalt. Det er utroligt oplagt at anvende “Maltego” inden for epidemiologi. Men langt fra kun begrænset hertil; netop det program kan man anvende inden for alle lægelige specialer og dicipliner, og inden for al sociologisk forskning i det hele taget. Det er et område, jeg ville kunne bruge al min tid på, og jeg ville kunne skabe ny, effektiv og unik forskning, der under streng hensynstagen til sikker persondatahåndtering, ultrabilligt kunne påvise sammenhænge, der helt konkret ville kunne forbedre danskernes sundhed. Det er naturligvis for sent nu (tak Elisabet Hansen, Overlæge ER og Citydoctors), men det var i høj grad en drøm jeg havde, og en drøm, der ville kunne blive til virkelighed.

Software

Windows

HTTrack: Reasonable tool for downloading entire web pages. Free (GPL) and versatile. In my experience not that stable, though. From: www.networkworld.com

OS X and iPhone

SiteSucker: Excellent utility for downloading web pages. Quite user friendly and straight forward. Easy to configure. From: www.networkworld.com

Linux

Wget: A classic piece of software for retrieving not only web pages, but also FTP traffic. It is a command line tool, though not too difficult to tune and adapt to your needs.

Living Of The Land

Det mest hensigtsmæssige er ofte at benytte de indbyggede værktøjer i styresystemet. Man kommer ofte langt med disse, især kombineret med enkle syntakser. Jeg har beskrevet disse andet steds. Det burde være uudsagt, at jeg selvfølgelig kun anvender de værktøjer og metoder, jeg skriver om på hjemmesiden til fuldstændig legale formål, og udelukkende til forskningsbrug.

Hvis man endelig skal bruge et dedikeret program til informationsindhentning, gæler det om at bruge et Open Source værktøj. Det måske mest udbredte software i sin klasse er “Maltego“. Hvis man skal investere sin tid og kræfter i noget software, er Maltego nok det mest hensigtsmæsse af slagsen. Der er forskellige versioner, hver i en Windows, Linux og Mac udgave:

Maltego XL

Maltego eXtra Large is Paterva’s solution to visualising large data sets and is suited for people who need to visualise relationships between up to 1 million pieces of information.

Maltego Classic

Maltego Classic is our standard commercial version of Maltego which includes access to all our OSINT transforms.

Maltego CE

Maltego CE is the community edition of Maltego and is available for free for everyone after a quick registration.

CaseFile

CaseFile is Paterva’s answer to the offline intelligence problem. Combining Maltego’s fantastic graph and link analysis this tool allows for analysts to examine links between data.

Region Hovedstaden, Region Hovedstadens Psykiatri, SUND mv.

 

Recon-ng

Download Recon-ng

Tutorial Install Recon-ng

The Social Engineering Framework

Download SE Frameword

Open Refine

 

Software Defined Radio

Software Defined Radio (SDR) er noget af det mest interessante, jeg nogensinde har nørdet med. Jeg havde tænkt mig som en hobby at forsøge at optimere sikkerheden af den enorme mængde medicotech udstyr, som er på ethvert hospital og i enhver klinik. Principielt set transmitterer SDR teknologi ikke, men modtager blot, som en radio med udvidet frekvensregister, så det er ufarligt at anvende. Selv relativt simpelt medicotech udstyr opbevarer personidentificerbare og følsomme oplysninger, og desuden er det måske muligt ikke bare at opsnappe disse oplysninger, hvis de ikke er tilstrækkeligt krypterede, med en stykke hardware, som både modtager og udsender radiosignaler (Yard Stick One f.eks.), er det måske muligt at ændre på f.eks. analyseresultater. Jeg er overbevist om, at der selv inden for medicotech er meget apparatur, der har elendig sikkerhed, og i givet fald er det relativt billigt at opdage det, så det kan ordnes.

Takket være embedslæge Elisabet Tornberg Hansen er den drøm (også) smadret i tusinde stykker – til gengæld kan min SDR RTL også bruges til at opdage alverdens forskellige typer radiotransmittere, herunder overvågningsudstyr. Jeg tror ikke at jeg bliver overvåget på nogen som helst måde (!), bare rolig. Men det ændrer ikke på, at der med sikkerhed er nogen i det danske samfund bliver overvåget med udstyr, der kan findes med en billig SDR RTL USB som er tilsluttet til en billig PC eller bare en Android telefon. Når jeg er blevet mere erfaren i SDR vil jeg lave en overskuelig trin for trin guide på dansk, som vil gøre det muligt for enhver, der kan undvære 200 kr. til en SDR på Amazon.com, at opdage en stor mængde overvågningsudstyr hurtigt og effektivt (sweepe). Jeg er helt sikker på at det kan lade sig gøre for mig.

SDR Software

  • Linux: GNURadio
  • Windows: SDR#
  • Android: SDR Touch (brug OTG kabel)