Programmering

'Google-søgning på steroider' bringer mørkt web ind i lyset

Det regeringsorgan, der bragte os Internettet, har nu udviklet en kraftfuld ny søgemaskine, der kaster lys over indholdet på det såkaldte dybe web.

Defense Advanced Research Projects Agency (DARPA) begyndte at arbejde på Memex Deep Web-søgemaskinen for et år siden og afslørede i denne uge sine værktøjer til Scientific American og "60 minutter."

Memex, der udvikles af 17 forskellige entreprenørhold, sigter mod at opbygge et bedre kort over internetindhold og afdække mønstre i online-data, der kan hjælpe politimyndigheder og andre. Mens tidlige forsøg har fokuseret på kortlægning af menneskehandleres bevægelser, kunne teknologien en dag anvendes til efterforskningsindsats som terrorbekæmpelse, savnede personer, sygdomsrespons og katastrofehjælp.

Dan Kaufman, direktør for informationsinnovationskontoret i DARPA, siger, at Memex handler om at gøre det usete synligt. "Internettet er meget, meget større end folk tror," sagde DARPA-programleder Chris White til "60 minutter." "Efter nogle skøn giver Google, Microsoft Bing og Yahoo os kun adgang til omkring 5 procent af indholdet på Internettet."

Google og Bing producerer resultater baseret på popularitet og placering, men Memex søger indhold, der typisk ignoreres af kommercielle søgemaskiner, såsom ustrukturerede data, ikke-linket indhold, midlertidige sider, der fjernes, inden kommercielle søgemaskiner kan gennemgå dem og chatfora. Almindelige søgemaskiner ignorerer disse dybe webdata, fordi webannoncører - hvor browservirksomheder tjener deres penge - ikke har nogen interesse i det.

Memex automatiserer også mekanismen til at gennemgå det mørke eller anonyme web, hvor kriminelle driver forretning. Disse skjulte servicesider, der kun er tilgængelige via TOR anonymiserende browser, fungerer typisk under radaren fra retshåndhævelse, der sælger ulovlige stoffer og andet smugleri. Hvor man engang troede, at mørk webaktivitet bestod af 1.000 sider eller deromkring, fortalte White Scientific American, at der kunne være mellem 30.000 og 40.000 mørke websider.

Indtil nu var det svært at se på disse websteder på nogen systemisk måde. Men Memex - som Manhattan DA Cyrus Vance Jr. kalder "Google-søgning på steroider" - indekserer ikke kun deres indhold, men analyserer det for at afdække skjulte forhold, der kan være nyttige for retshåndhævelse.

DARPAs søgeværktøjer blev introduceret til at udvælge retshåndhævende organer sidste år, inklusive Manhattans nye menneskehandel. Memex bruges nu i alle tilfælde af menneskehandel, det forfølger, og har spillet en rolle i at generere mindst 20 undersøgelser af sexhandel. Den superladede webcrawler kan identificere sammenhænge mellem forskellige stykker data og producerer datakort, der hjælper efterforskere med at opdage mønstre.

I en demo af "60 minutter" viste White, hvordan Memex er i stand til at spore menneskehandleres bevægelse baseret på data relateret til onlineannoncer for sex. ”Nogle gange er det en funktion af IP-adresse, men nogle gange er det en funktion af et telefonnummer eller adresse i annoncen eller geolokaliseringen af ​​en enhed, der sendte annoncen,” sagde White. "Der er undertiden andre artefakter, der bidrager til placering."

White understregede, at Memex ikke ty til hacking for at hente information. ”Hvis noget er adgangskodebeskyttet, er det ikke offentligt indhold, og Memex søger ikke i det,” sagde han til Scientific American. "Vi ønskede ikke at skyde dette arbejde unødigt ved at trække i spøgelsen om snooping og overvågning" - et rørende emne efter Edward Snowdens NSA-afsløringer.

Memex fik sit navn (en kombination af "hukommelse" og "indeks") og inspiration fra en hypotetisk enhed beskrevet af Vannevar Bush i 1945, der formodede opfindelsen af ​​pc'er, Internettet og andre store it-fremskridt i de næste 70 år. Nu ser DARPA og Memex ud til at bringe os et skridt tættere på Philip Dicks futuristiske politiafdeling afbildet i "Minority Report."

En ny testrunde, der begynder om et par uger, vil omfatte føderale og distriktsanklagere, regional og national retshåndhævelse og flere ngo'er. Ifølge rapporten fra Scientific American sigter det mod at "teste nye billedsøgningsfunktioner, der kan analysere fotos, selv når dele, der kan hjælpe efterforskere - herunder menneskehandleres ansigter eller en fjernsynsskærm i baggrunden - er tilslørede."

Ved at opfinde bedre måder at interagere med og præsentere information indsamlet fra en større pulje af kilder "ønsker vi at forbedre søgningen efter alle. Brugervenlighed for ikke-programmerere er afgørende," sagde White.