Programmering

Hvad er deepfakes? AI, der bedrager

Deepfakes er medier - ofte video, men undertiden lyd - der blev oprettet, ændret eller syntetiseret ved hjælp af dyb læring for at forsøge at bedrage nogle seere eller lyttere til at tro på en falsk begivenhed eller falsk besked.

Det oprindelige eksempel på en deepfake (af reddit-bruger / u / deepfake) skiftede ansigtet på en skuespillerinde på kroppen af ​​en pornoartist i en video - hvilket selvfølgelig var helt uetisk, selvom det ikke oprindeligt var ulovligt. Andre dybe forfalskninger har ændret, hvad berømte mennesker sagde, eller det sprog de talte.

Deepfakes udvider ideen om sammensætning af video (eller film), hvilket er gjort i årtier. Væsentlige videofærdigheder, tid og udstyr går ind i videokompositionering; video deepfakes kræver meget mindre dygtighed, tid (forudsat at du har GPU'er) og udstyr, selvom de ofte ikke overbeviser for nøje observatører.

Sådan oprettes deepfakes

Oprindeligt baserede deepfakes sig på autokodere, en type ikke-overvåget neuralt netværk, og mange gør det stadig. Nogle mennesker har forfinet den teknik ved hjælp af GAN'er (generative adversarial netværk). Andre maskinlæringsmetoder er også blevet brugt til deepfakes, undertiden i kombination med ikke-maskinindlæringsmetoder med varierende resultater.

Autokodere

I det væsentlige kører autokodere til dybe falske ansigter i billeder en totrinsproces. Trin et er at bruge et neuralt netværk til at udtrække et ansigt fra et kildebillede og kode det ind i et sæt funktioner og muligvis en maske, typisk ved brug af flere 2D-foldningslag, et par tætte lag og et softmax-lag. Trin to er at bruge et andet neuralt netværk til at afkode funktionerne, opskalere det genererede ansigt, rotere og skalere ansigtet efter behov og anvende det opskalerede ansigt på et andet billede.

Uddannelse af en autoencoder til generering af dybe falske ansigter kræver mange billeder af kilde- og målansigter fra flere synspunkter og under forskellige lysforhold. Uden en GPU kan træning tage uger. Med GPU'er går det meget hurtigere.

GAN'er

Generative kontradiktoriske netværk kan forfine resultaterne af autokodere, for eksempel ved at sætte to neurale netværk mod hinanden. Det generative netværk forsøger at skabe eksempler, der har samme statistik som originalen, mens det diskriminerende netværk forsøger at opdage afvigelser fra den oprindelige datadistribution.

Uddannelse af GAN'er er en tidskrævende iterativ teknik, der i høj grad øger omkostningerne i beregningstid i forhold til autokodere. I øjeblikket er GAN'er mere passende til at generere realistiske enkeltbillederammer af imaginære mennesker (f.eks. StyleGAN) end til oprettelse af dybe falske videoer. Det kan ændre sig, da hardware til dyb læring bliver hurtigere.

Sådan opdages deepfakes

Tidligt i 2020 byggede et konsortium fra AWS, Facebook, Microsoft, partnerskabet om AI's Media Integrity Steering Committee og akademikere Deepfake Detection Challenge (DFDC), som løb på Kaggle i fire måneder.

Konkurrencen omfattede to veldokumenterede prototypeløsninger: en introduktion og et startpakke. Den vindende løsning af Selim Seferbekov har også en forholdsvis god opskrivning.

Detaljerne i løsningerne får dine øjne til at krydse, hvis du ikke er i dybe neurale netværk og billedbehandling. I det væsentlige udførte den vindende løsning ramme-for-ramme ansigtsgenkendelse og udpakkede SSIM-indeksmasker (strukturel lighed). Softwaren ekstraherede de opdagede ansigter plus en marginal på 30 procent og brugte EfficientNet B7, der var foruddrevet på ImageNet til kodning (klassificering). Løsningen er nu open source.

Desværre kunne selv den vindende løsning kun fange omkring to tredjedele af deepfakes i DFDC-testdatabasen.

Deepfake oprettelse og afsløring applikationer

En af de bedste open source-programmer til oprettelse af deepfake-video er i øjeblikket Faceswap, som bygger på den originale deepfake-algoritme. Det tog Ars Technica-forfatteren Tim Lee to uger ved hjælp af Faceswap at skabe en dyb forfalskning, der byttede ansigt på løjtnant Commander Data (Brent Spiner) fraStar Trek: The Next Generation ind i en video af Mark Zuckerberg, der vidnede før kongressen. Som det er typisk for deepfakes, består resultatet ikke sniffetesten for nogen med betydelig grafik-sofistikering. Så state of the art for deepfakes er stadig ikke særlig god med sjældne undtagelser, der mere afhænger af "kunstnerens" dygtighed end teknologien.

Det er lidt trøstende, i betragtning af at den vindende DFDC-detekteringsløsning heller ikke er særlig god. I mellemtiden har Microsoft annonceret, men har ikke frigivet, da dette skrives, Microsoft Video Authenticator. Microsoft siger, at Video Authenticator kan analysere et stillbillede eller en video for at give en procentuel chance eller tillidsscore, at medierne er kunstigt manipuleret.

Video Authenticator blev testet mod DFDC datasættet; Microsoft har endnu ikke rapporteret, hvor meget bedre det er end Seferbekovs vindende Kaggle-løsning. Det ville være typisk for en AI-konkurrencesponsor at bygge videre på og forbedre de vindende løsninger fra konkurrencen.

Facebook lover også en dybfalsdetektor, men planlægger at holde kildekoden lukket. Et problem med open-sourcing deepfake-detektorer som Seferbekov's er, at deepfake generation-udviklere kan bruge detektoren som diskriminator i en GAN for at garantere, at falskheden vil passere den detektor og til sidst fremmer et AI-våbenkapløb mellem deepfake-generatorer og deepfake-detektorer.

På lydfronten kan Descript Overdub og Adobes demonstrerede, men endnu ikke frigivne VoCo gøre tekst til tale tæt på realistisk. Du træner Overdub i cirka 10 minutter for at oprette en syntetisk version af din egen stemme; Når du er trænet, kan du redigere dine voiceovers som tekst.

En relateret teknologi er Google WaveNet. WaveNet-syntetiserede stemmer er mere realistiske end standard tekst til tale-stemmer, selvom de ikke er helt på niveau med naturlige stemmer, ifølge Googles egen test. Du har hørt WaveNet-stemmer, hvis du for nylig har brugt stemmeoutput fra Google Assistent, Google Search eller Google Translate.

Deepfakes og ikke-samstemmende pornografi

Som jeg nævnte tidligere, byttede den originale deepfake en skuespilleres ansigt på kroppen af ​​en pornograf i en video. Reddit har siden da forbudt / r / deepfake sub-Reddit, der var vært for den og andre pornografiske deepfakes, da det meste af indholdet var pornografi uden samtykke, hvilket nu er ulovligt, i det mindste i nogle jurisdiktioner.

En anden sub-Reddit til ikke-pornografiske deepfakes eksisterer stadig ved / r / SFWdeepfakes. Mens beboerne i denne sub-Reddit hævder, at de udfører godt arbejde, bliver du selv nødt til at bedømme, om vi siger, at se Joe Bidens ansigt, der er dårligt forfalsket i Rod Serlings krop, har nogen værdi - og om nogen af ​​de dybe falsker der passerer sniffetesten for troværdighed. Efter min mening er nogle tæt på at sælge sig selv som ægte; de fleste kan velgørende beskrives som rå.

Forbud / r / deepfake eliminerer naturligvis ikke pornografi uden samtykke, som kan have flere motivationer, herunder hævnporno, som i sig selv er en forbrydelse i USA. Andre sider, der har forbudt dybe forfalskninger uden konsensus, inkluderer Gfycat, Twitter, Discord, Google og Pornhub og endelig (efter meget fodtrækning) Facebook og Instagram.

I Californien har personer, der er målrettet mod seksuelt eksplicit dybt falsk indhold, der er lavet uden deres samtykke, en sag til handling mod indholdets skaber. Også i Californien er distribution af ondsindede dybe falske lyd- eller visuelle medier rettet mod en kandidat, der kører til et offentligt embede inden for 60 dage efter deres valg, forbudt. Kina kræver, at deepfakes tydeligt mærkes som sådan.

Deepfakes i politik

Mange andre jurisdiktioner mangel love mod politiske dybe forfalskninger. Det kan være foruroligende, især når dybe forfalskninger af høj kvalitet af politiske figurer gør det til bred distribution. Ville en dyb forfalskning af Nancy Pelosi være værre end den konventionelt nedsatte video af Pelosi manipuleret for at få det til at lyde som om hun sludrede sine ord? Det kan være, hvis det produceres godt. Se for eksempel denne video fra CNN, som koncentrerer sig om deepfakes, der er relevante for præsidentkampagnen i 2020.

Deepfakes som undskyldninger

"It's a deepfake" er også en mulig undskyldning for politikere, hvis virkelige, pinlige videoer er lækket ud. Det skete for nylig (eller angiveligt sket) i Malaysia, da et homoseksuelt bånd blev afskediget som en dyb forfalskning af økonomiministeren, selvom den anden mand, der blev vist i båndet, svor, at det var ægte.

På bagsiden var fordelingen af ​​en sandsynlig amatør deepfake af den skrantende præsident Ali Bongo fra Gabon en medvirkende faktor til et efterfølgende militærkup mod Bongo. Den dybe falske video tipede militæret om, at noget var galt, endnu mere end Bongos langvarige fravær fra medierne.

Flere dybe falske eksempler

En nylig dybfalsk video af All Star, Smash Mouth-klassikeren fra 1999, er et eksempel på at manipulere video (i dette tilfælde en mashup fra populære film) til falsk læbensynkronisering. Skaberen, YouTube-bruger ontyj, bemærker, at han "blev båret væk med at teste wav2lip og nu eksisterer dette ..." Det er morsomt, men ikke overbevisende. Ikke desto mindre viser det, hvor meget bedre falsk læbebevægelse er blevet. For et par år siden var unaturlig læbebevægelse normalt en død gave af en falsk video.

Det kunne være værre. Se denne dybe falske video af præsident Obama som målet og Jordan Peele som chauffør. Forestil dig nu, at det ikke indeholdt nogen sammenhæng, der afslørede det som falskt, og inkluderede et brændende opfordring til handling.

Er du bange for endnu?

Læs mere om maskinlæring og dyb læring:

  • Deep learning versus machine learning: Forstå forskellene
  • Hvad er maskinindlæring? Intelligens afledt af data
  • Hvad er dyb læring? Algoritmer, der efterligner den menneskelige hjerne
  • Machine learning algoritmer forklaret
  • Automatiseret maskinindlæring eller AutoML forklaret
  • Overvåget læring forklaret
  • Semi-overvåget læring forklaret
  • Uovervåget læring forklaret
  • Forstærket læring forklaret
  • Hvad er computersyn? AI til billeder og video
  • Hvad er ansigtsgenkendelse? AI for Big Brother
  • Hvad er naturlig sprogbehandling? AI til tale og tekst
  • Kaggle: Hvor dataforskere lærer og konkurrerer
  • Hvad er CUDA? Parallel behandling til GPU'er