Kunstmatige intelligentie in AV-productie

KI heeft de potentie om de manier waarop audiovisuele content wordt gecreëerd, bewerkt en gedistribueerd aanzienlijk te veranderen.  

Het meest wordt KI ingezet op het gebied van beeld- en geluidsherkenning. Er worden op de gebied KI-technologieën ontworpen die helpen bij het automatisch taggen en categoriseren van beeld- en geluidselementen, waardoor het eenvoudiger wordt om specifieke scènes, objecten of geluiden in grote AV-bestanden te vinden.  

Daarnaast wordt het ingezet om het bewerkingsproces deels te automatiseren. Hier komt ook beeldherkenning te pas evenals natuurlijke taalverwerking technologieën. Hierdoor kunnen KI-systemen automatisch videoclips selecteren, rangschikken, bijsnijden en samenvoegen op basis van de context en het gewenste verhaal. Hierbij hoort ook het verbeteren van de algehele AV-kwaliteit. KI wordt gebruikt om het proces van kleurcorrectie, ruisonderdrukking, audioverbetering en beeldstabilisatie te verbeteren 

Over het algemeen speelt KI een cruciale rol in het versnellen, verbeteren en innoveren van de AV-productie. Het stelt producenten en makers in staat om efficiënter te werken, de creatieve mogelijkheden uit te breiden en de algehele kwaliteit van audiovisuele content te verbeteren. 

Toepassingen

  • Wat houdt het in? 

    Deze toepassing zet tekst om in geluid. Deze technologie kent vele toepassingen, waaronder het inzetten van audio voor luisterboeken, voice-overs voor films en documentaires, en advertenties Dilmegani (2023). Voorbeeld van deze toepassing is bijvoorbeeld ‘Murf KI’.  

    Input

    • Tekstuele gegevens

    Output

    • Automation

    Technologie

    • Tekst mining
    • Audio processing
  • Wat houdt het in? 

    Er zijn verschillende platforms die KI-videogeneratoren aanbieden. Ze werken alle via het invoeren van een prompt, tekst of script, waarna je in verschillende platforms kunt kiezen voor een template, branche, sjabloon, etc. Zo beslis je als maker welke stijl geschikt is voor de video en hoe die er uiteindelijk uit komt te zien. Daarnaast kun je kiezen voor een videostijl, avatar of stemstijl als dit gewenst is in de video. Vervolgens zal het KI-systeem de video genereren en kun je de video bij sommige tools aanvullen met (stock)beelden, muziek, teksten, etc. (Yalalov, 2023). Graag een uitgebreide uitleg? Bekijk deze video!  

    Video’s genereren kan op verschillende manieren van toepassing zijn in het werkveld, zoals voor het ontwikkelen van een (videocontent)marketingstrategie voor een bedrijf. KI-videogeneratoren maken het gemakkelijk om video’s te maken van elke tekst. In slechts een paar minuten kun je video’s op hoog niveau maken, waarin een avatar de geschikte informatie presenteert (Kasparova, 2023). Voorbeelden van een tekst to video generator zijn Stabiele verspreidingsvideo’sDeforum stabiele diffusieVEED.io en Ontwerpen.KI. 

    Input

    • Tekstuele gegevens
    • Visuele gegevens

    Output

    • Automation

    Technologie

    • Computer vision
  • Wat houdt het in? 

    Met beeldherkenning kun je als ontwerper onderzoek doen naar gebruikers. Je classificeert dan beelden aan de hand van door jou zelf opgestelde visuele criteria. Dit helpt ook om de helpdeskervaring of customer journey van klanten te verbeteren. Zo kunnen zorgverzekeraars beelden van schade sneller categoriseren en analyseren wanneer een polishouder foto’s bijvoegt of je kunt samenvattingen maken van sportevenementen (Vreekamp, 2022). 

    KI analyseert automatisch gebeurtenissen, gezichtsuitdrukkingen, overwinningsuitdrukkingen en spelmomenten om samenvattingen te maken. Ook kunnen fans gepersonaliseerde clips maken, gebaseerd op hun eigen voorkeuren, gecreëerd door KI. De KI-routine kan niet alleen naar spelmomenten kijken, maar ook naar de interactie die gebruikers met de clips hebben (Kok et al., 2021).  

    “Ook het bekijken van honderden foto’s of video’s kun je door KI laten doen. Beeldherkenningstools geven automatisch geëxtraheerde tekst bij beelden, waardoor je personen, objecten en activiteiten eenvoudig kunt (terug)vinden. Dat is handig als je op zoek bent naar meer algemene voorwerpen en objecten als boten, militairen, gebak, tulpen of wolkenkrabbers. Je krijgt vaak een percentage bij beelden hoeveel procent zekerheid het woord is dat specifieke beeld zit. […] Dit maakt het makkelijk om door een woord te zoeken ook video’s met deze objecten, mensen, woorden terug te vinden.”- Vreekamp: The art of AI: een praktische introductie in machine learning voor mediamakers. 

    Voorbeelden van beeldherkenning zijn; Google Cloud Vision API (alleen beeld), Amazon Rekognition (alleen beeld) en  AWS Rekognition (voor beeld en video’s).  

     

    Het verschil tussen beeldanalyse en beeldherkenning is dat beeldherkenning een tool is die je helpt om te vertellen welke objecten er in het beeld te vinden zijn. Wil je weten wat er gebeurt in het beeld, wat voor acties, emoties en scènes zich afspelen, dan gebruik je beeldanalysetools.  

    Input

    • Visuele gegevens

    Technologie

    • Computer vision

    Output

    • Suggestion
    • Perception
  • Wat houdt het in? 

    Deepfake is een technologie die gebruikmaakt van kunstmatige intelligentie om realistische nepvideo's, audio's of afbeeldingen te genereren. Het is een samentrekking van de termen "deep learning" en "fake." Met deepfake-technologie kunnen gezichten en stemmen van mensen in bestaande media worden vervangen door die van andere personen, waardoor het lijkt alsof de persoon in de nepcontent dingen zegt of doet die in werkelijkheid nooit hebben plaatsgevonden. 

    “Voor het deepfakeproces hebben we veel beeldinformatie, gezichten, nodig. Aan de hand van al die beelden van gezichten gaat een computer rekenen; we noemen dat trainen. De computer probeert dingen te verbinden en kan dat ook meenemen naar de volgende ‘ronde’. Dus hij leert van het proces en onthoudt dat en kan zichzelf daarin sturen. Hij vergelijkt het continu met wat het zou moeten zijn. Stel: je hebt veel beelden van een appel, dan controleert die continu, lijkt mijn appel nog op een appel? Soms gaat dat fout en stuurt die dat bij.”

    Deepfakes kunnen verschillend worden ingezet. Hoe zou het bijvoorbeeld zijn geweest als bij de BOOS-uitzending over seksueel grensoverschrijdend gedrag bij televisieprogramma The Voice niet de stemmen van de slachtoffers waren vervormd en niet alleen hun schaduw was getoond, maar als dit synthetische personen waren? De e-mails en brieven werden immers ook al voorgelezen door acteurs. Anno 2022 is het gebruik van de deepfake hiervoor nog maar een kleine stap. Het MIT-rapport schrijft dat je ook deepfakes kunt inzetten tegen onrecht, zoals in de film Welcome to Chechnya waar deepfakes worden gebruikt om de identiteit van vervolgde LHBTQ+-Tsjetsjenen te beschermen. De regisseur vond meerdere queeractivisten in NYC die "hun gezicht uit wilden lenen" aan het project als een activistisch gebaar (Vreekamp,2022).   

    Input

    • Visuele gegevens

    Technologie

    • Computer vision

    Output

    • Automation

Impact op het werkveld van AV-productie

Impact op werkprocessen  

Ontwikkelt een concept en/of plan  

In de ontwikkeling van concepten kun je gebruikmaken van generatieve KI-toepassingen, die met weinig moeite nieuwe ‘unieke’ content genereren. De text-to-sound-generator kan ondersteuning bieden bij het ontwikkelen van voice-overs voor films, documentaires, advertenties, etc. Of specifieke KI-toepassingen voor het creëren van video’s. Denk aan ‘how to’-video’s, ook wel tutorial video’s genoemd, die duidelijke, stapsgewijze instructies tonen om de klanten te helpen aan de slag te gaan met een product. Of een video om meer kennis over te brengen over een (complex) onderwerp (Kasparova, 2023). 

Andere toepassingen kunnen helpen in het analyseren en snel en efficiënt selecteren van de juiste beelden: Ontwerper Marie Lexow schetst een situatie waarin KI haar erg heeft geholpen in het werkproces:

“Degenen die uren en uren aan videomateriaal van kwalitatieve gebruiksinterviews hebben moeten evalueren, weten dat dit erg tijdrovend is. Een intelligente assistent kan de hoogtepunten uit de complexe gegevens overbrengen, clusteren en aanwijzen om ons te helpen inzichten te genereren.”

Dezelfde techniek kun je toepassen bij het selecteren van het juiste beeldmateriaal, bijvoorbeeld voor een thumbnail. Vincent Koops, datascientist bij RTL Nederland, vertelt hierover in het boek The Art of AI van Laurens Vreekamp: 

P. 122: “In samenspraak met ontwerpers van Videoland is een systeem ontwikkeld dat automatisch de beste stills van afleveringen uit een serie selecteert. Koops: “Dan zeggen ze tegen ons: ‘er moeten een tot drie gezichten in de thumbnail staan, het moet een mooi plaatje zijn, in focus, en fijn als er een van de hoofdrolspelers op staat.’ Dat soort dingen nemen we dan allemaal mee in het uitzoeken van de juiste thumbnail.” Deze zien wij als Videolandkijker wanneer we door de catalogus bladeren voor een avondje televisie on demand (Vreekamp, 2022). 

De filmindustrie past dit ook toe om snel bepaalde shots in scènes te kunnen vinden.

Koops legt uit (p. 124): “Als je kunt uitleggen dat je sneller shots in scènes kan vinden, dan zien mensen snel in dat het helpt in hun creatieve proces.”

Hieruit kun je concluderen dat deze toepassingen ondersteunend zijn aan het creatieve proces en dat ze geen werkproces wegnemen.  

Realiseert en bewerkt licht, beeld en/of geluid 

Naast generatieve KI-toepassingen komt deepfaketechnologie op. Dit zie je terug in audio- en videotoepassingen. Deepfake en AI artist bij Revel AI, Bob de Jong, werkt voor grote bedrijven en bureaus die deepfaketechnologieën inzetten voor campagnes en films.

De Jong vertelt: “Je moet denken aan projecten met toptalenten, als voetballers van het kaliber zoals Messi en dat soort mensen. Zij hebben weinig tijd, maar willen wel hun gezicht verkopen. Dat doen we dan door middel van deepfaketechnologie.”

“We bouwen een grote set-up met veel camera’s. Hoe meer camera’s hoe beter”, vertelt De Jong. “Dan maken we zoveel mogelijk lichtsituaties, zodat we in het latere proces met veel verschillende beelden kunnen werken. Soms vraagt een creatieve regisseur hele specifieke eindscenario’s. Dan moeten we dat uit al die beelden kunnen genereren. We willen elke hoek en lichtsituatie hebben. Dan vragen we diverse gezichtsemoties van bijvoorbeeld Messi, zodat we alles kunnen vastleggen.”

Dit proces is geheel opgezet om content te genereren waarin Messi is te zien, zonder dat het door hem is gespeeld. Er is een officiële, door het management goedgekeurde dubbelganger van Messi op wie de deepfake afgestemd is. Dit maakt het maakproces gemakkelijker omdat de ‘basis’ al erg lijkt op het eindresultaat.  

“Uiteindelijk sta je met een regisseur op de set en wil hij een specifiek shot hebben. Dan zeggen we: ja, dat kan. Dan draaien we met de body double en is het de bedoeling dat de deepfaketechnologie, met veel menselijke interventies, de body double ‘omtovert’ tot Messi”,

de Jong van Revel AI vertelt

Omdat de beelden zo specifiek zijn opgenomen, zijn ze ook voor andere commercials of campagnes in te zetten. Dit veld is nog niet goed uitgedacht. Van wie zijn de beelden die officieel fictief zijn, maar wel heel erg op Messi lijken?

“Dat is een hoog managementgevecht”, vertelt De Jong. “Normaal is het vrij logisch dat als je Messi een flesje melk laat vasthouden dat je dat beeld niet kan hergebruiken, omdat dit heel evident van een klant en het merk is. Nu kom je bij een gebied waar beeld anders gedefinieerd wordt, omdat het te hergebruiken is. Dus hoe dat juridisch is, daar gaat nog wel het een en ander over gezegd worden.”

Rufus Baas, kwartiermaker innovatie bij Mediacollege Amsterdam, stelt dezelfde vraag bij het natekenen van een appel. “Als ik een appel moet tekenen en ik teken het na van een foto van het internet, is dit interpreteren of kopiëren van beeld? We leven natuurlijk in een tijdperk waar beeldmateriaal op het internet zoveel gebruikt wordt. Hoe zit dat juridisch nou eigenlijk echt?” 

Om het (leer)proces van deepfakealgoritmes zo efficiënt en goed mogelijk te laten verlopen, heb je aan de voorkant goede selectieve input nodig. De Jong: “Toen we begonnen met het ontwikkelen van deepfake, begon je met materiaal dat je van internet plukte. Dus standaardinternetmateriaal van persoon A en persoon B en dat combineer je naar een deepfake. Nu scan je praktisch complete mensen, zodat je goede, selectieve input kunt genereren. Dat klinkt makkelijker dan het is; daar zit een heel proces aan vast om de juiste input te kunnen genereren.” 

De Jong vertelt dat hij zelf veel (online) research doet, veel leest en altijd dingen blijft overleggen met andere experts om tot het beste toolplan te komen. “Met zoveel informatie is dit soms best complex om de goede informatie te vinden. Maar dit onderdeel is wel key om het beste resultaat te behalen.” De Jong noemt dit ook wel ‘fix it in pre’, waar eerder vooral werd gezegd: ‘fix it in post’. Hiermee doelt hij op de verschillende productieprocessen binnen de audiovisuele techniek: 1) preproductie, 2) productie en 3) postproductie. “Wat je eigenlijk ziet, is dat die procesfases niet zozeer veranderen, maar alleen de hoeveelheid tijdsbesteding en werk. Die verandert gradueel naar meer preproductie.” 

“Het is altijd de grap binnen de av-industrie: ‘fix it in post’. Dat wil zeggen: je bent je film aan het draaien, alles gaat mis, belichting is niet goed, maar je denkt: dat lost de postproductie wel op met de computerprogramma’s. Dit verandert naar ‘fix it in pre’, omdat je in de voorkant alles slim gedaan wilt hebben.” Als je bijvoorbeeld Messi in een bepaald shot wilt verwerken, maar niet de goede ‘deepfakematerialen’ hebt, dan kan je dit eindshot niet maken of het schieten van de beelden moet opnieuw. Dit verandert het lineair denken van studenten: “Ik heb nu dit gedaan en nu doe ik dit. Dat is ook opgezet vanuit de kerntaken, maar gaat dus wel anders moeten in de toekomst”, vertelt Baas.  

Marnix van Weringh erkent deze verschuiving.

“Er kan al zoveel van tevoren gecheckt worden, gekeken worden of bepaalde dingen haalbaar zijn.” Van Weringh maakt de koppeling met een interessante werkwijze van Disney. “Je ziet bijvoorbeeld bij Disney dat zij gebruikmaken van CGI-software. Ze maken hele scènes volledig in animatie, voordat ze de scène echt gaan filmen. Al die data die ze verzamelen tijdens het animeren, gebruiken ze ook om daarna daadwerkelijk de camera te bedienen tijdens de opnames. Dus heel veel dingen worden van tevoren al getest en gecheckt.”

Dat heeft effect op de verschillende productiefases en de tijdsindeling. “Ook de preproductiefase en de productiefase versmelten veel meer. Je kunt op het moment dat je iets bedenkt dit ook direct digitaal ontwikkelen. Die fases volgen elkaar veel sneller op en die zijn denk ik ook lastiger uit elkaar te halen bij heel veel van de content.”  

Een van de bekendste voorbeelden waar KI veel is toegepast is de film Avatar (2). Daar werd tijdens het schieten van de film een ‘pakket’ opgezet waar alle belichting, acteurs en camerabewegingen in een ‘template’ werden opgeslagen. Vervolgens werden deze pakketten naar een specialeffectsbedrijf gestuurd dat er kunstmatige intelligentie, algoritmes en animatielagen op los liet. “Het is niet alsof het een Pixar-film is”, stelde director James Cameron. “Alles wat de acteurs deden, ook onder water, was echt, maar die gegevens moest door het specialeffectsbedrijf worden omgezet naar geloofwaardige 3D-modellen.”  

 

Impact op de benodigde vaardigheden 

Omdat de hele wereld meer online aanwezig wil zijn, en ook kleine bedrijven online content willen hebben, zie je dat werkgebieden en taken steeds meer elkaar gaan raken en meer in elkaar gaan overlopen. Marnix van Weringh, docent content creator bij ROC Tilburg, vertelt:

“Ik zie zelf bijvoorbeeld bij mensen bij wie ik in de klas heb gezeten die vormgeving hebben gedaan, dat zij niet alleen vormgever zijn, maar ook zo nu en dan een kleine reclame opnemen of fotograferen. Dan merk je dat veel van die dingen meer onder één dak terechtkomen, maar bij de grotere producties en grote bedrijven is die splitsing nog wel echt duidelijk zichtbaar.”

Hij vraagt zich hierbij af of de studenten zich misschien ook meer met elkaar moeten verbinden en/of ook meer mee kunnen krijgen van het beginproces van conceptontwikkeling.

“Misschien moeten onze studenten ook meer meegenomen worden in het opzetten van een concept: waarom werkt iets wel, waarom werkt iets niet? Dus ook een stukje denkproces van ze vragen.”

Bob de Jong, deepfake en AI artist bij Revel AI, vertelt over de verschuiving die hij ziet bij av-producties.

“Nu heb je heel erg een backend en een frontend, je hebt een vormgevingsopleiding en developersopleiding. Eigenlijk vloeit dat steeds meer samen. Prompt engineering bijvoorbeeld, dat gaat echt een vak worden, daar komt dat in samen. Die bètakant en het creatieve. Het gaat erom: hoe communiceer je met iets om tot een proces te komen?”

Rufus Baas, kwartiermaker innovatie bij Mediacollege Amsterdam, legt uit:

“Het heeft met creativiteit en snelheid te maken, vindingrijkheid. Als er zoveel data is, vind dan nog maar het juiste. Wat wil je precies hebben? Het is eigenlijk de taal van kunstmatige intelligentie begrijpen om de juiste vragen te kunnen stellen om opdrachten te kunnen geven om het juiste resultaat te behalen.”

Zowel Baas als de Jong vertelt over de toevoeging van ‘vindingrijkheid’ in het mbo. “Je zult dingen moeten proberen zonder te weten of het gaat werken en dingen durven weg te gooien om opnieuw te beginnen. Dus trial en error.” Dat is belangrijk om je eigen te maken, vertelt Baas.  

Juist in deze fase van ontwerpen en selecteren van de juiste data en technologie is waar de maker aandacht aan moet besteden in het verdere maakproces. “Je moet planmatig gaan nadenken over wat het eindproduct is waar je naartoe wilt werken. Wat voor technologie ga ik gebruiken? Wat voor input vraagt die technologie om zo goed mogelijk te functioneren”, beschrijft Baas. Je maakt vaak gebruik van meerdere technologieën en algoritmes, omdat een algoritme niet alles kan. Juist de specificering van één taak maakt het resultaat uit een algoritme beter. Baas legt uit

“Algoritmes zijn vaak ontwikkeld om een ding heel goed te kunnen. Dus de selectie maken welke algoritmes je gaat gebruiken, vraagt een makersoog om te begrijpen. Er is ook niet één hamer in de bouw. Tijdens het klussen kies je de juiste hamer voor de juiste klus. Die combinatie is waar de maker over na moet denken voordat die begint met de klus.”