Slik skapte jeg snakkende RobotEldar bare ved hjelp av AI
I denne artikkelen forteller jeg grunnleggende om de AI-tjenestene jeg brukte, hva de gjør og hvordan du bruker dem effektivt gjennom en teknikk som kalles “prompt engineering”.
Dette lille AI-eksperimentet tar omtrent 30 minutter og er en morsom introduksjon til kunstig intelligens. Hver av disse AI-tjenestene kan brukes på en mer sofistikert måte for å generere enda mer komplekse ting, men som en introduksjon holder jeg det enkelt og forteller om det grunnleggende.
Hva er prompt engineering?
Prompt engineering er en måte å lage en samtale mellom deg og den AI-motoren du bruker, gjennom å mate inn oppgavespesifikke ledetekster. Den informasjonen du gir AI-motoren, er utgangspunktet for hva som vil genereres, og er av avgjørende betydning for resultatet.
Tips til prompt engineering:
- Hold den kort og spesifikk
- Bruk relevant kontekst i samtale
- Vær tydelig på ønsket utgang, hvis du har en bestemt type utgang i tankene
- Unngå å gi for mye spesifikk informasjon
- Prøv med forskjellige forespørsler for å se hva som fungerer best
Dette trenger du for å skape en snakkende 3D-karakter
Til min snakkende 3D-karakter brukte jeg AI-tjenestene:
- ChatGPT (skapte historien)
- Midjourney (skapte bildet)
- D-ID (skapte video, med fortellerstemmen)
ChatGPT er gratis å bruke, men Midjourney og D-ID har en grense på hvor mye du kan bruke tjenestene før du må betale.
Før du starter er det, som alltid, smart å ha en grov idé om hva du ønsker å lage. Noen spørsmål du kan stille deg selv er: Hva slags historie jeg vil lage? Ønsker jeg noen spesifikke hendelser? Hvordan ser jeg for meg karakteren? Å ha dette noenlunde klart for seg, er til hjelp når du instruerer AI-tjenestene.
I dette tilfellet ønsket jeg å lage en karakter inspirert av min kollega Eldar, og å gjøre ham til en robot med kunstig intelligens, som får jobb i et reklamebyrå!
Og det fikk jeg til! Slik gjør du også det, trinn for trinn:
Trinn 1: ChatGPT
Lag en historie med ChatGPT:
- Oppgi en detaljert "prompt"
- Bruk den genererte historien som utgangspunkt, hvis du ikke er fornøyd kan du be ChatGPT om å redigere den
- Juster historien manuelt om ønskelig
Trinn 2: Midjourney
Lag karakter med Midjourney:
Jeg benyttet en prompt som heter "IMG + Text". Det betyr at jeg brukte nettadressen til et bilde pluss en tekstbeskrivelse.
- Finn et referansebilde
- Lim inn URL til referansebildet samt en tekstbeskrivelse for å generere en karakter
- Velg det beste resultatet ved å klikke på U1, U2, U3, U4 (U = Upscale"), eller generer flere bilder til du er fornøyd
Trinn 3: D-ID
Lag animasjon og voice med D-ID:
- Last opp bildet generert i trinn 2 til D-ID
- Lim inn historien som ble generert i trinn 1
- Velg en foretrukket stemme for animasjonen
- Trykk på "Spill av lyd" og lytt til historien. Juster ord om nødvendig for å få en jevn flyt
- Klikk "Generer video" og vent på resultatet
Resultatet er imponerende, men ikke perfekt
Den siste måneden har jeg brukt utallige timer på å prøve forskjellige AI-tjenester og eksperimentert for å se hva som er mulig og ikke. Jeg har generert kode, alle slags datatabeller, ideer til innlegg på sosiale medier, rammer for tekstforfatting, historier, e-bøker, bilder, god natt-eventyr, videoer, måltidsplaner som inkluderer handlelister og oppskrifter, og så videre.
Men for noen dager siden, da jeg for første gang prøvde å bruke denne kombinasjonen av AI-tjenester, ble jeg skikkelig imponert over resultatet. Selv om animasjonen ikke er perfekt, eller ikke kan tilpasses, og voice-overen er den samme gamle roboten, er det imponerende hva som kan oppnås i løpet av ikke mer enn 30 minutter.
Hvis vi kan lage dette nå, prøv å forestill deg hva vi kan lage ved å bruke AI som verktøy i tiden som kommer. Best å holde seg oppdatert!