Nieuwe Kunstmatige Intelligentie Kan Verhalen Vertellen Op Basis Van Foto'S

{h1}

Kunstmatige intelligentie kan op een dag de betekenis van de uitdrukking "een afbeelding zegt meer dan duizend woorden" omarmen, terwijl wetenschappers nu programma's leren om afbeeldingen te beschrijven zoals mensen dat zouden doen.

Kunstmatige intelligentie kan op een dag de betekenis van de uitdrukking "Een afbeelding zegt meer dan duizend woorden" omarmen, terwijl wetenschappers nu programma's leren om afbeeldingen te beschrijven zoals mensen dat zouden doen.

Op een dag kunnen computers misschien net als mensen uitleggen wat er in video's gebeurt, zeiden de onderzoekers in een nieuwe studie.

Computers zijn steeds beter geworden in het herkennen van gezichten en andere items in afbeeldingen. Onlangs hebben deze ontwikkelingen geleid tot hulpprogramma's voor het vastleggen van afbeeldingen die letterlijke beschrijvingen van afbeeldingen genereren. [Super-intelligente machines: 7 Robotic Futures]

Nu ontwikkelen wetenschappers van Microsoft Research en hun collega's een systeem dat automatisch een reeks afbeeldingen kan beschrijven op dezelfde manier als iemand dat zou doen door een verhaal te vertellen. Het doel is niet alleen om uit te leggen wat items in beeld zijn, maar ook wat er lijkt te gebeuren en hoe het mogelijk een persoon kan laten voelen, aldus de onderzoekers. Als iemand bijvoorbeeld een foto krijgt van een man in een smoking en een vrouw in een lange, witte jurk, in plaats van te zeggen: "Dit is een bruid en een bruidegom", zou hij of zij kunnen zeggen: "Mijn vrienden zijn getrouwd Ze zien er heel blij uit, het was een prachtige bruiloft. "

De onderzoekers proberen kunstmatige intelligentie dezelfde vertelkwaliteiten te geven.

"Het doel is om AI's meer mensachtige intelligentie te geven, om dingen op een meer abstract niveau te helpen begrijpen - wat het betekent om leuk of griezelig of raar of interessant te zijn," zei Margaret Mitchell, senior computerauteur, een computerwetenschapper bij Microsoft Research. "Mensen hebben verhalen doorgegeven voor eonen, gebruiken ze om onze moraal en strategieën en wijsheid over te brengen." Met onze focus op verhalen vertellen we hopen dat AI's menselijke concepten op een manier begrijpen die heel veilig en heilzaam is voor de mensheid, in plaats van het te onderwijzen. hoe de mensheid te verslaan. "

Een verhaal vertellen

Om een ​​visual storytelling-systeem te bouwen, gebruikten de onderzoekers diepe neurale netwerken, computersystemen die bijvoorbeeld leren hoe katten in foto's kunnen worden geïdentificeerd door duizenden voorbeelden van kattenbeelden te analyseren. Het systeem dat de onderzoekers bedachten, was vergelijkbaar met het systeem dat werd gebruikt voor automatische vertaling, maar in plaats van het systeem te leren vertalen van de ene taal naar de andere, hebben de wetenschappers het systeem getraind om beelden in zinnen te vertalen.

De onderzoekers gebruikten Amazon's Mechanical Turk, een crowdsourcing-marktplaats, om werknemers in te huren om zinnen te schrijven die scènes beschrijven die uit vijf of meer foto's bestaan. In totaal beschreven de werknemers meer dan 65.000 foto's voor het computersysteem. De beschrijvingen van deze werknemers kunnen verschillen, dus de wetenschappers gaven er de voorkeur aan dat het systeem leerde van accounts van scènes die vergelijkbaar waren met andere accounts van die scènes. [Geschiedenis van A.I.: Artificial Intelligence (Infographic)]

Vervolgens voedden de wetenschappers hun systeem met meer dan 8.100 nieuwe afbeeldingen om te onderzoeken welke verhalen er werden gegenereerd. Bijvoorbeeld, terwijl een beeldbijschriftprogramma vijf afbeeldingen kan nemen en zeggen: "Dit is een foto van een familie, dit is een foto van een taart, dit is een foto van een hond, dit is een foto van een strand," de Het storytelling-programma kan dezelfde beelden bevatten en zeggen: "Het gezin kwam samen voor een cookout, ze hadden heel veel lekker eten, de hond was blij daar te zijn, ze hadden een geweldige tijd op het strand, ze hadden zelfs een duik in het water."

Een uitdaging voor de onderzoekers was hoe ze konden evalueren hoe effectief het systeem was om verhalen te genereren. De beste en meest betrouwbare manier om de kwaliteit van het verhaal te beoordelen is het menselijk oordeel, maar de computer heeft duizenden verhalen gegenereerd die mensen veel tijd en moeite zouden kosten om te onderzoeken.

In plaats daarvan probeerden de wetenschappers geautomatiseerde methoden om de kwaliteit van het verhaal te evalueren, om de prestaties van de computer snel te beoordelen. In hun tests concentreerden ze zich op één geautomatiseerde methode met beoordelingen die het meest overeenkwamen met het menselijk oordeel. Ze ontdekten dat deze geautomatiseerde methode de verhalenverteller van de computer beoordeelde als ongeveer even goed als verhalenvertellers van mensen.

Alles is fantastisch

Toch heeft de gecomputeriseerde verhalenverteller veel meer nodig om te sleutelen. "De geautomatiseerde evaluatie zegt dat het zo goed of beter doet dan mensen, maar als je echt kijkt naar wat er wordt gegenereerd, is het veel erger dan mensen," vertelde Mitchell aan WordsSideKick.com. "Er zijn veel geautomatiseerde evaluatiestatistieken die niet vastleggen en er moet nog veel meer aan worden gewerkt. Dit werk is een goed begin, maar het is nog maar het begin."

Bijvoorbeeld, het systeem "zal af en toe 'visuele objecten' hallucineren 'die er niet zijn," zei Mitchell. "Het is het leren van allerlei soorten woorden, maar er is misschien geen duidelijke manier om onderscheid te maken tussen deze woorden. Dus het kan denken dat een woord iets betekent dat het niet is, en dus zal het zeggen dat er iets in beeld is wanneer het niet is."

Daarnaast heeft de gecomputeriseerde verteller veel werk nodig om te bepalen hoe specifiek of gegeneraliseerd zijn verhalen zouden moeten zijn. Bijvoorbeeld, tijdens de eerste tests, "het zei gewoon alles was geweldig de hele tijd - 'alle mensen hadden een geweldige tijd, iedereen had een geweldige tijd, het was een geweldige dag,'" Mitchell zei. "Nu is dat misschien waar, maar we willen ook dat het systeem focust op wat saillant is."

In de toekomst zou geautomatiseerd vertellen mensen kunnen helpen automatisch verhalen te genereren voor diavoorstellingen van afbeeldingen die ze uploaden naar sociale media, zei Mitchell. "Je zou mensen helpen hun ervaringen te delen en tegelijk het nitty-zanderige werk verminderen dat sommige mensen nogal vervelend vinden," zei ze. Computergestuurd vertellen "kan ook mensen met een visuele handicap helpen om beelden te openen voor mensen die ze niet kunnen zien."

Als AI ooit verhalen leert vertellen op basis van reeksen afbeeldingen, "is dat een opstapje naar hetzelfde doen voor video," zei Mitchell. "Dat zou kunnen helpen bij het aanbieden van interessante toepassingen, bijvoorbeeld voor beveiligingscamera's, misschien wil je gewoon een samenvatting van alles wat opvalt, of je kunt automatisch tweet-evenementen leiden," zei ze.

De wetenschappers zullen hun bevindingen deze maand in San Diego beschrijven op de jaarlijkse bijeenkomst van het Noord-Amerikaanse hoofdstuk van de Associatie voor Computerlinguïstiek.

Oorspronkelijk artikel over WordsSideKick.com.


Video Supplement: How we teach computers to understand pictures | Fei Fei Li.





Wetenschappelijke Ontdekkingen

Onderzoek


Science Nieuws





Populaire Categorieën


WordsSideKick.com
Alle Rechten Voorbehouden!
Reproductie Van Materialen Toegestaan Alleen Prostanovkoy Actieve Link Naar De Site WordsSideKick.com

© 2005–2019 WordsSideKick.com