Naujasis „Microsoft“ atvaizdų subtitrų AI padės pasiekti „Word“, „Outlook“ ir ne tik
Algoritmas netgi pralenkia žmones atliekant kai kurias ribotas užduotis

„Microsoft“ sukūrė naują vaizdų užrašų algoritmą, kuris viršija žmogaus tikslumą atliekant tam tikrus ribotus bandymus. Dirbtinio intelekto sistema buvo naudojama atnaujinant įmonės asistento programą silpnaregiams,Matydamas PGir netrukus bus integruota į kitus „Microsoft“ produktus, tokius kaip „Word“, „Outlook“ ir „PowerPoint“. Čia jis bus naudojamas tokioms užduotims kaip kurti Alt-text for images - funkcija, kuri ypač svarbi didinant prieinamumą.
Idealiu atveju visi įtrauktų visų vaizdų alternatyvųjį tekstą į dokumentus, žiniatinklį, socialinę žiniasklaidą, nes tai suteikia galimybę akliems žmonėms prieiti prie turinio ir dalyvauti pokalbyje, sakė „Microsoft“ AI komandos programinės įrangos inžinerijos vadovas Saqibas Shaikhas pranešime spaudai. Bet, deja, žmonės to nedaro. Taigi, yra keletas programų, kurios naudoja antraštes vaizdais, kad užpildytų alternatyvųjį tekstą, kai jo trūksta.
she-ra personažaiNaujasis algoritmas yra dvigubai geresnis nei jo pirmtakas sako „Microsoft“
Šios programos apima „Microsoft“ paties „Seeing AI“, kurį bendrovė pirmą kartą išleido 2017 m. Matydamas dirbtinį intelektą, kompiuterinis matymas apibūdina pasaulį, matomą per išmaniojo telefono kamerą silpnaregiams. Jis gali atpažinti namų apyvokos daiktus, skaityti ir nuskaityti tekstą, aprašyti scenas ir netgi atpažinti draugus. Jis taip pat gali būti naudojamas vaizdams apibūdinti kitose programose, įskaitant el. Pašto klientus, socialinės žiniasklaidos programas ir pranešimų programas, pvz., „WhatsApp“.
„Microsoft“ neatskleidžia „Seeing AI“ vartotojų numerių, tačiau sakė „Azure AI“ korporacijos viceprezidentas Ericas BoydasRibaprograminė įranga yra viena iš pirmaujančių programų akliems ar silpnaregiams. AI matymas buvo išrinktas geriausia programa arba geriausia pagalbine programatrejus metus iš eilėssukūrė „AppleVis“, aklų ir silpnaregių „iOS“ vartotojų bendruomenė.
Naujasis „Microsoft“ vaizdų užrašų algoritmas žymiai pagerins „Seeing AI“ našumą, nes jis gali ne tik identifikuoti objektus, bet ir tiksliau apibūdinti jų tarpusavio santykius. Taigi algoritmas gali pažvelgti į paveikslėlį ir ne tik pasakyti, kokius daiktus ir daiktus jis turi (pvz., Žmogus, kėdė, akordeonas), bet ir kaip jie bendrauja (pvz., Žmogus sėdi ant kėdės ir groja akordeonu). ). „Microsoft“ teigia, kad algoritmas yra dvigubai geresnis už ankstesnę vaizdų užrašų sistemą, naudojamą nuo 2015 m.
Algoritmas, kuris buvo aprašytas aišankstinio spausdinimo popierius, išleistas rugsėjo mėn, pasiekėaukščiausias visų laikų rezultatasant vaizdo antraštės etalono, žinomo kaip „nokaps“. Tai yra pirmaujanti pramonės šakų vaizdų subtitrų suvestinė, nors ji turi savo apribojimų.
„Nocaps“ etaloną sudaro daugiau nei 166 000 žmonių sukurtų antraščių, apibūdinančių maždaug 15 100 iš „The New York“ padarytų vaizdųAtidarykite vaizdų duomenų rinkinį. Šie vaizdai apima daugybę scenarijų, pradedant sportu, baigiant atostogomis, fotografuojant maistą ir dar daugiau. (Galite sužinoti apie vaizdų ir antraščių mišinį, ištyrę „nocaps“ duomenų rinkinįčiaarba žiūrėdami į žemiau esančią galeriją.) Išbandomi algoritmai, ar jie gali sukurti šių nuotraukų antraštes, kurios atitiktų žmonių nuotraukas.
Tinklelio vaizdasVis dėlto svarbu atkreipti dėmesį į tai, kad „nocaps“ etalonai fiksuoja tik nedidelę dalį vaizdų subtitrų, kaip bendros užduoties, sudėtingumo. Nors „Microsoft“ teigia, kad apranešimas spaudaikad jo naujasis algoritmas vaizdus apibūdina taip pat, kaip ir žmonės, tai tiesa tiek, kiek jis taikomas labai mažam vaizdų rinkiniui, esančiam nocaps.
Pralenkti žmogaus našumą naudojant „nokocaps“ nėra rodiklis, kad vaizdo antraštės yra išspręsta problemaKaip pasakojo „Harsh Agrawal“, vienas iš etalono kūrėjųRibaelektroniniu paštu: pranokti žmogaus našumą naudojant „nocaps“ nėra rodiklis, kad vaizdo antraštės yra išspręsta problema. Argawalas pažymėjo, kad metrika, naudojama vertinant „nocaps“ našumą, tik apytiksliai koreliuoja su žmogaus pageidavimais ir kad pats etalonas apima tik nedidelę visų įmanomų vaizdinių koncepcijų dalį.
Kaip ir daugumoje etalonų, „nocaps“ etalonas yra tik apytikslis modelių našumo rodiklis, sakė Argawalas. Viršijant žmogaus našumą, naudojant jokias kapsules, jokiu būdu negalima teigti, kad dirbtinio intelekto sistemos pralenkia žmones suprantant vaizdą.
Ši problema - darant prielaidą, kad konkretaus etalono našumą galima ekstrapoliuoti kaip pagrindinės užduoties našumą apskritai - yra dažna problema, kai reikia perdėti PG galimybes. Iš tikrųjų „Microsoft“ praeityje kritikavo tyrinėtojus, kad jie pateikė panašių teiginių apie savo algoritmų sugebėjimą suprasti parašytą žodį.
princesės dienoraštis
Nepaisant to, paveikslėlių antraštės yra užduotis, kuri per pastaruosius metus pastebimai patobulinta dirbtinio intelekto dėka, o „Microsoft“ algoritmai tikrai yra pažangiausi. Be integravimo į „Word“, „Outlook“ ir „PowerPoint“, vaizdų antraštes turintis AI taip pat bus prieinamas kaip atskiras modelis per „Microsoft“ debesų ir AI platformą „Azure“.