Dirbtinio intelekto modelis skirtas atpažinti laukinei gamtai

„Google“ atvėrė prieigą prie dirbtinio intelekto modelio „SpeciesNet“, sukurto gyvūnų rūšims atpažinti analizuojant kamerų video medžiagą bei nuotraukas.

Šarūnas Dignaitis - Kerpė

3/4/20253 min read

Mokslininkai visame pasaulyje naudoja paslėptas kameras su infraraudonųjų spindulių jutikliais laukinių gyvūnų populiacijoms tirti. Tačiau šie “skaitmeniniai spąstai” sukuria didžiulius duomenų kiekius, kuriuos analizuoti gali prireikti nuo kelių dienų iki kelių savaičių.

Siekdama padėti šioje srityje, „Google“ prieš maždaug šešerius metus pradėjo iniciatyvą „Wildlife Insights“, kuri yra „Google Earth Outreach“ filantropinės programos dalis. „Wildlife Insights“ atveria platformą, kurioje mokslininkai gali dalintis laukinės gamtos nuotraukomis, jas identifikuoti ir analizuoti, taip pagreitindami vadinamų paslėptų kamerų duomenų analizę.

Daugelį „Wildlife Insights“ analizės įrankių palaiko „SpeciesNet“, kurį, kaip teigia „Google“, buvo apmokyta naudojant daugiau nei 65 milijonus viešai prieinamų nuotraukų bei vaizdų iš tokių organizacijų kaip Smitsono instituto Gamtos apsaugos biologijos institutas, Laukinės gamtos apsaugos draugija, Šiaurės Karolinos gamtos mokslų muziejus ir Londono zoologijos draugija.

„Google“ teigia, kad „SpeciesNet“ gali klasifikuoti vaizdus pagal daugiau nei 2 000 kategorijų, apimančių gyvūnų rūšis, pvz.: žinduolius ar net ne gyvūninius objektus pvz.: transporto priemonės ir pan.

„SpeciesNet“ DI modelio išleidimas leis akademikams ir pvz.: biologinės įvairovės stebėsenos startuoliams plėsti biologinės įvairovės stebėjimą natūraliose buveinėse“, - rašoma pirmadienį „Google“ paskelbtame tinklaraščio įraše.

„SpeciesNet“ yra prieinamas „GitHub“ platformoje su „Apache 2.0“ licencija, todėl juo galima naudotis komerciniais tikslais be didesnių apribojimų.

Verta paminėti, kad „Google“ nėra vienintelė bendrovė, siūlanti atvirojo kodo įrankius paslėptų kamerų vaizdams analizuoti. „Microsoft“ iniciatyva „AI for Good Lab“ taip pat turi „PyTorch Wildlife“ - dirbtinio intelekto sistemą, siūlančią iš anksto apmokytus modelius, pritaikytus gyvūnų aptikimui ir klasifikavimui.

2-oji naujiena: nauja tinklalaidžių platforma su su daugiau nei 450 dirbtinio intelekto balsų

Tinklalaidžių arba podcastų įrašymo ir redagavimo platforma „Podcastle“ prisijungia prie kitų įmonių, kuriančių DI grįstas teksto į kalbą technologijas, pristatydama savo DI modelį „Asyncflow v1.0“. Taip pat bus prieinama API (aplikacijų programos sąsajų) kūrėjams, leidžianti tiesiogiai integruoti šį modelį į jų programas.

Dėl naujojo modelio bendrovė gali pasiūlyti daugiau nei 450 dirbtinio intelekto balsų, kurie gali įgarsinti tekstą. Startuolis teigia, kad ši technologija ir modelis buvo sukurti taip, kad jų mokymo ir taikymo kaštai būtų itin maži, taip suteikiant pranašumą prieš konkurentus.

Šiuo žingsniu „Podcastle“ prisijungia prie tokių startuolių kaip „ElevenLabs“, „Speechify“ ir „WellSaid“, kurie taip pat kuria DI modelius, galinčius paversti bet kokį tekstą įgarsintu garso įrašu. Ši technologija taikoma rinkodaros, reklamos, turinio kūrimo, švietimo ir verslo mokymų srityse.

„Podcastle“ įkūrėjas Arto Yeritsyanas portalui sakė, kad bendrovė nuo pat pradžių norėjo sukurti teksto į kalbą modelį, tačiau tam reikalingi dideli mokymo kaštai ir maži duomenų kiekiai ilgą laiką trukdė tai įgyvendinti.

„Nuo pat mūsų veiklos pradžios norėjome sukurti pažangų teksto į kalbą modelį. Tačiau kūrimo kaštai buvo labai dideli. Dėl pastarųjų metų pažangos didelių kalbos modelių srityje pernai pavyko pasiekti proveržį ir sukurti aukštos kokybės balso modelį, nereikalaujantį didžiulio duomenų kiekio“, - sakė Yeritsyanas.

Bendrovė šiems tikslams įgyvendinti pasinaudojo ir praėjusiais metais pritrauktu 13,5 mln. dolerių „Series A“ finansavimu.

Pasak Yeritsyano, „Podcastle“ už 500 minučių teksto į kalbą konvertavimą ima apie 40 dolerių, o „ElevenLabs“ už tą patį kiekį - 99 JAV dolerius.

Taip pat, šiuo etapu, tobulinama „Podcastle“ balso klonavimo funkcija, kuri leidžia greičiau išmokyti modelį atkartoti vartotojo balsą.

Anksčiau šiam procesui reikėdavo perskaityti apie 70 skirtingų sakinių, o dabar užtenka vos kelių sekundžių garso įrašo. Naujasis procesas taip pat naudoja praėjusiais metais pristatytą „Podcastle“ DI technologiją „Magic Dust“, kuri pagerina garso įrašų kokybę.

Atliekant bandymus, naujuoju metodu sukurtas balsas skambėjo šiek tiek robotiškai, tačiau išlaikė kalbėjimo toną. Bendrovė teigia, kad laikui bėgant ši funkcija bus patobulinta. Be to, vartotojai gali pateikti skirtingus balso pavyzdžius, kad gautų skirtingus rezultatus.

„Podcastle“ teigimu, be mažesnių kaštų, pranašumą prieš konkurentus suteiks ir naujai pertvarkyta platforma, kuri siūlo įrankius garso, vaizdo, tinklalaidžių kūrimui bei dirbtiniu intelektu grįstai įgarsinimo funkcijai vienoje vietoje. Pasak Yeritsyano, nors dauguma vartotojų „Podcastle“ naudoja garso turinio kūrimui, vaizdo turinio populiarumas taip pat sparčiai auga.