ОпенАИ-јев Вхиспер је најпрецизнији алат за препознавање говора АИ који смо до сада испробали

click fraud protection

ОпенАИ-јев Вхиспер ће са лакоћом преписати било шта за вас, и то је најбољи алат за транскрипцију на који сам до сада наишао.

Постоји неколико начина да препишете интервју или видео запис. Можете то учинити ручно само слушањем, што ће вам дати најбољу прецизност, али убедљиво најдуже, или можете користити услугу или алат. На пример, некада сам користио ИоуТубе, дозвољавао му да аутоматски генерише титлове, чува те титлове и уређује их да би решио све проблеме. Сада, постоје различити алати АИ који могу да ураде одличан посао, а један такав алат је ОпенАИ-ов Вхиспер.

Да бих показао колико добро алат ради, транскрибовао сам најновији КСДА ТВ видео. Као што можете видети у наставку, транскрибоваће одељке и временске ознаке, који се лако могу користити као титлови на платформама као што је ИоуТубе. Такође ради брзо; Користио сам га на свом М1 МацБоок Про-у да препишем 10-минутни видео за нешто више од пет и по минута.

Овај алат мења игру за креаторе садржаја који треба да генеришу титлове, људе који треба да транскрибују интервјуе или који само желе да претворе било коју врсту звука у текст. Сматрао сам да је тачност невероватна, а недавно сам преписао 25-минутни интервју у којем ниједна ствар није преписана погрешно. Вхиспер такође може да преводи језике у транскрибованом звуку.

Шта је шапат?

Вхиспер је аутоматски систем за препознавање говора који показује невероватну тачност у разумевању изговорених речи. Направио га је ОпенАИ, вероватно за употребу у системима као што су ЦхатГПТ, где сада можете разговарати са АИ, али је компанија такође отворила Вхиспер како би и заједница могла да га користи.

Начин на који то функционише је прилично напредан и укључује обуку о 680.000 сати надгледаних података прикупљених са интернета, од којих трећина није била на енглеском. Звук се дели на делове од 30 секунди, конвертује, а затим прослеђује у кодер, а декодер који је обучен ће покушати да предвиди одговарајући текстуални наслов. И други кораци се дешавају овде, али су прилично технички и укључују идентификацију језика који се говори, вишејезичну транскрипцију говора и превод на енглески.

Што се тиче упоређивања са другим алатима, ОпенАИ каже да Вхиспер прави до 50% мање грешака од других језичких модела, и ја верујем у то. Користио сам много алата током година да бих покушао да транскрибујем звук, и ништа није било тако тачно као Вхиспер за мене. Као што сам поменуо, транскрибовао сам 25-минутни интервју који је изашао беспрекорно, са чиме се скоро сваки алат бори.

Једна ствар која је посебно интересантна у вези са Вхиспером је да то није алатка намењена крајњим корисницима, већ програмерима и истраживачима. ОпенАИ је рекао да је разлог за отворено коришћење модела и кода био да „служе као основа за изградњу корисних апликација и за даља истраживања о робусној обради говора." Још увек можете да га подесите и користите, али то заправо није потрошачки производ ипак.

Постоји више модела које можете да користите приликом транскрипције звука, а за сваки постоје различити захтеви за вРАМ. Највећи модел захтева 10 ГБ вРАМ-а, иако је уједно и најтачнији. Постоје и модели само на енглеском језику, осим највећег модела, који би требало да смањи захтеве за вРАМ ако знате да је садржај који транскрибујете само на енглеском. У сваком случају, требаће вам а добар ГПУ са довољно вРАМ-а да га покрене и покрене.

Како користити ОпенАИ-јев шапат

Вхиспер из ОпенАИ-а је алатка отвореног кода коју можете лако покренути локално пратећи неколико туторијала. Ако имате МацБоок, постоје неки сложенији кораци да бисте га натерали да ради, али није тако лоше, јер ћете у суштини само морати да компајлирате Ц++ верзија Вхиспер-а из самог извора. То није званични порт, али је једини начин да га натерате да ради на Аппле силикону. Можете пратите овај водич на Медијуму како то учинити.

Такође можете само да га покренете у Гоогле Цоллаб-у, иако је спорији, или можете да га покренете локално ако имате к86 машина. Само треба да се уверите да имате инсталиран ффмпег и да можете клонирати Гит спремиште у којем се налази Вхиспер и покренути га. Једноставно следите упутства у Вхиспер Гит спремиште, и моћи ћете да подесите Вхиспер за кратко време. Што је ваш хардвер моћнији, то је боље, наравно, али ће радити на било чему са довољно вРАМ-а, само ће трајати дуже ако је ваш рачунар спорији.