Google se osredotoča na indijske jezike z enostavnim preklapljanjem med jeziki v Zemljevidih, dvojezičnimi preklopi za iskanje in drugim

click fraud protection

Na virtualnem dogodku Google L10n se je Google ponovno osredotočil na indijske jezike s spremembami, ki pritegnejo večjezične ljudi v Indiji.

Indija je dežela stotih jezikov, kraj, kjer se narečje spremeni vsakih 100 km. V tehnološkem svetu, v katerem prevladuje angleščina, ti lokalni jeziki in narečja ne morejo zagotoviti dostopa do pomembnih izkušenj na internetu. Na današnjem virtualnem dogodku Google L10n Google večjezičnim uporabnikom v Indiji olajša obogatitev izkušenj v Indiji z enostavnim preklapljanjem med jeziki za Iskanje Google, boljšim dvojezičnim prikazom rezultatov v Iskanju Google, preprostim preklopom jezika v Google Zemljevidih, pomoč pri domači nalogi v hindijščini prek Google Lens in večjezični model umetne inteligence, imenovan MuRIL, ki računalnikom olajša razumevanje različnih človeški jezik.

Ozadje

Preden preidemo na objave, je tu nekaj ozadja, da razložimo kontekst naši mednarodni publiki. A velik del Indije je dvojezičen in večjezičen, pri čemer je angleščina prvi jezik le 0,02 % velike indijske populacije z več kot 1,2 milijarde ljudi. Le 10,6 % celotnega prebivalstva govori angleško. Nasprotno pa 43,63 % prebivalstva govori hindujščino kot svoj prvi jezik, medtem ko 57,1 % na splošno govori hindujščino (čeprav je to razdeljeno na različna podnarečja). Sledijo drugi jeziki, vendar v manjših odstotkih - bengalščina, maratščina in telugu v 8,9%, 8,2% oziroma 7,8%. Na kratko in na kratko je to, da osredotočanje tehnologije na angleščino kot edini dostopni medij varuje tehnologijo stran od zelo velikega števila uporabniki, ki bi se jim sicer tehnologija zdela popolnoma uporabna – in jo morda potrebujejo celo bolj kot tisti, ki že imajo dostop do tehnologije v drugih načine.

Kot sem omenil v svojem Pregled Google Nest Audio, celo nekaj, kot je pametni zvočnik, ponuja manj uporabe v večjezični nastavitvi kot v angleško govorečem gospodinjstvu. Ukazi v mešanih jezikih niso tako dobro prepoznani (na primer pretežno angleški ukaz z nekaj hindijskimi besedami) in nastavitev dvojezičnih jezikov je še vedno omejena na nekatere kombinacije (Hindujščina + urdujščina ali katera koli dva indijska jezika nista veljavna kombinacija, hindijščina + angleščina pa je). Razmere so boljše, kot so bile pred kratkimi leti, vendar še vedno obstajajo možnosti za izboljšave.

In Google to ve, saj tvori osnovo za današnje objave na dogodku L10n (igrljiva okrajšava za lokalizacijo, z 10 črkami med L in n).

Obvestila na dogodku Google L10n 2020

Preprosto preklapljanje med rezultati v angleškem in indijskem jeziku v Iskanju Google

Google ponuja možnost hitrega preklapljanja med rezultati v angleščini in hindijščini prek čipa/zavihka v Iskanju Google v indijskih zveznih državah s precejšnjim deležem hindijsko govorečega prebivalstva. Ta čip je v Indiji povečal število poizvedb v hindijščini za 10-krat.

Enako se zdaj širi na več indijskih jezikov. Iskanje Google bo zdaj ponujalo tudi možnost preklapljanja med rezultati v angleščini in tamilščini/telugu/bangli/maratščini.

Boljše dvojezično prikazovanje rezultatov v Iskanju Google

Uporabniki v Indiji, vključno z mano, raje tipkajo stvari v angleščini, tudi če se pričakujejo rezultati v lokalnem jeziku. Pravzaprav je transkripcija hindijščine v angleščino povzročila nastanek hindijščine, ki je hindijščina, zapisana z angleško abecedo.

Iskanje Google prihaja na pomoč takim dvojezičnim ljudem pri njihovih iskalnih poizvedbah. V naslednjem mesecu bo Iskanje po potrebi začelo prikazovati ustrezno vsebino v podprtih indijskih jezikih, tudi če je poizvedba je bil prečrkovan v angleščino, kar je povzročilo dvojezične rezultate iskanja v več jezikih poleg angleščine kot primarne. Podprti indijski jeziki za sekundarno so hindijščina, banglaščina, maratščina, tamilščina in telugu.

Preprosto preklapljanje med jeziki v Google Zemljevidih

Google Assistant in Discover imata možnost preklopa na drug jezik kot sistem, kar uporabnikom omogoča uporabo teh orodij po njihovih željah. Več kot 50 % vsebine v storitvi Google Discover si v državi ogledajo v indijskih jezikih, tretjina uporabnikov Google Assistant pa jo uporablja v indijskem jeziku.

Možnost spreminjanja jezikov v aplikaciji je zdaj razširjena na Google Zemljevide. Uporabniki lahko zdaj preprosto odprejo aplikacijo, odprejo Nastavitve in tapnejo »Jezik aplikacije«, da izberejo med največ devetimi jeziki. To bo uporabnikom olajšalo iskanje krajev, pridobivanje navodil za pot in navigacijo v jeziku, ki ga želijo za to nalogo.

Pomoč pri domači nalogi v hindijščini prek Google Lens

Google Lens vam to že omogoča rešiti matematične probleme pomagati pri domači nalogi vašega otroka. Lahko posnamete fotografijo matematične naloge in prikazan vam je vodnik po korakih, kako jo rešiti. Toda ta vodnik je bil prikazan predvsem v angleščini.

Google zdaj uvaja hindijske rešitve za pomoč pri domači nalogi v Google Lens.

MuRIL -- večjezični model AI, ki pomaga računalniškim sistemom razumeti indijske jezike v velikem obsegu

Veliko pogovorov o umetni inteligenci in strojnem učenju se osredotoča na razumevanje ljudi in človeškega jezika. Toda ko jeziki prevzamejo sto oblik, se ta pogovor spremeni v izjemno zahtevno nalogo, še večjo, kot je bila. Tukaj nastopi MuRIL.

MuRIL je okrajšava za Multilingual Represtantions for Indian Languages, večjezični model, ki se spreminja med jeziki. Med drugimi prednostmi nudi tudi podporo za transliterirano besedilo, na primer pri pisanju hindijščine z uporabo latinice. MuRIL je dober tudi pri določanju občutka transliteriranih stavkov. MuRIL podpira 16 indijskih jezikov in angleščino, kar mu daje največjo pokritost za indijske jezike med vsemi drugimi javno dostopnimi modeli te vrste.

MuRIL je bil odprtokoden in je na voljo za prenesite iz TensorFlow Hub zastonj.


Lepo je videti, kako podjetja usmerjajo pogovore k širšemu sprejemanju različnih jezikov. Upamo, da se bodo prizadevanja na tem področju nadaljevala tudi za druge jezike in druge regije.