VELIKI JEZIKOVNI MODEL ZA SLOVENIJO

Nastaja slovenski ChatGPT in lahko ga že preizkusite

"Slovenščina ni suverena, če o njej odločajo v ameriških podjetjih," pravi vodja projekta Simon Krek. Slovenski model lahko že brezplačno preizkusite. Objavljamo povezavo v članku.
Fotografija: Središče Ljubljane v prihodnosti, kot si jo predstavlja umetna inteligenca danes. Opazne so razlike med dejansko in generirano podobo mesta ter gradu nad njim. Zato je vsebine, generirane z UI, treba jemati s pravšnjo mero previdnosti. FOTO: Delo UI


 
Odpri galerijo
Središče Ljubljane v prihodnosti, kot si jo predstavlja umetna inteligenca danes. Opazne so razlike med dejansko in generirano podobo mesta ter gradu nad njim. Zato je vsebine, generirane z UI, treba jemati s pravšnjo mero previdnosti. FOTO: Delo UI  

Za tiste, ki ste neučakani in se vam ne ljubi brati celotnega članka: slovenski ChatGPT, imenuje se PoVeJMo, že deluje. Preizkusite ga lahko na tej povezavi. A pozor, avtorji potrebujejo vašo pomoč, saj morajo jezikovni model natrenirati na čim več slovenskih besedilih. Zato prosijo, če jim pošljete vaše tekstovne datoteke, ki so primerne za treniranje modela.

Treba je vedeti še: obstoječi slovenski model je tisočkrat manjši od največjih modelov, zato se v odgovorih tudi pogosteje moti. Koristen pa je za testiranje, kakšen je učinek učenja na slovenskih podatkih, pravijo avtorji. Model tudi nima ustreznih varnostnih mehanizmov in je lahko v odgovorih pristranski.

Potrebujejo na milijarde besed

Na Centru za jezikovne vire in tehnologije Univerze v Ljubljani v okviru projekta PoVeJMo gradijo veliki jezikovni model za slovenski jezik. Ime mu je GaMS. Ocenili so, da za to nalogo potrebujejo besedila v obsegu 40 milijard besed. V ta namen organizirajo nacionalno zbiralno akcijo pisnih in govorjenih besedil v slovenščini. K posredovanju besedil vabijo prav vsakogar. Za besedila so že prosili velike institucije, kot so Narodna in univerzitetna knjižnica, in medijske hiše. K posredovanju besedil pa vabijo tudi posameznike in posameznice.

Avtorji projekta zbirajo vsa pisna besedila v digitalni obliki, posneta govorjena besedila in tudi rokopisno gradivo. Ker želijo raznovrstna besedila, lahko posamezniki pošljejo splošna besedila, ki jih ustvarjajo vsakodnevno, na primer zabeležke, elektronska sporočila, prošnje, blogovske zapise, zapise na družbenih omrežjih ipd., ali specializirana besedila z določenega strokovnega področja, članke, poročila ipd.

Pri pornografiji in sovražnem govoru: obvoz!

Ni pomembno, ali so besedila standardna, nestandardna, lektorirana ali nelektorirana – sprejemajo vsa. Pomembno je le, da imajo za oddana besedila avtorske pravice. Izključena sta tudi, kakopak, pornografija in sovražni govor.

Avtorji pravijo: »Čim več besedil bomo imeli, bolje bo model deloval. Jezikovni model lahko zgradimo samo skupaj in s sodelovanjem bodo posamezniki omogočili razvoj varne, kakovostne in odprto dostopne umetne inteligence v slovenščini.«

Kako sodelovati

Vsi, ki želijo sodelovati v zbiralni akciji besedil za projekt PoVeJMo, lahko pošljejo besedila, za katera imajo avtorske pravice, prek spletnega obrazca na spletni strani Povejmo.si.

Kaj se bo dogajalo z oddanimi besedili in posnetki

Besedila bodo namenjena za učenje velikega jezikovnega modela za slovenščino. Po šifriranju in varni hrambi gradiva bodo besedila najprej pretvorili v enotni, digitalni format. Nato bodo besedila strojno anonimizirali, odstranili bodo osebne informacije in zaščitili posameznikovo zasebnost. Za učinkovito treniranje in delovanje jezikovnega modela bodo besedila razbili na manjše dele (stavke, besede, celo znake), nato naučili jezikovni model, ki ga bomo na koncu še varnostno izboljšali in testirali.

Zakaj potrebujemo svoj jezikovni model

Veliki jezikovni modeli, kot je na primer ChatGPT, že vsebujejo slovenska besedila. Zato se poraja vprašanje, zakaj potrebujemo svoj jezikovni model. Razlogov je več, CJVT jih navaja spodaj. 

  • Razvojna neodvisnost. Priprava nacionalnega velikega jezikovnega modela bo omogočila razvojno neodvisnost na področju jezikovnih tehnologij in zasnovo, vsebino ter dostopnost modela v skladu s slovenskim javnim interesom.
  • Nadzorovan proces in varnost podatkov. Nadzorovana priprava velikega jezikovnega modela za slovenščino bo omogočila učinkovit nadzor nad vhodnimi podatki (besedili, na podlagi katerih bo model naučen) ter ustrezno upoštevanje zakonov o varstvu zasebnosti in zasebnih podatkov.
  • Odprta dostopnost. Slovenski jezikovni model bo odprto dostopen za raznolike vrste uporabe, od integracije v medicini in industriji do novih jezikovnih virov in tehnologij za pisni in govorni slovenski jezik, kar bo spodbudilo nadaljnji razvoj in konkurenčnost orodij ter storitev v slovenskem jeziku.
  • Premagovanje jezikovnih ovir. Nacionalni jezikovni modeli igrajo ključno vlogo pri odpravi jezikovnih ovir, kar omogoča širšemu spektru ljudi, da izkoristijo digitalne storitve. To vključuje posameznike iz oddaljenih ali manj razvitih območij, ki morda ne govorijo mednarodnih jezikov ali nimajo dostopa do specifičnih tehnoloških virov.
  • Boljše razumevanje in generiranje slovenščine. Veliki jezikovni modeli so pogosto razviti in optimizirani za angleščino in druge večje jezike. Trenutno javno dostopni veliki modeli so bili naučeni le z delčkom slovenskih besedil, zato za slovenščino delujejo precej slabše kot za ostale večje jezike. Model, razvit primarno na slovenščini, bo jezikovno bolj avtentičen in natančen.
  • Boljše poznavanje nacionalnih specifik. Nacionalni modeli lahko bolje upoštevajo lokalne kulturne specifike in navade, kar je pomembno za ustrezno in učinkovito komunikacijo.

Predstavitvene informacije

Komentarji:

Predstavitvene informacije