Nastaja slovenski ChatGPT in lahko ga že preizkusite
Za tiste, ki ste neučakani in se vam ne ljubi brati celotnega članka: slovenski ChatGPT, imenuje se PoVeJMo, že deluje. Preizkusite ga lahko na tej povezavi. A pozor, avtorji potrebujejo vašo pomoč, saj morajo jezikovni model natrenirati na čim več slovenskih besedilih. Zato prosijo, če jim pošljete vaše tekstovne datoteke, ki so primerne za treniranje modela.
Treba je vedeti še: obstoječi slovenski model je tisočkrat manjši od največjih modelov, zato se v odgovorih tudi pogosteje moti. Koristen pa je za testiranje, kakšen je učinek učenja na slovenskih podatkih, pravijo avtorji. Model tudi nima ustreznih varnostnih mehanizmov in je lahko v odgovorih pristranski.
Potrebujejo na milijarde besed
Na Centru za jezikovne vire in tehnologije Univerze v Ljubljani v okviru projekta PoVeJMo gradijo veliki jezikovni model za slovenski jezik. Ime mu je GaMS. Ocenili so, da za to nalogo potrebujejo besedila v obsegu 40 milijard besed. V ta namen organizirajo nacionalno zbiralno akcijo pisnih in govorjenih besedil v slovenščini. K posredovanju besedil vabijo prav vsakogar. Za besedila so že prosili velike institucije, kot so Narodna in univerzitetna knjižnica, in medijske hiše. K posredovanju besedil pa vabijo tudi posameznike in posameznice.
Avtorji projekta zbirajo vsa pisna besedila v digitalni obliki, posneta govorjena besedila in tudi rokopisno gradivo. Ker želijo raznovrstna besedila, lahko posamezniki pošljejo splošna besedila, ki jih ustvarjajo vsakodnevno, na primer zabeležke, elektronska sporočila, prošnje, blogovske zapise, zapise na družbenih omrežjih ipd., ali specializirana besedila z določenega strokovnega področja, članke, poročila ipd.
Pri pornografiji in sovražnem govoru: obvoz!
Ni pomembno, ali so besedila standardna, nestandardna, lektorirana ali nelektorirana – sprejemajo vsa. Pomembno je le, da imajo za oddana besedila avtorske pravice. Izključena sta tudi, kakopak, pornografija in sovražni govor.
Avtorji pravijo: »Čim več besedil bomo imeli, bolje bo model deloval. Jezikovni model lahko zgradimo samo skupaj in s sodelovanjem bodo posamezniki omogočili razvoj varne, kakovostne in odprto dostopne umetne inteligence v slovenščini.«
Kako sodelovati
Vsi, ki želijo sodelovati v zbiralni akciji besedil za projekt PoVeJMo, lahko pošljejo besedila, za katera imajo avtorske pravice, prek spletnega obrazca na spletni strani Povejmo.si.
Kaj se bo dogajalo z oddanimi besedili in posnetki
Besedila bodo namenjena za učenje velikega jezikovnega modela za slovenščino. Po šifriranju in varni hrambi gradiva bodo besedila najprej pretvorili v enotni, digitalni format. Nato bodo besedila strojno anonimizirali, odstranili bodo osebne informacije in zaščitili posameznikovo zasebnost. Za učinkovito treniranje in delovanje jezikovnega modela bodo besedila razbili na manjše dele (stavke, besede, celo znake), nato naučili jezikovni model, ki ga bomo na koncu še varnostno izboljšali in testirali.
Zakaj potrebujemo svoj jezikovni model
Veliki jezikovni modeli, kot je na primer ChatGPT, že vsebujejo slovenska besedila. Zato se poraja vprašanje, zakaj potrebujemo svoj jezikovni model. Razlogov je več, CJVT jih navaja spodaj.
- Razvojna neodvisnost. Priprava nacionalnega velikega jezikovnega modela bo omogočila razvojno neodvisnost na področju jezikovnih tehnologij in zasnovo, vsebino ter dostopnost modela v skladu s slovenskim javnim interesom.
- Nadzorovan proces in varnost podatkov. Nadzorovana priprava velikega jezikovnega modela za slovenščino bo omogočila učinkovit nadzor nad vhodnimi podatki (besedili, na podlagi katerih bo model naučen) ter ustrezno upoštevanje zakonov o varstvu zasebnosti in zasebnih podatkov.
- Odprta dostopnost. Slovenski jezikovni model bo odprto dostopen za raznolike vrste uporabe, od integracije v medicini in industriji do novih jezikovnih virov in tehnologij za pisni in govorni slovenski jezik, kar bo spodbudilo nadaljnji razvoj in konkurenčnost orodij ter storitev v slovenskem jeziku.
- Premagovanje jezikovnih ovir. Nacionalni jezikovni modeli igrajo ključno vlogo pri odpravi jezikovnih ovir, kar omogoča širšemu spektru ljudi, da izkoristijo digitalne storitve. To vključuje posameznike iz oddaljenih ali manj razvitih območij, ki morda ne govorijo mednarodnih jezikov ali nimajo dostopa do specifičnih tehnoloških virov.
- Boljše razumevanje in generiranje slovenščine. Veliki jezikovni modeli so pogosto razviti in optimizirani za angleščino in druge večje jezike. Trenutno javno dostopni veliki modeli so bili naučeni le z delčkom slovenskih besedil, zato za slovenščino delujejo precej slabše kot za ostale večje jezike. Model, razvit primarno na slovenščini, bo jezikovno bolj avtentičen in natančen.
- Boljše poznavanje nacionalnih specifik. Nacionalni modeli lahko bolje upoštevajo lokalne kulturne specifike in navade, kar je pomembno za ustrezno in učinkovito komunikacijo.
Povedali so: Ključna je suverenost in neodvisnost od ameriških multinacionalk
- “Slovenščina ni suverena, če o njej odločajo v ameriških podjetjih.” – dr. Simon Krek, vodja Centra za jezikovne vire in tehnologije UL in vodja PoVeJMo.
- “Katerakoli korporacija lahko s spleta pobere besedila v slovenščini in jih uporabi, toda če takšen jezikovni model naredimo sami, smo neodvisni od njihovih samovoljnih odločitev. Sami lahko odločamo, komu bo na voljo, ga ciljno in transparentno razvijamo in nadzorujemo kakovost vhodnih besedil. Zgodovina slovenskega jezika je polna prelomnic in preizkušenj, ko je bilo treba jezik ubraniti nekih škodljivih teženj tipično od zunaj, ali pa potisniti njegov razvoj v novo dobo. Gradnja nacionalnega jezikovnega modela je gotovo ena od takšnih prelomnic. Prvič v zgodovini od nas na precej simbolen način zahteva, da svoj jezik predamo stroju, da bi ga lahko od tega stroja dobili nazaj v novi obliki.” – dr. Špela Arhar Holdt, koordinatorka zbiralne akcije besedil.
- “Slovenski jezik ima precej specifik v primerjavi z večjimi jeziki, na primer večjo pregibnost. Program učimo slovensko slovnico, semantiko, zgodovinskega in zdajšnjega razmišljanja v slovenščini. Lahko ga naučimo tudi pisanja v stilu posameznih avtorjev. Vse je odvisno od podatkov, ki jih bomo dobili. /.../ Ko gradimo neko infrastrukturo, kot je cesta, je jasno, da bo vsem dostopna. Tudi ko gradimo infrastrukturo, kot je jezikovni model, je jasno, da jo bomo uporabljali vsi in ta model bo pripadal vsem.” – dr. Marko Robnik Šikonja, redni profesor na FRI in vodja tehnične izvedbe PoVeJMo.