Vienas iš pirmųjų tokio pobūdžio atvirų duomenų rinkinių: „Neurotechnology“ paskelbtas duomenų rinkinys leis tobulinti dirbtinio intelekto įrankius lietuvių kalba

Pranešimas spaudai

2024-06-07, 07:54

0 komentarų

Dirbtinio intelekto (DI) ir biometrinių technologijų kūrėja „Neurotechnology“ paskelbė apie laisvai prieinamą duomenų rinkinį, kuris leis tobulinti jau esamus ir kurti visiškai naujus didžiuosius kalbos modelius, kurie geriau supras lietuvių kalbą. Tai yra vienas iš pirmųjų tokio pobūdžio atvirų duomenų rinkinių, skirtų lietuvių kalbos specifikai.

„Windows 10 Pro OEM Lifetime Key GLOBAL“ tik už 14,6 eurus su nuolaidos kodu TFN. Spauskite čia, kad įsigyti.
Vienas iš pirmųjų tokio pobūdžio atvirų duomenų rinkinių: „Neurotechnology“ paskelbtas duomenų rinkinys leis tobulinti dirbtinio intelekto įrankius lietuvių kalba

Dirbtinio intelekto sprendimai šiuo metu geriausiai veikia anglų kalba, o jų pritaikymas sklandžiai nacionalinei kalbai – vis dar yra iššūkis. „Lietuviams aktualūs dirbtinio intelekto įrankiai, kuriais būtų galima naudotis gimtąja kalba. Matydami poreikį, surinkome duomenis ir paskelbėme juos atviroje prieigoje. Tokie duomenų rinkiniai paskatins kokybiškesnį didžiųjų kalbos modelių apmokymą nacionaline kalba“ – pasakoja „Neurotechnology“ dirbtinio intelekto sprendimų vystytojas Artūras Nakvosas.

„Neurotechnology“ paskelbtą duomenų rinkinį sudaro 13,848 klausimų-atsakymų poros lietuvių kalba, kuriose daugiausia dėmesio skiriama temoms, susijusioms su Lietuvos kultūra, istorija ir žmonėmis. Duomenų rinkinys parengtas pasitelkiant interneto enciklopedijos „Vikipedija“ straipsnius lietuvių kalba ir ateityje bus dar pildomas.

Rinkinys yra laisvai prieinamas internete adresu: https://huggingface.co/datasets/neurotechnology/lithuanian-qa-v1

„Neurotechnology“ siekia prisidėti prie atvirųjų duomenų sklaidos

Atsižvelgiant į tai, kad visiems laisvai prieinami duomenys skatina tiek mokslo, tiek technologijų vystymo pažangą, įmonė siekia prisidėti prie atvirųjų duomenų sklaidos: „Paskelbėme šį duomenų rinkinį atviroje prieigoje tikėdamiesi, kad jis bus naudingas ir kitose įmonėse dirbantiems specialistams bei palengvins didžiųjų kalbos modelių derinimą su lietuvių kalbos klausimais“ – teigia Artūras Nakvosas.

Anot įmonės „Neurotechnology“ specialisto, duomenų rinkinys padeda užpildyti didelę duomenų, reikalingų apmokymui lietuvių kalba, spragą, skatina vietos technologinę pažangą ir skaitmeninius lingvistikos projektus.

Natūralios kalbos apdorojimu paremti sprendimai

Įmonė „Neurotechnology“ plėtoja įvairius didžiaisiais kalbos modeliais paremtus dirbtinio intelekto sprendimus. Vienas jų – pokalbių robotas „StockGeist Financial Chatbot“, kuris atsako į pateiktas užklausas apie finansų rinką ir kriptovaliutų tendencijas. Pokalbių robotas taip pat visiems laisvai prieinamas internete adresu: chat.stockgeist.ai

Savo internetinėje svetainėje įmonė taip pat pristatė savo sukurtą pokalbių asistentą Robertą, kuris naudojasi visa svetainėje esančia bei papildoma informacija ir sugeba teikti išsamius atsakymus į vartotojų užklausas. Robertas yra sukurtas siekiant padėti lankytojams lengviau naviguoti per įmonės siūlomų produktų ir paslaugų spektrą, suteikiant jiems greitą ir tikslų informacijos srautą.

Įmonė taip pat aktyviai dirba prie didžiųjų kalbos modelių lietuvių kalba, apie kuriuos planuoja paskelbti artimiausiu metu.

0 komentarų

Rašyti komentarą

Prašome gerbti kitus komentatorius. Gerų diskusijų! Apsauga nuo robotų rūpinasi reCAPTCHA ir yra taikoma „Google“ privatumo politika ir naudojimosi sąlygos.

Populiarios naujienos

Taip pat skaitykite

Hey.lt - Nemokamas lankytojų skaitliukas