Lapa LLM: українські дослідники представили першу національну ШІ-модель

    270

    Українські та польські дослідники представили Lapa LLM, першу національну велику мовну модель (LLM), розроблену спеціально для міркування та врахування українських цінностей. Презентація відбулася під час IT Arena 2025, пише dev.ua.

    Lapa LLM створена для вирішення низки критичних проблем, які не враховують відкриті моделі:

    • Національна безпека та конфіденційність. Модель призначена для роботи з конфіденційними даними в оборонній сфері та великих компаніях. Це дозволяє обробляти інформацію локально, не передаючи її в хмарні сервіси.
    • Культурна узгодженість. Модель навчали на даних з урахуванням українського контексту, використовуючи автоматичні фільтри для запобігання поширенню російської пропаганди та «галюцинацій» щодо України. Для навчання залучили, зокрема, матеріали з бібліотеки Гарвардського університету.
    • Висока продуктивність. Lapa LLM покликана подолати низьку ефективність для української мови, яка властива багатьом іншим LLM.

    В основі Lapa LLM лежить 12-мільярдна модель Gemma від Google. Такий вибір забезпечує оптимальний баланс між продуктивністю та можливістю запуску на звичайних пристроях. Важливим досягненням є створення вдосконаленого українського токенізатора, який скорочує кількість токенів під час обробки українського тексту в 1,5 раза, що робить модель швидшою та економічнішою. За внутрішніми тестами, Lapa LLM вже перевершує більшу за розміром модель Gemma 3 з 27 мільярдами параметрів.

    Проєкт отримав підтримку від компаній Comand AI та Hugging Face. Реліз Lapa LLM, разом із наборами даних і скриптами, запланований на початок жовтня 2025 року під ліцензією MIT.