Україна створює національну ШІ-модель на базі Google Gemma: деталі розробки

    1

    Україна розпочала роботу над створенням національної великої мовної моделі (LLM), основою для якої стане відкритий фреймворк Google Gemma. Для навчання штучного інтелекту планується використати масиви даних від понад 90 державних установ, включаючи судові реєстри, архіви, освітні матеріали та задокументовані докази воєнних злочинів росії.

    На першому етапі тренування моделі відбуватиметься з використанням обчислювальних потужностей Google. Однак у майбутньому систему планують повністю перенести на українську інфраструктуру, повідомляє Reuters.

    Команда розробників ставить перед собою кілька технічних завдань:

    • Удосконалити український токенайзер для зменшення кількості помилок і оптимізації роботи з текстом.
    • Провести донавчання моделі на специфічних україномовних масивах даних.
    • Розробити систему тестування для налаштування LLM під конкретні сценарії.

    За даними Reuters, проєкт має стратегічне значення для оборони. Штучний інтелект планують інтегрувати в системи управління на полі бою для координації підрозділів та моніторингу дій ворога. Важливо, що використання китайських моделей, таких як DeepSeek або Qwen, було відкинуто через ризики для національної безпеки.

    Окрему увагу приділено мовній адаптації. Існуючі глобальні ШІ-системи часто неякісно обробляють локальні діалекти, наприклад, специфічні говірки півдня України. Національна модель має розв’язати цю проблему. Для контролю якості створено чотири профільні комітети, які також дбатимуть про підтримку мов меншин, зокрема кримськотатарської.



    • інші новини