В столичных офисе Международного общества «Қазақ тілі» состоялась встреча с представителями компании OpenAI. Участники обсудили ход реализации совместного проекта по развитию казахского языка в цифровом пространстве и презентовали первые итоги работы. Вниманию экспертов представили текстовый корпус казахского языка (Kazakh Text Corpus) объемом более 10 миллиардов токенов, аудиокорпус (Speech Corpus) мощностью свыше 10 тысяч часов, а также набор AI Evaluation Benchmark Suite, предназначенный для оценки больших языковых моделей.
Этот масштабный проект реализуется в рамках соглашения между Международным обществом «Қазақ тілі» и OpenAI, подписанного 7 ноября 2025 года в Вашингтоне. Его главная цель – создание качественного цифрового контента и надежной базы данных для повышения качества работы больших языковых моделей на казахском языке. Сегодня эта инициатива стала одним из важнейших проектов, направленных на развитие цифровой экосистемы казахского языка.
В рамках проекта сформирован уникальный текстовый корпус казахского языка (Kazakh Text Corpus) объемом более 10 миллиардов токенов. Этот языковой ресурс создан на основе реальных источников, прошел глубокую очистку, классификацию, фильтрацию персональных и конфиденциальных данных, а также был дополнен необходимыми метаданными.
В корпус вошли тексты всех этапов исторического развития казахского языка, включая языковые традиции казахских диаспор за рубежом. Таким образом, авторам удалось создать глобальный цифровой ресурс, охватывающий все историческое и географическое пространство языка. Материалы охватывают сферы образования, науки, технологий, экономики, права, медицины, истории, этнографии, медиа и детского контента.
Параллельно система оптического распознавания текста (OCR) продемонстрировала высокую точность (99%) при обработке казахских текстов на кириллице. Эффективность системы структурного анализа документов (Layout Parsing), распознающей колонки и страницы со сложной версткой, также достигла 99%. Обе системы способны одновременно обрабатывать колоссальные массивы сгруппированных данных.
Для комплексного аудита больших языковых моделей на казахском языке была разработана специальная система AI Evaluation Benchmark Suite.
Она оценивает модели по ключевым направлениям, среди которых: понимание текста (Reading Comprehension), грамматика (Grammar), естественность казахского языка (Kazakh Language Naturalness), использование пословиц и устойчивых выражений (Proverbs & Idioms), академический перевод (Academic Translation), художественный перевод с казахского языка на английский (Literary Translation), перевод детской литературы (Kids Literature Translation), безопасность (Safety) и этнографические знания (Ethnography). На текущий момент полностью готовы семь из девяти направлений, а работа над блоками Safety и Ethnography находится на стадии завершения.
Данная система оценки была разработана на казахском языке, а не переведена с английского, с учетом языковых и культурных особенностей казахского языка. По ее первым результатам показатель понимания текста (Reading Comprehension) составил 76,89%, грамматики (Grammar) – 72,24%, использования пословиц и устойчивых выражений (Proverbs & Idioms) – 71,90%. При этом показатель естественности казахского языка (Kazakh Language Naturalness) пока составляет 23,08%. В сегменте перевода зафиксированы высокие результаты: академический перевод (Academic Translation) – 85,81%, художественный перевод (Literary Translation) – 86,46%, перевод детской литературы (Kids Literature Translation) – 89,22%.
На сегодняшний день для аудиокорпуса проекта собрано и очищено 10 810 часов аудиоматериалов. Из них 1000 часов – это датасет «золотого стандарта» (Gold Standard Dataset), который был транскрибирован вручную и прошел строгую экспертную проверку. Более 70% записей имеют частоту дискретизации от 44 кГц и выше, а сам фонд полностью состоит из образцов живой, естественной речи.
Сейчас точность моделей распознавания казахской речи (Speech-to-Text Models) превышает 92%. При этом зафиксированы случаи, когда ИИ-системы ошибочно принимают казахский язык за кыргызский, татарский или турецкий.
Международное общество «Қазақ тілі» разрабатывает оценочный бенчмарк Automatic Speech Recognition (ASR) для проверки способности языковых моделей воспринимать казахскую речь. Он позволяет проводить глубокую оценку точности распознавания слов (WER), точности распознавания символов (CER) и уровня охвата различных тематик.
В перспективе команда проекта намерена довести точность моделей транскрипции казахской речи до 99%.
В дальнейшем будет продолжена работа по повышению точности моделей распознавания казахской речи до 99%. В рамках данного партнерства созданы беспрецедентные по объему текстовые и аудиокорпуса на казахском языке, высокоточные инструменты цифровизации и комплексная инфраструктура для оценки качества больших языковых моделей. Эта работа качественно расширяет границы присутствия казахского языка в цифровом мире и уверенно выводит его в число конкурентоспособных языков эпохи искусственного интеллекта.
Справка: OpenAI, Inc. – американская технологическая компания, занимающаяся исследованиями и разработкой в области искусственного интеллекта.
Источник: Пресс-служба Международного общества «Қазақ тілі»
+7 707 356 64 91
