AzEnRu
  • ОБ ИНСТИТУТЕ
    • Общая информация
    • Руководство
    • Структура
    • Общественные организации
    • Ученые
  • НОВОСТИ
    • Все новости
    • Важные новости
    • Мероприятия
    • Объявления
    • Зарубежные отношения и сотрудничество
    • Издательская деятельность
    • Интересная новости
  • НАУЧНАЯ ДЕЯТЕЛЬНОСТЬ
    • Научные направления
    • Научные результаты
    • Состав научного совета
    • Заседания научного совета
    • Годовой отчёт
  • ELMMETRİYA
  • ДИССЕРТАЦИОННЫЙ СОВЕТ
    • Докторантура
    • Состав Диссертационного совета
    • Заседания Диссертационного совета
    • Правила и инструкции
    • Авторефераты диссертаций
  • ИННОВАЦИОННАЯ ДЕЯТЕЛЬНОСТЬ
    • Потенциальные прикладные проекты
    • Создаваемые устройства
    • Прикладные работы
    • Патенты
    • Гранты
  • ИЗДАНИЯ
    • Известия НАНА
    • Учебники и монографии
  • КОНТАКТ
ГЛАВНАЯ СТРАНИЦА →НОВОСТИ
+A -A

azcorpus - Azərbaycan üçün ən böyük açıq mənbəli NLP korpusu (1,9 milyon sənəd, ~ 18 milyon cümlə)

10.04.2023 /

Son zamanlar, ChatGPT başda olmaqla NLP həllərinin çox məşhurlaşdığının şahidi oluruq. Bununla belə, NLP-də əksər tədqiqat işləri ingilis dili kimi yüksək resurslu dillərə yönəlmişdir. Az resurslu dillər üçün NLP tədqiqatında əhəmiyyətli boşluq var, Azərbaycan dili də istisna deyil.  Biz öz dilimizdə GPT məhsullarını hazırlamaq istəsək, əksər dillərdə olduğu adekvat korpusun mövcud olmamağı qarşımızı kəsirdi.

 

Biz NLP cəmiyyətinə töhfə vermək məqsədi ilə Azərbaycan dili üçün indiyə qədər yaradılmış ən böyük open-source NLP korpusunu  - “azcorpus”u yaratdıq.

 

Müxtəlif NLP layihələrində (text generation, chatbots) istifadə oluna biləcək “azcorpus” Azərbaycan dilində ümumilikdə 1,9 milyon mətndən və təqribən 18 milyon cümlədən ibarətdir. Mətnlər xəbər saytları, jurnallar, vikipediya məqalələri, kitablar daxil olmaqla müxtəlif mənbələrdən seçilmişdir və siyasət, iqtisadiyyat, elm, mədəniyyət, idman, tarix, cəmiyyət və s. o cümlədən bir sıra digər mövzuları əhatə edən mətnlərlə janr və mövzu üzrə əhatə olunub.

    

Ən əsası isə, azcorpus təkcə bədii ədəbiyyat deyil, həm də fizika, kimya və s. kimi elmi mətnləri də əhatə edəcək şəkildə genişləndirilib. 

    

Azcorpusda 3 mənbədən götürülmüş (az_books, az_wiki və az_news) və 1.876.492 təmizlənmiş sənəd var. Hazırda korpusun ümumi həcmi 23.4 GB təşkil edir. Müqayisə üçün qeyd edək ki, GPT-3 nəsil model müxtəlif mənbələrdən toplanmış 800 GB həcmli data, GPT-2 modeli isə 40 GB data üzərində öyrədilib.

    

Bu korpusu geniş ictimaiyyət üçün əlçatan etməklə biz Azərbaycan dilində NLP həllərinin yaradılması üçün gələcək tədqiqat və inkişafı stimullaşdırmağa, eyni zamanda dil müxtəlifliyi və mədəni irsin təşviqi kimi daha geniş məqsədə töhfə verməyə ümid edirik.

    

Korpusdan istifadə etmək üçün https://huggingface.co/datasets/azcorpus/azcorpus_v0 linkindən istifadə edə bilərsiniz.

technote.az

Tweet
ОБЪЯВЛЕНИЯ
  • 04.11.2025
  • 31.10.2025
  • 31.10.2025
    На заседании Диссертационного совета ED 1.20 состоится защита диссертационной работы
  • 27.10.2025
Akademik Telman Əliyev
www.telmanaliev.az
HORIZON EUROPE
AR Elm və Təhsil Nazirliyi
İdarəetmə Sistemləri İnstitutu
Avropa İttifaqının
HORIZON EUROPE proqramının
Rəqəmsal, Sənaye və Kosmos istiqaməti üzrə dayaq nöqtəsidir
DÖVRİ NƏŞR
  • ОБ ИНСТИТУТЕ
    • Общая информация
    • Руководство
    • Общественные организации
    • Структура
  • НАУЧНАЯ ДЕЯТЕЛЬНОСТЬ
    • Научные направления
    • Научные результаты
    • Докторантура
    • Магистратура
  • ИННОВАЦИОННАЯ ДЕЯТЕЛЬНОСТЬ
    • Потенциальные прикладные проекты
    • Прикладные работы
    • Патенты
    • Гранты
  • НОВОСТИ
    • Конференции, Собрания
    • Важные новости
  • ПОЛЕЗНОЕ
    • Объявления
    • Новые издания
    • Ссылки
Copyright © 2010-2025 Институт Систем Управления
Карта сайта