AzEnRu
  • ABOUT THE INSTITUTE
    • General information
    • Administration
    • Structure
    • Social organizations
    • Scientists
  • NEWS
    • All news
    • Major news
    • Activities
    • Announcements
    • Foreign relations and cooperation
    • Publishing activities
    • Interesting news
  • RESEARCH ACTIVITY
    • Research areas
    • Scientific results
    • Members of the Science Council
    • Meetings of the Science Council
    • Annual report
  • ELMMETRİYA
  • DISSERTATION COUNCIL
    • Doctoral program
    • Members of the Dissertation Council
    • Meetings of the Dissertation Council
    • Rules and guidelines
    • Author’s abstracts of theses
  • INNOVATION ACTIVITY
    • Potential applied projects
    • Designed devices
    • Applied research
    • Patents
    • Grants
  • PUBLICATIONS
    • Transactions of ANAS
    • Textbooks and monographs
  • CONTACT
MAIN PAGE →NEWS
+A -A

azcorpus - Azərbaycan üçün ən böyük açıq mənbəli NLP korpusu (1,9 milyon sənəd, ~ 18 milyon cümlə)

10.04.2023 /

Son zamanlar, ChatGPT başda olmaqla NLP həllərinin çox məşhurlaşdığının şahidi oluruq. Bununla belə, NLP-də əksər tədqiqat işləri ingilis dili kimi yüksək resurslu dillərə yönəlmişdir. Az resurslu dillər üçün NLP tədqiqatında əhəmiyyətli boşluq var, Azərbaycan dili də istisna deyil.  Biz öz dilimizdə GPT məhsullarını hazırlamaq istəsək, əksər dillərdə olduğu adekvat korpusun mövcud olmamağı qarşımızı kəsirdi.

 

Biz NLP cəmiyyətinə töhfə vermək məqsədi ilə Azərbaycan dili üçün indiyə qədər yaradılmış ən böyük open-source NLP korpusunu  - “azcorpus”u yaratdıq.

 

Müxtəlif NLP layihələrində (text generation, chatbots) istifadə oluna biləcək “azcorpus” Azərbaycan dilində ümumilikdə 1,9 milyon mətndən və təqribən 18 milyon cümlədən ibarətdir. Mətnlər xəbər saytları, jurnallar, vikipediya məqalələri, kitablar daxil olmaqla müxtəlif mənbələrdən seçilmişdir və siyasət, iqtisadiyyat, elm, mədəniyyət, idman, tarix, cəmiyyət və s. o cümlədən bir sıra digər mövzuları əhatə edən mətnlərlə janr və mövzu üzrə əhatə olunub.

    

Ən əsası isə, azcorpus təkcə bədii ədəbiyyat deyil, həm də fizika, kimya və s. kimi elmi mətnləri də əhatə edəcək şəkildə genişləndirilib. 

    

Azcorpusda 3 mənbədən götürülmüş (az_books, az_wiki və az_news) və 1.876.492 təmizlənmiş sənəd var. Hazırda korpusun ümumi həcmi 23.4 GB təşkil edir. Müqayisə üçün qeyd edək ki, GPT-3 nəsil model müxtəlif mənbələrdən toplanmış 800 GB həcmli data, GPT-2 modeli isə 40 GB data üzərində öyrədilib.

    

Bu korpusu geniş ictimaiyyət üçün əlçatan etməklə biz Azərbaycan dilində NLP həllərinin yaradılması üçün gələcək tədqiqat və inkişafı stimullaşdırmağa, eyni zamanda dil müxtəlifliyi və mədəni irsin təşviqi kimi daha geniş məqsədə töhfə verməyə ümid edirik.

    

Korpusdan istifadə etmək üçün https://huggingface.co/datasets/azcorpus/azcorpus_v0 linkindən istifadə edə bilərsiniz.

technote.az

Tweet
ANNOUNCE
  • 04.11.2025
  • 31.10.2025
  • 31.10.2025
    Defense of a dissertation will be held at the meeting of ED 1.20 Dissertation Council
  • 27.10.2025
Akademik Telman Əliyev
www.telmanaliev.az
HORIZON EUROPE
AR Elm və Təhsil Nazirliyi
İdarəetmə Sistemləri İnstitutu
Avropa İttifaqının
HORIZON EUROPE proqramının
Rəqəmsal, Sənaye və Kosmos istiqaməti üzrə dayaq nöqtəsidir
DÖVRİ NƏŞR
  • ABOUT THE INSTITUTE
    • General information
    • Administration
    • Social organizations
    • Structure
  • RESEARCH ACTIVITY
    • Research areas
    • Scientific results
    • Doctoral program
    • Master`s program
  • INNOVATION ACTIVITY
    • Potential applied projects
    • Applied research
    • Patents
    • Grants
  • NEWS
    • Conferences, Assemblies
    • Major news
  • USEFUL
    • Announcements
    • New publications
    • Links
Copyright © 2010-2025 Institute of Control Systems
Sitemap