Жобалар

Kazakh Named Entity Recognition

KazNERD — қазақ тіліндегі атаулы мәндерді анықтауға арналған ең ірі жалпыға қолжетімді деректер жиынтығы. Бұл деректер жиынтығы қазақ тіліндегі жалпыға қолжетімді аннотацияланған корпустарға, сондай-ақ қарапайым және түсінікті, бірақ қатаң ережелер мен мысалдарды қамтитын аннотациялау нұсқаулықтарына айқын қажеттілік болғандықтан әзірленді. IOB2 сұлбасына сүйене отырып әзірленген деректер жиынтығының аннотациялауы бірінші автордың басшылығымен екі қазақ тілді маманның көмегімен теледидар жаңалықтары мәтінінде орындалды. Деректер жиынтығы 112 702 сөйлем мен 25 атаулы мән тобына арналған 136 333 аннотациядан тұрады. Сонымен қатар қазақ тіліндегі атаулы мәндерді анықтау үрдісін автоматтандыру мақсатында әзірленген машиналық оқытудың төрт заманауи модельдерінің ең тиімдісі тестілеу жиынтығында F1 шамасы 97,22%-ға тең дәлдікке қол жеткізді.

Модельдерді оқыту үшін пайдаланылған аннотацияланған деректер жиынтығы, қазақ тіліндегі атаулы мәндерді анықтау бойынша нұсқаулық пен кодтар CC BY 4.0 лицензиясы бойынша https://github.com/IS2AI/KazNERD сайтынан жүктеуге тегін қолжетімді.

KazNERD деректер жиынтығын зерттеу мақсатында қолдансаңыз, ISSAI түпнұсқа мақалаға келесідей сілтеме жасауыңызды сұрайды:

Rustem Yeshpanov, Yerbolat Khassanov, and Huseyin Atakan Varol. 2022. KazNERD: Kazakh Named Entity Recognition Dataset. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 417–426, Marseille, France. European Language Resources Association.

KazNERD деректер жиынтығын коммерциялық мақсатта қолдансаңыз, ISSAI өніміңіз немесе қызметіңізге келесі сілтемені қосуды сұрайды:

Бұл өнім/қызмет Creative Commons Attribution 4.0 ұлтаралық лицензиясы бойынша қолжетімді ISSAI KazNERD (https://aclanthology.org/2022.lrec-1.44) деректер жиынтығын қолдана отырып ұсынылады.

0 / 1000

Атаулы мәндер тізімі және қысқаша анықтамасы:

  • ADAGE - НАҚЫЛ СӨЗ - Қазақ мақал-мәтелдері.
  • ART - ТУЫНДЫ - Өнер туындылары, теледидар бағдарламалары, ғылыми мәтіндер атаулары.
  • CARDINAL - ЕСЕПТІК САН - Бүтін сандар мен (ондық) бөлшектер.
  • CONTACT - БАЙЛАНЫС ДЕРЕКТЕРІ - Мекенжайлар, телефон нөмірлері, сілтемелер және электрондық пошта адрестері.
  • DATE - ДАТА - Даталар, күндер, апталар, айлар, атауы бар белгілі кезеңдер, мезгілдер, жылдар.
  • DISEASE - АУРУ - Ауру немесе бұзылу атаулары.
  • EVENT - ОҚИҒА - Атауы бар оқиғалар мен табиғи құбылыстар.
  • FACILITY - ҚҰРЫЛЫС - Адам қолымен жасалынған құрылымдардың атаулары.
  • GPE - ГӘС - Географиялық әкімшілік бірліктерінің атаулары.
  • LANGUAGE - ТІЛ - Тіл атаулары.
  • LAW - ЗАҢ - Заңдастырылған құжаттар атаулары.
  • LOCATION - МЕКЕН - GPE атаулы мәніне жатпайтын географиялық нысандардың атаулары.
  • MONEY - АҚША БІРЛІГІ - Құрамында сан және ақша бірлігі айқын берілген фразалар.
  • NORP - ҰДСҚ - GPE және LOCATION атаулы мәндеріне қатыстылықты білдіретін сөздер.
  • NON_HUMAN - АДАМ ЕМЕС - Жануарлардың және ойдан шығарылған жануар-кейіпкерлердің лақап аттары.
  • ORDINAL - РЕТТІК САН - Реттік сандар және реттік сандардан құрылған сын есімдер мен қыстырма сөздер.
  • ORGANISATION - ҰЙЫМ - Ұйым атаулары.
  • PERCENTAGE - ПАЙЫЗ - Құрамында сан және пайыз, процент сөздері немесе % белгісі бар фразалар.
  • PERSON - АДАМ - Адам есімі, фамилиясы, әкесінің аты.
  • POSITION - ОРЫН - Адамның белгілі бір ұйымның иерархиялық жүйесіндегі орны немесе атқаратын қызметі.
  • PRODUCT - ӨНІМ - Өнім атаулары.
  • PROJECT - ЖОБА - Жобалар, жоспарлар, бастамалар, стратегиялардың атаулары.
  • QUANTITY - ӨЛШЕМ - Құрамында сан және өлшем бірлігі айқын берілген фразалар.
  • TIME - УАҚЫТ - Бір тәуліктен қысқа кезеңдер.
  • MISCELLANEOUS - АРАЛАС - Атаулы мәнді анықтауға қиыншылық тудыратын сөздер, фразалар.

GitHub icon
Powered by GitHub