Жобалар

Kazakh Named Entity Recognition

KazNERD — қазақ тіліндегі атаулы мәндерді анықтауға арналған ең ірі жалпыға қолжетімді деректер жиынтығы. Бұл деректер жиынтығы қазақ тіліндегі жалпыға қолжетімді аннотацияланған корпустарға, сондай-ақ қарапайым және түсінікті, бірақ қатаң ережелер мен мысалдарды қамтитын аннотациялау нұсқаулықтарына айқын қажеттілік болғандықтан әзірленді. IOB2 сұлбасына сүйене отырып әзірленген деректер жиынтығының аннотациялауы бірінші автордың басшылығымен екі қазақ тілді маманның көмегімен теледидар жаңалықтары мәтінінде орындалды. Деректер жиынтығы 112 702 сөйлем мен 25 атаулы мән тобына арналған 136 333 аннотациядан тұрады. Сонымен қатар қазақ тіліндегі атаулы мәндерді анықтау үрдісін автоматтандыру мақсатында әзірленген машиналық оқытудың төрт заманауи модельдерінің ең тиімдісі тестілеу жиынтығында F1 шамасы 97,22%-ға тең дәлдікке қол жеткізді.

Модельдерді оқыту үшін пайдаланылған аннотацияланған деректер жиынтығы, қазақ тіліндегі атаулы мәндерді анықтау бойынша нұсқаулық пен кодтар CC BY 4.0 лицензиясы бойынша https://github.com/IS2AI/KazNERD сайтынан жүктеуге тегін қолжетімді.

KazNERD деректер жиынтығын зерттеу мақсатында қолдансаңыз, ISSAI түпнұсқа мақалаға келесідей сілтеме жасауыңызды сұрайды:

Rustem Yeshpanov, Yerbolat Khassanov, and Huseyin Atakan Varol. 2022. KazNERD: Kazakh Named Entity Recognition Dataset. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 417–426, Marseille, France. European Language Resources Association.

KazNERD деректер жиынтығын коммерциялық мақсатта қолдансаңыз, ISSAI өніміңіз немесе қызметіңізге келесі сілтемені қосуды сұрайды:

Бұл өнім/қызмет Creative Commons Attribution 4.0 ұлтаралық лицензиясы бойынша қолжетімді ISSAI KazNERD (https://aclanthology.org/2022.lrec-1.44) деректер жиынтығын қолдана отырып ұсынылады.

1000 / 1000

Атаулы мәндер тізімі және қысқаша анықтамасы:

GitHub icon
Powered by GitHub