Проекты

Kazakh Named Entity Recognition

KazNERD — крупнейший общедоступный набор данных для распознавания именованных сущностей на казахском языке. Набор указанных данных создан в соответствии с наличием объективной потребности в общедоступных аннотированных корпусах на казахском языке, а также в целом ряде руководств по аннотированию, которые бы содержали доступные и одновременно четкие и понятные правила и примеры. Аннотирование набора данных, разработанного на основе схемы IOB2, выполнено на текстах телевизионных новостей двумя носителями казахского языка под руководством первого автора. Конечный набор данных содержит 112 702 предложения и 136 333 аннотаций для 25 групп именованных сущностей. Кроме того, из четырех моделей машинного обучения, разработанных с целью автоматизации процесса распознавания именованных сущностей на казахском языке, наиболее эффективная модель на тестовом наборе показала точность, равную 97,22% по F1 величине.

Аннотированный набор данных, использованный для обучения моделей, а также руководство по аннотированию именованных сущностей на казахском языке и все коды находятся в открытом доступе и доступны для бесплатного пользования и скачивания на сайте https://github.com/IS2AI/KazNERD в соответствии с международной лицензией CC BY 4.0.

Если Вами используется набор данных KazNERD для исследовательских целей, ISSAI просит ссылаться на оригинальную статью следующим образом:

Rustem Yeshpanov, Yerbolat Khassanov, and Huseyin Atakan Varol. 2022. KazNERD: Kazakh Named Entity Recognition Dataset. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 417–426, Marseille, France. European Language Resources Association.

Если набор данных KazNERD используется в коммерческих целях, ISSAI просит добавить следующее сообщение к Вашему продукту или услуге:

Данный продукт был произведен/Данная услуга оказывается при помощи ISSAI KazNERD (https://aclanthology.org/2022.lrec-1.44), находящегося в открытом доступе, в соответствии с международной лицензией Creative Commons Attribution 4.0.

1000 / 1000

Список именованных сущностей и их краткое определение:

GitHub icon
Powered by GitHub