Меню Закрыть

[Перевод] Как создать эффективный план разметки данных?

Введение

Для обучения моделей ML необходимо множество размеченных данных. Хотя это не всегда обязательно, но иногда вам приходится самостоятельно размечать данные для обучения модели. Процесс аннотирования данных в проекте ML — это важная и затратная по времени задача. Для её правильного выполнения вам придётся принимать решения о способе разметки данных, например, о том, на какие классы вы хотите разбивать данные. Именно множество всех этих решений по правильному аннотированию данных мы будем называть планом разметки данных.

К сожалению, хотя это является важной частью успешного обучения ИИ-модели, создание эффективного плана разметки данных — это нечётко заданный и плохо задокументированный процесс. Цель этой статьи — дать вам понимание процесса создания плана разметки. Ради простоты мы рассмотрим только задачу многоклассовой классификации. Каждая задача машинного обучения имеет свою специфику плана разметки, поэтому мы представим в статье только общий подход. В ней мы просуммируем все вопросы, которые вам нужно будет задать себе при создании плана разметки.

Статья будет разбита на две части. Сначала мы рассмотрим процесс принятия решений о плане разметки на основании принципов машинного обучения. Затем мы сосредоточимся на процессе принятия решений на основе экспертизы в аннотировании.
Читать дальше →

Читать дальше