Приложения машинного обучения нуждаются в меньшем количестве данных, чем предполагалось ранее

Объединенная команда исследователей из Университета Британской Колумбии и Университета Альберты обнаружила, что по крайней мере некоторые приложения машинного обучения могут учиться на гораздо меньшем количестве примеров, чем предполагалось. В своей статье, опубликованной в журнале Nature Machine Intelligence, группа описывает тестирование, которое они проводили с помощью приложений машинного обучения, созданных для прогнозирования определенных типов молекулярных структур.

Машинное обучение может быть использовано в самых разнообразных приложениях—одним из наиболее известных является обучение распознаванию людей или объектов на фотографиях. Такие приложения обычно требуют огромных объемов данных для обучения. В своей новой работе исследователи обнаружили, что в некоторых случаях приложения машинного обучения не нуждаются в таких огромных объемах данных, чтобы быть полезными.

Исследователи изначально искали способы предсказать структуру дизайнерских лекарств. Это поможет медицинским исследователям подготовиться к ним, если люди, потребляющие их, начнут появляться в больничных отделениях неотложной помощи. Команда поняла, что их работа была бы намного проще, если бы они могли использовать приложение машинного обучения; к сожалению, существует только 1700 известных дизайнерских лекарств — это может быть использовано для обучения такой системы. Исследователи задавались вопросом, возможно ли выяснить, сколько данных потребуется для того, чтобы такая система была полезной, или может ли быть способ изменить алгоритм или данные, которые использовались для его обучения, чтобы позволить использовать менее доступные данные.

Чтобы выяснить это, исследователи создали 8500 моделей и обучили каждую из них наборам данных разного размера, взятым из 500 000 молекул в упрощенной системе ввода-вывода молекул. Затем они использовали эти модели для предсказания возможных типов молекул. При этом они обнаружили, что многие из моделей достаточно хорошо работают с ограниченным набором данных. Они также обнаружили, что большинство из них начали выравнивать свои предсказательные способности после всего лишь 10 000-20 000 записей данных. Когда они использовали наиболее эффективные модели для проведения своих первоначальных исследований, они обнаружили, что результаты были правильными примерно в 50% случаев.

Автор записи
. Top.Mail.Ru