Содержание
Когда сотрудники компании начинают заниматься машинным обучением, некоторые из них ожидают, что сразу же построят модели, получив нужные результаты. И хотя некоторые процессы здесь похожи на инженерную магию, есть не технические, но тоже важные вопросы, с которыми надо разобраться. Если их правильно определить и качественно обработать данные, то вероятность успешной реализации вашего проекта сильно возрастёт. Следующие подсказки помогут сэкономить время любому менеджеру или инженеру, берущемуся за машинное обучение.
Первым делом задайте правильные вопросы — они являются самой сложной частью в мире машинного обучения. Цель любого проекта заключается в ответах на вопросы: что это такое, кто это написал, какие здесь паттерны, какова будет стоимость?
Задавая конкретные вопросы, которые потребуют ответа, вы сможете определить целевую функцию. Не задав их, ваша команда может впустую потратить множество часов на сбор, очистку, моделирование, а в результате получить бесполезный продукт. Такие провалы могут уменьшить воспринимаемую ценность машинного обучения в вашей компании.
Чтобы избежать этого, прежде чем продвигать проект, необходимо чётко задать вопрос, на который вы хотите найти ответ. Затем нужно определить целевую функцию (например, максимизировать точность), которую вы планируете использовать для оценки прогресса. Даже если ваш первый вопрос может оказаться не совсем правильным, по крайней мере, вы добьётесь прогресса в достижении конкретной цели.
90% усилий составляют сбор и предварительная обработка данных, только 10% заключаются в тестировании, отладке и эксплуатации созданной модели. При неглубоком обучении необходимо исследовать информацию, её технические особенности, а затем перевести это в подходящий формат. Даже при глубоком обучении данные нужно изучить и преобразовать, чтобы получить приемлемую производительность. И хотя многие операции выполняются с помощью нескольких строк кода при использовании библиотек, изучение данных и проверка на пригодность занимают много времени.
Разработка функций требует полного понимания специфики бизнеса. Наличие верных функций может существенно улучшить результат, поэтому нельзя просто поручить решение проблемы одному специалисту по аналитическим данным. Люди, начинающие работать с машинным обучением в вашей компании, должны иметь предостаточно времени, чтобы подготовиться и изучить данные. Рассчитывайте усилия, которые потребуются для выполнения подготовительного этапа.
Скорее всего, в производственных условиях вы собираете не все данные, на которые надеетесь. Поэтому в начале лучше заранее быть готовым к тому, что могут потребоваться дальнейшие улучшения. Так что планируйте этап предварительной обработки данных с запасом времени, управляя таким образом ожиданиями.
Машинное и глубокое обучение выдают результаты на основе какой-либо математической трансформации, проделанной с тренировочными данными. Эти алгоритмы могут найти в них некоторую закономерность, которую люди не способны обнаружить. Однако модель не может думать и принимать решения, она лишь регулирует значения, чтобы максимизировать или минимизировать свою целевую функцию. Попробуйте использовать эту модель на другом наборе данных и вы поймёте, насколько специфичны её «знания».
Необходимо подумать над тем, почему модель делает такой вывод, соотносится ли он с реальными данными, не будет ли неожиданных последствий использования. На это важно обращать внимание, потому что часто проще взять вывод (т. е. прогноз) модели и использовать его без учёта возможной предвзятости. Так как модель не «думает», она не станет адаптироваться к вашей этике, если только вы не включите это в целевую функцию и тренировочные данные.
Хотя средства и техники машинного обучения быстро развиваются, существует ряд дополнительных соображений, которые надо использовать в связке. Сфокусироваться на правильной цели, качественно обработать данные, оценить результаты на выходе — всё это вы должны проделывать при реализации любого проекта с использованием машинного обучения. По мере экспоненциального роста технических возможностей машин, всем нам нужно быстрее и усерднее продвигать деятельность по поддержке их обучения.