Типы машинного обучения: что это
и какие задачи решает

Понятия «искусственный интеллект», «машинное обучение» прочно вошли в нашу жизнь. Одни считают это удивительным будущим, которое уже с нами. Другим же кажется, что это очередная заумная теория, не имеющая практического значения. Рассмотрим, как работает машинное обучение, из чего оно складывается, какие прикладные задачи призвано решать.

Понятие машинного обучения

Отрасль науки, направленная на обучение искусственного интеллекта (ИИ) с целью заставить его без явного программирования действовать подобно человеку, носит название искусственного интеллекта (machine learning). Важно научить ИИ самостоятельно совершенствовать собственные способности и процесс своего обучения, для чего ему предоставляется массив сведений и понятий об окружающем мире. 

Обучение может происходить в двух формах: с учителем или самостоятельно. «Учитель» в терминах искусственного интеллекта – это не конкретный человек, а понятие, обозначающее вмешательство человека в процесс обработки информации.

Машинное обучение:

  • дает компьютерам возможность решать задачи, которые раньше выполнялись человеком
  • помогает составлять безошибочные прогнозы при предоставлении данных
  • становится неотъемлемой частью искусственного интеллекта, способствует его развитию

При анализе данных используются алгоритмы, машина изучает их с целью определения или предсказания чего-то.

Как это работает

Предсказание результатов на основе поиска закономерностей при изучении входных данных — главная задача машинного обучения. То есть машина работает по такой схеме: в нее вводятся данные, а она выдает результат. Чем больше информации и чем она лучше, тем корректнее и лучше решение. 

Машинное обучение базируется на трех понятиях:

  1. Данные. Чтобы получить корректный результат требуется большой массив базовых данных, которые могут быть собраны вручную или автоматически. 
  2. Признаки (features), то есть свойства, характеристики: пол человека, цена товара, пробег авто. Машина должна четко представлять, на что конкретно смотреть. 
  3. Алгоритм. Корректный выбор методики является гарантией качества, скорости работы и объема готовой модели.

Первый этап работы машинного обучения – сбор и очистка данных для ввода. Они должны быть достоверны, относиться именно к тому разделу задачи, который требует решения. Их нужно подготовить, очистить от ненужных значений, произвести выборку. 

Затем следует этап обучения, который предполагает поиск математической функции для выполнения задачи. Сюда относятся построение линий в простой линейной модели, генерация дерева для алгоритма случайного леса. Или нейронные сети.

После того, как алгоритм обучения прошел проверку на анализе учебных данных, его работу оценивают на совершенно незнакомых данных. При необходимости проводится корректировка ошибок. После этого модель подвергается оптимизации, чтобы при внедрении занимать меньше места, работать быстрее.

Какие задачи решает

Проблемы, которые решаются с помощью машинного обучения, имеют важное значение для бизнеса, науки, повседневной жизни. Задачи машинного обучения подразделяются на несколько групп.

Регрессия

Составление прогноза путем анализа объектов с разными признаками. Результат — число или числовой вектор. К примеру, машина получает данные по определенному интернет-магазину: количество купленных клиентами товаров, затраты на рекламу и работу с клиентами, ROI, размер среднего чека, число кликов или отказов. Машина должна путем анализа дать прогноз доходности на определенный период.

Метод классификации

Задаются определенные параметры, на основе которых машина выявляет категории объектов. Пример: нужно помочь школьникам с профориентацией путем изучения IQ, успеваемости по предметам, пола, возраста. Анализ и прогноз производятся путем поиска и проверки общих черт, сравнения, классификации результатов тестов, оценок и склада ума.

Кластеризация

Представленные данные подразделяются на однородные разделы по объединяющему признаку. Пример: кластеризация космических объектов по типам, размерам, расстоянию от Земли. 

Или имеются базовые данные о группе потенциальных покупателей конкретной модели одежды с определенным весом, ростом, телосложением. Сведения анализируются, клиенты разбиваются по кластерам. Результат: получается несколько типов людей с совпадающими характеристиками. 

Уменьшение размерности

Рассматриваются несколько сотен разновидностей свойств для описания явления. Аналитическая система должна среди ряда характеристик выбрать схожие, то есть из 200-300 характеристик получить 2-10. Визуализация подобных данных затруднительна, разобраться с ними трудно.

Идентификация

Из представленного массива базовых данных отбираются соответствующие определенным параметрам. Пример: на основе перечня симптомов ставится диагноз.

Прогнозирование

Машина по набору информации за установленный период определяет значения на заданный промежуток в будущем. Примером служит прогнозирование погоды.

Извлечение знаний

Выявляются взаимосвязи разных показателей одного и того же события или явления. Пример: определение закономерностей изменения биржевых индексов.

Такой обширный список задач машинного обучения доказывает его эффективность и востребованность в бизнесе, социальной жизни и многих отраслях науки.

Типы и методы

Основной вид машинного обучения – классический. Представляет собой простейшие алгоритмы, унаследованные от вычислительных машин середины 20 века: выявление закономерностей при проведении расчетов, определение траектории объектов. 

Среди типов машинного обучения можно выделить:

  1. Обучение с учителем (supervised learning). Машина имеет учителя, знающего корректный ответ. Ее задача – не дать ответ, а путем поиска взаимосвязей понять, почему это имеет место. Отсортированные данные вводятся в аналитическую систему, вписывается цель: проверка гипотезы, создание модели или предсказание чего-то.
  2. Обучение без учителя (unsupervised learning). Программа на базе паттернов проводит анализ данных, интерпретирует и систематизирует их, распознает взаимосвязи. Корректные ответы неизвестны, в результате часто выдаются неочевидные решения.
  3. Обучение с подкреплением (reinforcement learning). Способ, заимствованный из психологии. Задача – выявить оптимальные действия при нахождении в определенных сценариях, последствия которых могут иметь долгосрочный или краткосрочный характер. Нужно эти связи установить.
  4. Глубокое обучение. Deep learning. Вид обучения на базе анализа «больших данных» (Big Data). Обучение с применением нейронных сетей, так как одна программа или один компьютер с такой задачей не справится. 
  5. Огромный массив информации делится на небольшие части, которые направляются в разные устройства для обработки. Получается определенная цепочка из нескольких разделов: одно устройство собирает данные, передает их далее, 4-5 других процессоров изучают данные, передают по цепочке. Соседние устройства ищут решение.
  6. Работа нейронной сети применяется в системах распознавания объектов. После получения графической информации (фото) ее разбивают на отдельные точки. Система из этих точек выявляет линии и создает простые фигуры. Затем из простой фигуры получают сложную двумерную и трехмерную.

Методы машинного обучения

Алгоритмы машинного обучения все еще остаются на этапе развития, хотя многие из них уже нашли практическое применение. Для разных компьютеров нужны совершенно разные виды методик, а разные отрасли и задачи требуют применения разных методов машинного обучения.

Нейронные сети

Это имитация структуры головного мозга человека, в котором каждый из нейронов соединяется с несколькими соседними. Сеть имеет многослойную структуру: нейроны одного слоя передают информацию нейронам следующего слоя. В итоге данные достигают выходного слоя, где сеть выдает свой прогноз о способе решения задачи, классификации и так далее.

Дерево решений

Этот алгоритм направлен на классификацию предметов на основе анализа их атрибутов, расположенных в узловых точках древовидной схемы. В зависимости от решаемой задачи необходим выбор одной ветви, по которой идет движение до листа, то есть окончательного ответа. 

Случайный лес

Подбирается несколько случайным образом созданных решающих деревьев с разными наборами атрибутов. Это и есть алгоритм случайного леса (random forest), который позволяет деревьям выдать разные решения, чтобы выбрать самый популярный вариант.

Кластеризация

Метод машинного обучения, базирующийся на группировании элементов со схожими характеристиками с применением статистических алгоритмов. Используется для решения задач классификации.

Поиск ассоциативных правил

Метод нахождения отношений между переменными. Используется в механизмах выдачи рекомендаций: рекламе и коммерции.

Зачем это нужно, где используется

Машинное обучение широко используется во многих сферах. Число стартапов с использованием ИИ растет с каждым годом. Применяется в сферах, требующих больших объемов вычислений: при определении кредитного рейтинга в банке, для аналитики исследований в маркетинге и статистике, во время бизнес-планирования, при демографических исследованиях, инвестировании, поиске фейков и мошенников.

ИИ работает в учреждениях, обеспечивающих безопасность. В системе распознавания лиц с помощью камер сканируются все входящие или выходящие из метро. Затем машины сопоставляют их с теми, кто находится в розыске. При обнаружении большого сходства, появляется сигнал, после чего полиция отправляется проверять документы подозрительного лица.

В медицине искусственный интеллект работает с информацией о пациентах, проводит пробную диагностику, индивидуально назначает лечение, изучив данные о болезни.

Технологические прорывы ожидаются и наблюдаются в робототехнике:

  1. С помощью роботов можно тушить пожары, изучать морские глубины, находить полезные ископаемые и участвовать в их добыче. 
  2. ИИ способствует улучшению условий жизни людей, появляются роботы – пылесосы, аппараты, контролирующие здоровье, сон и активность, беспилотные авто.
  3. ИИ сможет создавать более сложные и объемные программы, чем человек.

В области маркетинга и электронной торговли, используя машинное обучение, удается выдавать пользователям персональные рекомендации. Крупные компании Гугл и Яндекс направляют его на показ релевантной рекламы. Человек ищет определенный товар или информацию в сети, после чего ему начинают приходить похожие предложения и ролики.

То же самое происходит в социальных сетях. Фейсбук, ВКонтакте, Твиттер, Инстаграм имеют свои аналитические машины, которые фиксируют интересы пользователей, то есть, что он чаще просматривает, что кликает, где чаще бывает. С возрастанием активности пользователя увеличивается персонализация его ленты новостей. Машина отсеивает то, что считает ненужным пользователю, преподносит то, что считает интересным для него. 

Применение ИИ в сфере инвестиций:

  • анализирует рынок
  • отслеживает новости
  • выбирает выгодные на данный момент активы 

Система может сделать прогноз о стоимости акций за конкретный период, в дальнейшем корректировать свои прогнозы с учетом изменений в отрасли.

ИИ способен совершить значительный прорыв в науке. В 2020 году нейросеть сумела раскрыть механизм сворачивания белков, чего не удалось за предыдущие 50 лет сделать ученым.

В будущем планируется использовать искусственный интеллект во всех сферах жизни и науки. Роботы будут сами учиться анализировать данную человеком информацию и определять свое поведение.

Технологии машинного обучения уже стали частью повседневной жизни людей. За счет прорывных методик и интеграции во многие сферы жизни МО способно усиливать конкурентоспособность в масштабах страны и всего мира.