Преподаватель: к.ф.-м.н. И.А. Круглов
В рамках курса студенты будут изучать основные алгоритмы машинного обучения, такие как линейная регрессия, метод опорных векторов, случайный лес, нейронные сети, некоторые алгоритмы Deep Learning (сверточные сети, LSTM и др.). Будут введены и объяснены некоторые задачи из физики конденсированного состояния, которые решаются с помощью методов машинного обучения: построение межатомных потенциалов, поиск взаимосвязи между структурой материала и его свойствами и др.
Цель дисциплины:
Ознакомление студентов с основными алгоритмами машинного обучения и примерами их применения с целью последующего использования при решении различного рода задач в физике конденсированного состояния
Задачи дисциплины:
· Ознакомление студентов с основными понятиями и алгоритмами машинного обучения для решения задач классификации и регрессии.
· Приобретение практических знаний по областям и способам применения методов машинного обучения в различных аспектах физики конденсированного состояния.
· Изучение основных библиотек, в которых реализованы различные алгоритмы машинного обучения, а также решение задач с их помощью по поиску взаимосвязей между структурой и свойствами твердых тел.
Содержание:
1. Введение в машинное обучение и основные библиотеки python
Что такое машинное обучение? Постановка задачи машинного обучения, классификация алгоритмов согласно решаемым задачам. Знакомство с библиотеками Python, содержащими большое количество полезных инструментов: от быстрых операций с многомерными массивами до визуализации и реализации различных математических методов (numpy, scipy, matplotlib, pandas).
2. Линейные модели в машинном обучении
Изучение одного из основных способов решения задач машинного обучения — предсказание с помощью линейных моделей. Оптимизация параметров алгоритма и их применение в различных задачах регрессии и классификации. Возникновение проблемы переобучения и способы борьбы с ней. Кросс-валидация как оценка способности алгоритма давать хорошие предсказания на новых данных. Разбор основных метрик качества линейных моделей.
3. Ядерные методы и композиции алгоритмов
Изучение методов опорных векторов и kernel ridge regression. Разбор метода решающих деревьев. Композиции алгоритмов как метод борьбы с переобучением: случайный лес и бустинг.
4. Нейронные сети
Структура нейронной сети и методы оптимизации ее параметров. Метод обратного распространения ошибки. Борьба с переобучением нейронных сетей.
5. Глубокое обучение и сверточные сети
Основы методов глубокого обучения. Описание некоторых алгоритмов, в том числе сверточных сетей и автокодировщика. Анализ изображений с помощью методов глубокого обучения.
6. Методы понижения размерности и матричные разложения
Переход в признаковое пространство меньшей размерности. Отбор наиболее важных признаков и создание новых на основе исходных. Метод главных компонент. Матричные разложения как способ понижения размерности и восстановления пропущенных значений в матрицах и построения рекомендательных систем.
7. Кластеризация и поиск аномалий
Алгоритмы машинного обучения без учителя. Поиск внутренних закономерностей в данных, определение наиболее важных признаков и кластеризация объектов по схожести. Основные методы кластеризации. Методы поиска объектов, которые далеки от имеющихся в обучающей выборке (аномалий).
8. Основные библиотеки для работы с алгоритмами машинного обучения
Обзор таких библиотек, как scikit-learn, tensorflow и keras. Решение некоторых примерных задач с помощью данных библиотек.
9. Основы теории функционала плотности и методов компьютерного дизайна материалов
Введение в теорию функционала плотности и методы поиска структуры материалов по их химическому составу. Постановка задачи необходимости использования методов машинного обучения для ускорения таких методов.
10. Построение межатомных потенциалов взаимодействия с помощью алгоритмов машинного обучения.
Необходимость использования межатомных потенциалов в решении задачи молекулярной динамики. Недостатки наиболее часто используемых потенциалов. Построение потенциалов на основе алгоритмов машинного обучения: GAP, MTP, FM и другие. Примеры их использования.
11. Методы информатики материалов, поиск взаимосвязей между структурой и свойствами
Поиск взаимосвязей между структурой и свойствами материалов с помощью методов химической информатики. Предсказание предела выносливости сталей, ширины запрещенной зоны, термоэлектрического коэффициента добротности и других свойств с помощью методов информатики материалов.
12. Другие задачи физики конденсированного состояния, решаемые с помощью методов машинного обучения
Направленный поиск новых материалов с помощью методов машинного обучения.
Основная литература:
1. Мюллер, А., and С. Гвидо. “Введение в машинное обучение с помощью Python.” Руководство для специалистов по работе с данными, 2017.
2. Флах, Петер. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных, 2017.
3. Миркин, Б. Г. “Введение в анализ данных: учебник и практикум для бакалавриата и магистратуры”, 2014.