Машинное обучение в физике конденсированного состояния – Суперкомпьютерные атомистические многомасштабные технологии в физике конденсированного состояния и живых систем

Преподаватель: к.ф.-м.н. И.А. Круглов

В рамках курса студенты будут изучать основные алгоритмы машинного обучения, такие как линейная регрессия, метод опорных векторов, случайный лес, нейронные сети, некоторые алгоритмы Deep Learning (сверточные сети, LSTM и др.). Будут введены и объяснены некоторые задачи из физики конденсированного состояния, которые решаются с помощью методов машинного обучения: построение межатомных потенциалов, поиск взаимосвязи между структурой материала и его свойствами и др.

Цель дисциплины:

Ознакомление студентов с основными алгоритмами машинного обучения и примерами их применения с целью последующего использования при решении различного рода задач в физике конденсированного состояния

Задачи дисциплины:

· Ознакомление студентов с основными понятиями и алгоритмами машинного обучения для решения задач классификации и регрессии.

· Приобретение практических знаний по областям и способам применения методов машинного обучения в различных аспектах физики конденсированного состояния.

· Изучение основных библиотек, в которых реализованы различные алгоритмы машинного обучения, а также решение задач с их помощью по поиску взаимосвязей между структурой и свойствами твердых тел.

Содержание:

1. Введение в машинное обучение и основные библиотеки python

Что такое машинное обучение? Постановка задачи машинного обучения, классификация алгоритмов согласно решаемым задачам. Знакомство с библиотеками Python, содержащими большое количество полезных инструментов: от быстрых операций с многомерными массивами до визуализации и реализации различных математических методов (numpy, scipy, matplotlib, pandas).

2. Линейные модели в машинном обучении

Изучение одного из основных способов решения задач машинного обучения — предсказание с помощью линейных моделей. Оптимизация параметров алгоритма и их применение в различных задачах регрессии и классификации. Возникновение проблемы переобучения и способы борьбы с ней. Кросс-валидация как оценка способности алгоритма давать хорошие предсказания на новых данных. Разбор основных метрик качества линейных моделей.

3. Ядерные методы и композиции алгоритмов

Изучение методов опорных векторов и kernel ridge regression. Разбор метода решающих деревьев. Композиции алгоритмов как метод борьбы с переобучением: случайный лес и бустинг.

4. Нейронные сети

Структура нейронной сети и методы оптимизации ее параметров. Метод обратного распространения ошибки. Борьба с переобучением нейронных сетей.

5. Глубокое обучение и сверточные сети

Основы методов глубокого обучения. Описание некоторых алгоритмов, в том числе сверточных сетей и автокодировщика. Анализ изображений с помощью методов глубокого обучения.

6. Методы понижения размерности и матричные разложения

Переход в признаковое пространство меньшей размерности. Отбор наиболее важных признаков и создание новых на основе исходных. Метод главных компонент. Матричные разложения как способ понижения размерности и восстановления пропущенных значений в матрицах и построения рекомендательных систем.

7. Кластеризация и поиск аномалий

Алгоритмы машинного обучения без учителя. Поиск внутренних закономерностей в данных, определение наиболее важных признаков и кластеризация объектов по схожести. Основные методы кластеризации. Методы поиска объектов, которые далеки от имеющихся в обучающей выборке (аномалий).

8. Основные библиотеки для работы с алгоритмами машинного обучения

Обзор таких библиотек, как scikit-learn, tensorflow и keras. Решение некоторых примерных задач с помощью данных библиотек.

9. Основы теории функционала плотности и методов компьютерного дизайна материалов

Введение в теорию функционала плотности и методы поиска структуры материалов по их химическому составу. Постановка задачи необходимости использования методов машинного обучения для ускорения таких методов.

10. Построение межатомных потенциалов взаимодействия с помощью алгоритмов машинного обучения.

Необходимость использования межатомных потенциалов в решении задачи молекулярной динамики. Недостатки наиболее часто используемых потенциалов. Построение потенциалов на основе алгоритмов машинного обучения: GAP, MTP, FM и другие. Примеры их использования.

11. Методы информатики материалов, поиск взаимосвязей между структурой и свойствами

Поиск взаимосвязей между структурой и свойствами материалов с помощью методов химической информатики. Предсказание предела выносливости сталей, ширины запрещенной зоны, термоэлектрического коэффициента добротности и других свойств с помощью методов информатики материалов.

12. Другие задачи физики конденсированного состояния, решаемые с помощью методов машинного обучения

Направленный поиск новых материалов с помощью методов машинного обучения.

Основная литература:

1. Мюллер, А., and С. Гвидо. “Введение в машинное обучение с помощью Python.” Руководство для специалистов по работе с данными, 2017.

2. Флах, Петер. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных, 2017.

3. Миркин, Б. Г. “Введение в анализ данных: учебник и практикум для бакалавриата и магистратуры”, 2014.