Машинное обучение и нейронные сети в биологии и медицине
О программе
Курс «Машинное обучение и нейросети в биологии и медицине» разработан специально для тех, кто работает с биологическими, медицинскими или лабораторными данными и хочет научиться использовать современные инструменты анализа без перегрузки сложной теорией.
Курс начинается с самых основ (программирование на Python, обработка данных) и шаг за шагом подводит к сложным нейросетевым моделям.
Цель программы – дать специалистам уверенные навыки работы с данными и моделями машинного обучения, чтобы они могли решать задачи своей предметной области. Слушатели научатся обрабатывать реальные данные (например, single-cell RNA-seq), классифицировать изображения с помощью сверточных нейронных сетей (CNN), использовать трансформеры (ESM) и инструменты вроде AlphaFold, ProteinMPNN, RFDiffusion, а также добавлять свои проекты в GitHub для работы в команде.
Этот курс — для тех, кто хочет не просто пользоваться готовыми инструментами, а понимать их устройство и применять осознанно.
Вы научитесь анализировать биомедицинские данные с помощью методов машинного обучения и нейросетей, разрабатывать собственные модели и уверенно применять их в реальных задачах — без избыточной теории и сложной математики.
Образовательные блоки программы
Тема 1. Особенности языка программирования Питон. Типы переменных. Динамическая типизация. Условный оператор. Циклы for и while.
Содержание
Компилируемые и интерпретируемые языки программирования. Динамическая типизация переменных. Преимущества динамической типизации. Типы переменных в Python. Изменяемые и неизменяемые переменные. Условный оператор if. Цикл итеративного перебора for. Цикл с предусловием while. Работа со строками и методы строк.
Практическая работа
Написание программ на Python с использованием условных операторов, циклов и строковых методов"
(работа с типами данных, циклами for/while, строками, модулем random)
Тема 2. Решение задач по работе со строками, условным операторам и циклам. Написание функций.
Содержание
Работа со строковыми переменными. Функции в Python. Написание функции на примере алгоритма поиска открытой рамки считывания в нуклеотидной последовательности и трансляция белка.
Практическая работа
Поиск открытой рамки считывания и трансляция нуклеотидной последовательности в последовательность аминокислот
Тема 3. Написание функции для выравнивания последовательностей ДНК алгоритмом Нидлмана-Вунша
Содержание
Работа со строковыми переменными. Функции в Python. Написание функции на примере алгоритма глобального парного выравнивания алгоритмом Нидлмана-Вунша. Использование готовой реализации алгоритма в библиотеке BioPython.
Практическая работа
Реализация алгоритма Нидлмана-Вунша для глобального выравнивания ДНК-последовательностей
Тема 4. GitHub - инструмент для совместных проектов
Содержание
Создание репозитория на GitHub для проекта анализа single-cell RNA-seq. Реализация оформления README, добавление кода и данных.
Тема 5. Основы анализа и визуализации данных. Основные библиотеки для анализа и визуализации (pandas, matplotlib, seaborn).
Содержание
Библиотека numpy для работы с высшей математикой и матрицами. Библиотека pandas для работы с таблицами. Методы работы с таблицами и анализа табличных данных. Библиотека matplotlob. pyplot для построения базовых и настраиваемых графиков. Библиотека seaborn для построения различных типов графиков.
Тема 6. Решение задач по основам визуализации и анализа данных
Содержание
Seaborn barplot, Pandas, сводная таблица.
Практическая работа
Понижение размерности данных с помощью PCA и визуализация главных компонент
Тема 7. Анализ и визуализация больших данных
Содержание
Типы графиков и настройка графиков для визуализации больших наборов данных: kdeplot, scatterplot, histplot и д.р. Снижение размерности как средство визуализации данных высокой размерности.
Практическая работа
Анализ больших данных и визуализация распределений признаков: исследование плотности, выбросов и взаимосвязей с использованием больших выборок
Тема 8. Анализ больших данных на примере single-cell RNA-Seq
Содержание
Задача снижения размерности и кластеризации, single-cell RNASeq. Инструменты из библиотеки scanpy.
Промежуточная аттестация
Тема 1. Обучение без учителя. Задача понижения размерности и кластеризации
Содержание
Термины и понятия: искусственный интеллект, машинное обучение, глубокое обучение, нейронные сети. Машинное обучение без учителя — основные задачи. Библиотека sklearn. Анализ single-cell RNA-Seq данных. Обучение без учителя: снижение размерности (PCA, t-SNE) и кластеризация (K-means, DBSCAN).
Тема 2. Решение задачи понижения размерности и кластеризации на примере single-cell RNA-Seq
Содержание
Задача снижения размерности и кластеризации. Задача кластеризации. Алгоритмы кластеризации. PCA анализ, алгоритм tsne.
Практическая работа
Кластеризация высокоразмерных данных: применение PCA и t-SNE для визуализации single-cell RNA-Seq
Тема 3. UMAP — современный алгоритм снижения размерности и визуализации многомерных данных
Содержание
Алгоритм UMAP для визуализации данных single-cell RNA-seq. Создание 2D-проекций клеточных популяций и сравнение с PCA.
Тема 4. Обучение с учителем. Задача классификации
Содержание
Основные понятия, недообучение и переобучение. Ошибка данных, матрица ошибок, ошибки 1 и 2 рода. Метрики качества. ROC-AUC кривая, логистическая регрессия. Дерево решений, GINI критерий. Метод опорных векторов, идея работы.
Тема 5. Написание и обучение моделей для решения. Задача классификации
Содержание
Задача классификации. Работа с датасетом breast cancer. Логическая регрессия. Кросс-валидация данных. Метод случайный лес. ROC-AUC кривая.
Практическая работа
Построение моделей классификации на датасете Breast Cancer и сравнение их качества с помощью ROC-AUC
Тема 6. Написание и обучение моделей для решения. Задача регрессии
Содержание
Обучение с учителем: задача регрессии. Решение задачи регрессии. Оснвоные метрики качества регрессии. Линейная регрессия, метод опорных векторов, метод градиентного спуска. Подбор гиперпараметров для решения задач обучения с учителем и без учителя. Ансамбли модели: стэкинг, бустинг и бэггинг.
Практическая работа
Решение задачи регрессии: линейная модель, SVM-регрессия, градиентный бустинг, ансамбли (bagging, stacking), подбор гиперпараметров
Тема 7. AutoML на примере решения задачи регрессии с помощью модуля PyCaret
Содержание
AutoML. Автоматическое машинное обучение. Библиотека PyCaret для автоматического машинного обучения. Преимущества и недостатки автоматического машинного обучения.
Практическая работа
Использование AutoML (PyCaret) для автоматического подбора модели регрессии и оценки её качества
Промежуточная аттестация
Тема 1. Установка модуля PyTorch. Основы Python, условный оператор, циклы
Содержание
Компилируемые и интерпретируемые языки программирования. Динамическая типизация переменных. Преимущества динамической типизации. Типы переменных в Python. Изменяемые и неизменяемые переменные. Условный оператор if. Цикл итеративного перебора for. Цикл с предусловием while. Работа со строками и методы строк.
Практическая работа
Разработка простых программ на Python: условные операторы, циклы, строки и генерация случайных данных.
Тема 2. Одиночный перцептрон. Строение и обучение
Содержание
Введение в нейронные сети. Задачи глубокого обучения, виды нейронных сетей. Одиночный перцептрон (нейрон) как основа всех нейронных сетей. Строение одиночного перцептрона. Линейная и логистическая регрессии.
Тема 3. Знакомство с объектно-ориентированным программированием на примере написания класса и обучения одиночного перцептрона
Содержание
Обучение одиночного перцептрона. Объектно-ориентированное программирование в Python на примере написания класса одиночного перцептрона.
Практическая работа
Создание класса одиночного перцептрона и обучение нейрона на простом датасете
Тема 4. Строение и обучение нейронных сетей
Содержание
Виды нейронных сетей. Общий план строения нейронных сетей. Полносвязные нейронные сети. Сверточные нейронные сети. Реккурентные нейронные сети. Алгоритм краткосрочной и долгосрочной памяти в искусственных нейронных сетях. Нейросети типа трансформер. Алгоритм внимания в нейронных сетях. Энкодер и декодер. Автоэнкодер.
Тема 5. Сверточные нейронные сети. Классификация изображений
Содержание
Задача классификации изображений. Сверточные нейронные сети как аналоги зрительной коры млекопитающих.
Тема 6. L1/L2 Регуляризация для борьбы с переобучением в нейронных сетях
Содержание
Методы регуляции L1 (Лассо) и L2 (Ридж). Их математическая основа, различия и применение для штрафа больших весов с целью снижения переобучения моделей. Реализация сверточной нейронной сети для классификации гистологических снимков. Применение L1/L2-регуляризации для снижения переобучения.
Тема 7. Решение задачи классификации изображений на примере классификации фотографий здоровых и поражённых Phythophthora infestans листьев картофеля
Содержание
Решение задачи классификации изображений на примере фотографий здоровых и поражённых Phythophthora infestans листьев картофеля.
Практическая работа
Подготовка датасета изображений для последующей классификации: структура данных о здоровых и поражённых листьях картофеля.
Тема 8. Использование предобученных моделей классификации изображений для задачи классификации изображений на примере классификации фотографий здоровых и поражённых Phythophthora infestans листьев картофеля. Сравнение с собственной моделью.
Содержание
Использование и возможности предобученных нейронных сетей. Замены выходного слоя предобученной нейронной сети. Дообучение предобученной модели на примере классификации фотографий здоровых и поражённых Phythophthora infestans листьев картофеля. Сравнение с собственной моделью.
Практическая работа
Дообучение предобученной нейросети для классификации изображений листьев картофеля и сравнение с собственной моделью
Тема 9. Использование предобученных нейронных сетей на примере ESM-трансформера. Решение задачи регрессии на примере предсказания температуры плавления белка по первичной последовательности
Содержание
Проблема векторизации строковых переменных (нуклеотидных и белковых последовательностей, слов). Использование предобученных нейронных сетей для векторизации белковых последовательностей. Решение задачи регресии на примере предсказания температуры плавления белка по первичной последовательности.
Практическая работа
Использование ESM-трансформера для векторизации белковых последовательностей и построение модели для предсказания температуры плавления белка
Тема 10. Сегментация изображений. Решение задачи сегментации на примере определения раковых клеток на гистологических препаратах.
Содержание
Сегментация изображений. Архитектура U-Net для решения задачи сегментации изображений. Понятие маски изображения. Сегментация как классификация каждого пикселя изображения. Решение задачи сегментации на примере определения раковых клеток на гистологических препаратах.
Практическая работа
Обучение простой архитектуры U-Net для сегментации раковых клеток на гистологических изображениях
Промежуточная аттестация
Тема 1. Базы данных и онлайн-сервисы для биологических и медицинских данных
Содержание
Базы данных NCBI, ClinVar, UniProt и RCSB PDB. Онлайн-сервисы, такие как AlphaFold3 Server. Методы работы с биологическими и медицинскими базами данных. Методы работы с последовательностями и структурами белков.
Тема 2. Нейронные сети для предсказания структуры белка и белковых комплексов. Теория
Содержание
Нейронные сети для предсказания структуры белка и белковых комплексов. Строение и обучение нейронных сетей AlphaFold1. Эволюционный подход к предсказанию структуры белка. Понятие матриц коэволюции аминокислотных остатков. Строение и обучение нейронных сетей AlphaFold2. Строение и обучение нейронных сетей AlphaFold3.
Тема 3. Установка операционной системы Linux, Anaconda/miniconda, PyMOL
Содержание
Установка операционной системы Linux. Базовые методы работы с операционной системой Linux. Установка програмного пакета Anaconda/miniconda. Понятие окружения и создание окружений в miniconda. Установка и возможности программного обеспечения PyMOL для 3D-визуализации белковых структур.
Тема 4. Нейронные сети для предсказания структуры белка и белковых комплексов. Практика.
Содержание
Нейронные сети для предсказания структуры белка и белковых комплексов.
Практика применения нейронной сети AlphaFold1 для предсказания структуры одиночного белка.
Практика применения нейронной сети RobeTTaFold для предсказания структуры одиночного белка.
Практика применения нейронной сети ESMFold для предсказания структуры одиночного белка.
Практика применения нейронной сети AlphaFold3 для предсказания структуры белковых, белок-нуклеиновых комплексов и комплексов белка с малыми молекулами.
Практика применения нейронной сети Chai-1 для предсказания структуры белковых, белок-нуклеиновых комплексов и комплексов белка с малыми молекулами.
Тема 5. ProteinMPNN — NN для предсказания первичной последовательности белка по структуре
Содержание
Проблема обратного фолдинга. Практические применения обратного фолдинга для повышения термостабильности и водорастворимости белков. Нейронная сеть ProteinMPNN для предсказания первичной последовательности белка по структуре.
Тема 6. ImmuneBuilder2 — NN для предсказания структуры антител, наноантител и Т-клеточных рецепторов
Содержание
Специализированные нейронные сети для предсказания структуры определённых классов белков. ImmuneBuilder2 для предсказания структуры антител, наноантител и Т-клеточных рецепторов. NanoNet для предсказания структуры наноантител.
Тема 7. RFDiffusion — NN для de novo дизайна белка
Содержание
Проблемы и возможности de novo дизайна белка. Практическое применение de novo разработанных белков. RFDiffusion для de novo дизайна белка. Chroma для de novo дизайна белка. BindCraftы для de novo дизайна белка.
Промежуточная аттестация
Преподаватели программы
Административная команда программы
Матрица компетенций
Научатся с нуля писать простые программы, строить графики, обрабатывать таблицы с экспериментальными и медицинскими данными — даже если раньше не программировали.
Поймут, как загружать и «приводить в порядок» сложные данные — например, результаты РНК-секвенирования или лабораторных исследований. Научатся видеть закономерности в больших таблицах и строить наглядные визуализации.
Освоят методы, которые позволяют «учить компьютер» находить отличия между группами (например, больные и здоровые) или предсказывать числовые параметры. Всё на простых примерах из биологии и медицины.
Пошагово разберутся, как устроены нейросети, как их самостоятельно писать и как их обучать. Научатся делать простые модели с нуля и понимать, как работают «чёрные ящики» ИИ.
Остались вопросы?
По завершении курса участники приобретут следующие практические навыки:
Шаги поступления
Оставьте заявку и заполните заявление
Отправьте пакет документов на d.soloveva@nsu.ru
Осваивайте курс в удобном темпе онлайн
Получите удостоверение (электронное — сразу, оригинал — за 30 дней)
Отзывы на наши программы
Конфигурации программы
Список необходимых документов
- Копия паспорта (разворот + прописка);
- Копия СНИЛС;
- Копия диплома о высшем/среднем профессиональном образовании или справка об обучении;
- Копия документа, подтверждающего трудоустройство обучающегося (копия трудового договора/трудовой книжки/выписка из трудовой книжки) - при наличии;
- Заявление/согласие на обработку персональных данных.
- Справка об обучении (для студентов)
Подать заявку на обучение
Сведения об образовательной организации
Налоговый вычет
Как оформить социальный налоговый вычет на обучение
Контакты
г. Новосибирск, Академгородок, ул. Пирогова, 2, уч.-лаб. корпус, каб. 205а
Дарья Соловьева, специалист отдела дополнительного профессионального образования