О программе
Курс посвящен созданию и автоматизации пайплайнов для обработки данных геномного секвенирования. Участники изучат технологии секвенирования нового поколения (NGS), ключевые методы обработки больших геномных данных и освоят работу с современными инструментами для автоматизации анализа.
В ходе курса внимание будет уделено изучению этапов анализа данных геномного секвенирования и работе в командной строке Linux, созданию скриптов на Bash, управлению программной средой через Conda, контейнеризации приложений с использованием Singularity и созданию автоматизированных пайплайнов через Nextflow.
Сдать документы для поступления необходимо не позже, чем за 3 рабочих дня до старта программы.
При поддержке инфраструктурного центра HealthNet
Актуальность курса
Современная биология и медицина работают с огромными объёмами данных геномного секвенирования, и сегодня особенно востребованы специалисты, которые умеют не просто анализировать данные, а выстраивать автоматизированные и воспроизводимые биоинформатические пайплайны. Курс «Разработка биоинформатических пайплайнов» отвечает этому запросу, фокусируясь на практической работе с NGS-данными и инструментах, которые реально используются в научных и прикладных проектах.
В процессе обучения у слушателей формируется актуальный набор компетенций на стыке биологии и IT. Эти знания позволяют эффективно работать с «сырыми» данными секвенирования, снижать количество ошибок и масштабировать исследования под задачи науки, медицины и биотехнологической индустрии.
В процессе обучения у слушателей формируется актуальный набор компетенций на стыке биологии и IT. Эти знания позволяют эффективно работать с «сырыми» данными секвенирования, снижать количество ошибок и масштабировать исследования под задачи науки, медицины и биотехнологической индустрии.
Курс предназначен для
01
Биоинформатиков — специалистов, желающих расширить свои знания в области работы с NGS и автоматизации процессов
02
Начинающих исследователей и студентов — тех, кто только вступает на путь анализа больших геномных данных и хочет овладеть практическими инструментами
03
IT-специалистов — заинтересованных в изучении биоинформатики и применении знаний в задачах, связанных с анализом биологических данных
04
Ученых и исследователей в области биологии и геномики, которым важно получить навыки работы с NGS и инструментами для управления вычислениями
Образовательные блоки программы
Объем часов:
18 ак. ч.
Формат обучения:
онлайн
Модуль помогает снять ключевое ограничение, с которым сталкиваются специалисты при переходе к биоинформатике, — невозможность самостоятельно работать с большинством специализированных инструментов, требующих среды Linux.
Темы блока
Тема 1. Введение. Форматы данных
Содержание
Основные применения технологии NGS — транскриптомика, геномика, метагеномика. Основные этапы обработки данных. Тримминг, картирование, сборка. Форматы данных fastq, sam, vcf. Общая идея пайплайнов. Инструменты для написания пайплайнов.
Практическая работа
Изучение документации форматов файлов fastq, sam, vcf
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 2. Командная строка Linux
Содержание
Команды в Linux. Работа с файлами и файловой системой в Linux. Использование регулярных выражений. Модификация, анализ файлов при помощи команд. Объединение выполнения команд. Ярлыки, архивы, команды df, du, find.
Практическая работа
Написать команды для работы с файлами формата fastq, sam, vcf
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 3. Работа с bash
Содержание
Редактирование и запуск скриптов в Linux. Основы bash. Работа с файлами при помощи bash. Условные конструкции в bash. Выполнение скриптов на вычислительном кластере.
Практическая работа
Написать скрипт для автоматизации выполнения сложной команды
Написать скрипт для запуска команды на большом количестве файлов
Написать скрипт для запуска команд с условным оператором
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Промежуточная аттестация
Содержание
Основные применения технологии NGS — транскриптомика, геномика, метагеномика. Основные этапы обработки данных. Тримминг, картирование, сборка. Форматы данных fastq, sam, vcf. Общая идея пайплайнов. Инструменты для написания пайплайнов.
Практическая работа
Изучение документации форматов файлов fastq, sam, vcf
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 2. Командная строка Linux
Содержание
Команды в Linux. Работа с файлами и файловой системой в Linux. Использование регулярных выражений. Модификация, анализ файлов при помощи команд. Объединение выполнения команд. Ярлыки, архивы, команды df, du, find.
Практическая работа
Написать команды для работы с файлами формата fastq, sam, vcf
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 3. Работа с bash
Содержание
Редактирование и запуск скриптов в Linux. Основы bash. Работа с файлами при помощи bash. Условные конструкции в bash. Выполнение скриптов на вычислительном кластере.
Практическая работа
Написать скрипт для автоматизации выполнения сложной команды
Написать скрипт для запуска команды на большом количестве файлов
Написать скрипт для запуска команд с условным оператором
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Промежуточная аттестация
Объем часов:
20 ак. ч.
Формат обучения:
онлайн
Модуль знакомит с современными инструментами, позволяющими создавать воспроизводимые и управляемые вычислительные пайплайны.
Темы блока
Тема 1. Программы в ОС Linux: CONDA, SINGULARITY
Содержание
Запуск программ в Linux, переменная PATH. Установка программ при помощи conda. Окружение conda. Контейнеры singularity. Образы контейнеров Singularity. Запуск программы в контейнерах Singularity. Создание собственных контейнеров Singularity
Практическая работа
Создать контейнер Singularity, используя образ контейнера из Docker Hub
Запустить программу в контейнере Singularity
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 2. Пайплайны, фреймворк NextFlow, язык Groovy
Содержание
Лекция про пайплайны. Про имплицитный и эксплицитный, конвенциональный и конфигурационный синтаксис, про NextFlow
Базовое устройство NextFlow: workflow, process, channel, dag. Основы языка Groovy: типы данных, их методы, циклические и условные конструкции. Каналы NextFlow: каналы-значения и каналы-очереди, создание каналов. Методы каналов.
Практическая работа
Создание каналов NextFlow с использованием синтаксиса языка Groovy
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 3. Работа с процессами NextFlow
Содержание
Процессы в NextFlow. Передача значений из канала в процесс Nextflow. Скрипты для процессов Nextflow. Директивы процессов Nextflow. Управление источником программ и ресурсами для процессов Nextflow. Связывание процессов Nextflow при помощи каналов. Модули для Nextflow. Использование конфигурационного файла для Nextflow
Практическая работа
Создать Nextflow workflow, включающий несколько процессов, объединенных каналами
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Содержание
Запуск программ в Linux, переменная PATH. Установка программ при помощи conda. Окружение conda. Контейнеры singularity. Образы контейнеров Singularity. Запуск программы в контейнерах Singularity. Создание собственных контейнеров Singularity
Практическая работа
Создать контейнер Singularity, используя образ контейнера из Docker Hub
Запустить программу в контейнере Singularity
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 2. Пайплайны, фреймворк NextFlow, язык Groovy
Содержание
Лекция про пайплайны. Про имплицитный и эксплицитный, конвенциональный и конфигурационный синтаксис, про NextFlow
Базовое устройство NextFlow: workflow, process, channel, dag. Основы языка Groovy: типы данных, их методы, циклические и условные конструкции. Каналы NextFlow: каналы-значения и каналы-очереди, создание каналов. Методы каналов.
Практическая работа
Создание каналов NextFlow с использованием синтаксиса языка Groovy
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 3. Работа с процессами NextFlow
Содержание
Процессы в NextFlow. Передача значений из канала в процесс Nextflow. Скрипты для процессов Nextflow. Директивы процессов Nextflow. Управление источником программ и ресурсами для процессов Nextflow. Связывание процессов Nextflow при помощи каналов. Модули для Nextflow. Использование конфигурационного файла для Nextflow
Практическая работа
Создать Nextflow workflow, включающий несколько процессов, объединенных каналами
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Объем часов:
34 ак. ч. (+ 2 ак. ч.)
Формат обучения:
онлайн
Модуль последовательно охватывает полный классический цикл анализа NGS-данных — от оценки качества сырых прочтений до поиска и аннотации генетических вариантов — с использованием ключевых инструментов, применяемых в современной научной и прикладной практике.
Темы блока
Тема 1. Оценка качества данных, фильтрация и тримминг прочтения
Содержание
Оценка качества данных. Метрики качества секвенирования Запуск программ для оценки качества. Фильтрация и тримминг.
Практическая работа
Запустить программы для оценки качества и фильтрации прочтений. Изучить отчет с метриками качества образца
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 2. Картирование на референсный геном
Содержание
Картирование на геном. Оценка качества картирования. Постобработка картирования (маркирование дупликатов, BQSR).
Практическая работа
Картирование на геном и оценка качества. Написать скрипт для запуска программы для картирования прочтений на геном, а также запустить программу для маркирования дупликатов в прочтениях
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 3. Поиск мутаций: SNP, indel, CNV
Содержание
Поиск герминальных и соматический мутаций (SNP, Indel). Поиск вариантов числа копий (CNV).
Практическая работа
Поиск мутаций различного типа в данных.
Написать скрипт для запуска программы для поиска мутаций (DeepVariant, CNVkit)
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 4. Аннотация
Содержание
Аннотация вариантов. Проверка точности пайплайнов.
Практическая работа
Аннотация вариантов. Написать скрипт для запуска программы для аннотации вариантов (Ensembl VEP)
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 5. Проверка точности пайплайнов
Содержание
Специфика и примеры использования каждой технологии. Общее начало (тримминг, картирование), специфичные ответвления, сборка транскриптома/генома/метагенома.
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Содержание
Оценка качества данных. Метрики качества секвенирования Запуск программ для оценки качества. Фильтрация и тримминг.
Практическая работа
Запустить программы для оценки качества и фильтрации прочтений. Изучить отчет с метриками качества образца
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 2. Картирование на референсный геном
Содержание
Картирование на геном. Оценка качества картирования. Постобработка картирования (маркирование дупликатов, BQSR).
Практическая работа
Картирование на геном и оценка качества. Написать скрипт для запуска программы для картирования прочтений на геном, а также запустить программу для маркирования дупликатов в прочтениях
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 3. Поиск мутаций: SNP, indel, CNV
Содержание
Поиск герминальных и соматический мутаций (SNP, Indel). Поиск вариантов числа копий (CNV).
Практическая работа
Поиск мутаций различного типа в данных.
Написать скрипт для запуска программы для поиска мутаций (DeepVariant, CNVkit)
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 4. Аннотация
Содержание
Аннотация вариантов. Проверка точности пайплайнов.
Практическая работа
Аннотация вариантов. Написать скрипт для запуска программы для аннотации вариантов (Ensembl VEP)
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Тема 5. Проверка точности пайплайнов
Содержание
Специфика и примеры использования каждой технологии. Общее начало (тримминг, картирование), специфичные ответвления, сборка транскриптома/генома/метагенома.
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).
Консультация эксперта
Ответим на все вопросы о курсе
Чему научитесь на курсе:
Проводить обработку и анализ «сырых» данных секвенирования
Работать в ОС Linux в программах Conda, Singularity, примененять язык программирования Groovy для создания конвейеров биоинформатического анализа данных в среде Nextflow
Применять на практике конвейерную обработку биоинформатических данных NGS в геномике
Решать задачи, связанные с обработкой данных секвенирования: от загрузки исходных данных до анализа готовых результатов
Авторы и спикеры
Административая команда программы
Конфигурации программы
Список необходимых документов для прохождения программы обучения ДПО
- Копия паспорта (разворот + прописка);
- Копия СНИЛС;
- Копия диплома о высшем/среднем профессиональном образовании или справка об обучении;
- Копия документа, подтверждающего трудоустройство обучающегося (копия трудового договора/трудовой книжки/выписка из трудовой книжки) - при наличии;
- Заявление/согласие на обработку персональных данных.
- Справка об обучении (для студентов)
Подать заявку на обучение
Сведения об образовательной организации
Полное наименование:
Федеральное государственное автономное образовательное учреждение высшего образования «Новосибирский национальный исследовательский государственный университет»
Сокращенное наименование:
Новосибирский государственный университет, НГУ
Лицензия на осуществление образовательной деятельности
Регистрационный номер лицензии
№ Л035-00115-54/00096949
Налоговый вычет
Как оформить социальный налоговый вычет на обучение
Налоговый вычет за обучение могут получить налоговые резиденты РФ, которые работают в России и платят НДФЛ по ставке 13%
Налоговый вычет — это сумма, которая вычитается из общего дохода, облагаемого налогом (НДФЛ), и именно с этой суммы можно вернуть 13%.
Получить вычет можно за свое обучение или обучение своих детей, подопечных, братьев или сестёр. Оплата за супруга не дает права на вычет, хотя при лечении в этом случае налог возвращают
Оформить вычет за текущий год можно у работодателя, а за предыдущие годы — в налоговой инспекции, подав декларацию 3-НДФЛ
У вас есть идея образовательного проекта или блока? Мы вам поможем
Заполнить анкету
Контакты
г. Новосибирск, Академгородок, ул. Пирогова, 2, уч.-лаб. корпус, каб. 205а
Дарья Соловьева, специалист отдела дополнительного профессионального образования