Группа математического анализа последовательностей ДНК и белков

korotkov-1 Коротков Евгений Вадимович
Руководитель группы
доктор биологических наук, профессор
ИНБ, ком. 303
Телефон +7 (499) 135-21-61
E-Mail bioinf@yandex.ru

Основное

ОПИСАНИЕ ДЕЯТЕЛЬНОСТИ ГРУППЫ

Ключевые слова
алгоритмы, выравнивание, периоды, аннотация, временные ряды, повторы, последовательности, динамическое программирование, белки, ДНК

Направления исследований

  • Разработка новых математических методов для множественного выравнивания аминокислотных и нуклеотидных последовательностей
  • Разработка новым математических методов для парного выравнивания аминокислотных и нуклеотидных последовательностей без использования весовых матриц
  • Разработка математических методов для поиска скрытой периодичности в символьных последовательностях с учетом делеций и вставок символов
  • Изучение присутствия MIR повторов в геноме человека и других видов
  • Изучение присутствия скрытой периодичности в различных нуклеотидных и аминокислотных последовательностях
  • Разработка математических методов для поиска точек разладки в генах и в белках
  • Разработка математических методов для обнаружения сдвигов фазы периодичности в генах из различных организмов
  • Разработка математических методов для биологической аннотации генов бактерий
  • Создание оригинальных компьютерных баз данных
  • Анализ временных рядов

Основные методы исследований

  • Математическое моделирование
  • Программирование на различных языках
  • Расчетные работы на компьютерном кластере группы и компьютерном кластере суперкомпьютерного центра РАН
  • Сопоставление биологических данных и результатов расчетов


Краткая история группы

Научная группа при дирекции Центра «Биоинженерия» РАН математических методов изучения последовательностей ДНК и белков была создана в 1996 году директором Центра «Биоинженерия» РАН акад. К.Г.Скрябиным. С 1996 года возглавляет группу профессор, д.б.н. Коротков Евгений Вадимович.

Достижения

ОСНОВНЫЕ ДОСТИЖЕНИЯ

Научная группа занимается разработкой новых математических методов для изучения аминокислотных и нуклеотидных последовательностей. За время существования подготовлено 6 кандидатских диссертаций. Расчеты проводятся на компьютерном кластере собственной сборки. Результаты научной деятельности группы докладывались более чем на 50 научных конференциях как в Российской федерации так и за рубежом. В настоящее время группа состоит из 4-х научных сотрудников  и трех студентов. Одновременно с научной деятельностью проф. Коротков ЕВ занимается преподавательской деятельностью на кафедре «Прикладная математика» НИЯУ (МИФИ). Читаются курсы лекция для студентов математиков – «Методы анализа символьных последовательностей», «Теория информации» и проводятся лабораторные работы по курсу «Методы анализа символьных последовательностей». Под руководством сотрудников группы было подготовлено более 30 дипломных проектов. Группа участвовала и участвует в выполнении грантов РФФИ, президиума РАН, РНФ, Минобрнауки и ISTC. В результате работы группы открыты MIR повторы в геноме человека и других млекопитающих и позвоночных. Проф. Коротков Е.В. является автором обнаружения MIR повторов, как в геноме человека, так и других видов. В дальнейшей работе обнаружены также точки разладки триплетной периодичности в генах, которые могут быть следами мутаций посредством сдвига рамки считывания, местами склеек генов и местами вставок фрагментов ДНК в гены.

В настоящее время разработан метод поиска множественного выравнивания аминокислотных и нуклеотидных последовательностей (NP-полная задача) без использования парного сравнения последовательностей и без использования идентичных k-слов или “зародышей”.  Множественное выравнивание обнаруживается как единое целое в пространстве 4n или 20n, где n-длина последовательностей для множественного выравнивания. Найденное решение позволяет обнаруживать такие множественные выравнивания, которые пропускаются всеми разработанными ранее подходами. Например, это могут быть последовательности, имеющие более чем 2.5 замен на одну аминокислоту или нуклеотид. При поиске множественного выравнивания используются случайные позиционно-весовые матрицы, специальные процедуры оптимизации, а также двумерное динамическое программирование.

Метод был применен в первую очередь для поиска скрытой периодичности в символьных последовательностях, что позволило обнаружить периодическую структуру очень многих аминокислотных последовательностей и последовательностей оснований ДНК из различных геномов. Метод оказался значительно более мощным, чем все спектральные подходы и подходы, основанные на динамическом программировании. На основании разработанных методов развиваются математические подходы по поиску парных выравниваний нуклеотидных или аминокислотных последовательностей без использования заранее заданных весовых матриц.

 

Основные научные достижения группы:

  • Разработан математический алгоритм, создано программное обеспечение для регистрации сдвигов фазы триплетной периодичности в генах. Сдвиг фазы триплетной периодичности позволяет идентифицировать мутации типа сдвиг рамки считывания в генах. Показано, что примерно10 % всех известных генов из базы данных (миллионы генов) содержат сдвиги фазы триплетной периодичности. Это примерно в 20 раз больше чем удается зарегистрировать экспериментально или всеми ранее разработанными математическими методами. Это позволяет заключить, что мутации типа сдвиг рамки считывания были широко использованы эволюцией и они далеко не всегда фатальны для генов. Созданное программное обеспечение находится по адресу: http://victoria.biengi.ac.ru/fsfinder/
  • Разработан математический алгоритм, создано программное обеспечение для поиска точек разладки триплетной периодичности в ДНК. Точки разладки позволяют находить потенциальные места склеек генов и вставок фрагмента одного гена в другой ген. Анализ генов, содержащихся в базе данных «Kegg» показал, что примерно 20% генов содержат точки разладки. Это показывает, что процессы склеек генов и вставок протекают примерно в 10 раз чаще, чем это позволяют предположить экспериментальные данные или все разработанные ранее математические методы. Данный результат может быть использован для создания новых генов, так как точки разладки представляют собой естественные места разрезов в генах, которые используют природные процессы.
  • Разработан новый математические метод, создано программное обеспечение и разработан Web-сервер для аннотации генов из геномов бактерий. На примере 104 бактериальных геномов показано, что данный метод позволяет аннотировать на том же статистическом уровне на ~ 19% чем это можно сделать всем разработанными ранее подходами. Это новый результат, так как позволяет использовать в биотехнологии миллионы генов, которые в настоящее время известны только в виде последовательности и функция их не определена. Создан сайт: http://genefunction.ru, где каждый пользователь может аннотировать последовательности генов.
  • Разработан математический подход для поиска скрытой периодичности символьных последовательностей с учетом возможности вставок или делеций в заранее неизвестных местах на основе нового решения задачи о множественном выравнивании последовательностей. Выявлено большое количество последовательностей ДНК из различных геномов, которые имеют скрытую периодичность со вставками и делециями символов. Это оригинальные результаты не имеющее в настоящее время аналогов. Программное обеспечение находится на сервере: http://victoria.biengi.ac.ru/splinter/login.php
  • Разработан новый математический подход для поиска множественного выравнивания нуклеотидных последовательностей. Метод позволяет находить множественное выравнивание для последовательностей со степью эволюционной дивергенции x<4.4 мутаций на нуклеотид. Все известные программы и алгоритмы позволяют это сделать до x<2.5. Данный подход позволил получить множественное выравнивание для промоторных последовательностей из геномов A.thaliaha, D.melanogaster, H.sapiens.
  • Разработана база данных последовательностей из разнообразных геномов с различными видами периодичности. База находится по адресу: http://victoria.biengi.ac.ru/cgi-bin/indelper/index.cgi
  • Разработана база данных cds с потенциальными мутациями типа сдвиг рамки считывания. http://victoria.biengi.ac.ru/cgi-bin/frameshift/index.cgi

Сотрудники

СОСТАВ ГРУППЫ

ФИО Ученая степень, звание Должность Место работы Городской телефон Внутренний телефон E-mail
1Коротков
Евгений Вадимович
д.б.н., профессорв.н.с., руководитель группыИНБ, комн. 303(499) 135-21-61-bioinf@yandex.ru
2Пугачева
Валентина Михайловна
-м.н.с.ИНБ, комн. 303(499) 135-21-61-virentis@gmail.com
3Суворова
Юлия Максимовна
к.б.н.н.с.ИНБ, комн. 303(499) 135-21-61-suvorovay@gmail.com
4Френкель
Феликс Ефимович
к.б.н.н.с.ИНБ, комн. 303(499) 135-21-61-felix.frenkel@gmail.com

 

Разработки

ИННОВАЦИОННЫЕ РАЗРАБОТКИ

Статус Наименование разработки Дата Где Краткое описание
1 Внедрено Web-сайт для аннотации бактериальных генов 2014 http://genefunction.ru Сайт дает список наиболее вероятных биологических функций изучаемой нуклеотидной последовательности. Эффективность аннотации примерно на 19% выше чем у всех существующих методов при одинаковом количестве ложных позитивов
2 Внедрено База данных «Database of Periodic DNA Regions in Major Genomes» 2017 http://victoria.biengi.ac.ru/cgi-bin/indelper/index.cgi База данных содержит информацию о районах с различными тапами периодичности в разнообразных геномах. Для геномов эукариот эти районы в среднем занимают ~8% от генома
3 Внедрено Web-сайт для поиска скрытой периодичности в символьных последовательностях с учетом делеций и вставок символов 2017 http://victoria.biengi.ac.ru/splinter/login.php Сайт дает возможность найти скрытую периодичность со вставками и или делециями как для числовых так и для символьных последовательностях
4 Внедрено База данных потенциальных мутаций типа сдвиг рамки считывания в cds 2018 http://victoria.biengi.ac.ru/cgi-bin/frameshift/index.cgi База данных содержит информацию о потенциальных мутациях типа сдвиг рамки считывания в разнообразных cds из эукариотических геномов. В среднем около 23% cds содержит такие мутации
5 Внедрено Web-сайт для поиска потенциальных мутаций типа сдвиг рамки считывания в cds 2018 http://victoria.biengi.ac.ru/fsfinder/ Сервер дает возможность найти потенциальные мутации типа сдвиг рамки считывания в любых cds

Оборудование

УНИКАЛЬНОЕ ОБОРУДОВАНИЕ


Название оборудования/ коллекции Место нахождения
1 Компьютерный кластер из 100 юнит различной комплектации ИНБ, комн. 303

РИД

РЕЗУЛЬТАТЫ ИНТЕЛЛЕКТУАЛЬНОЙ ДЕЯТЕЛЬНОСТИ (патенты, полезные модели, базы данных, ноу-хау и пр.)
Регистрационный номер Тип Название Авторы Заявитель/ патентообладатель Дата приоритета Дата публикации
1 База данных База данных потенциальных микро и минисателлитных последовательностей http://victoria.biengi.ac.ru/mmsat/ Коротков Е.В.,
Шеленков М.А.
2008 2008
 2 База данных База данных последовательностей ДНК со скрытой периодичностью http://victoria.biengi.ac.ru/lp/ Коротков Е.В.,
Чалей М.Б.,
Френкель Ф.Е.
2006 2006
3 База данных База данных последовательностей, подобных последовательности вируса гепатита С http://victoria.biengi.ac.ru/hcv/ Френкель Ф.Е.,
Коротков Е.В.
2005 2005
4 База данных База данных т-РНК подобных последовательностей из разных геномов http://victoria.biengi.ac.ru/trnalikes/ Френкель Ф.Е.,
Коротков Е.В.
2004 2004
5 Web-server Сервер для поиска районов со скрытой периодичностью в последовательностх оснований ДНК
http://victoria.biengi.ac.ru/lepscan
Шеленков А.А., Коротков Е.В. 2008 2008
6 База данных Классы триплетной периодтчности в последовательности ДНК известных генов из банка данных Kegg
http://victoria.biengi.ac.ru/ancorfs
Френкель Ф.Е., Коротков Е.В. 2009 2009
7 База данных Web-сайт для аннотации бактериальных генов http://genefunction.ru Голышев М.А, Коротков Е.В. 2014 2014
8 База данных База данных «Database of Periodic DNA Regions in Major Genomes»
http://victoria.biengi.ac.ru/cgi-bin/indelper/index.cgi
Френкель Ф.Е., Коротков Е.В. 2017 2017
9 База данных Web-сайт для поиска скрытой периодичности в символьных последовательностях с учетом делеций и вставок символов
http://victoria.biengi.ac.ru/splinter/login.php
Френкель Ф.Е., Коротков Е.В. 2017 2017
10 База данных База данных потенциальных мутаций типа сдвиг рамки считывания в cds
http://victoria.biengi.ac.ru/cgi-bin/frameshift/index.cgi
Френкель Ф.Е., Коротков Е.В., Пугачева В.М., Суворова Ю.М. 2018 2018
11 База данных Web-сайт для поиска потенциальных мутаций типа сдвиг рамки считывания в cds
http://victoria.biengi.ac.ru/fsfinder/
Френкель Ф.Е., Коротков Е.В. 2018 2018

Публикации

ЗНАЧИМЫЕ ПУБЛИКАЦИИ

  1. Korotkov EV, Korotkova MA. Enlarged Similarity of Nucleic Acid Sequences. — DNA Research, 1996, 3, 157-164 (DOI:10.1093/dnares/3.3.157)
  2. Chaley M.B., Korotkov E.V. and Skryabin K.G. Method reavealing latent periodicity of the nucleotide sequences modified for a case of small samples. — DNA Research, 1999, v. 6, 153-163 (DOI: 10.1093/dnares/6.3.153)
  3. Korotkov E.V., Korotkova M.A., Kudryshov N.A. Information decomposition method for analysis of symbolical sequences. — Physical Letters A, 2003, v.312, 198-210 (DOI:10.1016/S0375-9601(03)00641-8)
  4. Frenkel F.E., Chaley M.B., Korotkov E.V., Skryabin K.G. Evolution of tRNA-like sequences and genome variability. — Gene, 2004, v.335C: 57-71 (DOI: 10.1016/j.gene.2004.03.005)
  5. Turutina VP, Laskin AA, Skryabin K.G., Kudryashov N.A. and Korotkov EV. Latent periodicity of 94 protein families. — Journal of Computational Biology, 2006, 13, 946-964 (DOI:10.1089/cmb.2006.13.946)
  6. Shelenkov A, Skryabin K, Korotkov E. Search and classification of potential minisatellite sequences from bacterial genomes. — DNA Research, 2006, 13:89-102 (DOI: 10.1093/dnares/dsl004)
  7. Laskin AA, Skryabin KG, Korotkov EV. Latent periodicity of protein families, identified with the indel-aware algorithm. — Journal of proteome research, 2007, 6, 862-868 (DOI:10.1021/pr0603203)
  8. Frenkel FE, Korotkov EV. Using triplet periodicity of nucleotide sequences for finding potential reading frame shifts in genes. — DNA Research, 2009, 16, 105-114 (DOI:10.1093/dnares/dsp002)
  9. Korotkov E.V., Shelenkov AA. LEPSCAN—a web server for searching latent periodicity in DNA sequences. — Briefings in Bioinformatics, 2012, v.13, 75-88
  10. Suvorova YM, Korotkova MA, Korotkov EV. Study of the Paired Change Points in Bacterial Genes IEEE/ACM Transactions on Computational Biology and Bioinformatics; v.11(5), pp.955-964, 2014
  11. Pugacheva V, Frenkel F, Korotkov E. Investigation of phase shifts for different period lengths in the genomes of C. elegans, D. melanogaster and S. cerevisiae. Comput Biol Chem. v.51, p.12-21. 2014
  12. Короткова МА, Коротков ЕВ Разработка математического метода для поиска скрытой периодичности в аминокислотных последователностях с учетом делеций или же вставок символов. Биофизика, том 60, №6, 1057-1068, 2015
  13. Golishev MA, Korotkov EV Developing of the Computer Method for Annotation of Bacterial Genes. Advances in Bioinformatics, 2015
  14. Suvorova, Yulia M., Valentina M. Rudenko, and Eugene V. Korotkov. «Detection change points of triplet periodicity of gene.» Gene 491.1 (2012): 58-64
  15. Korotkov EV, Korotkov AE, Pugatcheva MA Search of latent periodicity in amino acid sequences by means of genetic algorithm and dynamic programming. Applications in Genetics and Molecular Biology, 15.5 (2016): 381-400.
  16. Frenkel F.E., Korotkova MA, Korotkov EV “Database of Periodic DNA Regions in Major Genomes”, BioMed Research International, 2017, https://doi.org/10.1155/2017/7949287
  17. Korotkov, E.V., Korotkova, M.A. Study of the periodicity in Euro-US Dollar exchange rates using local alignment and random matrices Algorithmic Finance v. 6 (2017) 23–33 DOI:10.3233/AF-170182
  18. Е.В. Коротков , Ю.М. Суворова, К.Г. Скрябин     Доклады Академии Наук, 2017, том 477, No 6, с. 1–3, Исследование тандемных повторов со вставками и делециями в геноме A. THALIANA
  19. Korotkov, E.V., Korotkova, M.A. Search for regions with periodicity using the random position weight matrices in the C. elegans genome. Int. J. Data Mining and Bioinformatics, 18(4):331 · January 2017, DOI: 10.1504/IJDMB.2017.10009360
  20. Suvorova U.M., Korotkova M.A., Skryabin K.G., Korotkov E.V. Search for potential reading frameshifts in cds from Arabidopsis thaliana and other genomes. DNA Research, https://doi.org/10.1093/dnares/dsy046
  21. Suvorova U.M., Korotkova M.A., and Korotkov E.V. Multiple alignment of promoter sequences from the A.thaliana genome using the MAVDS algorithm, 2019, under consideration.

Диссертации

ЗАЩИЩЕННЫЕ ДИССЕРТАЦИИ
Диссертант Диссертация Тема работы Научный руководитель/ консультант
Год защиты
1 Руденко В.М. кандидатская Применение метода информационного разложения символьных последовательностей для изучения генетических текстов Коротков Е.В. 2002
 2 Ласкин А.А. кандидатская Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Коротков Е.В. 2005
3 Френкель Ф.Е. кандидатская Классификация триплетной периодичности нуклеотидных последовательностей генов из базы данных KEGG-29 Коротков Е.В. 2009
 4 Шеленокв А.А. кандидатская Разработка алгоритмов и программ для изучения регулярного строения последовательностей ДНК Коротков Е.В. 2008
 5 Суворова Ю.М. кандидатская Изучение точек разладки триплетной периодичности последовательностей ДНК кодирующих белки Коротков Е.В. 2015

Услуги

КОНТРАКТНЫЕ УСЛУГИ (которые лаборатория готова оказать на хоздоговорной основе)
  1. Аннотирование (предсказание биологической функции) бактериальных генов
  2. Поиск потенциальных мини и микросателлитов в последовательностях ДНК
  3. Поиск потенциальных мутаций типа сдвиг рамки считывания в cds различных геномов
  4. Расчет множественного выравнивания для сильно дивергировавших  аминокислотных или нуклеотидных последовательностей (более 2.5 мутации на аминокислоту или нуклеотид)
  5. Поиск потенциальных промоторов и TSS в эукариотических геномах компьютерными методами