Группа математического анализа последовательностей ДНК и белков

korotkov-1 Коротков Евгений Вадимович
Руководитель группы
доктор биологических наук, профессор
ИНБ, ком. 303
Телефон +7 (499) 135-21-61
E-Mail bioinf@yandex.ru

Основное

ОПИСАНИЕ ДЕЯТЕЛЬНОСТИ ГРУППЫ

Ключевые слова
алгоритмы, выравнивание, периоды, аннотация, временные ряды, повторы, последовательности, динамическое программирование, белки, ДНК

Направления исследований

  • Разработка новых математических методов для множественного выравнивания аминокислотных и нуклеотидных последовательностей
  • Разработка математических методов для поиска скрытой периодичности в символьных последовательностях
  • Изучение присутствия дисперсных и тандемных повторов в геноме человека и других видов
  • Разработка математических методов для поиска точек разладки в генах и в белках
  • Разработка математических методов для биологической аннотации генов бактерий
  • Создание оригинальных компьютерных баз данных
  • Анализ временных рядов

Основные методы исследований

  • Математическое моделирование
  • Программирование на различных языках
  • Расчетные работы на компьютерном кластере группы и компьютерном кластере суперкомпьютерного центра РАН
  • Сопоставление биологических данных и результатов расчетов


Краткая история группы

Научная группа при дирекции Центра «Биоинженерия» РАН математических методов изучения последовательностей ДНК и белков была создана в 1996 году директором Центра «Биоинженерия» РАН акад. К.Г.Скрябиным. С 1996 года возглавляет группу профессор, д.б.н. Коротков Евгений Вадимович.

Достижения

ОСНОВНЫЕ ДОСТИЖЕНИЯ

Научная группа занимается разработкой новых математических методов для изучения аминокислотных и нуклеотидных последовательностей. Расчеты проводятся на компьютерном кластере собственной сборки.

Основные научные достижения группы:

  1. Разработан новый эвристический метод построения множественного выравнивания аминокислотных и нуклеотидных последовательностей. Метод позволяет находить множественное выравнивание для последовательностей со степью эволюционной дивергенции x<4.4 мутаций на нуклеотид или аминокислоту. Все известные программы и алгоритмы для построения множественного выравнивания позволяют это сделать до x<2.5 (250 замен на 100 аминокислот). Данный подход позволил получить множественное выравнивание для промоторных последовательностей из геномов A.thaliaha, D.melanogaster, H.sapiens.  Разработан сайт для построения множественных выравниваний, который находится по адресу: http://victoria.biengi.ac.ru/mahds/auth
  2. Разработан математический алгоритм, создано программное обеспечение для регистрации сдвигов фазы триплетной периодичности в генах. Сдвиг фазы триплетной периодичности позволяет идентифицировать мутации типа сдвиг рамки считывания в генах. Показано, что примерно10 % всех известных генов из базы данных (миллионы генов) содержат сдвиги фазы триплетной периодичности. Это примерно в 20 раз больше чем удается зарегистрировать экспериментально или всеми ранее разработанными математическими методами. Это позволяет заключить, что мутации типа сдвиг рамки считывания были широко использованы эволюцией и они далеко не всегда фатальны для генов. Созданное программное обеспечение находится по адресу: http://victoria.biengi.ac.ru/fsfinder/
  3. Разработан математический алгоритм, создано программное обеспечение для поиска точек разладки триплетной периодичности в ДНК. Точки разладки позволяют находить потенциальные места склеек генов и вставок фрагмента одного гена в другой ген. Анализ генов, содержащихся в базе данных «Kegg» показал, что примерно 20% генов содержат точки разладки. Это показывает, что процессы склеек генов и вставок протекают примерно в 10 раз чаще, чем это позволяют предположить экспериментальные данные или все разработанные ранее математические методы. Данный результат может быть использован для создания новых генов, так как точки разладки представляют собой естественные места разрезов в генах, которые используют природные процессы.
  4. Разработан новый математические метод, создано программное обеспечение и разработан Web-сервер для аннотации генов из геномов бактерий. На примере 104 бактериальных геномов показано, что данный метод позволяет аннотировать на том же статистическом уровне на ~ 19% чем это можно сделать всем разработанными ранее подходами. Это новый результат, так как позволяет использовать в биотехнологии миллионы генов, которые в настоящее время известны только в виде последовательности и функция их не определена. Создан сайт: http://genefunction.ru, где каждый пользователь может аннотировать последовательности генов.
  5. Разработан математический подход для поиска скрытой периодичности символьных последовательностей с учетом возможности вставок или делеций в заранее неизвестных местах на основе нового решения задачи о множественном выравнивании последовательностей. Выявлено большое количество последовательностей ДНК из различных геномов, которые имеют скрытую периодичность со вставками и делециями символов. Это оригинальные результаты не имеющее в настоящее время аналогов. Программное обеспечение находится на сервере: http://victoria.biengi.ac.ru/splinter/login.php.
  6. Разработана база данных последовательностей из разнообразных геномов с различными видами периодичности. База находится по адресу: http://victoria.biengi.ac.ru/cgi-bin/indelper/index.cgi
  7. Разработана база данных cds с потенциальными мутациями типа сдвиг рамки считывания. http://victoria.biengi.ac.ru/cgi-bin/frameshift/index.cgi

 

Сотрудники

СОСТАВ ГРУППЫ

ФИО Ученая степень, звание Должность Место работы Городской телефон Внутренний телефон E-mail
1Коротков
Евгений Вадимович
д.б.н., профессорв.н.с., руководитель группыИНБ, комн. 303(499) 135-21-61-bioinf@yandex.ru
2Костенко
Дмитрий Олегович
-инженерИНБ, комн. 303(499) 135-21-61-dk0stenko@yandex.ru
3Руденко
Валентина Михайловна
к.ф-м.н.н.с.ИНБ, комн. 303(499) 135-21-61-vrud@mail.ru
4Суворова
Юлия Максимовна
к.б.н.н.с.ИНБ, комн. 303(499) 135-21-61-suvorovay@gmail.com

 

Разработки

ИННОВАЦИОННЫЕ РАЗРАБОТКИ

Статус Наименование разработки Дата Где Краткое описание
1 Внедрено Web-сайт для аннотации бактериальных генов 2014 http://genefunction.ru Сайт дает список наиболее вероятных биологических функций изучаемой нуклеотидной последовательности. Эффективность аннотации примерно на 19% выше чем у всех существующих методов при одинаковом количестве ложных позитивов
2 Внедрено База данных «Database of Periodic DNA Regions in Major Genomes» 2017 http://victoria.biengi.ac.ru/cgi-bin/indelper/index.cgi База данных содержит информацию о районах с различными тапами периодичности в разнообразных геномах. Для геномов эукариот эти районы в среднем занимают ~8% от генома
3 Внедрено Web-сайт для поиска скрытой периодичности в символьных последовательностях с учетом делеций и вставок символов 2017 http://victoria.biengi.ac.ru/splinter/login.php Сайт дает возможность найти скрытую периодичность со вставками и или делециями как для числовых так и для символьных последовательностях
4 Внедрено База данных потенциальных мутаций типа сдвиг рамки считывания в cds 2018 http://victoria.biengi.ac.ru/cgi-bin/frameshift/index.cgi База данных содержит информацию о потенциальных мутациях типа сдвиг рамки считывания в разнообразных cds из эукариотических геномов. В среднем около 23% cds содержит такие мутации
5 Внедрено Web-сайт для поиска потенциальных мутаций типа сдвиг рамки считывания в cds 2018 http://victoria.biengi.ac.ru/fsfinder/ Сервер дает возможность найти потенциальные мутации типа сдвиг рамки считывания в любых cds
6 Внедрено База данных потенциальных промоторных последовательностей из генома риса 2019 http://victoria.biengi.ac.ru/cgi-bin/dbPPS/index.cgi Было рассчитано множественное выравнивание промоторных последовательностей из генома риса и создано 5 классов промоторных последовательностей с объемом 1740, 222, 199, 167 и 130 промоторов соответственно (http://victoria.biengi.ac.ru/cgi-bin/dbPPS/index.cgi). Классы промоторов были использованы для поиска промоторных последовательностей в геноме риса. Всего было идентифицировано 145277 потенциальных промоторных последовательностей (PPS). Из них 18563 являются промоторами известных генов, 87233 PPSs пересекаются с транспонируемыми элементами, и 37390 PPSs были обнаружены в ранее аннотированных последовательностях. Мощность метода составляет ~ 46%. Количество ложноположительных результатов для случайно перемешанного генома риса составляет ~ 6х10 в степени -9 на нуклеотид.
7 Внедрено Web-сайт для постоения и оценки статистической значимости множественных выравниваний последовательностей ДНК, РНК и белков методом MAHDS 2021 http://victoria.biengi.ac.ru/mahds Сервис позволяет строить множественные выравнивания последовательностей ДНК, РНК и белков методом MAHDS, а также оценивать статистическую значимость произвольных множественных выравниваний. Особенность метода MAHDS заключается в его способности строить статистически значимые выравнивания слабо гомологичных последовательностей, подобие которых другими методами не обнаруживается.
8 Внедрено Web-сайт для поиска дисперсных повторов в геномах IP методом 2023 http://victoria.biengi.ac.ru/shddr Сервис позволяет находить дисперсные повторы длиной от 100 до 800 оснований в последовательностях ДНК длиной от 500000 до 20000000 оснований с помощью IP метода. Особенностью IP метода является его способность обнаруживать de-novo дисперсные повторы, имеющие малую степень подобия.
9 Внедрено База данных тандемных повторов в геноме перца стручкового (capsicum annuum) 2023 http://victoria.biengi.ac.ru/capsicum_tr База данных содержит более 900 тысяч тандемных повторов длиной от 2 до 200 оснований обнаруженные с помощью метода mRPWM в геноме перца стручкового (capsicum annuum). Метод mRPWM позволяет найти значительно больше повторов, чем другие известные методы, за счёт того что mRPWM может обнаруживать в том числе и сильно дивергированные повторы.

Оборудование

УНИКАЛЬНОЕ ОБОРУДОВАНИЕ


Название оборудования/ коллекции Место нахождения
1 Компьютерный кластер из 100 юнит различной комплектации ИНБ, комн. 303

РИД

РЕЗУЛЬТАТЫ ИНТЕЛЛЕКТУАЛЬНОЙ ДЕЯТЕЛЬНОСТИ (патенты, полезные модели, базы данных, ноу-хау и пр.)
Регистрационный номер Тип Название Авторы Заявитель/ патентообладатель Дата приоритета Дата публикации
1 База данных База данных потенциальных микро и минисателлитных последовательностей http://victoria.biengi.ac.ru/mmsat/ Коротков Е.В.,
Шеленков М.А.
2008 2008
 2 База данных База данных последовательностей ДНК со скрытой периодичностью http://victoria.biengi.ac.ru/lp/ Коротков Е.В.,
Чалей М.Б.,
Френкель Ф.Е.
2006 2006
3 База данных База данных последовательностей, подобных последовательности вируса гепатита С http://victoria.biengi.ac.ru/hcv/ Френкель Ф.Е.,
Коротков Е.В.
2005 2005
4 База данных База данных т-РНК подобных последовательностей из разных геномов http://victoria.biengi.ac.ru/trnalikes/ Френкель Ф.Е.,
Коротков Е.В.
2004 2004
5 Web-server Сервер для поиска районов со скрытой периодичностью в последовательностх оснований ДНК
http://victoria.biengi.ac.ru/lepscan
Шеленков А.А., Коротков Е.В. 2008 2008
6 База данных Классы триплетной периодичности в последовательности ДНК известных генов из банка данных Kegg
http://victoria.biengi.ac.ru/ancorfs
Френкель Ф.Е., Коротков Е.В. 2009 2009
7 База данных Web-сайт для аннотации бактериальных генов http://genefunction.ru Голышев М.А, Коротков Е.В. 2014 2014
8 База данных База данных «Database of Periodic DNA Regions in Major Genomes»
http://victoria.biengi.ac.ru/cgi-bin/indelper/index.cgi
Френкель Ф.Е., Коротков Е.В. 2017 2017
9 База данных Web-сайт для поиска скрытой периодичности в символьных последовательностях с учетом делеций и вставок символов
http://victoria.biengi.ac.ru/splinter/login.php
Френкель Ф.Е., Коротков Е.В. 2017 2017
10 База данных База данных потенциальных мутаций типа сдвиг рамки считывания в cds
http://victoria.biengi.ac.ru/cgi-bin/frameshift/index.cgi
Френкель Ф.Е., Коротков Е.В., Пугачева В.М., Суворова Ю.М. 2018 2018
11 База данных Web-сайт для поиска потенциальных мутаций типа сдвиг рамки считывания в cds
http://victoria.biengi.ac.ru/fsfinder/
Френкель Ф.Е., Коротков Е.В. 2018 2018

Публикации

ЗНАЧИМЫЕ ПУБЛИКАЦИИ

  1. Frenkel F.E., Korotkova MA, Korotkov EV “Database of Periodic DNA Regions in Major Genomes”, BioMed Research International, 2017, https://doi.org/10.1155/2017/7949287
  2. Korotkov, E.V., Korotkova, M.A. Study of the periodicity in Euro-US Dollar exchange rates using local alignment and random matrices Algorithmic Finance v. 6 (2017) 23–33 DOI:10.3233/AF-170182
  3. Е.В. Коротков , Ю.М. Суворова, К.Г. Скрябин     Доклады Академии Наук, 2017, том 477, No 6, с. 1–3, Исследование тандемных повторов со вставками и делециями в геноме A. THALIANA
  4. Korotkov, E.V., Korotkova, M.A. Search for regions with periodicity using the random position weight matrices in the C. elegans genome. Int. J. Data Mining and Bioinformatics, 18(4):331 · January 2017, DOI: 10.1504/IJDMB.2017.10009360
  5. A.Nor, E.Korotkov Search of Fuzzy Periods in the Works of Poetry of Different Authors. Advances in Fuzzy Systems Volume 2018, Article ID 4028417, 10 pages  https://doi.org/10.1155/2018/4028417
  6.  Suvorova, Y.M., Korotkova, M.A., Skryabin, K.G., Korotkov, E.V. Search for potential reading frameshifts in cds from Arabidopsis thaliana and other genomes. DNA Research, v.26, 157-170, 2019.  DOI: 10.1093/dnares/dsy046
  7. Suvorova, Y.M., Pugacheva, V.M., Korotkov, E.V. A Database of Potential Reading Frame Shifts in Coding Sequences from Different Eukaryotic Genomes.  Biophysics (Russian Federation), v.64, 339-349, 2019     DOI: 10.1134/S0006350919030217, IF 0.2
  8. Suvorova Yu.M. and Korotkov E.V.  New Method for Potential Fusions Detection in Protein-Coding Sequences.     Journal of computational biology. 2019. 2019 Nov;26(11):1253-1261    DOI: 10.1089/cmb.2019.0122
  9. Korotkov, E.V., Kamionskaya, A.M., Korotkova, M.A. Multiple alignment of promoter sequences from the human genome. Biotekhnologiya. 2020 V.36, n.4, 7-14
  10. Eugene V Korotkov, Yulia M Suvorova, Dmitrii O. Kostenko, Maria A Korotkova. Multiple Alignment of Promoter Sequences from the Arabidopsis thaliana L. Genome. January 2021. Genes. 12(2):135. DOI: 10.3390/genes12020135
  11. Suvorova, Y.M., Kamionskaya, A.M. & Korotkov, E.V. Search for SINE repeats in the rice genome using correlation-based position weight matrices. BMC Bioinformatics 22, 42 (2021). https://doi.org/10.1186/s12859-021-03977-0
  12. Korotkov, Eugene V., Anastasiya M. Kamionskya, and Maria A. Korotkova. 2021. «Detection of Highly Divergent Tandem Repeats in the Rice Genome» Genes 12, no. 4: 473. https://doi.org/10.3390/genes12040473
  13. Korotkov, Eugene V., Yulia. M. Suvorova, Anna V. Nezhdanova, Sofia E. Gaidukova, Irina V. Yakovleva, Anastasia M. Kamionskaya, and Maria A. Korotkova. 2021. «Mathematical Algorithm for Identification of Eukaryotic Promoter Sequences». Symmetry, 13, no. 6: 917.    https://doi.org/10.3390/sym13060917
  14. Rudenko, Valentina, and Eugene Korotkov. 2021. «Search for Highly Divergent Tandem Repeats in Amino Acid Sequences». Int. J. Mol. Sci.  22, no. 13: 7096. https://doi.org/10.3390/ijms22137096
  15. Kostenko, D.O.; Korotkov, E.V. Application of the MAHDS Method for Multiple Alignment of Highly Diverged Amino Acid Sequences. Int. J. Mol. Sci. 2022, 23, 3764. https://doi.org/10.3390/ijms23073764

Диссертации

ЗАЩИЩЕННЫЕ ДИССЕРТАЦИИ
Диссертант Диссертация Тема работы Научный руководитель/ консультант
Год защиты
1 Руденко В.М. кандидатская Применение метода информационного разложения символьных последовательностей для изучения генетических текстов Коротков Е.В. 2002
 2 Ласкин А.А. кандидатская Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Коротков Е.В. 2005
3 Френкель Ф.Е. кандидатская Классификация триплетной периодичности нуклеотидных последовательностей генов из базы данных KEGG-29 Коротков Е.В. 2009
 4 Шеленокв А.А. кандидатская Разработка алгоритмов и программ для изучения регулярного строения последовательностей ДНК Коротков Е.В. 2008
 5 Суворова Ю.М. кандидатская Изучение точек разладки триплетной периодичности последовательностей ДНК кодирующих белки Коротков Е.В. 2015

Услуги

КОНТРАКТНЫЕ УСЛУГИ (которые лаборатория готова оказать на хоздоговорной основе)
  1. Аннотирование (предсказание биологической функции) бактериальных генов
  2. Поиск потенциальных мини и микросателлитов в последовательностях ДНК
  3. Поиск потенциальных мутаций типа сдвиг рамки считывания в cds различных геномов
  4. Расчет множественного выравнивания для сильно дивергировавших  аминокислотных или нуклеотидных последовательностей (более 2.5 мутации на аминокислоту или нуклеотид)
  5. Поиск потенциальных промоторов и TSS в эукариотических геномах компьютерными методами