Группа математического анализа последовательностей ДНК и белков

korotkov-1 Коротков Евгений Вадимович
Руководитель группы
доктор биологических наук, профессор
ИНБ, ком. 303
Телефон +7 (499) 135-21-61
E-Mail bioinf@yandex.ru

Основное

ОПИСАНИЕ ДЕЯТЕЛЬНОСТИ ГРУППЫ

Ключевые слова
алгоритмы, выравнивание, периоды, аннотация, временные ряды, повторы, последовательности, динамическое программирование, белки, ДНК

Направления исследований

  • Разработка новых математических методов для множественного выравнивания аминокислотных и нуклеотидных последовательностей
  • Разработка новым математических методов для парного выравнивания аминокислотных и нуклеотидных последовательностей без использования весовых матриц
  • Разработка математических методов для поиска скрытой периодичности в символьных последовательностях с учетом делеций и вставок символов
  • Изучение присутствия MIR повторов в геноме человека и других видов
  • Изучение присутствия скрытой периодичности в различных нуклеотидных и аминокислотных последовательностях
  • Разработка математических методов для поиска точек разладки в генах и в белках
  • Разработка математических методов для обнаружения сдвигов фазы периодичности в генах из различных организмов
  • Разработка математических методов для биологической аннотации генов бактерий
  • Создание оригинальных компьютерных баз данных
  • Анализ временных рядов

Основные методы исследований

  • Математическое моделирование
  • Программирование на различных языках
  • Расчетные работы на компьютерном кластере группы и компьютерном кластере суперкомпьютерного центра РАН
  • Сопоставление биологических данных и результатов расчетов


Краткая история группы

Научная группа при дирекции Центра «Биоинженерия» РАН математических методов изучения последовательностей ДНК и белков была создана в 1996 году директором Центра «Биоинженерия» РАН акад. К.Г.Скрябиным. С 1996 года возглавляет группу профессор, д.б.н. Коротков Евгений Вадимович.

Достижения

ОСНОВНЫЕ ДОСТИЖЕНИЯ

Научная группа занимается разработкой новых математических методов для изучения аминокислотных и нуклеотидных последовательностей. за время существования подготовлено 6 кандидатских диссертаций. Расчеты проводятся на компьютерном кластере собственной сборки. Результаты научной деятельности группы докладывались более чем на 50 научных конференциях как в Российской федерации так и за рубежом. Среди них выступления на 4-ом и 5-ом биофизическом конгрессе России, на 5-ой,  6-ой и 7-ой международной конференции «Bioinformatics Models, Methods and Algorithms».

В настоящее время группа состоит из 4-х научных сотрудников  и трех студентов. Одновременно с научной деятельностью руководитель группы и сотрудники группы занимаются преподавательской деятельностью на кафедре «Прикладная математика» НИЯУ (МИФИ). Читаются курсы лекция для студентов математиков – «методы анализа символьных последовательностей», «теория информации» и проводятся лабораторные работы по курсу «методы анализа символьных последовательностей». Под руководством сотрудников группы было подготовлено более 30 дипломных проектов. Группа участвовала и участвует в выполнении грантов РФФИ, президиума РАН, Роснауки, Минобрнауки и ISTC. В результате работы группы открыты MIR повторы в геноме человека и других млекопитающих и позвоночных. Проф. Коротков ЕВ является автором обнаружения MIR повторов как в геноме человека так и других видов. В дальнейшей работе обнаружены также точки разладки триплетной периодичности в генах, которые могут быть следами мутаций посредством сдвига рамки считывания, местами склеек генов и местами вставок фрагментов ДНК в гены. Эти данные могут быть использованы для создания искусственных генов.

В настоящее время разработан метод поиска множественного выравнивания  аминокислотных и нуклеотидных последовательностей (NP-полная задача) без использования парного сравнения последовательностей и без использования идентичных k-слов или “зародышей”.  Множественное выравнивание  обнаруживается как единое целое в пространстве 4n или 20n,  где n-длина последовательностей для множественного выравнивания. Найденное решение позволяет обнаруживать такие множественные выравнивания, которые пропускаются всеми разработанными ранее подходами. Например, это могут быть последовательности, имеющие болле чем 1.8 замен на одну аминокислоту или нуклеотид. При поиске множественного выравнивания используются случайные позиционно-весовые матрицы, специальные процедуры оптимизации, а также двумерное динамическое программирование.

Метод был применен в первую очередь для поиска скрытой периодичности в символьных последовательностях, что позволило обнаружить периодическую структуру очень многих аминокислотных последовательностей и последовательностей оснований ДНК из различных геномов. Метод оказался значительно более мощным, чем все спектральные подходы и подходы, основанные на динамическом программировании. На основании разработанных методов развиваются математические подходы по поиску парных выравниваний нуклеотидных или аминокислотных последовательностей без использования заранее заданных весовых матриц.

Основные научные достижения группы:

  • Разработан новый математический метод поиска скрытой периодичности символьных последовательностей – информационное разложение. Метод является значительно более мощным чем используемые ранее все спектральные подходы, в том числе преобразование Фурье.
  • При помощи информационного разложения показано присутствие скрытой периодичности в различных генах и в аминокислотных последовательностях белков. Эти результаты невозможно получить другими методами или же подходами. Скрытая периодичность может свидетельствовать о происхождении последовательностей ДНК путем множественных тандемных дупликаций. В белках данное явление может быть связано также со вторичной структурой белка так и с третичной структурой белка. Скрытая периодичность в белках может обуславливать резонансное накопление энергии на определенных частотах колебаний.
  • Разработан математический алгоритм, создано программное обеспечение для регистрации сдвигов фазы триплетной периодичности в генах. Сдвиг фазы триплетной периодичности позволяет идентифицировать мутации типа сдвиг рамки считывания в генах. Показано, что примерно10 % всех известных генов из базы данных (миллионы генов) содержат сдвиги фазы триплетной периодичности. Это примерно в 20 раз больше чем удается зарегистрировать экспериментально или всеми ранее разработанными математическими методами. Это позволяет заключить, что мутации типа сдвиг рамки считывания были широко использованы эволюцией и они далеко не всегда фатальны для генов.
  • Разработан математический алгоритм, создано программное обеспечение для поиска точек разладки триплетной периодичности в ДНК. Точки разладки позволяют находить потенциальные места склеек генов и вставок фрагмента одного гена в другой ген. Анализ генов, содержащихся в базе данных «Kegg» показал, что примерно 20% генов содержат точки разладки. Это показывает, что процессы склеек генов и вставок протекают примерно в 10 раз чаще, чем это позволяют предположить экспериментальные данные или все разработанные ранее математические методы. Данный результат может быть использован для создания новых генов, так как точки разладки представляют собой естественные места разрезов в генах, которые используют природные процессы.
  • Показано существование точек сдвига фазы различной периодичности (не равной трем основаниям) в геномах прокариот и эукариот. Эти результаты позволяют сделать вывод, что более 15% исследованных геномов представляют собой периодические последовательности различной длины. Эти последовательности не были ранее выявлены как периодические ни экспериментальными подходами, ни теоретическими методами.
  • Разработан новый математические метод, создано программное обеспечение и разработан Web-сервер для аннотации генов из геномов бактерий. На примере 104 бактериальных геномов показано, что данный метод позволяет аннотировать на том же статистическом уровне на ~ 19% чем это можно сделать всем разработанными ранее подходами. Это новый результат, так как позволяет использовать в биотехнологии миллионы генов, которые в настоящее время известны только в виде последовательности и функция их не определена. Создан сайт: http://genefunction.ru, где каждый пользователь может аннотировать последовательности генов.
  • Разработан математический подход для поиска скрытой периодичности символьных последовательностей с учетом возможности вставок или делеций в заранее неизвестных местах на основе нового решения задачи о множественном выравнивании последовательностей. Выявлено большое количество последовательностей ДНК из различных геномов, которые имеют скрытую периодичность со вставками и делециями символов. Это оригинальные результаты не имеющее в настоящее время аналогов.

Сотрудники

СОСТАВ ГРУППЫ

ФИО Ученая степень, звание Должность Место работы Городской телефон Внутренний телефон E-mail
1Коротков
Евгений Вадимович
д.б.н., профессорв.н.с., руководитель группыИНБ, комн. 303(499) 135-21-61-bioinf@yandex.ru
2Пугачева
Валентина Михайловна
-м.н.с.ИНБ, комн. 303(499) 135-21-61-virentis@gmail.com
3Суворова
Юлия Максимовна
-м.н.с.ИНБ, комн. 303(499) 135-21-61-suvorovay@gmail.com
4Френкель
Феликс Ефимович
к.б.н.н.с.ИНБ, комн. 303(499) 135-21-61-felix.frenkel@gmail.com

 

Разработки

ИННОВАЦИОННЫЕ РАЗРАБОТКИ

Статус Наименование разработки Дата Где Краткое описание
1 Внедрено Web-сайт для аннотации бактериальных генов 2014 сайт http://genefunction.ru Сайт дает список наиболее вероятных биологических функций изучаемой нуклеотидной последовательности. Эффективность аннотации примерно на 19% выше чем у всех существующих методов при одинаковом количестве ложных позитивов
2 Внедрено База данных «Database of Periodic DNA Regions in Major Genomes» 2017 сайт http://victoria.biengi.ac.ru/cgi-bin/indelper/index.cgi
3 Планируется к внедрению Web-сайт для поиска скрытой периодичности в символьных последовательностях с учетом делеций и вставок символов 2017 Сайт дает возможность найти скрытую периодичность со вставками и или делециями как для числовых так и для символьных последовательностях

Оборудование

УНИКАЛЬНОЕ ОБОРУДОВАНИЕ


Название оборудования/ коллекции Место нахождения
1 Компьютерный кластер из 100 юнит различной комплектации ИНБ, комн. 303

РИД

РЕЗУЛЬТАТЫ ИНТЕЛЛЕКТУАЛЬНОЙ ДЕЯТЕЛЬНОСТИ (патенты, полезные модели, базы данных, ноу-хау и пр.)
Регистрационный номер Тип Название Авторы Заявитель/ патентообладатель Дата приоритета Дата публикации
1 База данных База данных потенциальных микро и минисателлитных последовательностей http://victoria.biengi.ac.ru/mmsat/ Коротков Е.В.,
Шеленков М.А.
2008 2008
 2 База данных База данных последовательностей ДНК со скрытой периодичностью http://victoria.biengi.ac.ru/lp/ Коротков Е.В.,
Чалей М.Б.,
Френкель Ф.Е.
2006 2006
3 База данных База данных последовательностей, подобных последовательности вируса гепатита С http://victoria.biengi.ac.ru/hcv/ Френкель Ф.Е.,
Коротков Е.В.
2005 2005
4 База данных База данных т-РНК подобных последовательностей из разных геномов http://victoria.biengi.ac.ru/trnalikes/ Френкель Ф.Е.,
Коротков Е.В.
2004 2004
5 Web-server Сервер для поиска районов со скрытой периодичностью в последовательностх оснований ДНК http://victoria.biengi.ac.ru/lepscan Шеленков А.А., Коротков Е.В. 2008 2008
6 База данных Классы триплетной периодтчности в последовательности ДНК известных генов из банка данных Kegg http://victoria.biengi.ac.ru/ancorfs Френкель Ф.Е., Коротков Е.В. 2009 2009

Публикации

ЗНАЧИМЫЕ ПУБЛИКАЦИИ

  1. Valentina, Alexander Korotkov, and Eugene Korotkov. «Search of latent periodicity in amino acid sequences by means of genetic algorithm and dynamic programming.» Statistical Applications in Genetics and Molecular Biology, 15.5 (2016): 381-400.
  2. Frenkel F.E., Korotkova MA, Korotkov EV “Database of Periodic DNA Regions in Major Genomes”, BioMed Research International, 2017, https://doi.org/10.1155/2017/7949287
  3. Korotkov EV, Korotkova MA. Enlarged Similarity of Nucleic Acid Sequences. — DNA Research, 1996, 3, 157-164 (DOI:10.1093/dnares/3.3.157)
  4. Chaley M.B., Korotkov E.V. and Skryabin K.G. Method reavealing latent periodicity of the nucleotide sequences modified for a case of small samples. — DNA Research, 1999, v. 6, 153-163 (DOI: 10.1093/dnares/6.3.153)
  5. Kossenkov A, Manion FJ, Korotkov E, Moloshok TD, Ochs MF. ASAP: automated sequence annotation pipeline for web-based updating of sequence information with a local dynamic database. — Bioinformatics, 2003, 19, 675-676 (DOI: 10.1093/bioinformatics/btg056)
  6. Korotkov E.V., Korotkova M.A., Kudryshov N.A. Information decomposition method for analysis of symbolical sequences. — Physical Letters A, 2003, v.312, 198-210 (DOI:10.1016/S0375-9601(03)00641-8)
  7. Frenkel F.E., Chaley M.B., Korotkov E.V., Skryabin K.G. Evolution of tRNA-like sequences and genome variability. — Gene, 2004, v.335C: 57-71 (DOI: 10.1016/j.gene.2004.03.005)
  8. Turutina VP, Laskin AA, Skryabin K.G., Kudryashov N.A. and Korotkov EV. Latent periodicity of 94 protein families. — Journal of Computational Biology, 2006, 13, 946-964 (DOI:10.1089/cmb.2006.13.946)
  9. Shelenkov A, Skryabin K, Korotkov E. Search and classification of potential minisatellite sequences from bacterial genomes. — DNA Research, 2006, 13:89-102 (DOI: 10.1093/dnares/dsl004)
  10. Laskin AA, Skryabin KG, Korotkov EV. Latent periodicity of protein families, identified with the indel-aware algorithm. — Journal of proteome research, 2007, 6, 862-868 (DOI:10.1021/pr0603203)
  11. Frenkel FE, Korotkov EV. Using triplet periodicity of nucleotide sequences for finding potential reading frame shifts in genes. — DNA Research, 2009, 16, 105-114 (DOI:10.1093/dnares/dsp002)
  12. Korotkov E.V., Shelenkov AA. LEPSCAN—a web server for searching latent periodicity in DNA sequences. — Briefings in Bioinformatics, 2012, v.13, 75-88
  13. Suvorova YM, Korotkova MA, Korotkov EV. Study of the Paired Change Points in Bacterial Genes IEEE/ACM Transactions on Computational Biology and Bioinformatics; v.11(5), pp.955-964, 2014
  14. Pugacheva V, Frenkel F, Korotkov E. Investigation of phase shifts for different period lengths in the genomes of C. elegans, D. melanogaster and S. cerevisiae. Comput Biol Chem. v.51, p.12-21. 2014
  15. Короткова МА, Коротков ЕВ Разработка математического метода для поиска скрытой периодичности в аминокислотных последователностях с учетом делеций или же вставок символов. Биофизика, том 60, №6, 1057-1068, 2015
  16. Golishev MA, Korotkov EV Developing of the Computer Method for Annotation of Bacterial Genes. Advances in Bioinformatics, 2015
  17. Suvorova, Yulia M., Valentina M. Rudenko, and Eugene V. Korotkov. «Detection change points of triplet periodicity of gene.» Gene 491.1 (2012): 58-64

Диссертации

ЗАЩИЩЕННЫЕ ДИССЕРТАЦИИ
Диссертант Диссертация Тема работы Научный руководитель/ консультант
Год защиты
1 Руденко В.М. кандидатская Применение метода информационного разложения символьных последовательностей для изучения генетических текстов Коротков Е.В. 2002
 2 Ласкин А.А. кандидатская Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Коротков Е.В. 2005
3 Френкель Ф.Е. кандидатская Классификация триплетной периодичности нуклеотидных последовательностей генов из базы данных KEGG-29 Коротков Е.В. 2009
 4 Шеленокв А.А. кандидатская Разработка алгоритмов и программ для изучения регулярного строения последовательностей ДНК Коротков Е.В. 2008
 5 Суворова Ю.М. кандидатская Изучение точек разладки триплетной периодичности последовательностей ДНК кодирующих белки Коротков Е.В. 2015

Услуги

КОНТРАКТНЫЕ УСЛУГИ (которые лаборатория готова оказать на хоздоговорной основе)
  1. Аннотирование (предсказание биологической функции) бактериальных генов
  2. Поиск потенциальных мини и микросателлитов в последовательностях ДНК