Лаборатория алгоритмической биологии Академического Университета Российской академии наук (РАН) и Центр исследований и разработок EMC по облачным вычислениям и большим данным (НИЦ EMC) поделились первыми результатами совместного проекта, который, как ожидается, упростит диагностику онкологических заболеваний при помощи РНК-секвенирования.
В рамках проекта в лаборатории был разработан сборщик данных секвенирования РНК rnaSPAdes, который при объединении с программой ENOSI должен облегчить поиск мутаций и гибридных генов. Специалисты ожидают, что технология позволит повысить точность результатов, получаемых в ходе эксперимента, а значит, быстрее находить гибридный ген или мутацию, которая является причиной развития онкологических заболеваний. Так как при таком подходе необходимо обрабатывать большие объемы данных секвенирования РНК и масс-спектрометрии белков, в НИЦ ЕМС было решено создать облачную платформу, которая позволила бы эффективно хранить данные и производить их анализ.
«Генетические данные требуют огромных емкостей для хранения – один только референсный геном человека занимает 3Гб. Данные секвенирования, полученные в результате эксперимента, могут занимать от 10 до сотни гигабайт в зависимости от его сложности. Облачная инфраструктура для хранения генетических данных и выполнения биоинформатических вычислений, созданная экспертами НИЦ ЕМС, позволит нам обрабатывать, анализировать и структурированно хранить полученные данные сотен экспериментов одновременно, что значительно облегчит работу учёных по выявлению гибридных генов», – отметил Андрей Пржибельский, научный сотрудник Лаборатории алгоритмической биологии Академического Университета РАН.
Технологии, разрабатываемые в Научно-исследовательском центре ЕМС, предназначены для использования в узкоспециализированных отраслях, таких как медицина. Недавно эксперты ЕМС представили новое решение – платформу Cranberry, которая обеспечивает безопасное структурированное хранение данных секвенирования вместе с их описаниями, что значительно облегчает поиск нужной информации по сложным запросам и упрощает работу учёных.