научная статья по теме ОБЪЕДИНЕНИЕ ИНФОРМАЦИИ О БЕЛОК-БЕЛКОВЫХ ВЗАИМОДЕЙСТВИЯХ С МЕТОДОМ ОПОРНЫХ ВЕКТОРОВ ДЛЯ ИДЕНТИФИКАЦИИ ГЕНОВ, СВЯЗАННЫХ С ХРОНИЧЕСКОЙ ОБСТРУКТИВНОЙ БОЛЕЗНЬЮ ЛЕГКИХ Биология

Текст научной статьи на тему «ОБЪЕДИНЕНИЕ ИНФОРМАЦИИ О БЕЛОК-БЕЛКОВЫХ ВЗАИМОДЕЙСТВИЯХ С МЕТОДОМ ОПОРНЫХ ВЕКТОРОВ ДЛЯ ИДЕНТИФИКАЦИИ ГЕНОВ, СВЯЗАННЫХ С ХРОНИЧЕСКОЙ ОБСТРУКТИВНОЙ БОЛЕЗНЬЮ ЛЕГКИХ»

МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2014, том 48, № 2, с. 333-343

БИОИНФОРМАТИКА

УДК 577.2.04

ОБЪЕДИНЕНИЕ ИНФОРМАЦИИ О БЕЛОК-БЕЛКОВЫХ ВЗАИМОДЕЙСТВИЯХ С МЕТОДОМ ОПОРНЫХ ВЕКТОРОВ

ДЛЯ ИДЕНТИФИКАЦИИ ГЕНОВ, СВЯЗАННЫХ С ХРОНИЧЕСКОЙ ОБСТРУКТИВНОЙ БОЛЕЗНЬЮ ЛЕГКИХ*

© 2014 г. Lin Hua*, Ping Zhou

Biomedical Engineering Institute of Capital Medical University, Beijing 100069, China Поступила в редакцию 19.03.2013 г.

Принята к печати 30.09.2013 г.

Хроническая обструктивная болезнь легких (ХОБЛ) — это сложное заболевание человека с высокой летальностью. До сих пор работы по ХОБЛ не были достаточно охарактеризованы, несмотря на хорошо документированную роль курения в развитии ХОБЛ. В последние годы использование анализа экспрессионных микрочипов позволяет идентифицировать различные гены, вероятно относящиеся к тем или иным заболеваниям. Однако низкая воспроизводимость выявляемых генов, представленных в публикациях, не выдерживает критики. Исходя из этого, мы предположили, что использование информации о клеточных путях и сетях взаимодействий при выявлении прогностических биомаркеров способно улучшить эффективность их предсказания. Скомбинировав информацию о белок-белковых взаимодействиях (protein-protein interactions, PPI) с методом опорных векторов (support vector machine, SVM), мы попытались идентифицировать потенциальные гены, имеющие отношение к ХОБЛ. Такой подход позволит достоверно различать тяжелую эмфизему и средне- или неэмфизематозные ткани легких. В результате идентифицировано 8 генов, функционально связанных с ХОБЛ. По сравнению с другим вариантом метода SVM, в котором не используются данные по PPI, предсказательная точность разработанного нами комбинированного метода значительно выше (AUC увеличивается с 0.513 до 0.909). Полученный результат подтверждает предположение, что использование данных о сетях взаимодействий в методах селекции генов может существенно повысить точность классификации. Таким образом, показано, что из профилей экспрессии генов эмфизематозных легочных тканей человека можно извлечь сведения о патогенезе ХОБЛ, а хорошо систематизирующий алгоритм предсказания, основанный на предварительно известной биологической информации, еще больше повышает качество классификации.

Ключевые слова: ХОБЛ, микрочип, белок-белковые взаимодействия, метод опорных векторов.

COMBINING PROTEIN-PROTEIN INTERACTIONS INFORMATION WITH SUPPORT VECTOR MACHINE TO IDENTIFY CHRONIC OBSTRUCTIVE PULMONARY DISEASE RELATED GENES, by Lin Hua*, Ping Zhou (Biomedical Engineering Institute of Capital Medical University, Beijing 100069, China; *e-mail: hualin7750@139.com, hualin7750@yahoo.com.cn). Chronic obstructive pulmonary disease (COPD) is a complex human disease with a higher mortality. So far, the studies to COPD have not been well characterized despite the well-documented role of cigarette smoking in the genesis of COPD. In recent years, microarray analyses have help to identify some potential disease related genes. However, the low reproducibility of many published gene signatures has been criticized. It therefore suggested that incorporation of network or pathway information into prognostic biomarker discovery might improve the prediction performance. In this analysis, we combined protein-protein interactions (PPI) information with support vector machine (SVM) method to identify potential COPD-related genes that would allow one to distinguish accurately severe emphysema from non-/mildly emphysematous lung tissue. We identified 8 COPD-related feature genes. When compared with another SVM method which did not use the prior PPI information, the prediction accuracy was significantly enhanced (AUC is increased from 0.513 to 0.909). On the base of results obtained one can suppose that incorporating network of prior knowledge into gene selection methods significantly improves classification accuracy. Consequently, the gene expression profiles from human emphysematous lung tissue may provide insight into pathogenesis, and a good classify prediction algorithm based on prior biology knowledge can further strengthen this performance.

Keywords: COPD, microarray, protein-protein information, support vector machine. DOI: 10.7868/S0026898414020104

# &атья представлена на английском языке.

* Эл. почта: hualin7750@139.com; hualin7750@yahoo.com.cn

Хроническая обструктивная болезнь легких (ХОБЛ), по сути, гетерогенное заболевание. Для каждого индивида вклад в развитие заболевания вносит различное сочетание следующих факторов: эмфиземы, хронического бронхита и длительного курения. Хотя в исследованиях последних лет показано, что только у 10% хронически злостных курильщиков развиваются симптомы ХОБЛ, курение до сих пор рассматривают как наиболее значимый экологический фактор риска [1, 2]. Считается, что и другие факторы, такие как загрязнение воздуха, респираторные инфекции, старение, тоже сильно влияют на развитие заболевания [3—5]. В настоящее время в ряде экспериментов показано, что ХОБЛ представляет собой комплексное генетическое заболевание с участием нескольких генов. Например, Вибхути (У1ЪЬиИ) с соавт. показали, что аллели 113И/139И тЕРНХ и аллели 105У/114У С5ТР1, а также комбинации генотипов с этими аллелями ассоциированы с некомпенсированным окислительным стрессом и функцией легких у больных ХОБЛ [6]. Бостонские исследователи проанализировали взаимосвязь между ранним развитием ХОБЛ и особенностями генома таких индивидов и выявили, что ген 8ЕЯРШЕ2, по всей видимости, связан с развитием фенотипа, имеющего склонность к ХОБЛ [7, 8]. Эта информация позволяет переосмыслить причины возникновения ХОБЛ на молекулярном уровне. Действительно, важно понимать, какие гены и процессы могут участвовать в развитии ХОБЛ. Знание генетической предрасположенности и точная идентификация генов риска развития заболевания может помочь в терапии ХОБЛ.

В последние годы использование микрочипов высокой плотности [9] становится все более эффективным инструментом для идентификации генов, потенциально связанных с риском развития ХОБЛ. Метод микрочипов дает глобальную картину экспрессии генов в тканях легких, по которой можно судить о молекулярных механизмах той или иной патологии, в том числе ХОБЛ. Недавно, в соответствии с гипотезой о роли старения в развитии ХОБЛ, выявлено несколько предсказанных ранее "молекулярных участников", вовлеченных в этиологию этого заболевания [3, 10]. Однако из-за ограниченных возможностей алгоритмов предсказания многие идентифицированные к настоящему моменту гены подвергаются критике, и причина этому — низкая воспроизводимость [11]. Другими словами, идентифицированные гены могут объяснить лишь малую часть фенотипических проявлений заболевания, а высокие значения сигналов шума, воспринимаемые как функциональные, оказываются лишь ложноположительными локусами. В связи с этим предполагается, что разработка новых алгоритмов с более высокой предсказательной точностью

должна стать важным этапом в идентификации генов, связанных с заболеваниями.

В последнее время считается, что использование информации о сетях взаимодействий или ре-гуляторных путях при поиске прогностических биомаркеров позволит повысить качество предсказания. Действительно, в некоторых исследованиях показано, что использование априорной информации о генной сети для анализа данных по экспрессии генов может повысить эффективность проводимой классификации и облегчить интерпретацию полученных результатов [12]. Однако в других работах, при анализе набора данных по раку молочной железы [11] и лейкозу [13], использование априорной информации по биологической активности в методе селекции генов не дало существенного улучшения в точности классификации по сравнению с классическими алгоритмами.

В данной работе представлены результаты исследования, в котором мы сосредоточились на идентификации генов, имеющих отношение к ХОБЛ, с использованием методов селекции генов, которые включают информацию о сети взаимодействий, и на изучении эффективности алгоритмов при анализе набора данных по ХОБЛ. Для этого анализа мы скомбинировали информацию о белок-белковых взаимодействиях (PPI) с методом опорных векторов (SVM), чтобы идентифицировать некоторые гены, потенциально имеющие отношение к ХОБЛ, которые позволили бы точно различать тяжелую эмфизему и не-/средне-эмфизематозную легочную ткань. Кроме этого, мы сконструировали байесовскую сеть для идентифицированных генов, относящихся к ХОБЛ, чтобы рассмотреть их взаимоотношения. Полученные результаты позволяют утверждать, что объединенный метод может значительно улучшить эффективность предсказания и повысить стабильность выбора генов, относящихся к развитию ХОБЛ.

МАТЕРИАЛЫ И МЕТОДЫ

Источник данных. Для проведения анализа использованы данные о профилях экспрессии мРНК (GSM28386, платформа GPL96 [HG-U133A]) [14]. Этот набор данных об экспрессии генов включает 22283 набора образцов от 18 пациентов с тяжелой эмфиземой и 12 курильщиков с средне-выраженной или отсутствующей эмфиземой. Для определения статистически значимых различий в экспрессии генов, которые позволяют различать тяжелую эмфизему от средне- или неэмфизематозной ткани легких, использован анализ значимости для микрочипов (SAM, Significance Analysis of Microar-rays) [15]. Метод SAM позволяет определять статистически значимые гены, проводя для каждого гена t-тесты и вычисляя статистику, которая количественно выражает связь между экспрессией

гена и фенотипом. Чтобы оценить, насколько существенна связь между экспрессией гена и фенотипом, мы использовали метод повторных перму-таций. С целью получения большего количества данных, чтобы выбрать более полный набор дифференциально экспрессирующихся генов для дальнейшего анализа, на практике зачастую в качестве популярного и менее строго фильтрующего критерия берут значения p < 0.05 и FDR < 0.1 [16]. Стремясь избежать потерь, мы использовали критерииp < 0.05 и FDR < 0.3 для определения генов с сильно варьирующей экспрессией. В соответствии с этими критериями идентифицировано 444 дифференциально экспрессирующихся гена, которые использованы для дальнейше

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком