Understanding disease mechanisms with statistical models of signaling pathway activities

Patricia Sebastian-Leon

Understanding disease mechanisms with statistical models of signaling pathway activities

2016

Patricia Sebastian-Leon

espanolHoy en dia, uno de los temas mas candentes en la investigacion biomedica es entender los procesos que producen enfermedades. En el pasado, la mayor parte las enfermedades genicas fueron asociadas al mal funcionamiento de un solo gen, pero hay muchas enfermedades que solo pueden ser explicadas por el mal funcionamiento de un conjunto de genes. Una vez el genoma humano fue secuenciado, se hizo evidente que los genes no actuan solos en la celula, si no que estan unidos por una intrincada red de interacciones que determinan su actividad. Este descubrimiento dio lugar al inicio de la biologia de sistemas, que trata de entender como los componentes celulares se relacionan entre ellos para dar lugar a la vida. En biologia de sistemas, las redes que describen las relaciones que se establecen entre genes se llaman rutas de senalizacion. Por otra parte, el auge de nuevas tecnologias de alto rendimiento, ha permitido en los ultimos anos medir simultaneamente miles de componentes celulares, incluyendo la expresion genica. Esto ha producido la creacion de nuevas metodologias para el estudio del comportamiento diferencial de las rutas de senalizacion entre dos condiciones experimentales dados los niveles de expresion de cada uno de los genes contenidos en la ruta. En esta tesis, presentamos una nueva metodologia para analizar los datos de expresion en el contexto de las rutas de senalizacion. Primero, las rutas de senalizacion fueron modeladas y divididas en subestructuras mas pequenas, que llamaremos subrutas, que recogen las diferentes funciones biologicas individuales incluidas en la ruta completa. Este modelado tiene en cuenta la diferente naturaleza tanto de los nodos como de las aristas que forman la red, permitiendo que sean evaluadas de acuerdo con el concepto biologico que representan. Ademas, se modelaron las distribuciones de niveles de expresion de las sondas de diversos chips the expresion genica. Concretamente, la distribucion de cada sonda fue ajustada a una mixtura de distribuciones (gamma o normal) asociadas con los estados activo e inactivo de la sonda, respectivamente. Estas distribuciones fueron usadas para estimar la probabilidad de que una sonda este activa en una determinada muestra. La probabilidad de activacion estimada fue propagada a continuacion a lo largo de las subrutas, teniendo en cuenta las diferentes relaciones que se pueden establecer entre los nodos, obteniendo una estimacion de la actividad de cada una de las subrutas. Por lo tanto, dado un experimento que compara dos condiciones biologicas, la metodologia propuesta estima la actividad de cada una de las subrutas, y las compara para obtener las subrutas significativamente activas o inhibidas entre ambas condiciones. Esta metodologia supera la mayor parte de las limitaciones presentadas por los metodos anteriores y proporciona a la comunidad cientifica una herramienta web de facil manejo que permite analizar los datos de expresion obtenidos en un experimento comparando dos condiciones dentro del contexto de las rutas de senalizacion. En consecuencia, la estrategia propuesta en esta tesis nos permite entender los mecanismos que dan lugar a una enfermedad en terminos de la biologia de sistemas, ya que permite obtener como resultado de nuestro analisis un conjunto de genes, biologicamente relacionados y que conjuntamente producen una determinada funcion genica, en vez de un gene o conjunto de genes sin ninguna relacion entre ellos. EnglishUnderstanding the processes that cause diseases is now one of the hot topics in biological research. In the past, most of the genetic diseases were associated to a single gene, but there are a lot of diseases that cannot be explained by the action of a single gene, and they can only be explained, but by malfunctions of a set of genes. After human genome was sequenced, it became evident that genes do not act alone in a cell, but together in an intricate network of relationships that determine their activity. This discover resulted in the beginning of systems biology, that aims to understand how cellular components are related to give rise to life. In systems biology, networks describing the relationships that can be established between gene are called signaling pathways. The explosion of new high-throughput technologies has allowed to measure simultaneously thousands of cellular elements, including gene expression, so many approaches trying to explain the differential behavior of these signaling pathways when comparing control and disease samples by using gene expression data have appeared in the last years. In this thesis, a novel methodology is introduced to analyze expression data in a pathway context. First, signaling pathways were modeled and dissected in smaller substructures called subpathways, that collect the individual biological functions included into the pathway. This model has into account the different nature of nodes and edges in the pathway network and evaluates them according to the underlying biology that they represent. The levels of expression of several probe sets from different microarray platforms were also modeled. Specifically, probe set distribution was fitted to a mixture of two distributions (gamma or normal) associated to the active and inactive state of the probe set. These distributions were then used to estimate the probability of a probe set to be active in a given sample. The estimated probability of activation was first summarized to node activation probability and then was propagated along the subpathways, by having into account the different types of edges that relate the nodes; this results in an estimation of the activity of each subpathway. Given a control-case experiment, the proposed approach estimates the activity of each subpathway in each sample, and compare then to obtain the subpathways significantly activated/deactivated between both conditions. This method overcomes most of the limitations of previous methods and provides the research community with a user-friendly web-tool to analyze expression data from a control-disease experiment in a signaling pathway context. It is very useful for an easy interpretation of the results in terms of gain/loss of biological functions. Thus, with this strategy, it is possible to understand the mechanisms driving a disease in terms of systems biology, since we obtain a comprehensive path of genes, closely related, that produce a determined function in the cell, instead of a single gene or a set of genes without relation between them.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations