Universidade de Lisboa Repositório da Universidade de Lisboa

Repositório da Universidade de Lisboa >
Faculdade de Ciências (FC) >
FC - Dissertações de Mestrado >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10451/1204

Title: Root cause analysis in large and complex networks
Authors: Carvalho, Tiago Filipe Rodrigues de
Advisor: Kim, Hyong S.
Neves, Nuno Fuentecilla Maia Ferreira
Keywords: Segurança informática
Teses de mestrado
Issue Date: 2008
Abstract: Uma grande parte do sucesso de uma empresa depende do desempenho da função de Tecnologias de Informação. Em redes de grandes dimensões, devido à evolução do número de clientes e às constantes mudanças nas necessidades das empresas, as dependências entre sistemas e elementos de rede têm vindo a tornar-se cada vez mais complexas. Consequentemente, a localização das causas originais de problemas de desempenho de sistemas é uma tarefa complexa. A rede tem de ser analizada como um todo porque, mesmo durante a ocorrência de uma falha, todos os sistemas podem parecer estar correctos quando analizados separada e instantâneamente. O objectivo deste projecto é o estudo de uma solução automática de análise de causas originais de falhas em redes complexas e de grandes dimensões. Neste trabalho, é apresentado o Etymon, uma ferramenta que identifica os componentes e métricas mais relevantes para explicar os problemas que afectam o trabalho diário dos utilizadores finais. O presente trabalho propõe uma arquitectura modular para executar as acções necessárias para encontrar uma explicação para um problema de desempenho. A análise começa por processar registos de falhas (trouble-tickets) de forma a identificar os principais períodos de desempenho degradado. O tráfego de rede é analizado continuamente para identificar as dependências entre componentes e mantê-las actualizadas. Usando a informação sobre dependências, é criado um modelo da rede que representa o ambiente para uma aplicação específica. De seguida, é avaliado o estado de cada componente do modelo durante o período do problema com base em desvios do seu comportamento habitual. Finalmente, é feita a pesquisa no modelo por caminhos causais em que o primeiro componente corresponde à causa original do problema. Para testar a aplicação desenvolvida foi utilizada a rede empresarial de um operador de telecomunicações Europeu. Assim, foram enfrentados todos os desafios iner
A huge share of a company's success relies on the performance of its IT infrastructure. In large networks, due to the evolution of the number of clients and changes in the company requirements, the dependencies among systems and network elements tend to become increasingly complex. Consequently, the localization of root-causes of performance problems is a very challenging task. The network must be analyzed as a whole because, despite the failure, all systems may seem to work fine when analyzed separately. The purpose of this project is to study an automatic root-cause analysis of failures in large and complex networks. We present Etymon, a tool that identifies the most relevant network components and metrics to explain performance problems affecting the daily work of end-users. We propose a modular architecture to perform the tasks necessary to find explanation root-cause of a problem. The analysis starts by processing trouble tickets in order to identify the major performance issues. Traffic monitoring and analysis are continuously performed on the network to identify the dependencies among components. Using the dependency information, we create a network model that represents the environment for a specific application. We then evaluate the state of each component of the model during the time when the trouble ticket is issued, based on deviations from observed normal behavior. Finally, we search the model for causal paths that start on a root-cause component and provide an explanation for the failure. The testbed for our application is the enterprise IT network of a large European Telecom operator. Therefore, we face challenges of applying such tools to a production network. For example, the challenges are possible lack of information about applications, complex interactions, and high number of workflows. Etymon introduces concepts such as environment-specific network model, context-conditioned dependency information, temporal correlation of the anomalies and
Description: Tese de mestrado em Segurança Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2008
URI: http://hdl.handle.net/10451/1204
Appears in Collections:FC - Dissertações de Mestrado

Files in This Item:

File Description SizeFormat
17917_ULFC086685_TM.pdf1.85 MBAdobe PDFView/Open
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

  © Universidade de Lisboa / SIBUL
Alameda da Universidade | Cidade Universitária | 1649-004 Lisboa | Portugal
Tel. +351 217967624 | Fax +351 217933624 | repositorio@reitoria.ul.pt - Feedback - Statistics
DeGóis
  Estamos no RCAAP Governo Português separator Ministério da Educação e Ciência   Fundação para a Ciência e a Tecnologia

Financiado por:

POS_C UE