Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/18453
Título: Análise de corpora jornalístico através das ocorrências de N-gramas
Autor: Oliveira, João António Monteiro de
Orientador: Couto, Francisco José Moreira
Martins, Bruno Emanuel da Graça, 1975-
Palavras-chave: Prospecção de informação em textos
Análise de N-Gramas
Indexação de textos
Jornalismo computacional
Memes
Trabalhos de projecto de mestrado - 2015
Data de Defesa: 2015
Resumo: O mundo jornalístico mudou drasticamente com a transição dos meios tradicionais de publicação para o mundo digital. O aumento da informação disponível e o melhoramento dos meios de processamento desta facilitam a sua interpretação, sendo assim possível analisar a importância de certos elementos informativos (memes) ao longo do tempo. O estudo destas tendências permite avaliar as flutuações de interesse dos memes, possibilitando a previsão de novos picos de popularidade e a correlação destes com os eventos que estiveram na origem do referido interesse. Considerando esta realidade, o trabalho proposto nesta tese tem como objectivo a transformação de um corpus jornalístico em dados estatísticos que permitam a análise de tendências ao longo de um período de tempo. A solução proposta deve ter em conta o tamanho do corpus a ser processado e como este afecta o tempo de processamento. Em termos analíticos, deve considerar-se a performance da solução e a validade dos resultados produzidos. Para responder aos objectivos propostos, construi a aplicação Web Público N-Gram Viewer para a criação de dados estatísticos e visualização de tendências de N-Gramas. A análise da performance da solução tem como base o tempo de execução dos diversos algoritmos de criação de N-Gramas para conjuntos de dados de tamanho variável e o número de máquinas usado para o processamento destes. Ao n´nível da validade dos resultados produzidos, são analisados exemplos onde se verifica a correlação entre o número de ocorrências gerado e a ocorrência de eventos que justifiquem o aumento de popularidade.
The news world has changed drastically with the transition from the tradicional publishing methods to the digital world. The increase of available information, as well as the improvement of the methods to process that information, facilitate its interpretation, allowing the analysis of the importance of memes along a period of time. The study of these tendencies allows the analysis and prediction of the future occurrences of the memes. Considering this reality, the point of this thesis is the creation of a software solution for the transformation of a corpus into statistic data and the study of the resulting trends for the given time period. The program must have in consideration the size of the corpus and how it will affect its performance. In terms of analysis, besides software performance, it is also necessary to confirm the validity of the produced statistics. In order to hit the goals defined for this thesis, the Público N-Gram Viewer Web application was built. The solution creates statistical data from corpus text files given as input and allows the search for N-Gram interest tendencies in a time interval. The performance analysis is based on the time necessary for the completion of the algorithms for the creation of the N-Grams, given inputs of variable size and the number of nodes used for processing. Regarding the consistency of the produced results, examples are considered where the correlation between the number of occurrences for a given N-Gram match events that occurred that justify the increase in popularity.
Descrição: Trabalho de projecto de mestrado, Engenharia Informática (Sistemas de Informação), Universidade de Lisboa, Faculdade de Ciências, 2015
URI: http://hdl.handle.net/10451/18453
Designação: Mestrado em Engenharia Informática
Aparece nas colecções:FC-DI - Master Thesis (projects)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
ulfc113836_tm_João_Oliveira.pdf1,34 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.