Formulario Contacto EPI Contacto
Alerta Alerta
Copyright Copyright

 

Marzo-abril de 2015, vol. 24, núm. 2
Servicios bibliotecarios


Comparação da Lei de Zipf em conteúdos textuais e discursos orais

Rafael-Roeck-Borges Cassettari, Adilson-Luiz Pinto, Rosângela-Schwarz Rodrigues y Letícia-Silvana-dos Santos

Resumo: A Lei de Zipf é uma teoria com base na matemática e na linguística que analisa e quantifica como as palavras são distribuídas dentro de um determinado texto. Desta forma, é possível representar por meio de gráficos e análises estatísticas quais são os termos que mais se repetem, de modo que seja possível criar um ranking de palavras-chave. Esta pesquisa verificou, por meio da Lei de Zipf, as variações entre trabalhos acadêmicos escritos e apresentados de forma oral em evento científico. As apresentações orais foram inseridas em forma de vídeo no YouTube, para que fosse possível recuperar, de forma automática, a transcrição do áudio. Por meio de um script executado em Bash, os textos e as apresentações transcritas foram quantificadas e organizadas, sendo possível criar nuvens de tags e tabelas com os rankings, facilitando a comparação entre os conteúdos escrito e oral. Foi possível identificar as esferas dos conteúdos, identificar as palavras em comum ou muito distantes e analisar e comparar matematicamente o que foi escrito com o que foi apresentado oralmente.

Palavras-chave: Lei de Zipf; Bibliometria; Estatísticas linguísticas.

Comparison of Zipf’s law in textual content and oral discourse

Abstract: Zipf’s law is a theory based on mathematics and linguistics that analyzes and quantifies how words are distributed within a text. It is possible to represent by graphs and statistical analyzes which are the terms that are repeated over so that a ranking of keywords is created. This research found, through the Zipf’s law, variations and uniformities of written academic papers and they presented orally. The oral presentations were inserted in video form on YouTube, it was possible to recover automatically the transcript of the audio. Using a Bash script, texts and transcribed presentations were quantified and organized, thereby creating tag clouds and tables with rankings, facilitating the analysis of the contents. It was possible to identify the spheres of content, identifying common words or not and, mathematically, analyze and compare what was written with what was presented in oral discourse.

Keywords: Zipf’s law; Bibliometrics; Linguistics statistics.

Ver en Recyt