Ano Letivo: 2016/17

Engenharia Informática-Internet das Coisas

Análise e Processamento de Grandes Volumes de Dados

Publicação em Diário da República: Despacho n.º 7043/2016 - 27/05/2016

7.5 ECTS; 1º Ano, 1º Semestre, 30,0 PL + 30,0 TP + 15,0 OT + 10,0 O , Cód. 39091.

Docente(s)
- Ricardo Nuno Taborda Campos (2)

(1) Docente Responsável
(2) Docente que lecciona

Pré-requisitos
Não aplicável

Objetivos
1. Conhecer as cinco dimensões do big data
2. Entender os riscos no uso do big data
3. Entender o ciclo de vida de um projeto de big data bem como a sua arquitetura
4. Entender o processo de query, armazenamento e processamento por detrás do big data
5. Extrair informação a partir de fontes de dados

Programa
1. Introdução ao big data
- O que é o big data?
- Quem está a usar using Big Data?
- Origens da informação.
- Razões para colecionar tantos dados.
- Como é que o big data difere das tradicionais bases de dados?
- Diferentes tipos de dados.
- 5 Vs do Big Data: volume, velocidade, variedade, veracidade e valor;

2. Ética e Privacidade de dados
- Como é que podemos evitar o big data?
- Identidade;
- Privacidade;
- Ética;
- Propriedade;
- Reputação;

3. Ciclo de vida de um projeto de big data
- Avaliação do negócio;
- Identificação dos dados;
- Carregamento e filtragem de dados;
- Extração de informação;
- Limpeza e validação de dados;
- Agregação e representação dos dados;
- Análise de dados;
- Visualização de dados;
- Utilização dos resultados.

4. Armazenamento em big data: NoSQL
- Armazenamento em pares, valores;
- Armazenamento em colunas;
- Armazenamento baseado em documentos;
- Armazenamento baseado em grafos;

5. Framework de armazenamento e processamento em big data: Apache Hadoop
- HDFS;
- MapReduce;

6. Análise de dados em big data
- Slicing and dicing;
- Monitorização básica;
- Identificação de anomalias;
- Data Mining;
- Text Mining;
- Web Mining;
- Multimedia Mining.

7. Text Mining
- Diferença entre análise de texto e recuperação de informação;
- Técnicas de extração de informação;
- Arquitetura de um sistema de processamento da linguagem natural;

8. Implementação de soluções práticas de big data
- Instalação, configuração e uso de uma distribuição Hadoop

Metodologia de avaliação
Realização de 2 projetos.
Projeto I: 60%
Projeto II: 40%

A entrega dos projetos é obrigatória para a obtenção de aprovação na UC, com nota mínima de 7 valores em cada componente.

Bibliografia
- Davis, K. (2012). Ethics of Big Data. (pp. 1-79). USA: OÂ´Reilly
- Erl, T. e Khattak, W. e Buhler, P. (2016). Big Data Fundamentals: Concepts, Drivers & Techniques. (pp. 1-235). USA: Prentice Hall
- Provost, F. e Fawcett, T. e , . (2013). Data Science for Business. (pp. 1-386). USA: OÂ´Reilly
- Witten, I. e Frank, E. e Hall, M. (2011). Data Mining: Practical Machine Learning Tools and Techniques. (pp. 1-629). USA: Elsevier

Método de Ensino
Ensino teórico-prático com recurso a meios áudio-visuais, a equipamento laboratorial e a exemplos práticos. Avaliação: Realização e apresentação de projectos de grupo.

Software utilizado nas aulas
Apache Hadoop

<< voltar ao Plano Curricular

IPT

Flyer

Engenharia Informática-Internet das Coisas

Análise e Processamento de Grandes Volumes de Dados

Notícias | Agenda