Modelos Recorrentes - Parte I
Exercício 1
Qual a principal característica de uma Rede Neural Recorrente? Cite alguns exemplos de aplicações de RNNs.
Resposta:
Uma rede neural recorrente (RNN) é uma classe de redes neurais artificiais onde as conexões entre nós formam um grafo direcionado ao longo de uma sequência temporal. As RNNs lembram e são influenciadas pelo passado, ou seja, coisas já aprendidas com entradas anteriores. Dentre os principais exemplos de aplicação de RNNs estão: reconhecimento de fala, geração de música, classificação de sentimento, tradução automática, reconhecimento de atividade em vídeo e reconhecimento de entidades em frases.
Exercício 2
Considere a tarefa de identificação de nomes próprios em uma frase. Projete uma arquitetura de RNN que, dado uma frase $x = (x^{<1>}, x^{<2>}, …, x^{
Observação: Basta esboçar a arquitetura! Não é necessário mostrar as funções de ativação.
Resposta:
Exercício 3
Considerando a arquitetura da rede projetada no exercício anterior, qual deve ser o tamanho da entrada $(T_x)$ em relação ao tamanho da saída $(T_y)$? Cite outra aplicação que poderiam utilizar esse mesmo tipo de arquitetura.
Resposta:
$T_x$ = $T_y$. Aplicações: Identificação de palavras específicas (entidades).
### Exercício 4
Explique uma desvantagem ao utilizar a arquitetura da RNN tradicional na tarefa de identificação de nomes próprios em uma frase. Para isso, considere os exemplos: “He said, “Teddy Roosevelt was a great President!”. ” e “He said, “Teddy bears are on sale!”. ” A seguir, proponha uma nova arquitetura onde essa desvantagem possa ser solucionada.
Resposta:
O problema ao usar uma RNN tradicional é que a predição até certo ponto considera somente as palavras que antecedem a palavra alvo, ou seja, a informação das palavras que ocorrem depois não são levadas em consideração na etapa de forward. Assim, nos exemplos apresentados, “Teddy” seria classificado como nome próprio em ambos os casos, já que as palavras que poderiam distinguir o nome próprio (ex: Roosevelt e bears), estão após a palavra alvo. Solução: RNN bidirecional (BRNN).
Exercício 5
Considere a arquitetura de uma RNN many-to-many mostrada a seguir.
a) Especifique as funções que geram $a^{
b) Especifique a função de custo $L(ŷ, y)$ em termos das saídas preditas, $ŷ^{\hspace{1.5mm}
Resposta:
a) $a^{
$ŷ^{\hspace{1.5mm}
b) $L(ŷ, y) = \sum_{t=1}^{T_x} L^{