Modelos Recorrentes - Parte I

Exercício 1

Qual a principal característica de uma Rede Neural Recorrente? Cite alguns exemplos de aplicações de RNNs.

Resposta:

Uma rede neural recorrente (RNN) é uma classe de redes neurais artificiais onde as conexões entre nós formam um grafo direcionado ao longo de uma sequência temporal. As RNNs lembram e são influenciadas pelo passado, ou seja, coisas já aprendidas com entradas anteriores. Dentre os principais exemplos de aplicação de RNNs estão: reconhecimento de fala, geração de música, classificação de sentimento, tradução automática, reconhecimento de atividade em vídeo e reconhecimento de entidades em frases.

Exercício 2

Considere a tarefa de identificação de nomes próprios em uma frase. Projete uma arquitetura de RNN que, dado uma frase $x = (x^{<1>}, x^{<2>}, …, x^{})$ produza uma saída $ŷ = (ŷ^{\hspace{1.5mm}<1>}, ŷ^{\hspace{1.5mm}<2>}, ..., ŷ^{\hspace{1.5mm}})$ com a classificação de cada palavra $x^{}$ como sendo nome próprio ou não.

Observação: Basta esboçar a arquitetura! Não é necessário mostrar as funções de ativação.

Resposta:

Captura de Tela 2024-12-10 às 11.05.34.png

Exercício 3

Considerando a arquitetura da rede projetada no exercício anterior, qual deve ser o tamanho da entrada $(T_x)$ em relação ao tamanho da saída $(T_y)$? Cite outra aplicação que poderiam utilizar esse mesmo tipo de arquitetura.

Resposta:

$T_x$ = $T_y$. Aplicações: Identificação de palavras específicas (entidades).

### Exercício 4

Explique uma desvantagem ao utilizar a arquitetura da RNN tradicional na tarefa de identificação de nomes próprios em uma frase. Para isso, considere os exemplos: “He said, “Teddy Roosevelt was a great President!”. ” e “He said, “Teddy bears are on sale!”. ” A seguir, proponha uma nova arquitetura onde essa desvantagem possa ser solucionada.

Resposta:

O problema ao usar uma RNN tradicional é que a predição até certo ponto considera somente as palavras que antecedem a palavra alvo, ou seja, a informação das palavras que ocorrem depois não são levadas em consideração na etapa de forward. Assim, nos exemplos apresentados, “Teddy” seria classificado como nome próprio em ambos os casos, já que as palavras que poderiam distinguir o nome próprio (ex: Roosevelt e bears), estão após a palavra alvo. Solução: RNN bidirecional (BRNN).

Exercício 5

Considere a arquitetura de uma RNN many-to-many mostrada a seguir.

Captura de Tela 2024-12-10 às 10.21.58.png

a) Especifique as funções que geram $a^{}$ e $ŷ^{\hspace{1.5mm}}$. Lembre-se que $x^{}$ é a t-ésima entrada, $ŷ^{\hspace{1.5mm}}$ é a t-ésima saída predita gerada a partir de $a^{}$ que corresponde à t-ésima ativação que é repassada também para a célula $t+1$.

b) Especifique a função de custo $L(ŷ, y)$ em termos das saídas preditas, $ŷ^{\hspace{1.5mm}}$.

Resposta:

a) $a^{} = g(W_{aa}a^{<t−1>} + W_{ax}x^{} + b_a)$

$ŷ^{\hspace{1.5mm}} = g(W_{ya}a^{} + b_y)$

b) $L(ŷ, y) = \sum_{t=1}^{T_x} L^{}(ŷ^{\hspace{1.5mm}}, y^{})$