Si creo una variable en TensorFlow, ¿se actualiza automáticamente como parámetro para minimizar la pérdida?

¿La función de pérdida depende de esa variable que creó? Tensorflow tiene que ver con el gráfico de dependencia.

Cuando define el optimizador OP (operación), le pasa la función de pérdida. Entonces, cuando ejecuta el OP optimizador (que es lo que actualiza los pesos), el tensorflow se da cuenta de que necesitará calcular la función de pérdida para completar la operación del optimizador. Entonces tensorflow calcula debidamente la función de pérdida.

Tan pronto como el tensorflow intente calcular la función de pérdida, se dará cuenta de que la pérdida depende de la salida de la capa superior de alguna red neuronal, o tal vez de algún otro modelo u operaciones que haya definido (el tensorflow es, después de todo, solo una biblioteca matemática orientado a redes neuronales).

Por lo tanto, Tensorflow se activa para calcular debidamente la capa superior de la red neuronal. Esa capa depende de la capa anterior, y así sucesivamente hacia abajo a través de las capas.

Finalmente, la cadena de dependencias termina en la entrada que pasó a través del diccionario de alimentación (feed_dict), o en una cola en la que el tensorflow se estaba poblando de un archivo de registro TF.

Ahí es donde termina la cadena. Si simplemente definió una variable que no interactúa con esa cadena de ninguna manera, entonces no, no se actualizará. Tensorflow hará todo lo necesario para devolver cualquier OP o tensores que solicite, pero no hará más.

Como ejemplo (no es que quiera hacer esto), podría definir dos redes separadas en el mismo gráfico. Dos optimizadores, dos pérdidas, etc. Si le pide que calcule el optimizador para la primera red, ya que no hay dependencias entre ellos, solo se actualizará la primera red.

También puede pedirle a la red que calcule la función de pérdida de su gráfico. Si solicitó el tensor de pérdida, y no el optimizador, Tensorflow realizaría los cálculos de avance necesarios para calcular la pérdida, pero dado que el OP del optimizador es lo que actualiza los pesos, no obtendría una actualización de peso en este caso.

no necesariamente; una tasa de aprendizaje en descomposición, por ejemplo, usaría una variable de flujo de tensor para realizar un seguimiento del paso global y la tasa de aprendizaje actual; este no es un parámetro (sino un hiperparámetro).