博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
RNN Train和Test Mismatch
阅读量:5293 次
发布时间:2019-06-14

本文共 1001 字,大约阅读时间需要 3 分钟。

李宏毅深度学习

https://www.bilibili.com/video/av9770302/?p=8

 

在看RNN的时候,你是不是也会觉得有些奇怪,

Train的过程中,

是把训练集中的结果作为下一步的输入

目标函数,是每一步的真实输出和训练集结果的交叉熵

 

Test的过程中,

是直接把每一步的输出作为下一步的输入

可以看到train和test的时候,每一步的输入是不一样的,这种不一致会带来什么问题?

 

对上面的树形结构,

表示学习的过程,如果网络完全正确的学习到我们的训练集,那就是左边的分支

但如果网络只在第一步没有学对,选择了B,而不是A

那么在test的时候,面对相同的句子,

那么它第一步会选B,但我们之前大部分的学习到的知识都集中在左边的分支,而右边的分支在学习的时候没有碰到过

所以对于网络后续的选择都只能乱选

从这个例子可以看出来,这种mismatch所带来的问题

 

 那么问题是,为什么train的时候,不也把真实的输出作为下一步的输入?

将真实输出作为下一步的输入,会导致网络很难训练

原因是,真实的输出是会变化的,

如上图,开始第一步的输出是B,那么第二步学到的是,输入是B的时候,我们也应该得到一个B

但是随着train的继续,第一步的输出会变成A,趋向正确的结果,这样,之前在第二步学的知识就没有用了,

所以对于训练过程中,我们需要保持condition的稳定性

 

那到底应该怎么样做?

Scheduled Sampling的方法就是每次用一个随机sampling来决定是用哪一个作为下一步的输入

那这个方法不是也会有我们上面说的不稳定问题吗?

注意上面的曲线图,这里sampling的概率是不断变化的,图表示的是用reference的概率随着训练次数的变化

可以看出来,刚开始选reference的概率非常大,所以刚开始和普通的RNN训练没有区别

但是随着训练次数的增多,慢慢的用model的概率会越来越大

这样做的好处是啥,

因为刚开始的时候model不稳定,所以用reference,但是随着训练的进行,model的输出越来越稳定,这时就换成用medel的输出来训练

这样做的好处是,在condition相对稳定的情况下,又可以消除train和test的mismatch

 

转载于:https://www.cnblogs.com/fxjwind/p/9156918.html

你可能感兴趣的文章
boost库使用:vs2013下boost::container::vector编译出错解决
查看>>
通过httplib2 探索的学习的最佳方式
查看>>
理解运算符重载 4
查看>>
快来熟练使用 Mac 编程
查看>>
第二周
查看>>
断言简介
查看>>
Node.js 入门:Express + Mongoose 基础使用
查看>>
plsql使用,为什么可以能看见其他用户的表
查看>>
一步步教你轻松学奇异值分解SVD降维算法
查看>>
Scripting Java #3:Groovy与invokedynamic
查看>>
2014-04-21-阿里巴巴暑期实习-后台研发-二面经验
查看>>
数据结构中线性表的基本操作-合并两个线性表-依照元素升序排列
查看>>
使用pager进行分页
查看>>
吐医疗器械研发可配置性需求的槽点
查看>>
UVA - 1592 Database
查看>>
机器翻译评价指标 — BLEU算法
查看>>
机器学习基石(9)--Linear Regression
查看>>
Min Stack
查看>>
从LazyPhp说起
查看>>
Fine Uploader文件上传组件
查看>>