Vicuna-7b 3090单卡

BO

10代 12:26

Task Version Metric Value Stderr
wikitext 1 word_perplexity 12.1915
byte_perplexity 1.5962
bits_per_byte 0.6747

20代 20:08

Task Version Metric Value Stderr
wikitext 1 word_perplexity 12.1805
byte_perplexity 1.5960
bits_per_byte 0.6744

让x和w拥有独立的alpha时,10代,14:12

Task Version Metric Value Stderr
wikitext 1 word_perplexity 12.1549
byte_perplexity 1.5953
bits_per_byte 0.6739

最优mse记录,可以明显地观察到随层数深度呈现指数增长

Untitled

Grid_search

20代 12:06

Task Version Metric Value Stderr
wikitext 1 word_perplexity 12.1801
byte_perplexity 1.5960
bits_per_byte 0.6744

一点想法:

最优mse呈现随层深度指数上升的趋势,可不可以通过添加层深度相关的惩罚项,来改善代理函数在深层数时与参数空间的相关性?