Vicuna-7b 3090单卡
BO
10代 12:26
Task | Version | Metric | Value | Stderr | |
---|---|---|---|---|---|
wikitext | 1 | word_perplexity | 12.1915 | ||
byte_perplexity | 1.5962 | ||||
bits_per_byte | 0.6747 |
20代 20:08
Task | Version | Metric | Value | Stderr | |
---|---|---|---|---|---|
wikitext | 1 | word_perplexity | 12.1805 | ||
byte_perplexity | 1.5960 | ||||
bits_per_byte | 0.6744 |
让x和w拥有独立的alpha时,10代,14:12
Task | Version | Metric | Value | Stderr | |
---|---|---|---|---|---|
wikitext | 1 | word_perplexity | 12.1549 | ||
byte_perplexity | 1.5953 | ||||
bits_per_byte | 0.6739 |
最优mse记录,可以明显地观察到随层数深度呈现指数增长
Grid_search
20代 12:06
Task | Version | Metric | Value | Stderr | |
---|---|---|---|---|---|
wikitext | 1 | word_perplexity | 12.1801 | ||
byte_perplexity | 1.5960 | ||||
bits_per_byte | 0.6744 |
一点想法:
最优mse呈现随层深度指数上升的趋势,可不可以通过添加层深度相关的惩罚项,来改善代理函数在深层数时与参数空间的相关性?