小米的搞得这个Hybrid Attention,本质上就干了一件特别朴素的事,承认一个现实,也就是人类看东西,不是每一秒都在看全局。 它的大部分时间,只看最近的 128 个 token,就像你只记得眼前这一段对话,每隔一段,就抬头看一下全局,防止走偏。