Paper Notes
Cambricon-C: Efficient 4-bit Matrix Unit via Primitivization
这篇论文比较创新地使用了counter来规避4-bit的乘法。 4-bit数据可以被直接穷举,因此4-bit乘法的值也很容易通过查找表的方式来快速实现。 为了加强这个查找表的速度且降低功耗,此工作用了quarter square mul
tiplication来将乘法变成 两个数的加法与减法。
会容易不能快速理解的点:图9中的16x29x32的输入实际上是代表一列PE,但是后面的电路却只针对一个PE。 因此其电路逻辑是,根据PE内部储存的不同Q值出现的次数算出来后,再用乘法与加法树完成计算。 因此,GEMM中计算乘法的次数被大大降低,从而大幅提高了功耗效率。但是从面积角度上讲,此研究或仍有提高空间。
Comments
Post a Comment