是在底層更細的顆粒度上做優化,不是用匯編重寫一遍cuda.

請您先登陸,再發跟帖!