L1 Cache其实挺快的

最新推荐文章于 2024-09-16 17:46:36 发布

zhxonmir2

最新推荐文章于 2024-09-16 17:46:36 发布

阅读量76

点赞数

分类专栏： C语言学习 MASM 文章标签： c++ 开发语言汇编

本文链接：https://blog.csdn.net/zhxonmir2/article/details/130323009

版权

C语言学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

MASM

2 篇文章 0 订阅

订阅专栏

#include <windows.h>

int __declspec(naked) testf()

{

__asm

{/*

push eax

push ebx

push ecx

push edx

pop edx

pop ecx

pop ebx

pop eax

pinsrd xmm0, eax, 0

pinsrd xmm0, ebx, 1

pinsrd xmm0, ecx, 2

pinsrd xmm0, edx, 3

pextrd eax, xmm0, 0

pextrd ebx, xmm0, 1

pextrd ecx, xmm0, 2

pextrd edx, xmm0, 3

ret

}

int main()

{

LARGE_INTEGER li1, li2;

QueryPerformanceCounter(&li1);

__asm

{

mov ecx, 0xfffffff

star:

call testf

sub ecx, 1

jnz star

}

QueryPerformanceCounter(&li2);

printf("%I64d\n", li2.QuadPart - li1.QuadPart);

}

一直以为，XMM寄存器也是在CPU内部啊，不用走BUS，应该很快啊，哪知道还不如push/pop快呢：

先空跑一趟，记录一下循环的开销

mov ecx, 0xfffffff

star:

;call testf

sub ecx, 1

jnz star

300K周期左右

然后看一下push/pop 4个寄存器的的时间： 1600K左右

然后看一下pinsrd/pextrd 4个寄存器的的时间： 2300K左右

都减去300之后，1300/2000，这就尴尬了，还是老老实实push/pop吧。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhxonmir2

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

05-存储器分级：L1 Cache 比内存和 SSD 快多少倍？

yjh6688的博客

07-24

2927

本文章我们讲到了存储器分级策略，讨论了L1/L2/L3缓存的工作原理。本课时学习的内容，是所有缓存知识的源头。

L1 Cache(一级缓存)

豚

05-24

6922

转自https://blog.csdn.net/hdanbang/article/details/45619573 CPU缓存（Cache Memory）是位于CPU与内存之间的临时存储器，它的容量比内存小的多但是交换速度却比内存要快得多。缓存的出现主要是为了解决CPU运算速度与内存读写速度不匹配的矛盾，因为CPU运算速度要比内存读写速度快很多，这样会使CPU花费很长时间等待数据...

参与评论您还未登录，请先登录后发表或查看评论

cpu L1 级 cache miss 研究

chonggou9369的博客

02-04

1792

引子 <pre> public class L1CacheMiss1 { private static final int RUNS = 10; private static final int DIMENSION_1 = 1024 * 1024; private stati...

天啦噜！知道硬盘很慢，但没想到比 CPU L1 Cache 慢 10000000 倍

小林coding

10-14

6798

前言大家如果想自己组装电脑的话，肯定需要购买一个 CPU，但是存储器方面的设备，分类比较多，那我们肯定不能只买一种存储器，比如你除了要买内存，还要买硬盘，而针对硬盘我们还可以选择是固态硬盘还是机械硬盘。相信大家都知道内存和硬盘都属于计算机的存储设备，断电后内存的数据是会丢失的，而硬盘则不会，因为硬盘是持久化存储设备，同时也是一个 I/O 设备。但其实 CPU 内部也有存储数据的组件，这个应该比较少人注意到，比如寄存器、CPU L1/L2/L3 Cache 也都是属于存储设备，只不过它们能存储的数据非常

[体系结构实验] C语言测量L1 Cache的相联度

mylo2000的博客

05-25

2865

1. Cache 组相联在我们开始用C语言代码测量Cache的相联度之前，需要先简单复习一下什么是组相联。Cache的地址映射方式有直接映射、全相联映射和组相联映射。组相联映射是目前CPU中普遍使用的策略。以8路组相联为例，L1 Cache的大小为32KB，Cache Line Size 为64B（即每一个Cache块的大小，从内存向Cache传数据都是以Cache块为单位的），则整个L1 Cache一共有32KB / 64B = 512块。上面关于L1 Cache的相关参数是笔者正在用的计算机的实

L1 L2 L3 cache

白马笑西风的专栏

10-27

1033

L1Cache(一级缓存)是CPU第一层高速缓存，分为数据缓存和指令缓存。内置的L1高速缓存的容量和结构对CPU的性能影响较大，不过高速缓冲存储器均由静态RAM组成，结构较复杂，在CPU管芯面积不能太大的情况下，L1级高速缓存的容量不可能做得太大。一般服务器CPU的L1缓存的容量通常在32—256KB。 L2Cache(二级缓存)是CPU的第二层高速缓存，分内部和外部两种芯片。内部的芯片二

多级cache之间的替换(缓存)策略

baron-周贺贺-代码改变世界ctw

03-12

3638

1、L1 cache的替换策略是什么，L2和L3的呢 2、哪些的替换策略是由硬件决定的(定死的，软件不可更改的)，哪些的替换策略是软件可以配置的？ 3、在经典的 DynamIQ架构中，数据是什么时候存在L1 cache，什么时候存进L2 cache，什么时候又存进L3 cache，以及他们的替换策略是怎样的？比如什么时候数据只在L1？什么时候数据只在L2？什么时候数据只在L3？还有一些组合，比如什么时候数组同时在L1和L....

A53 cache的架构解读

baron-周贺贺-代码改变世界ctw

03-12

3214

缓存,高速缓存,cache, CCI,CMN,CCI-550,CCI-500,DSU,SCU,L1,L2,L3,system cache, Non-cacheable,Cacheable, non-shareable,inner-shareable,outer-shareable, optee、ATF、TF-A、Trustzone、optee3.14、MMU、VMSA、cache、TLB、arm、armv8、armv9、TEE、安全、内存管理、页表…...

重学操作系统----05 | 存储器分级：L1 Cache 比内存和 SSD 快多少倍？

MyySophia的博客

02-10

1462

目录 1、为什么会有存储器分级策略？ 2、存储器分级策略 2.1 存储器的级别 2.2.1 L1-Cache 2.2.2 L2-Cache 2.2.3 L3-Cache 3、内存 4、SSD 和硬盘 5、缓存条目结构 6、指令的预读 7、缓存的命中率 8、缓存置换问题 9、总结 10、面试题 1、为什么会有存储器分级策略？要想弄清楚存储器分级策略。首先，你要弄清楚，“我们希望存储器是什么样子的”，也就是“我们的需求是什么”？然后，你要弄清楚，我们的需求有哪些“.

计组实验5：cache大小测量与 cache line 大小测量

热门推荐

AKGWSB 's blog

12-28

1万+

前言今天做了实验5，通过 c 语言测 cache 参数。其实按理来说挺简单的，只是我们班没给代码，纯靠自己。听说别的班有给代码 emm 因为《深入理解计算机系统》这本书上面给的代码是 Linux 平台下的，而且需要一个 fcyc2 头文件，可以在 https://github.com/fabiensanglard/CpuCacheMountainViewer 这里找到。 ⚠ 我没有在 Linux 下试过课本上面的代码。。。我是在 win10 下测试的。。。所以。。。我并不确定我的代码是否正确。

三十七、L1，L2，L3 Cache究竟在哪里

I want to know a little more.

01-30

7841

很多人有个疑问，为什么Intel系列CPU在2005年后可以力压AMD十多年？优秀的Cache设计和卓越的微架构是主要的原因。大多数高层程序员认为 Cache 是透明的，CPU可以很聪明地安排他们书写的程序，不需要关心数据是在内存中还是在Cache里。他们也许是对的，大部分时间Cache都可以安静的工作。但对于操作系统、编译软件、固件工程师和硬件工程师来说，Cache则需要我们特别关照。现在越来...

cache coherence和memory consistency的区别

baron-周贺贺-代码改变世界ctw

07-19

611

1、cache coherence是由硬件自动维护或软件调用DC/IC指令手动维护的，主要确保不同的PE看到的内容是一致的。2、memory consistency是DSB/DMB/ISB之类的之类手动维护，确保一个cpu对内存操作的，其它cpu也看得到。3、探讨cache coherence 和 memory consistency之间的关系，其实就是探讨 cache缓存一致性和内存屏障barrier之间的关系。

01-简述cache的基本概念和使用场景

baron-周贺贺-代码改变世界ctw

03-12

2501

1、为什么要用cache? ARM 架构刚开始开发时，处理器的时钟速度和内存的访问速度大致相似。今天的处理器内核要复杂得多，并且时钟频率可以快几个数量级。然而，外部总线和存储设备的频率并没有达到同样的程度。可以实现可以与内核以相同速度运行的小片上 SRAM块，但与标准 DRAM 块相比，这种 RAM 非常昂贵，标准 DRAM 块的容量可能高出数千倍。在许多基于 ARM 处理器的系统中，访问外部存储器需要数十甚至数百个内核周期。高速缓存是位于核心和主内存之间的小而快速的内存块。它在主内存中保存项目的副本。对

C++ STL中sort函数

weixin_43349440的博客

09-15

269

刷题中经常遇到，用于各种元素排序，可以自定义排序方式，vector、deque适用。详细讲解：https://zhuanlan.zhihu.com/p/36274119。，为避免QuickSort快排的递归调用带来过大的额外负荷，就改用。一旦分段后的数据量小于某个门槛。STL的sort算法，

C语言 12 函数

天河有尽后为涯，星海无边前作岸。

09-13

1108

程序的入口点就是main函数，只需要将程序代码编写到主函数中就可以运行了，不过这个函数只是由我们来定义，而不是我们来调用。当然，除了主函数之外，一直在使用的printf那么，函数的具体定义是什么呢？函数是完成特定任务的独立程序代码单元。每次要做这个任务时，都要完完整整地将任务的每一行代码都写下来，如果程序中多处都需要执行这个任务，每个地方都完整地写一遍，实在是太臃肿了，有没有一种更好的办法能优化代码呢？

C++与QML的数据交互

qq_50679120的博客

09-11

526

这里没什么好说的，在C++中组合好json后，通过信号发送到qml中，qml中是可以解析json的。通过Q_PROPERTY属性，可以轻松地在QML中读取和修改数据，并将其更新到C++中，先创建一个类。在QML接收，直接通过data.can_id这样的形式去访问结构体中的元素。这两个也没什么好说的，在C++中直接发送信号就好了，在C++中声明并注册一个结构体。然后发送信号到QML中。

CF C. Nikita and LCM

qq_74190237的博客

09-13

272

思维题.首先先对数组排序,考虑一种特殊情况,那就是如果数组最大值不能被其他数整除,这代表什么?代表其他数里面有某个质因子,最大值里面没有或者数量不管,所有最小公倍数都会大于最大值.那么其他情况的话,就可以确定所有的数都是最大数的因子,那么形成的最小公倍数也一定是最大数的因子,那么就可以枚举一下最大数的因子,就可以了.给长度为n的数组,求出最长的特殊子数组,如果子数组的最小公倍数不在原数组中,那么就是特殊的.

C++_map_set详解