жність, оскількі КОЖЕН CPU володіє, власною пам яттю.
Малюнок 1.2.1 Вбудований контролер памяті
звічайна, чудес чекати НЕ слід. Перед нами конфігурація Non Uniform Memory Access (NUMA), тобто доступ до пам яті буде обходити з тихий чі других накладних розцінкамі, залежних від того, де дані розташовуються в пам яті. Зрозуміло, что доступ до локальної пам яті буде проводитись з самими низьких затримки и самой скроню пропускна здатністю, оскількі доступ до віддаленої пам яті відбувається через проміжній інтерфейс QPI, что зніжує Продуктивність.
Вплив на Продуктивність Передбачити доладно, оскількі всі поклади від програми та операційної системи. Intel стверджує, что Падіння продуктівності при віддаленому доступі по затримки ставити около 70%, а пропускна здатність зніжується в два рази в порівнянні з локальними доступом. За інформацією Intel, даже при віддаленому доступі через інтерфейс QPI, затримки будут нижчих, чем на попередніх поколіннях процесорів, де контролер знаходівся на північному мосту. Однако це стосується только серверних Додатків, Які Вже й достатньо трівалій годину розробляються з урахуванням конфігурацій NUMA.
1.3 Трірівнева ієрархія кеша
сконцентрувалася на продуктівності Загально кеша L2, Який ставши КРАЩА рішенням для архітектури, яка націлювалася, Головним чином, на двоядерні конфігурації. Альо у випадка з Nehalem Інженери начали з нуля и Прийшли до такого ж висновка, что и конкуренти: загальний кеш L2 НЕ Дуже добре Підходить для рідної чотірьохядерній архітектури. Різні ядра могут занадто часто віміваті дані, необхідні іншім ядрам, что прізведе до занадто Багат проблемам з внутрішнімі шинами и арбітражем, Намагаючись Забезпечити всі Чотири ядра достаточно пропускна спроможністю Із збереженням затрімок на й достатньо низьких Рівні. Щоб вірішіті ЦІ проблеми, Інженери оснастили Кожне ядро ??власним кешем L2. Оскількі ВІН виділений на шкірні ядро ??и відносно малий (256 кбайт), Вийшла Забезпечити кеш очень скроню продуктівністю; зокрема, затримки істотно Покращена в порівнянні з Penryn - з 15 тактів до, примерно, 10 тактів.
Малюнок 1.3.1 Трірівнева ієрархія кеша
Потім є Величезна кеш-пам ять третього уровня (8 Мбайт), что відповідає за зв язок между ядрами. На перший погляд архітектура кеша Nehalem нагадує Barcelona, ??но робота кеша третього уровня очень відрізняється від AMD - овва інклюзівна для всіх ніжніх рівнів ієрархії кеша. Це означає, что если ядро ??спробує отріматі доступ до даних, и смороду відсутні в кеші L3, то немає необхідності шукати дані у ВЛАСНА кешах других ядер - там їх немає. Навпаки, если дані Присутні, Чотири біта, пов язані з шкірними рядком кеш-пам яті (один біт на ядро) показують, чи могут дані потенційно прісутнім (потенційно, но без гарантії) у нижній кеші Іншого ядра, и если так, то в якому.
Ця техніка очень ефективна для забезпечення когерентності персональних кешей шкірного ядра, оскількі вон зменшує потребу в обміні інформацією между ядрами. Є, звічайна, недолік у виде Втрати части кеш-пам'яті на дані, Присутні в кешах других рівнів. Втім, не все так страшно, оскількі кеші L1 и L2 відносно маленькі в порівнянні з кешем L3 - всі дані кешей L1 и L2 займають, максимум, 1,25 Мбайт в кеші L3 з доступних 8 Мбайт. Як и у випадка Barcelona, ??кеш третього уровня працює на других частотах у порівнянні з самим чіпом. Отже, затримка доступу на даного Рівні может мінятіся, но вона винна складаті около 40 тактів.
Єдині Розчарування в новій ієрархії кеша Nehalem пов'язані з кешем L1. Пропускна здатність кешу інструкцій НЕ булу збільшена - як и Ранее 16 байт на такт у порівнянні з 32 у Barcelona. Це может создать вузьке місце в серверно-орієнтованій архітектурі, оскількі 64-бітові інструкції крупніше, чем 32-бітові, тім более что у Nehalem на один декодер более, чем у Barcelona, ??что сільніше навантажує кеш. Що стосується кеша даних, его затримка булу збільшена до чотірьох тактів в порівнянні з трьома в Conroe, полегшуючі роботу на високих тактових частотах.
1.4 TLB (Буфер асоціатівної трансляції)
Вже много років процесори Працюють НЕ з фізічнімі адресами пам яті, а з віртуальнімі. Серед других Перевага такий ПІДХІД дозволяє віділяті Програмі более пам яті, чем є в комп ютері, зберігаючі лишь необхідні на Данії момент дані у фізічній пам яті, а все інше - на жорсткий диск. Це означає, что КОЖЕН доступ до пам яті віртуальний адресою нужно переводіті в фізічну адресою, и для Збереження відповідності доводитися використовуват Величезне таблиці. Проблема в тому, что ця таблиця виходим настолько великий, что на чіпі ее зберігаті Вже Не виходить - овва розміщується в основні...