
مشخصات دقیق دو کنسول ایکسباکس وان و پلی استیشن ۴ در تمام رسانهها بازتاب گسترده داشته است. بازیهایی که از نظر گرافیکی، بسیار پیشرفته هستند و گاهی نمیتوان تفاوتشان را با یک فیلم تشخیص داد. پردازندهی گرافیکی قدرتمند، یک عامل اساسی در نمایش جزئیات خیرهکننده است اما پردازندهی ۸ هستهای این دو کنسول هم سرعت فوقالعادهای دارد. در این مقاله میخواهیم به پردازندهی این دو کنسول یعنی هستههای جگوار بپردازیم و ببینیم چرا سونی و مایکروسافت، اینتل بزرگ را رها کردهاند و سراغ AMD معروف رفتهاند.
امروزه معماری پردازندهها واقعاً محدود است و توان مصرفی عامل اساسی در این محدودیت به حساب میآید. وقتی مسأله، طراحی یک پردازنده با توان مصرفی مشخص باشد، میتوان از یک معماری کلی استفاده کرد و با اعمال تنظیمات خاص، به توان مورد نظر رسید. به عنوان مثال دو معماری معروف اینتل برای پردازندهها را در نظر بگیرید، منظورمان سندی بریج و آیوی بریج است. در بازار با پردازندههای مختلفی که محدودهی ۱۳ تا ۱۳۰ وات را پوشش دادهاند روبرو میشویم. البته بازدهی پردازندههایی که بسیار زیاد یا بسیار کم مصرف میکنند بهینه نیست و معمولاً برای توان مصرفی کم و زیاد، از معماریهای دیگری استفاده میشود.
هر دو کمپانی معروف اینتل و ایامدی از این روش استفاده میکنند، اینتل پردازندههای خانوادهی اتم را با توان مصرفی پایین، پردازندههای سری Core را برای مصرف معمولی و زیاد ارائه کرده است. ایامدی در سال ۲۰۱۰ بابکت (Bobcat) را در نقشه راه پردازندههای کممصرف خود قرار داد و بولدوزرها در ردهی پردازندههای پرمصرف و قدرتمند.
هر دو معماری بابکت و بولدوزر به صورت سالانه به روز شدهاند. در سال ۲۰۱۱ در دو مدل از پلتفرم برَزو (Brazos) یعنی SoCهای آنتاریو و زاکِیت (Zacate) شاهد استفاده از بابکت بودیم. منظور از SoC تراشههایی است که امروزه در تبلتها و گوشیها به کار میروند و علاوه بر پردازندهی اصلی و گرافیکی، شامل حافظه، واسطهایی مثل شبکه و USB، مودم باند پایه و غیره است.
مقاله مرتبط:
-
معماری ARM چیست؟ چه تفاوتی با x86 اینتل دارد؟
در سال ۲۰۱۲ هم با بروزوی دوم آشنا شدیم. باز هم همان هستههای بابکت ولیکن با تغییراتی استفاده شد. حالا پس از ۲-۳ سال، نوبت به یک بروز رسانی جدی است، چرا که اینتل و معماری ARM هم به شدت برای به دست آوردن سهم بیشتر از بازار وسایل کممصرف و همراه تلاش میکنند. اینجاست که ایامدی هستههای جگوار را معرفی میکند.
جگوار و بهینهسازی معماری ارسال دوگانه و خارج از نوبت
ابتدا سراغ هستههای جگوار میرویم و تنها یک هسته را بررسی میکنیم، شباهت آن با بابکت زیاد است. همان معماری دو ارسالی و خارج از نوبت که در سال ۲۰۱۰ معرفی شده بود، باز هم مورد استفاده قرار گرفته است. منظور از اجرای خارج از نوبت این است که پردازنده در مواقعی که دادهی ورودی داشته باشد، بدون اتلاف کلاک به اجرای دستورات میپردازد و خود را درگیر تأخیرهای موجود نمیکند. همان کش سطح ۱ یا L1 واسط نهایی و بلوکهای اجرایی هنوز بر قوت خود باقی هستند. در حقیقت ایامدی هم مثل ARM به اجرای خارج از نوبت دستورات روی آورده است. همان چیزی که در Cortex-A15 وجود دارد. وجه تمایز اینتل و ایامدی با Cortex-A15 در تعداد ارسال است. منظور از Issue (یا ارسال) در زبان اینتل و آیبیام و دیگران متفاوت است اما معمولاً به انتقال یک دستور پردازشی (یا Instruction) از موقعیتی در پایپلاین (یا کانال اطلاعات) به یک موقعیت دیگر، Issue گفته میشود.
در Cortex-A15 از ۳ ارسال استفاده میشود به این معنی که در یک سیکل کلاک میتوان سه دستور را جابجا کرد، اما اینتل و ایامدی به دنبال کاهش مصرف انرژی بوده و در آخرین نسل اتم یعنی سیلورمونت و نیز جگوار، همچنان از ۲ ارسال استفاده میشود و افزایش آن به آینده موکول شده است.
گذشته از حرکت به سمت استفاده از لیتوگرافی ۲۸ نانومتری، تمرکز اصلی ایامدی روی افزایش کارایی با همان توان مصرفی قبل بوده است. بابکت در نتبوکها و نتاپها و سایر محصولات ارزانقیمت و نیز ضخیم به کار رفته اما جای آن در محصولات باریکی مثل تبلت خالی است. جگوار قصد ورود اساسی به دنیای تبلت را هم دارد. شاید ایامدی فعلاً در مورد گوشیهای هوشمند برنامهی خاصی ندارد، ولیکن بازار تبلت هم چیز کمی نیست. در تبلتهای ارزانقیمت، ارتباط تلفنی مهم نیست و لذا ایامدی میتواند بعد از اینتل بزرگترین تأمینکنندهی تراشه باشد.
در جگوار از ۴ حلقهی ۳۲ بایتی به عنوان بافری برای کش دستورات استفاده میشود. وقتی یک حلقه تشخیص داده شد، به جای فراخوانی مجدد دستورات اجرا شده از کش L1، از همین حلقهی کوچک بافر استفاده میشود. تنها مزیت این روش فراخوانی این است که دیگر نیازی به فعالیت کش دستورات در هر بار اجرای یک حلقه نیست و لذا مصرف انرژی کاهش مییابد و کارایی افزایشی نخواهد داشت.
هر معماری جدیدی قبل از تولید انبوه، بارها و بارها مورد آزمایش قرار میگیرد تا گلوگاهها شناسایی شوند و در طراحیهای بعدی، مورد بررسی بیشتر قرار گیرند. برطرف کردن گلوگاهها هم همواره با توجه به هزینهها و زمانبندی عرضهی محصولات جدید صورت میگیرد.
ایامدی در طراحی جگوار از همان واسط نهایی ۲ ارسالی استفاده کرده و به جای استفاده از کش مایکرو-آپ یا کش ردگیری، به استفاده از یک بافر حلقهی دستورات روی آورده است تا تدریجاً در طراحیهای بعدی، زمان و هزینهی لازم برای اعمال تغییرات بیشتر را پیدا کند.
ایامدی کش پیشفراخوانی دستورات را هم بهینهتر کرده، علت استفاده از پهنای باند بیشتر نیست بلکه زمان بیشتری در طراحی و اعمال آن گذاشته شده است. اندازهی بافر دستورات بین کش دستورات و دیکودر (یا رمزگشا) از نظر اندازه پیشرفت کرده اما در هنوز تا رسیدن به مراحل فراخوانی و رمزگشایی بسیار مستقلی که در بولدوزر سراغ داریم، فاصلهی زیادی وجود دارد.
در جگوار از سلسله دستورات جدیدتری پشتیبانی به عمل آمده که SSE4.1 ،SSE4.2 ،AES ،CLMUL ،MOVBE ،AVX ،F16C و BMI1 جزء آن است، آدرسدهی فیزیکی ۴۰ بیتی نیز پشتیبانی شده است.
آخرین تغییری که در جگوار رخ داده، اضافه شدن یک مرحلهی رمزگشایی دیگری است که هدف از آن افزایش فرکانس میباشد. در بابکت یکی از مشکلات اساسی که فرکانس ماکسیمم را محدود میکرد، دیکودر بوده، بنابراین اضافه شدن یک مرحلهی جدید رمزگشایی، فرکانس جگوارهای ۲۸ نانومتری را افزایش خواهد داد.
اجرای محاسبات اعداد صحیح و ممیز شناور
از نظر اجرای محاسبات اعداد صحیح، واحدها و پایپلاین تقریباً مشابه بابکت هستند. بزرگترین تغییر در این بخش استفاده از مقسم سختافزاری است که در نسل اول APUهای ایامدی یعنی LIano استفاده میشود. بابکت دارای مقسم اینتیجر مایکروکدشدهای بود که در هر سیکل کلاک، یک بیت را پردازش میکرد. در جگوار مقسم با قدرت ۲ برابر وجود دارد. با توجه به اینکه سختافزار با کلاک فعالیت میکند و لذا اگر استفادهای از آن نشود، مصرف انرژی هم بیشتر نخواهد بود.
بافرهای زمانبندی و مرتبکننده در جگوار بزرگتر شدهاند. منابع اجرای خارج از نوبت هم افزایش یافتهاند و بخش زمانبندی دچار تغییراتی شده است.
در بابکت مشکل خاصی در اجرای اینتیجر وجود نداشت اما در مورد ممیز شناور وضعیت کاملاً متفاوت بود. محاسبات ممیز شناور سنگین در بابکت نسبت به اتمهای اینتلی کندتر بودند. علت تا حدی به بهرهمندی اتم از هایپر تردینگ برمیگردد. ایامدی برای حل مشکل اجرای ممیز شناوری را بهینه کرده و البته تعداد هستههای پردازشی را افزایش داده که نقش عامل دوم مهمتر است.
در بابکت از واحدهای ۶۴ بیتی برای اجرای ممیز شناور استفاده میشود. بنابراین برای اجرای یک عمل ممیز شناوری ۱۲۸ بیتی، باید از دو مرحلهی کوچکتر استفاده میشد. در جگوار از واحدهای ۱۲۸ بیتی استفاده شده است. دستورات AVX به صورت ۲ عمل ۱۲۸ بیتی انجام میشوند اما سایر اعمال ۱۲۸ بیتی، بدون مرحلهمرحله شدن و استفاده از پایپلاین، در یک مرحله انجام میشود. بنابراین افزایش پهنای بردار علت افزایش کارایی در بحث محاسبات ممیز شناور است.
ایامدی به خاطر استفاده از بردارهای ۱۲۸ بیتی در واحد پردازش ممیز شناور یا FPU مجبور شده به پایپلاین هم یک مرحلهی دیگر اضافه کند چرا که افزایش اندازهی FPU باعث افزایش زمان جابجایی از یک موقعیت به موقعیت دیگر میشود و لذا به یک مرحلهی اضافی نیاز داریم.
ذخیرهسازی و بارگذاری
ایامدی مدعی است که عملکرد جگوار از نظر تعداد دستوراتی که در یک کلاک اجرا میشوند، ۱۵ درصد بهینهتر شده است. علت اصلی استفاده از واحد ذخیرهسازی و بارگذاری خارج از نوبت جدیدی است که از مدتها پیش مشخص بود جای بهینهسازی زیادی دارد. این دومین نسل واحد ذخیرهسازی و بارگذاری خارج از نوبتی است که ایامدی معرفی کرده و نتیجهی خوبی هم داشته است.
واحد محاسبه
بابکت ساختار چندهستهای سادهای دارد. هر یک از هستهها، کش ۵۱۲ سطح دوم مختص به خود را دارند و تمام ارتباطات بین هستهای از طریق باس روی هر هسته اتفاق میافتد. ساختار کش مثل معماریهای قبلی ایامدی، انحصاری است.
در جگوار همهچیز دگرگون شده است. ایامدی یک واحد محاسباتی جگوار را با نهایتاً ۴ هسته تعریف کرده که یک کش بزرگ و مشترک بینشان وجود دارد. کش L2 نهایتاً میتواند ۲ مگابایت و ۱۶ جهتی باشد. این کش اولین کش غیرانحصاری یا به عبارت بهتر اشتراکی در تاریخ معماریهای این کمپانی است.
در گذشته ایامدی همیشه از کش انحصاری استفاده میکرد، کپی کردن اطلاعات کش L1 در کش L2 هم تأثیر زیادی نداشت چرا که L2 هم یک کش انحصاری و مختص به هستههای خاص بود.
اما تأثیر کش اشتراکی که ایامدی برای اولین بار استفاده کرده چه قدر است؟ تعداد دستورات اجرا شده در یک سیکل بین ۵ تا ۷ درصد بیشتر از بابکت خواهد بود.
بنابراین تا به اینجای کار، نتیجهی استفاده از کش اشتراکی و واحد ذخیرهسازی و بارگذاری خارج از نوبت نسل دوم، ۲۲ درصد سرعت بیشتر است.
اما در کاربردهای چند تردی چه اتفاقی میافتد؟ منظور از چند تردی، پردازشهایی است که به صورت موازی توسط هستههای مختلف اجرا میشوند. معماری جدید کش در جگوار و ارتباط بین هستهای با تأخیر کمتر، در کاربردهای چند تردی به مراتب موثرتر واقع میشود و لذا به نتیجهی عالی زیر میرسیم:
در کاربرد تک تردی یا به عبارتی در مقایسهی یک هسته، سرعت پردازش ۲۱ درصد بیشتر شده ، حتی با اینکه سرعت کلاک از ۱.۶ به ۱.۵ گیگاهرتز تقلیل یافته است. اما در کاربردهای چند هستهای، سرعت پردازش حدوداً ۲.۵ برابر شده که نشان از عملکرد بهتر دارد.
کش L1 همان مقدار ۳۲ کیلوبایت قبلی است و تغییر نداشته است.
چیدمان فیزیکی و ترکیب پردازنده
بابکت اولین هستهی پردازندهای است که ایامدی به راحتی تولید کرده و این موضوع نتیجهی خرید کمپانی ATI میباشد. ایامدی در جگوار باز هم موفقتر ظاهر شده و تعداد مایکروهای یکتایی که در طراحی لازم است را کاهش داده و لذا تراشه به شدت ساده شده است. منظور از مایکرو طبقات و بخشهای مختلفی است که با رنگهای متفاوت در تصویر فوق نشان داده شده است.
حالا ایامدی میتواند جگوار را بین کارخانههای مختلف جابجا کند. البته استفاده از مایکروهای عمومی، مساحت را افزایش میدهد اما در عوض تولید مایکروها سادهتر میشود. در نهایت مساحت یک هستهی ۲۸ نانومتری جگوار تنها ۳.۱ میلیمتر مربع است در حالی که یک هستهی بابکت که لیتوگرافی ۴۰ نانومتری داشت، ۴.۹ میلیمتر مربعی بود.
با توجه به تصویر زیر پیچیدگی بیشتر بابکت نسبت به جگوار کاملاً مشهود میباشد:
کبینی (Kabini)، تراشهای برای دنیای نوتبوکها
ایامدی قرار است دو نوع ایپییو بر اساس هستههای جگوار تولید کند. کَبینی و تِسمش. اگر با مفهوم APU و تفاوت آن با CPU و GPU آشنایی ندارید، به مقالهی اختصاصی زومیت سری بزنید. کبینی به زودی در نوتبوکهای نسبتاً ارزان و البته بسیار باریک مورد استفاده قرار خواهد گرفت. اگر به تعریف APU نگاهی داشته باشیم، متوجه میشویم که تسمش و کبینی هیچ کدام یک ایپییو نیستند چرا که اجزای موجود آنها را در تعریف SoC یا سیستم روی چیپ قرار میدهد. هاب I/O در قالب یکپارچهی این تراشهها به کار رفته است و لذا بهتر است بگوییم:
کبینی اولین سیستم روی چیپ ۴ هستهای X86 است.
کبینی در دو سری با پیشوند A و E عرضه میشود، نسخههایی با پیشوند A دارای ۴ هسته و سری E دارای ۲ هستهی جگوار هستند. لیست کبینیهای فعلی به صورت زیر است:
اما به پردازندهی گرافیکی مجتمع بپردازیم، از ۲ واحد محاسباتی با معماری Graphics Core Next یا GCN استفاده میشود. موتور هندسی خاصی با توان پردازش ۴/۱ دستورات اولیه در هر کلاک مورد استفاده قرار گرفته تا تولید چنین پردازندههای کوچک و کممصرفی امکانپذیر شود. انجام محاسبات با دقت مضاعف با نرخ ۱۶/۱ پشتیبانی شده گرچه در زمان اجرا با دقت عادی و نرخ ۸/۱ مشکلاتی به چشم میخورد.
کنترلر مموری ۶۴ بیتی DDR3 در کبینیها به کار رفته و توان مصرفی مدلهای مختلف بین ۹ تا ۲۵ وات میباشد. با اینکه جگوار از فرکانس کاری پویا (Dynamic) پشتیبانی میکند، این قابلیت یعتی Turbo Mode را در کبینیها نمیبینیم. تمام سرعتهای مذکور، بیشترین سرعت هستهها هستند و به بار پردازشی وابسته نمیباشند.
تمش (Temash) یک پردازندهی معمولی برای تبلتها
تسمشها توان مصرفی کمتری دارند و بین ۳.۹ تا ۹ وات انرژی مصرف میکنند. مدل ۴ هستهای A6-1450 دارای توربو کور است و فرکانس هستههای آن دائماً در حال تغییر میباشد. یکی از ویژگیهای جالب توربو کور در این تراشه، اشتراک توان مصرفی بین پردازندهی اصلی و گرافیکی است. به این معنی که اگر پردازنده کمبار باشد، توان در دسترس را در اختیار پردازندهی گرافیکی قرار میدهد و پردازندهی گرافیکی هم چنین قابلیتی دارد.
مدل A4-1200 هم توان مصرفی جالب دارد، کمتر از ۴ وات که برای تولید تبلتهایی مثل آیپد مناسب است. ایامدی در هیچ کدام از مدلهای معرفی شده، تعداد هستههای گرافیکی را کاهش نداده و تنها فرکانس کاری را تغییر داده است.
ایکسباکس وان و پلی استیشن ۴
در هر دو کنسول نسل بعدی مایکروسافت و سونی، از پردازندهها و به عبارت دقیقتر سیستم روی چیپهایی مبتنی بر جگوار استفاده شده است. در هر دو کنسول دو واحد ۴ هستهای جگوار دیده میشود. کش مشترک L2 در هر واحد ۲ مگابایت است. ارتباط بین دو واحد ۴ هستهای در حد ایدهآل نیست و لذا سازندگان بازی سعی میکنند بار پردازشی روی یکی از واحدهای ۴ هستهای باشد.
با نگاهی به کبینی محدودهی فرکانس کاری جگوارهای ۲۸ نانومتری مشخص میشود: ۱ تا ۲ گیگاهرتز. اما همیشه یک نقطهی بهینه برای رسیدن به بالاترین بازدهی وجود دارد که در مورد جگوار فرکانس ۱.۶ گیگاهرتز است. با افزایش ۲۵ درصدی فرکانس یعنی رسیدن به سرعت ۲ گیگاهرتز، مصرف انرژی ۶۶ درصد افزایش مییابد که نشان میدهد فرکانس ۲ گیگاهرتز به هیچ وجه بازده بهتری ندارد.
تفاوت بین کبینی و تسمش با پردازندهای که در کنسولهای موردبحث به کار رفته تنها در آدرسدهی یکپارچهی حافظه و وابستگیهای خاصی است که در معماری این دو کنسول میبینیم. قطعاً باس حافظه هم بسیار متفاوت است اما هستههای جگوار دقیقاً یکی هستند.
نتیجهگیری نهایی
همانطور که گفتیم ایامدی مدعی است که یک هستهی جگوار از نظر کارایی با سرعت کلاک مساوی، ۲۲ درصد سریعتر از بابکت است. بابکت دروازهی ورود به وسایل همراه بوده و در حال حاضر در بیش از ۵۰ میلیون دستگاه مشغول کار است. مصرف انرژی جگوار نیز با استفاده از لیتوگرافی ۲۸ نانومتری و سایر بهینهسازیها، به مراتب بهتر از بابکت میباشد. بنابراین انتظار داریم که تسمش در ورود به دنیای تبلتها موفقتر از دو برزویی که در سالهای قبل رونمایی شدند، ظاهر شود.
البته جگوار نقاط ضعفی هم دارد که نشان میدهد سازنده در رونمایی و عرضهی آن کمی عجله داشته است که با توجه به اوضاع بازار، بیمورد هم نیست. بزرگترین اشکال جگوار در توربو کور نسبتاً ضعیف است. چیزی که در اجرای پردازشهای تکهستهای معجزه میکند. قابلیت کنترل و مانیتور دما و توان مصرفی هم از نقاط ضعف جگوار است که در آینده پیشرفت خواهد کرد.
در مجموع وضعیت جگوار بسیار خوب به نظر میرسد. توان مصرفی هستههای جگوار در بار پردازشی سبک به کمتر از ۲ وات کاهش مییابد. سایر بخشهای یک تبلت، این توان را به رقم ۴ تا ۷ وات میرسانند. به نمودار زیر توجه کنید:
توان مصرفی پلتفرم کبینی با ۴ هسته، در حالت بیکار ۰.۷۷ وات است و در مجموع کلی سیستم حدود ۴ وات مصرف میکند. همین رقم در مورد بروزی ۲.۰، حدود ۶ وات بود. جالب است که با استفاده از یک باتری ۴۵ واتساعتی که در نوتبوکهای امروزی مرسوم است، میتوان حدود ۷ ساعت از سیستم برای پخش ویدیوی استفاده کرد.
در این محدودهی قیمتی، فعلاً رقیبی برای جگوار وجود ندارد. اتمهای فعلی ۳۲ نانومتری اینتل که از هستههای سالتوِل (Saltwell) استفاده میکنند، کمی قدیمی شدهاند و ARM هم چیزی در این حد سریع ارایه نکرده است. بنابراین منطقی است که مایکروسافت و سونی در تصمیمی مشابه سراغ تراشهای ۸ هستهای با هستههای جگوار بروند.
تا چند ماه بعد که اینتل معماری سیلورمونت خود با لیتوگرافی ۲۲ نانومتری را روانهی بازار کند، ایامدی با خیال راحت مشغول فروش محصولات خود خواهد بود و از موقعیتی که در چند سال اخیر کمتر به آن رسیده لذت میبرد، منظورمان برتری در کارایی CPU است.
منبع : زومیت