
पॉलीफोनी डिजिटल ग्रैन टूरिस्मो के लिए एक नया रेंडरिंग सिस्टम विकसित कर रहा है जो यह निर्धारित करने के लिए तंत्रिका नेटवर्क का उपयोग करता है कि किसी दृश्य में किन वस्तुओं को खींचने की आवश्यकता है, और शुरुआती परिणाम बताते हैं कि यह PlayStation 5 पर प्रदर्शन में सार्थक सुधार कर सकता है।
सिस्टम, जिसे “न्यूरलपीवीएस” कहा जाता है, पिछले साल कंप्यूटर एंटरटेनमेंट डेवलपर्स कॉन्फ्रेंस (सीईडीईसी) में एक तकनीकी प्रस्तुति में विस्तृत किया गया था। यह वार्ता दो पॉलीफोनी ग्राफिक्स इंजीनियरों द्वारा दी गई थी: यू चेंगझोंग और हाजीमे उचिमुरा।
यू टोक्यो यूनिवर्सिटी ऑफ साइंस से स्नातक होने के बाद 2024 में पॉलीफोनी डिजिटल में शामिल हो गए, जहां उन्होंने SIGGRAPH 2023 में रीयल-टाइम वॉल्यूमेट्रिक रेंडरिंग पर एक तकनीकी पेपर प्रस्तुत किया। हाजीम एक लंबे समय से कार्यरत इंजीनियर हैं, जो 2008 से स्टूडियो के साथ हैं और मौजूदा तकनीक के लिए जिम्मेदार हैं, जिसमें न्यूरलपीवीएस का सुधार शामिल है। जीटी7की वर्तमान पूर्व-गणना की गई रोड़ा हटाने की प्रणाली। उन्होंने गेम के कलर रिप्रोडक्शन सिस्टम (विशेषकर कार बॉडी पेंट) और स्कैप्स फोटो मोड के लिए एचडीआर इमेज प्रोसेसिंग पर भी काम किया है। जीटीप्लेनेट के पाठक उन्हें स्टूडियो के SIGGRAPH 2025 से भौतिक रूप से आधारित टोन मैपिंग टॉक पर सह-प्रस्तुतकर्ता के रूप में भी पहचान सकते हैं।
प्रस्तुतिकरण मूल रूप से जापानी भाषा में दिया गया था, और आप मूल स्लाइड यहां से डाउनलोड कर सकते हैं। हमने इसका अनुवाद किया और तकनीकी जानकारी को सर्वोत्तम तरीके से पचाया ताकि यह निर्धारित करने में मदद मिल सके कि ग्रैन टूरिस्मो के भविष्य के लिए इसका क्या मतलब हो सकता है।
बेशक, पॉलीफोनी डिजिटल का सीईडीईसी और अन्य शैक्षणिक सम्मेलनों में अपने तकनीकी काम को साझा करने का इतिहास है, और यह हमेशा पर्दे के पीछे एक आकर्षक और दुर्लभ नज़र पेश करता है कि गुप्त स्टूडियो की कस्टम प्रौद्योगिकियां वास्तव में कैसे काम करती हैं। पिछली प्रस्तुतियों में “आइरिस” किरण अनुरेखण प्रणाली से लेकर विषयों को शामिल किया गया है। जीटी स्पोर्टइसके सर्किट स्कैनिंग और पाठ्यक्रम निर्माण विधियों और प्रक्रियात्मक परिदृश्य निर्माण तकनीकों के लिए।

अब रेंडरिंग कैसे काम करती है
ग्रैन टूरिस्मो द्वारा प्रस्तुत प्रत्येक फ्रेम में हजारों वस्तुएं शामिल हैं: इमारतें, पेड़, ग्रैंडस्टैंड, बाधाएं, ट्रैक सतहें, और बाकी सब कुछ जो पाठ्यक्रम का वातावरण बनाता है। लेकिन, किसी भी समय, उन वस्तुओं का केवल एक अंश ही खिलाड़ी को वास्तव में दिखाई देता है। कुछ कैमरे के पीछे हैं, कुछ किनारे पर हैं, और कुछ दृश्य में अन्य वस्तुओं के पीछे छिपे हुए हैं।
उन सभी अदृश्य वस्तुओं को चित्रित करना प्रसंस्करण शक्ति की बर्बादी होगी। इसलिए गेम यह पता लगाने के लिए कि किन वस्तुओं को छोड़ा जा सकता है, “कलिंग” नामक एक प्रक्रिया का उपयोग करता है। जितनी बेहतर कलिंग होगी, सीपीयू और जीपीयू को उतना ही कम काम करना होगा, जिसका अर्थ है अधिक स्थिर फ्रेम दर और दृश्य विवरण के लिए संभावित रूप से अधिक जगह।

ग्रैन टूरिस्मो 7 वर्तमान में प्री-कंप्यूटेड कलिंग सिस्टम का उपयोग किया जाता है। कोर्स जहाजों से पहले, पॉलीफोनी के उपकरण ड्राइविंग सतह पर हजारों कैमरा स्थितियों से ट्रैक प्रस्तुत करते हैं, यह रिकॉर्ड करते हैं कि प्रत्येक स्थान से कौन सी वस्तुएं दिखाई दे रही हैं। उन परिणामों को दृश्यता सूचियों (आंतरिक रूप से “विज़न सूचियों” के रूप में संदर्भित) के रूप में संग्रहीत किया जाता है, जिन्हें गेम रनटाइम पर देखता है।
डेटा को प्रबंधनीय बनाए रखने के लिए, सिस्टम वोरोनोई विभाजन नामक गणितीय तकनीक का उपयोग करके उन हजारों नमूना बिंदुओं को ज़ोन के एक छोटे सेट में क्लस्टर करता है। रनटाइम पर, गेम यह पता लगाता है कि कैमरा किस क्षेत्र में है और उस क्षेत्र की दृश्यता सूची का उपयोग यह तय करने के लिए करता है कि क्या आकर्षित करना है।

जहां वर्तमान प्रणाली कम पड़ जाती है
यह क्लस्टरिंग दृष्टिकोण काम करता है, लेकिन इसकी कुछ अंतर्निहित सीमाएँ हैं।
ज़ोन के बीच की सीमाएँ कठोर रेखाएँ हैं, जिसका अर्थ है कि दृश्यता केवल अचानक, असंतत छलांग में बदल सकती है क्योंकि कैमरा एक ज़ोन से दूसरे ज़ोन में जाता है। वे सीमाएँ हमेशा पाठ्यक्रम की वास्तविक ज्यामिति के साथ अच्छी तरह से पंक्तिबद्ध नहीं होती हैं, जिसके कारण ऐसे क्षणों में वस्तुएँ अंदर या बाहर आ सकती हैं जो प्राकृतिक नहीं लगती हैं।
ज़ोन की संख्या भी एक मैन्युअल ट्यूनिंग पैरामीटर है। बहुत कम और कटाई बहुत मोटी है। बहुत अधिक और डेटा बोझिल हो जाता है। यह एक संतुलनकारी कार्य है जिसे प्रत्येक ट्रैक के लिए दोबारा देखना पड़ता है।
बचाव के लिए तंत्रिका नेटवर्क!
न्यूरलपीवीएस उस ज़ोन-आधारित लुकअप को एक न्यूरल नेटवर्क से बदल देता है जो कैमरे की स्थिति और कौन सी वस्तुओं को दिखाई देना चाहिए के बीच संबंध सीखता है। निकटतम प्रीकंप्यूटेड ज़ोन में स्नैप करने के बजाय, नेटवर्क कैमरे के सटीक निर्देशांक लेता है और दृश्य में प्रत्येक ऑब्जेक्ट के लिए दृश्यता भविष्यवाणी आउटपुट करता है।
परिणाम अलग-अलग क्षेत्रों के पैचवर्क के बजाय एक सहज, निरंतर दृश्यता क्षेत्र है। मनमाने क्षेत्र की सीमाओं पर चालू और बंद होने के बजाय, जैसे-जैसे कैमरा चलता है, वस्तुएँ धीरे-धीरे दृश्यता के अंदर और बाहर आती-जाती रहती हैं।
यह दृष्टिकोण एनईआरएफ (न्यूरल रेडियंस फील्ड्स) से प्रेरित था, जो अनुसंधान समुदाय की एक तकनीक है जो 3 डी दृश्यों का प्रतिनिधित्व करने के लिए तंत्रिका नेटवर्क का उपयोग करती है। पॉलीफोनी की टीम ने माना कि उनकी दृश्यता मानचित्रण समस्या (अंदर की स्थिति, बाहर की दृश्यता) का आकार संरचनात्मक रूप से समान था और उन्होंने इस अवधारणा को अनुकूलित किया।
प्रत्येक पाठ्यक्रम को क्षेत्रों में विभाजित किया गया है, और प्रत्येक क्षेत्र को अपना छोटा तंत्रिका नेटवर्क मिलता है। टीम ने कई नेटवर्क आर्किटेक्चर का परीक्षण किया और फूरियर फ़ीचर मैपिंग का उपयोग करके एक पर निर्णय लिया, जो इनपुट निर्देशांक को संसाधित करने से पहले उच्च-आयामी स्थान में मैप करता है। इससे सटीकता और गति का सर्वोत्तम संतुलन मिला।

भू-भाग देखना
प्रेजेंटेशन के अधिक दिलचस्प विवरणों में से एक यह है कि तंत्रिका नेटवर्क पाठ्यक्रम ज्यामिति को कैसे संभालता है जिसका वर्तमान सिस्टम पूरी तरह से दोहन करने के लिए संघर्ष करता है।
एइगर नॉर्डवांड जैसे पाठ्यक्रम पर, जो व्यापक रूप से खुला है, मौजूदा कलिंग सिस्टम में काम करने के लिए कुछ बड़ी संरचनाएं होती हैं, जिससे पाठ्यक्रम के अपने इलाके को रोड़ा के प्राथमिक स्रोत के रूप में छोड़ दिया जाता है। हालाँकि प्रीकंप्यूटेड रेंडरिंग चरण यह पता लगाता है कि पहाड़ी और रैंप जैसी इलाके की विशेषताएं विशिष्ट कैमरा स्थितियों से दृश्यता को अवरुद्ध करती हैं, समस्या यह है कि आगे क्या होता है।


जब उन हजारों व्यक्तिगत डेटा बिंदुओं को व्यापक क्षेत्रों में विलय कर दिया जाता है, तो सिस्टम को रूढ़िवादी होना पड़ता है: यदि कोई वस्तु दिखाई दे रही है कोई किसी क्षेत्र के भीतर स्थिति, यह उस क्षेत्र की दृश्यता सूची में बनी रहती है। एक पहाड़ी एक स्थान से किसी इमारत के दृश्य को अवरुद्ध कर सकती है, लेकिन यदि उसी क्षेत्र में कोई अन्य स्थान उस इमारत को देख सकता है, तो वह वैसे भी खींची जाती है। भू-भाग क्या छिपाता है इसका बारीक विवरण विलय में खो जाता है।
तंत्रिका नेटवर्क में यह समस्या नहीं है. क्योंकि यह व्यापक क्षेत्रों के बजाय सटीक कैमरा निर्देशांक के लिए दृश्यता की भविष्यवाणी करता है, यह इलाके की विशेषताओं के रोड़ा प्रभाव को उन सटीक स्थानों पर संरक्षित कर सकता है जहां वे वास्तव में मायने रखते हैं।
इसे तेजी से बनाना
एक तंत्रिका नेटवर्क केवल तभी उपयोगी होता है जब यह प्रत्येक फ्रेम को चलाने के लिए पर्याप्त तेज़ होता है, बिना उसके द्वारा उत्पन्न प्रदर्शन लाभ को प्रभावित किए। पॉलीफोनी की टीम ने एक आक्रामक परिमाणीकरण पाइपलाइन के साथ इसे संबोधित किया: नेटवर्क भार को 32-बिट फ्लोटिंग पॉइंट से 8-बिट पूर्णांक तक संपीड़ित किया जाता है, और सीपीयू पर एसएसई निर्देशों का उपयोग करने के लिए अनुमान कोड को हाथ से अनुकूलित किया जाता है।

परिमाणीकरण ने गुणवत्ता को बनाए रखते हुए डेटा आकार को औसतन 260% कम कर दिया, और अनुकूलित अनुमान पथ ने उनके द्वारा परीक्षण किए गए पाठ्यक्रमों में प्रति-क्वेरी समय को औसतन लगभग 33 माइक्रोसेकंड तक कम कर दिया। यह फ़्रेम बजट में गैर-कारक बनने के लिए पर्याप्त तेज़ है।
सभी प्रशिक्षण सीपीयू पर ऑफ़लाइन किए जाते हैं (नेटवर्क इतने छोटे होते हैं कि जीपीयू प्रशिक्षण वास्तव में धीमा होता है), और प्रक्रिया सभी समूहों में समानांतर होती है। सिस्टम को काफी हद तक स्वचालित करने के लिए डिज़ाइन किया गया है, जो तब मायने रखता है जब आप 30 से अधिक ट्रैक वाले गेम के लिए डेटा एकत्र कर रहे हों।

PS5 बेंचमार्क
प्रस्तुति में दो पाठ्यक्रमों पर चलने वाले PlayStation 5 का बेंचमार्क डेटा शामिल था: एइगर नॉर्डवंड और ग्रैंड वैली।
एइगर नॉर्डवंड पर, न्यूरलपीवीएस सक्षम होने पर औसत सीपीयू फ्रेम समय 3.944ms से घटकर 3.758ms हो गया। GPU सुधार छोटे थे (औसतन 0.026ms), जो समझ में आता है कि एइगर अपेक्षाकृत कम अवरोधों वाला एक कोर्स है। यह लाभ नेटवर्क द्वारा इलाके की उन विशेषताओं का उपयोग करना सीखने से मिलता है जिन्हें मौजूदा सिस्टम नज़रअंदाज कर देता है।
ग्रैंड वैली ने अधिक नाटकीय परिणाम दिखाए। CPU औसत 4.552ms से गिरकर 4.256ms हो गया, और CPU अधिकतम 6.378ms से गिरकर 5.849ms हो गया, जो आधे मिलीसेकंड से अधिक की कमी है। पूरे पाठ्यक्रम में जीपीयू लोड भी अधिक स्थिर था, अधिकतम जीपीयू समय में लगभग 0.1ms की गिरावट आई।
आधा मिलीसेकंड अलगाव में ज्यादा नहीं लग सकता है, लेकिन 60fps रेंडरिंग पाइपलाइन में जहां प्रत्येक फ्रेम में 16.67ms का बजट होता है, सीपीयू और जीपीयू से समय निकालने का मतलब बाकी सभी चीजों के लिए अधिक हेडरूम होता है। यह स्क्रीन पर अधिक ऑब्जेक्ट, बेहतर प्रकाश व्यवस्था, या मांग वाले दृश्यों में अधिक सुसंगत फ्रेम पेसिंग में अनुवाद कर सकता है।

ग्रैन टूरिस्मो के भविष्य के लिए इसका क्या अर्थ है
हालाँकि प्रस्तुतिकरण पिछले वर्ष आयोजित किया गया था, हमारी सर्वोत्तम जानकारी के अनुसार न्यूरलपीवीएस लाइव नहीं है ग्रैन टूरिस्मो 7 अभी तक।
प्रस्तुतकर्ताओं ने उस समय इस बारे में स्पष्ट रूप से कहा था कि वे “आगे बढ़ने वाले उत्पाद में इसे पेश करने पर विचार कर रहे हैं”। यदि यह एक के रूप में आता है तो वह वाक्यांश खुला छोड़ देता है जीटी7 अद्यतन करें, भविष्य के शीर्षक के भाग के रूप में, या दोनों। बेशक, भले ही यह अंदर आ गया हो जीटी7ऐसी उच्च तकनीकी सुविधा का आम जनता के लिए पैच नोट्स में लगभग निश्चित रूप से खुलासा नहीं किया जाएगा।
हालाँकि, यह स्पष्ट है कि प्रणाली अनुसंधान चरण से काफी आगे निकल चुकी है। पूरी पाइपलाइन बनाई गई है, इसे वास्तविक PS5 हार्डवेयर पर चलने वाले वास्तविक पाठ्यक्रमों पर बेंचमार्क किया गया है, और टीम ने इसे “लगभग पूरी तरह से स्वचालित” बताया है। वह अंतिम बिंदु महत्वपूर्ण है: एक स्वचालित प्रणाली बड़े ट्रैक रोस्टर में उस प्रणाली की तुलना में अधिक आसानी से स्केल करती है जिसके लिए प्रति-कोर्स मैन्युअल ट्यूनिंग की आवश्यकता होती है।
प्रेजेंटेशन में यह भी कहा गया कि सिस्टम को हाल के पाठ्यक्रमों के “हाई-डेफिनिशन, हाई-लोड मॉडल” को संभालने के लिए डिज़ाइन किया गया है। जैसा कि पॉलीफोनी अधिक विस्तृत वातावरण जोड़ना जारी रखता है (चाहे)। जीटी7 या उसके उत्तराधिकारी), प्रतिपादन बजट सख्त हो जाता है। एक स्मार्ट कलिंग सिस्टम जो बिना किसी दृश्य समझौता के अतिरिक्त प्रदर्शन को निचोड़ सकता है, बिल्कुल उसी तरह की पर्दे के पीछे की तकनीक है जो श्रृंखला को खिलाड़ियों की अपेक्षा के अनुरूप बनाए रखती है और चलाती है।
पॉलीफोनी अक्सर अपनी तकनीक के बारे में सार्वजनिक रूप से बात नहीं करती है, इसलिए यह तथ्य कि दो इंजीनियरों ने सीईडीईसी में इस काम को प्रस्तुत किया, अपने आप में उल्लेखनीय है। यह एक संकेत है कि स्टूडियो एआई-असिस्टेड रेंडरिंग को ग्रैन टूरिस्मो की तकनीकी दिशा के एक सार्थक हिस्से के रूप में देखता है, न कि केवल एक प्रयोग के रूप में।
सीईडीईसी और पॉलीफोनी डिजिटल पर अधिक लेख देखें।





