
यो फेब्रुअरी, OpenAI पहिले सोरा पूर्वावलोकन, भिडियो सिर्जनाको लागि नयाँ एआई मोडेल जसले व्यावहारिक रूपमा कुनै पनि शैलीमा कल्पना गर्न सकिने भिडियोहरू उत्पन्न गर्न टेक्स्ट प्रम्प्टहरू प्रयोग गर्दछ। आर्टिफिसियल इन्टेलिजेन्स रिसर्च संगठनले भिडियोहरूको एक श्रृंखला जारी गर्यो जुन लिखित प्रम्प्टहरू मार्फत सिर्जना गरिएको थियो, र परिणाम प्रभावशाली छ। यद्यपि धेरै अन्य टेक्स्ट-टू-भिडियो मोडेलहरू सिर्जना गरिएका छन् र विकासमा छन्, उद्योग विशेषज्ञहरूले भिडियोहरूको गुणस्तरलाई हाइलाइट गरेका छन्, यसो भनेका छन् कि यसको परिचयले AI र टेक्स्ट-टू-भिडियो जेनरेशनमा ठूलो छलांग प्रतिनिधित्व गर्न सक्छ। यहाँ प्रणाली को एक ब्रेकडाउन छ:
सोरा भनेको के हो?
सोरा एक ठूलो मात्रामा भिडियो जेनेरेशन मोडेल हो विभिन्न अवधिका भिडियोहरू र छविहरू, रिजोल्युसनहरू, र पक्ष अनुपातहरू सहित धेरै प्रकारका डाटाहरूमा प्रशिक्षित। यसले लिखित प्रम्प्टहरूमा आधारित क्लिपहरू सिर्जना गर्न जेनेरेटिभ आर्टिफिसियल इन्टेलिजेन्स प्रयोग गर्दछ, तर यो त्यसभन्दा बाहिर विस्तार हुन सक्छ। विकासकर्ताहरूका अनुसार, यसको नाम आकाशको लागि जापानी शब्द पछि चयन गरिएको थियो, यसको “असीमित रचनात्मक क्षमता” लाई उल्लेख गर्दै।
प्रणालीलाई “टेक्स्ट-टू-भिडियो जेनेरेटर” भनिन्छ तर ओपनएआईका अनुसार यो त्यो भन्दा धेरै हो। यसले पाठ प्रम्प्टहरूमा आधारित भिडियोहरू मात्र उत्पन्न गर्न सक्दैन, तर यसलाई धेरै प्रकारका इनपुटहरू, जस्तै पूर्व-अवस्थित छविहरू वा भिडियोहरू, जुन लुपिङ भिडियोहरू, एनिमेटेड स्थिर छविहरू र भिडियोहरू अगाडि वा पछाडि विस्तार गर्न प्रयोग गर्न सकिन्छ। समयमै। यसबाहेक, थ्रीडी स्थिरता, लामो-दायरा संगतता, वस्तु स्थायीता र वातावरणसँग अन्तरक्रिया जस्ता क्षमताहरूले प्रणालीमा भौतिक र डिजिटल संसारका पक्षहरूलाई अनुकरण गर्ने क्षमता रहेको सुझाव दिन्छ।
Sora ले “ट्रान्सफर्मर आर्किटेक्चर” प्रयोग गर्दछ जुन भिडियो र छवि लेटेन्ट कोडहरूको “स्पेसटाइम प्याच” मा कार्य गर्दछ। आर्किटेक्चरले मोडेललाई उच्च फिडेलिटी भिडियोहरू उत्पन्न गर्न सक्षम बनाउँछ। प्याचहरूले ट्रान्सफर्मर टोकनको रूपमा काम गर्दछ जसले Sora लाई भिडियो र छविहरूमा तालिम दिन अनुमति दिन्छ जुन तिनीहरूको ढाँचामा फरक पर्दैन। यसले भिजुअल डेटाको आयामलाई कम गर्न भिडियो कम्प्रेसन नेटवर्क पनि प्रयोग गर्छ, जसले राम्रो तालिम र कम्प्रेस गरिएको लेटेन्ट स्पेसमा भिडियोहरू उत्पादन गर्न सक्षम बनाउँछ।
तर, प्रणाली पूर्ण छैन। विकासकर्ताहरूले वर्तमान सीमितताहरू हाइलाइट गरेका छन्, जस्तै मोडेलिङ भौतिकी र वस्तु अन्तरक्रियाहरूमा अशुद्धताहरू। थप अनुसन्धानको साथ, यी सीमितताहरूलाई सम्बोधन गर्न सकिन्छ, मोडेलको क्षमताहरू सुधार गर्दै।
प्रयोगकर्ताहरू र आलोचकहरूले विशेष गरी सोराको सम्भावित खतराहरूलाई हाइलाइट गरेका छन् AI ले हाल खडा गरेको जोखिम, जस्तै deepfakes — AI ले वास्तविक व्यक्तिहरूको भिडियो सम्पादन गर्दछ। कसै-कसैले अन्य चिन्ताहरू उठाएका छन्, जस्तै कि यो उपकरणले केही लिन सक्छ जागिर टाढा भिडियो सिर्जनाकर्ताहरू, एनिमेटरहरू, सम्पादकहरू र विशेष प्रभाव विशेषज्ञहरूबाट। यसमा थपियो, एआई टेक्नोलोजीहरूले संयुक्त राज्य अमेरिका र अन्य ठाउँहरूमा नियमनको सामना गर्नुपर्दा, सोराले भविष्यमा कसरी काम गर्ने भन्ने बारे प्रश्नहरू छन्।
कहिले रिहा हुन्छ सोरा ?
OpenAI ले Sora को लागि रिलीज मिति घोषणा गरेको छैन। कम्पनीले यसलाई रिलिज गर्ने योजना रहेको तर चाँडै नहुने बताएको छ।
के मैले सोराको लागि तिर्नुपर्छ?
सोरा कसरी रिलिज हुनेछ वा यो सशुल्क सेवा हुनेछ भन्ने बारे कुनै घोषणा गरिएको छैन। यद्यपि, हामी आशा गर्न सक्छौं कि ओपनएआईले सोराका लागि प्रयोगकर्ताहरूलाई उनीहरूको लागि जस्तै चार्ज गर्नेछ च्याटGPT-4 र DALL-E प्रणालीहरू।
सोरा जस्तै अन्य कुनै प्रणाली छ?
हाल, मेटा र गुगलले टेक्स्ट-टू-भिडियो उत्पादन गर्ने मोडेलहरूमा काम गरिरहेका छन्। गुगलको Lumiere फेब्रुअरी 2024 मा प्रस्तुत गरिएको थियो, यद्यपि यो अझै विकास चरणमा छ, जबकि मेटाको मेक-ए-भिडियो अझै काममा छ। त्यहाँ रनवेको Gen-2 पनि छ। यद्यपि, यी मध्ये कुनै पनि प्रणालीले सोराको परिचय भिडियोहरूको गुणस्तर हासिल गरेको छैन।
साइन अप EL PAÍS USA संस्करणबाट थप अंग्रेजी-भाषा समाचार कभरेज प्राप्त गर्न हाम्रो साप्ताहिक न्यूजलेटरको लागि