சீனாவைச் சேர்ந்த DeepSeek AI நிறுவனம், தனது R1 ரீசனிங் (reasoning) AI மாதிரியின் புதுப்பிக்கப்பட்ட பதிப்பான R1-0528 ஐ கடந்த வாரம் வெளியிட்டது. இந்த புதிய மாதிரி, கணிதம் மற்றும் கோடிங் அளவுகோல்களில் சிறப்பான செயல்திறனை வெளிப்படுத்தியுள்ளது. இருப்பினும், DeepSeek இந்த மாதிரியை Google இன் Gemini AI இன் வெளியீடுகளைப் பயன்படுத்தி பயிற்சி அளித்திருக்கலாம் என்ற ஊகங்கள் தற்போது தொழில்நுட்ப உலகில் பெரும் விவாதத்தை ஏற்படுத்தியுள்ளன. இந்த குற்றச்சாட்டுகள், AI துறையில் தரவு பயன்பாடு, குறியாக்க நெறிமுறைகள் மற்றும் அறிவுசார் சொத்துரிமை தொடர்பான முக்கியமான கேள்விகளை எழுப்புகின்றன.
சந்தேகங்களுக்கான காரணங்கள்:
சில AI ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள், DeepSeek இன் R1-0528 மாதிரிக்கும், Google இன் Gemini AI மாடல்களுக்கும் இடையே உள்ள சில மொழி மற்றும் வெளிப்பாட்டு ஒற்றுமைகளை ஆதாரமாகக் காட்டி இந்த ஊகங்களை முன்வைத்துள்ளனர்.
- மொழி மற்றும் வெளிப்பாட்டு ஒற்றுமைகள்: மெல்போர்னை தளமாகக் கொண்ட டெவலப்பரான சாம் பேச் (Sam Paech), DeepSeek இன் சமீபத்திய மாதிரி Google இன் Gemini 2.5 Pro மாதிரியைப் போலவே வார்த்தைகள் மற்றும் வெளிப்பாடுகளைப் பயன்படுத்துவதாகக் கூறியுள்ளார். அவர் X இல் ஒரு பதிவில், “புதிய DeepSeek R1 ஏன் சற்று வித்தியாசமாக ஒலிக்கிறது என்று நீங்கள் ஆச்சரியப்பட்டால், அவர்கள் OpenAI இன் செயற்கை வெளியீடுகளில் பயிற்சி அளிப்பதிலிருந்து செயற்கை Gemini வெளியீடுகளுக்கு மாறியிருக்கலாம் என்று நான் நினைக்கிறேன்” என்று குறிப்பிட்டுள்ளார்.
- “சிந்தனை தடயங்கள்” (Thought Traces): SpeechMap இன் அநாமதேய உருவாக்கியவர் போன்ற மற்றொரு டெவலப்பர், DeepSeek மாடலின் “தடயங்கள்” – அதாவது, ஒரு முடிவை நோக்கிச் செயல்படும்போது மாடல் உருவாக்கும் “எண்ணங்கள்” – “Gemini தடயங்களைப் போலவே படிக்கின்றன” என்று கூறியுள்ளார். இது நேரடியாக ஒரு உறுதியான ஆதாரம் இல்லாவிட்டாலும், சந்தேகங்களை எழுப்ப போதுமானது.
- முந்தைய குற்றச்சாட்டுகள்: DeepSeek நிறுவனம் ஏற்கனவே போட்டி AI மாடல்களின் தரவைப் பயன்படுத்தியதாகக் குற்றம் சாட்டப்பட்டுள்ளது. கடந்த டிசம்பரில், DeepSeek இன் V3 மாதிரி பெரும்பாலும் தன்னை ChatGPT என்று அடையாளம் கண்டுகொண்டது, இது ChatGPT இன் உரையாடல் பதிவுகளில் பயிற்சி பெற்றிருக்கலாம் என்று அச்சுறுத்தியது.
- “Distillation” நுட்பம்: இந்த ஆண்டின் தொடக்கத்தில், OpenAI, DeepSeek, பெரிய மற்றும் திறமையான மாடல்களில் இருந்து தரவைப் பிரித்தெடுத்து AI மாடல்களைப் பயிற்றுவிக்கும் ஒரு நுட்பமான “distillation” ஐப் பயன்படுத்தியதற்கான ஆதாரங்களைக் கண்டறிந்ததாக Financial Times இடம் தெரிவித்துள்ளது.
தொடர்புடைய நிறுவனங்களின் விதிமுறைகளும், பாதுகாப்பு நடவடிக்கைகளும்:
OpenAI மற்றும் Google போன்ற முன்னணி AI நிறுவனங்கள், தங்கள் மாடல்களின் வெளியீடுகளைப் பயன்படுத்தி போட்டியிடும் AI மாடல்களை உருவாக்குவதைத் தங்கள் சேவை விதிமுறைகள் மூலம் தடை செய்கின்றன.
- OpenAI இன் விதிமுறைகள்: OpenAI இன் சேவை விதிமுறைகள், வாடிக்கையாளர்கள் தங்கள் மாடல்களின் வெளியீடுகளைப் போட்டியிடும் AI ஐ உருவாக்கப் பயன்படுத்தக்கூடாது என்று தெளிவாகக் குறிப்பிடுகின்றன.
- பாதுகாப்பு நடவடிக்கைகள்: இந்த “distillation” போன்ற நுட்பங்களைத் தடுக்க, AI நிறுவனங்கள் பாதுகாப்பு நடவடிக்கைகளை வலுப்படுத்தி வருகின்றன:
- OpenAI: ஏப்ரல் மாதம் முதல், சில மேம்பட்ட மாடல்களை அணுக நிறுவனங்கள் அடையாள சரிபார்ப்பு செயல்முறையை முடிக்க வேண்டும் என்று OpenAI கட்டாயப்படுத்தியுள்ளது. சீனா போன்ற நாடுகள் இதில் விலக்கு அளிக்கப்பட்டுள்ளன.
- Google: சமீபத்தில், Google தனது AI Studio டெவலப்பர் தளம் மூலம் கிடைக்கும் மாடல்கள் உருவாக்கும் தடயங்களை “சுருக்கத்” (summarizing) தொடங்கியுள்ளது. இது Gemini தடயங்களில் செயல்திறன் மிக்க போட்டி மாடல்களைப் பயிற்சி அளிப்பதை மிகவும் சவாலாக மாற்றுகிறது.
- Anthropic: மே மாதத்தில், Anthropic தனது “போட்டி நன்மைகளைப்” பாதுகாக்க, தனது சொந்த மாடலின் தடயங்களைச் சுருக்கத் தொடங்குவதாகக் கூறியுள்ளது.
நிபுணர்களின் கருத்துகள் மற்றும் நிதி நிலை:
AI2 என்ற இலாப நோக்கற்ற AI ஆராய்ச்சி நிறுவனத்தின் ஆய்வாளர் நாதன் லம்பேர்ட் (Nathan Lambert) போன்ற AI நிபுணர்கள், DeepSeek Google இன் Gemini இலிருந்து தரவைப் பயன்படுத்தி பயிற்சி பெற்றிருக்கலாம் என்று கருதுகின்றனர்.
- GPU பற்றாக்குறை: DeepSeek க்கு நிதி ஆதாரங்கள் அதிகமாக இருந்தாலும், சக்திவாய்ந்த GPU வளங்கள் குறைவாக இருக்கலாம் என்று லம்பேர்ட் X இல் ஒரு பதிவில் தெரிவித்துள்ளார். இதனால், சிறந்த API மாடல்களில் இருந்து செயற்கை தரவுகளை உருவாக்குவது அவர்களுக்குப் “பயனுள்ள கணக்கீடு” ஆக அமையலாம்.
- சந்தைப் போட்டி: இந்தச் சர்ச்சை, AI துறையில் நிலவும் தீவிரமான போட்டியை எடுத்துக்காட்டுகிறது. Gemini மற்றும் GPT-4 போன்ற மாடல்களை உருவாக்க பல ஆண்டுகள் ஆகும் நிலையில், DeepSeek போன்ற புதிய நிறுவனங்கள் திடீரென்று பெரிய லாபங்களை ஈட்டும்போது, இது எப்படி சாத்தியமானது என்ற கேள்விகள் எழுகின்றன.
அறிவுசார் சொத்துரிமை மற்றும் விளைவுகள்:
இந்த குற்றச்சாட்டுகள் நிரூபிக்கப்பட்டால், AI துறையில் அறிவுசார் சொத்துரிமை மற்றும் போட்டி இயக்கவியலுக்கு குறிப்பிடத்தக்க தாக்கங்களை ஏற்படுத்தக்கூடும். தனியுரிம மாடல் வெளியீடுகள் மதிப்புமிக்க கார்ப்பரேட் சொத்துக்களாகக் கருதப்படுகின்றன. பொதுவில் கிடைக்கும் AI-உருவாக்கப்பட்ட உரையின் நியாயமான பயன்பாடு மற்றும் மறைமுக தரவு கசிவுகளிலிருந்து நிறுவனங்கள் தங்கள் மாடல்களை எவ்வாறு பாதுகாப்பது என்பது குறித்த விவாதம் தொடர்ந்து நடைபெற்று வருகிறது.
முடிவுரை:
DeepSeek தனது சமீபத்திய AI மாதிரியை உருவாக்க Google இன் Gemini ஐப் பயன்படுத்தியிருக்கலாம் என்ற குற்றச்சாட்டுகள், AI துறையில் தரவு ஆதாரம் மற்றும் பயிற்சி நடைமுறைகள் குறித்த ஒரு முக்கியமான விவாதத்தைத் தொடங்கியுள்ளன. இது நேரடியாக நிரூபிக்கப்படாவிட்டாலும், மொழி மற்றும் “சிந்தனை தடயங்களில்” உள்ள ஒற்றுமைகள், அத்துடன் DeepSeek இன் முந்தைய சர்ச்சைகள், இந்த ஊகங்களுக்கு நம்பகத்தன்மையை அளிக்கின்றன. AI நிறுவனங்கள் தங்கள் போட்டியாளர்களின் ரகசியங்களைப் பாதுகாக்க அதிக கட்டுப்பாடுகளை விதிக்கும் நிலையில், இந்தத் துறையில் அறிவுசார் சொத்து தகராறுகள் அதிகரிக்கும் என்று எதிர்பார்க்கப்படுகிறது. இந்த நிகழ்வு, AI தொழில்நுட்பத்தின் வளர்ச்சி வேகத்தில் நெறிமுறை மற்றும் சட்டப்பூர்வ கட்டமைப்புகளைப் பின்பற்றுவதன் அவசியத்தை மீண்டும் ஒருமுறை வலியுறுத்துகிறது.
இந்தச் சர்ச்சை குறித்து உங்கள் கருத்து என்ன? AI துறையில் தரவு பயன்பாடு மற்றும் குறியாக்கம் எவ்வளவு வெளிப்படையாக இருக்க வேண்டும்? உங்கள் எண்ணங்களை கருத்துப் பிரிவில் பகிர்ந்து கொள்ளுங்கள்!
