தமிழைப் புரிந்து கொள்ளுமா Llama 3.2-Vision?

மெட்டா (பேஸ்புக்) நிறுவனம், அவர்களின் ஈனும் செயற்கை நுண்ணறிவு மொழி மாதிரியான ‘லாமா’வை(LLAMA) இலவசமாக வழங்குகிறார்கள். இது முழுக்க திறமூலம் என்று சொல்ல முடியாது, ஆனால் அது போன்றது, திறந்த வடிவம் என்று சொல்லலாம். சாட்-ஜி-பி-டி (ChatGPT), மைக்ரோசாப்ட் 365 கோ-பைலாட், கூகுள் ஜெமினி போன்ற மொழி மாதிரிகளிலிருந்து லாமா மாறுபட்டது, எப்படியென்றால் அவற்றை அவர்களின் மேக-கணினிகளிலிருந்து மட்டுமே இயக்கமுடியும், ஆனால் ‘லாமா’வை நாம் பதிவிறக்கி நம் கணினிகளில் பயன்படுத்தலாம், மெட்டாவிற்கு எந்தப் பணமும் கொடுக்க வேண்டாம். இதை இயக்கத் தேவையானது, உங்கள் கணினியில் ஒரு சக்திவாய்ந்த ஜி.பி.யு. (வரைவியல் முடுக்கி அட்டை) என்கிற வன்பொருள். சாட்-ஜி-பி-டி’யில் செய்யக் கூடியவற்றில் பலவற்றையும் லாமா’யிலும் செய்யலாம், ஆனால் வரும் பதிலின் துல்லியமும் திறனும் குறைவாக இருக்கும் – காசுக்கு ஏற்ற பணியாரம் தானே!

வந்து ஒன்றரை ஆண்டுக்கு மேலாகிவிட்டதால் இந்தக் கட்டுரையில் லாமாவைப் பார்க்கப் போவதில்லை. சமீபத்தில் வெளிவந்த லாமாவின் 3.2 என்கிற பதிப்பில் இருக்கும் ஓர் அம்சத்தைப் பார்க்கப் போகிறோம். இந்தப் பதிப்பின் சிறப்பு, பல்வகை உள்ளீடுகளைப் பெற்றுக் கொள்ளும், அதாவது உரை வரிகளை மட்டுமில்லாமல், படங்களையும் உள்வாங்கி அவற்றைப் புரிந்து கொள்ளக் கூடியவை இந்த மாதிரி. படங்களைப் பார்த்து அதில் இருப்பவற்றை விளக்கிக் கூறும் திறனை மட்டும் ஒரு மொழி மாதிரியாகத் தயாரித்து அதை “Llama 3.2-Vision” என்கிற பெயரில் சில நாட்களுக்கு முன் இலவசமாக வெளிவந்தது. இதை உங்கள் கணினியில் இயக்குவது சுலபம். முதலில் ஓ-லாமா (Ollama) என்கிற இலவசச் செயலியை உங்கள் மேக் அல்லது விண்டோஸ் அல்லது லினிக்ஸ் கணினியில் நிறுவிக் கொள்ள வேண்டும் (இதன் செயலை ஒரு காணொலியில் விளக்கியிருக்கிறேன்), பிறகு “Llama 3.2-Vision” மாதிரியை ஒரு வரி கட்டளையைக் கொடுத்து நிறுவிக் கொள்ளலாம். இந்த மாதிரியால் படங்களை உள்ளீடாகப் பெற்று வரிகளாக விளக்க முடியும், பதிலாக படங்களை வரைந்து தர முடியாது.

இந்த மாதிரியை நேரடியாகப் பயன்படுத்த முடியாது, நீங்கள் ஏதாவது ஒரு கணினி மொழியில் நிரல் ஒன்றை எழுத வேண்டும். பிறகு அந்த நிரலியை இயக்கி மாதிரிக்கு உள்ளீடாக ஒரு படத்தைக் கொடுத்து அந்தப் படத்தின் உள்ளடக்கத்தை அடையாளம் காணச் சொல்லலாம். இந்த மாதிரியின் செயல் திறனைச் சோதிக்க, குறிப்பாக படங்களில் இருப்பவற்றை மற்றும் அவற்றில் ஏதாவது தமிழ்த் தகவல்கள் இருந்தால் அதனால் அடையாளம் காணப்படுமா என்று தெரிந்துகொள்ள ஒரு சிறிய நிரலியை பைதான் மொழியில் எழுதிப் பரிசோதித்துப் பார்த்தேன். அதன் விடைகளை கீழேயிருக்கும் படங்களில் நீங்கள் பார்க்கிறீர்கள்.

வரிகள் இல்லாத படத்தைத் துல்லியமாகவே விவரிக்கிறது இந்த மொழி மாதிரி.

இந்த மொழி மாதிரி, விளம்பரத்தில் இருக்கும் படத்தில் வரையப்பட்டுள்ள கட்டிடத்தையும் கை கோர்த்து நடந்து செல்லும் இருவரையும் துல்லியமாகவே விவரிக்கிறது. அதன் அருகில் தமிழ் வரிகளைக் கண்டு கொள்வதில் தான் மதி மயங்கி (Hallucination) உளறுகிறது.

இந்தச் சோதனையில் நான் பயன்படுத்தியது Llama 3.2-Vision 11B என்கிற 11 ‘நூறு கோடி’ அளவுகோல் மாதிரியை, இந்தளவு தான் எனது GPU அமைப்பில் இயக்க முடியும். இதன் பெரியளவு மாதிரியான Llama 3.2-Vision 90B’யைப் பயன்படுத்தப் பெரியளவு கணினிகள் வேண்டும். தற்போது வரை இந்த மாதிரி ஆங்கிலம், ஜெர்மன், பிரெஞ்சு, இத்தாலியன், போர்ச்சுகீஸ், இந்தி, ஸ்பானிஷ், தாய் போன்ற மொழிகளில் இருக்கும் வரிகளைப் புரிந்து கொள்ளக் கூடியது. தமிழில் வேலை செய்யாது என்றாலும் சில தமிழ் உரைகளைக் கொண்ட படங்களைச் சோதனை செய்து பார்த்தேன்.

இந்தச் சோதனைக்கு நான் எழுதிய பைதான் நிரலியை எனது கிட்-ஹப் (GitHub) பக்கத்தில் காணலாம்.

இந்த வகை மாதிரிகள் எப்படி வேலைச் செய்கிறது என்பதை அடிப்படையில் புரிந்து கொள்ள இந்த எட்டு நிமிட காணொலியைப் பார்க்கவும். சுலபமாக எல்லோருக்கும் புரியும் வகையில் இந்த வீடியோவை அமெரிக்காவின் புகழ்பெற்ற வால்-ஸ்டிரிட்-ஜர்னல் தயாரித்திருக்கிறது.

Discover more from Mangoidiots

Subscribe to get the latest posts sent to your email.

தமிழைப் புரிந்து கொள்ளுமா Llama 3.2-Vision?

Discover more from Mangoidiots

Leave a ReplyCancel reply

You Missed

I Voted Proudly – Tamil Nadu Elections 2026

போர் ஒழியட்டும், பிஸ்தாப் பருப்பு கிடைக்கட்டும்!

என் ‘ஸீரோ இன்பாக்ஸ்’ கனவும், அடம் பிடித்த வாட்ஸ்அப் அறிவிப்பும்!

Mr X (2026), A strong cast cannot save a weak plot

Subscribe to Blog via Email

Reference

Mangoidiots Movie reviews

Discover more from Mangoidiots

Related Post

Leave a ReplyCancel reply

You Missed

Discover more from Mangoidiots

Discover more from Mangoidiots