மெட்டா (பேஸ்புக்) நிறுவனம், அவர்களின் ஈனும் செயற்கை நுண்ணறிவு மொழி மாதிரியான ‘லாமா’வை(LLAMA) இலவசமாக வழங்குகிறார்கள். இது முழுக்க திறமூலம் என்று சொல்ல முடியாது, ஆனால் அது போன்றது, திறந்த வடிவம் என்று சொல்லலாம். சாட்-ஜி-பி-டி (ChatGPT), மைக்ரோசாப்ட் 365 கோ-பைலாட், கூகுள் ஜெமினி போன்ற மொழி மாதிரிகளிலிருந்து லாமா மாறுபட்டது, எப்படியென்றால் அவற்றை அவர்களின் மேக-கணினிகளிலிருந்து மட்டுமே இயக்கமுடியும், ஆனால் ‘லாமா’வை நாம் பதிவிறக்கி நம் கணினிகளில் பயன்படுத்தலாம், மெட்டாவிற்கு எந்தப் பணமும் கொடுக்க வேண்டாம். இதை இயக்கத் தேவையானது, உங்கள் கணினியில் ஒரு சக்திவாய்ந்த ஜி.பி.யு. (வரைவியல் முடுக்கி அட்டை) என்கிற வன்பொருள். சாட்-ஜி-பி-டி’யில் செய்யக் கூடியவற்றில் பலவற்றையும் லாமா’யிலும் செய்யலாம், ஆனால் வரும் பதிலின் துல்லியமும் திறனும் குறைவாக இருக்கும் – காசுக்கு ஏற்ற பணியாரம் தானே!

வந்து ஒன்றரை ஆண்டுக்கு மேலாகிவிட்டதால் இந்தக் கட்டுரையில் லாமாவைப் பார்க்கப் போவதில்லை. சமீபத்தில் வெளிவந்த லாமாவின் 3.2 என்கிற பதிப்பில் இருக்கும் ஓர் அம்சத்தைப் பார்க்கப் போகிறோம். இந்தப் பதிப்பின் சிறப்பு, பல்வகை உள்ளீடுகளைப் பெற்றுக் கொள்ளும், அதாவது உரை வரிகளை மட்டுமில்லாமல், படங்களையும் உள்வாங்கி அவற்றைப் புரிந்து கொள்ளக் கூடியவை இந்த மாதிரி. படங்களைப் பார்த்து அதில் இருப்பவற்றை விளக்கிக் கூறும் திறனை மட்டும் ஒரு மொழி மாதிரியாகத் தயாரித்து அதை “Llama 3.2-Vision” என்கிற பெயரில் சில நாட்களுக்கு முன் இலவசமாக வெளிவந்தது. இதை உங்கள் கணினியில் இயக்குவது சுலபம். முதலில் ஓ-லாமா (Ollama) என்கிற இலவசச் செயலியை உங்கள் மேக் அல்லது விண்டோஸ் அல்லது லினிக்ஸ் கணினியில் நிறுவிக் கொள்ள வேண்டும் (இதன் செயலை ஒரு காணொலியில் விளக்கியிருக்கிறேன்), பிறகு “Llama 3.2-Vision” மாதிரியை ஒரு வரி கட்டளையைக் கொடுத்து நிறுவிக் கொள்ளலாம். இந்த மாதிரியால் படங்களை உள்ளீடாகப் பெற்று வரிகளாக விளக்க முடியும், பதிலாக படங்களை வரைந்து தர முடியாது.

இந்த மாதிரியை நேரடியாகப் பயன்படுத்த முடியாது, நீங்கள் ஏதாவது ஒரு கணினி மொழியில் நிரல் ஒன்றை எழுத வேண்டும். பிறகு அந்த நிரலியை இயக்கி மாதிரிக்கு உள்ளீடாக ஒரு படத்தைக் கொடுத்து அந்தப் படத்தின் உள்ளடக்கத்தை அடையாளம் காணச் சொல்லலாம். இந்த மாதிரியின் செயல் திறனைச் சோதிக்க, குறிப்பாக படங்களில் இருப்பவற்றை மற்றும் அவற்றில் ஏதாவது தமிழ்த் தகவல்கள் இருந்தால் அதனால் அடையாளம் காணப்படுமா என்று தெரிந்துகொள்ள ஒரு சிறிய நிரலியை பைதான் மொழியில் எழுதிப் பரிசோதித்துப் பார்த்தேன். அதன் விடைகளை கீழேயிருக்கும் படங்களில் நீங்கள் பார்க்கிறீர்கள்.

வரிகள் இல்லாத படத்தைத் துல்லியமாகவே விவரிக்கிறது இந்த மொழி மாதிரி.
வரிகள் இல்லாத படத்தைத் துல்லியமாகவே விவரிக்கிறது இந்த மொழி மாதிரி.
இந்த மொழி மாதிரி, விளம்பரத்தில் இருக்கும் படத்தில் வரையப்பட்டுள்ள கட்டிடத்தையும் கை கோர்த்து நடந்து செல்லும் இருவரையும் துல்லியமாகவே விவரிக்கிறது. அதன் அருகில் தமிழ் வரிகளைக் கண்டு கொள்வதில் தான் மதி மயங்கி (Hallucination) உளறுகிறது.
இந்த மொழி மாதிரி, விளம்பரத்தில் இருக்கும் படத்தில் வரையப்பட்டுள்ள கட்டிடத்தையும் கை கோர்த்து நடந்து செல்லும் இருவரையும் துல்லியமாகவே விவரிக்கிறது. அதன் அருகில் தமிழ் வரிகளைக் கண்டு கொள்வதில் தான் மதி மயங்கி (Hallucination) உளறுகிறது.

இந்தச் சோதனையில் நான் பயன்படுத்தியது Llama 3.2-Vision 11B என்கிற 11 ‘நூறு கோடி’ அளவுகோல் மாதிரியை, இந்தளவு தான் எனது GPU அமைப்பில் இயக்க முடியும். இதன் பெரியளவு மாதிரியான Llama 3.2-Vision 90B’யைப் பயன்படுத்தப் பெரியளவு கணினிகள் வேண்டும். தற்போது வரை இந்த மாதிரி ஆங்கிலம், ஜெர்மன், பிரெஞ்சு, இத்தாலியன், போர்ச்சுகீஸ், இந்தி, ஸ்பானிஷ், தாய் போன்ற மொழிகளில் இருக்கும் வரிகளைப் புரிந்து கொள்ளக் கூடியது. தமிழில் வேலை செய்யாது என்றாலும் சில தமிழ் உரைகளைக் கொண்ட படங்களைச் சோதனை செய்து பார்த்தேன்.

இந்தச் சோதனைக்கு நான் எழுதிய பைதான் நிரலியை எனது கிட்-ஹப் (GitHub) பக்கத்தில் காணலாம்.

இந்த வகை மாதிரிகள் எப்படி வேலைச் செய்கிறது என்பதை அடிப்படையில் புரிந்து கொள்ள இந்த எட்டு நிமிட காணொலியைப் பார்க்கவும். சுலபமாக எல்லோருக்கும் புரியும் வகையில் இந்த வீடியோவை அமெரிக்காவின் புகழ்பெற்ற வால்-ஸ்டிரிட்-ஜர்னல் தயாரித்திருக்கிறது.


Discover more from Mangoidiots

Subscribe to get the latest posts sent to your email.

Leave a Reply

Discover more from Mangoidiots

Subscribe now to keep reading and get access to the full archive.

Continue reading

Discover more from Mangoidiots

Subscribe now to keep reading and get access to the full archive.

Continue reading