மெட்டா (பேஸ்புக்) நிறுவனம், அவர்களின் ஈனும் செயற்கை நுண்ணறிவு மொழி மாதிரியான ‘லாமா’வை(LLAMA) இலவசமாக வழங்குகிறார்கள். இது முழுக்க திறமூலம் என்று சொல்ல முடியாது, ஆனால் அது போன்றது, திறந்த வடிவம் என்று சொல்லலாம். சாட்-ஜி-பி-டி (ChatGPT), மைக்ரோசாப்ட் 365 கோ-பைலாட், கூகுள் ஜெமினி போன்ற மொழி மாதிரிகளிலிருந்து லாமா மாறுபட்டது, எப்படியென்றால் அவற்றை அவர்களின் மேக-கணினிகளிலிருந்து மட்டுமே இயக்கமுடியும், ஆனால் ‘லாமா’வை நாம் பதிவிறக்கி நம் கணினிகளில் பயன்படுத்தலாம், மெட்டாவிற்கு எந்தப் பணமும் கொடுக்க வேண்டாம். இதை இயக்கத் தேவையானது, உங்கள் கணினியில் ஒரு சக்திவாய்ந்த ஜி.பி.யு. (வரைவியல் முடுக்கி அட்டை) என்கிற வன்பொருள். சாட்-ஜி-பி-டி’யில் செய்யக் கூடியவற்றில் பலவற்றையும் லாமா’யிலும் செய்யலாம், ஆனால் வரும் பதிலின் துல்லியமும் திறனும் குறைவாக இருக்கும் – காசுக்கு ஏற்ற பணியாரம் தானே!
வந்து ஒன்றரை ஆண்டுக்கு மேலாகிவிட்டதால் இந்தக் கட்டுரையில் லாமாவைப் பார்க்கப் போவதில்லை. சமீபத்தில் வெளிவந்த லாமாவின் 3.2 என்கிற பதிப்பில் இருக்கும் ஓர் அம்சத்தைப் பார்க்கப் போகிறோம். இந்தப் பதிப்பின் சிறப்பு, பல்வகை உள்ளீடுகளைப் பெற்றுக் கொள்ளும், அதாவது உரை வரிகளை மட்டுமில்லாமல், படங்களையும் உள்வாங்கி அவற்றைப் புரிந்து கொள்ளக் கூடியவை இந்த மாதிரி. படங்களைப் பார்த்து அதில் இருப்பவற்றை விளக்கிக் கூறும் திறனை மட்டும் ஒரு மொழி மாதிரியாகத் தயாரித்து அதை “Llama 3.2-Vision” என்கிற பெயரில் சில நாட்களுக்கு முன் இலவசமாக வெளிவந்தது. இதை உங்கள் கணினியில் இயக்குவது சுலபம். முதலில் ஓ-லாமா (Ollama) என்கிற இலவசச் செயலியை உங்கள் மேக் அல்லது விண்டோஸ் அல்லது லினிக்ஸ் கணினியில் நிறுவிக் கொள்ள வேண்டும் (இதன் செயலை ஒரு காணொலியில் விளக்கியிருக்கிறேன்), பிறகு “Llama 3.2-Vision” மாதிரியை ஒரு வரி கட்டளையைக் கொடுத்து நிறுவிக் கொள்ளலாம். இந்த மாதிரியால் படங்களை உள்ளீடாகப் பெற்று வரிகளாக விளக்க முடியும், பதிலாக படங்களை வரைந்து தர முடியாது.
இந்த மாதிரியை நேரடியாகப் பயன்படுத்த முடியாது, நீங்கள் ஏதாவது ஒரு கணினி மொழியில் நிரல் ஒன்றை எழுத வேண்டும். பிறகு அந்த நிரலியை இயக்கி மாதிரிக்கு உள்ளீடாக ஒரு படத்தைக் கொடுத்து அந்தப் படத்தின் உள்ளடக்கத்தை அடையாளம் காணச் சொல்லலாம். இந்த மாதிரியின் செயல் திறனைச் சோதிக்க, குறிப்பாக படங்களில் இருப்பவற்றை மற்றும் அவற்றில் ஏதாவது தமிழ்த் தகவல்கள் இருந்தால் அதனால் அடையாளம் காணப்படுமா என்று தெரிந்துகொள்ள ஒரு சிறிய நிரலியை பைதான் மொழியில் எழுதிப் பரிசோதித்துப் பார்த்தேன். அதன் விடைகளை கீழேயிருக்கும் படங்களில் நீங்கள் பார்க்கிறீர்கள்.


இந்தச் சோதனையில் நான் பயன்படுத்தியது Llama 3.2-Vision 11B என்கிற 11 ‘நூறு கோடி’ அளவுகோல் மாதிரியை, இந்தளவு தான் எனது GPU அமைப்பில் இயக்க முடியும். இதன் பெரியளவு மாதிரியான Llama 3.2-Vision 90B’யைப் பயன்படுத்தப் பெரியளவு கணினிகள் வேண்டும். தற்போது வரை இந்த மாதிரி ஆங்கிலம், ஜெர்மன், பிரெஞ்சு, இத்தாலியன், போர்ச்சுகீஸ், இந்தி, ஸ்பானிஷ், தாய் போன்ற மொழிகளில் இருக்கும் வரிகளைப் புரிந்து கொள்ளக் கூடியது. தமிழில் வேலை செய்யாது என்றாலும் சில தமிழ் உரைகளைக் கொண்ட படங்களைச் சோதனை செய்து பார்த்தேன்.
இந்தச் சோதனைக்கு நான் எழுதிய பைதான் நிரலியை எனது கிட்-ஹப் (GitHub) பக்கத்தில் காணலாம்.
இந்த வகை மாதிரிகள் எப்படி வேலைச் செய்கிறது என்பதை அடிப்படையில் புரிந்து கொள்ள இந்த எட்டு நிமிட காணொலியைப் பார்க்கவும். சுலபமாக எல்லோருக்கும் புரியும் வகையில் இந்த வீடியோவை அமெரிக்காவின் புகழ்பெற்ற வால்-ஸ்டிரிட்-ஜர்னல் தயாரித்திருக்கிறது.
Discover more from Mangoidiots
Subscribe to get the latest posts sent to your email.

