Learn Carnatic Music in Online

Click here to join our WhatsApp channel

Click here to join our Telegram Channel

சனி, 4 ஜனவரி, 2020

தகவல் அறிவியல் 5

Image result for data science


டந்த வாரங்களில் தகவல் அறிவியல் என்றால் என்ன என்பதைப் பற்றியும், அதன் பயன்கள் பற்றியும், அந்தத் துறையில் உள்ள பல்வேறு வேலை வாய்ப்பு விஷயங்கள் பற்றியும் பார்த்தோம். இந்த வாரம் தகவல் அறிவியல் துறைக்குள் நுழைந்து அங்கே அப்படி என்ன தான் வேலை செய்கிறார்கள் என்பதை எட்டிப் பார்க்கப் போகிறோம் !
அப்படி தகவல் அறிவியல் துறையில் என்ன வேலை தான் செய்கிறார்கள் ?
1. பிரச்சினையை புரிதல் !
தகவல் அறிவியலின் ஆகப் பெரிய விஷயமே ஒரு நிறுவனத்தின் பிரச்சினை என்ன என்பதைப் புரிந்து கொள்வது. பிரச்சினை என்ன என்பதைப் புரிந்து கொள்வது என்பது இரண்டு நிலை கொண்டது. ஒன்று ‘இது தான் என்னோட பிரச்சினை’ என முன்வைப்பது. இரண்டாவது, ‘இந்த பிரச்சினை இல்லாமல் எனக்கு இப்படிப்பட்ட ஒரு நிலை வேண்டும்’ என்பது !
ஒரு பிரச்சினையை அக்கு வேறு ஆணி வேறாகப் புரிந்து கொள்வது தகவல் அறிவியலில் மிக முக்கியம். அதற்கு ஏகப்பட்ட கேள்விகளைக் கேட்க வேண்டும். கேள்விகள் பிரச்சினைகளை அதிகப்படுத்தி, அதிலுள்ள அடிப்பட்ட விஷயங்கள் வரை வெளிக்கொணரும். எந்த அளவுக்கு பிரச்சினையை பிரச்சினையைப் புரிந்து கொள்கிறோமோ, அந்த அளவுக்கு தெளிவான தீர்வுகள் கிடைக்கும். பிரச்சினையைப் புரிந்து கொள்ளாமல் களத்தில் இறங்குவது தவகல் அறிவியல் துறையைப் பொறுத்தவரை மிகப்பெரிய பிழை.
உதாரணமாக, “நிறைய கஸ்டமர்களை ஈர்க்க வேண்டும்” என்பது ஒரு வரி தேவையாக இருக்கலாம். அதை வைத்துக் கொண்டு தகவல் அறிவியலில் எதுவும் செய்ய முடியாது. நீங்கள் என்ன செய்கிறீர்கள், எப்படிப்பட்ட கஸ்டமர்கள் வேண்டும், யாரெல்லாம் போட்டியாளர்கள்,அவர்களிடம் எவ்வளவு கஸ்டம்ர்கள் இருக்கிறார்கள், உங்கள் கஸ்டமர்களின் விமர்சனங்கள் என்ன ? குறைகள் என்ன ? எவ்வளவு நாட்கள் சராசரியாக உங்களோடு இருக்கிறார்கள் என தொடங்கி நூற்றுக்கணக்கான கேள்விகளை வரிசையாக எழுப்பினால் உங்களுக்கு கொஞ்சம் கொஞ்சமாக விஷயம் புரியத் துவங்கும்.
எந்த அளவுக்கு கேள்விகளைக் கேட்கிறீர்கள், எந்த அளவுக்கு தொடர்புடைய கேள்விகளைக் கேட்கிறீர்கள் என்பதை வைத்து உங்களுடைய முடிவுகளுக்கு தெளிவு கிடைக்கும். சில கேள்விகள் தான் மாற்றங்களைக் கொண்டு வரும். நிறுவனமே யோசிக்காத விஷயங்களை யோசிக்கத் துவங்குவதும் அப்போது தான். பிரச்சினையை புரிந்து கொள்வதற்கான ‘பிரெயின் ஸ்டாமிங்’ என இந்த விவாதத்தை அழைப்பதுண்டு.
2. தகவல் சேகரிப்பு
பெயரைக் கேட்டாலே புரிஞ்சிருக்குமே ! இருக்கின்ற தகவல்களையெல்லாம் சேகரிப்பது தான் இந்தக் கட்டம். ஆனால் அது நாம் நினைப்பது போல எளிதல்ல. தகவல்கள் எப்போதும் ஒரு நாலு ஃபைல்களில் இருப்பதில்லை. தகவல்கள் எங்கே இருக்கின்றன என்பதைக் கண்டுபிடிக்கவே நிறைய தகவல்கள் தேவைப்படும். அந்த தகவல்களைக் கண்டுபிடித்தபின் அதைச் சேகரிக்க வேண்டும்.
முதலில் வகைப்படுத்தப்பட்ட தகவல்கள் என்னென்ன இருக்கின்றன என்பதைக் கண்டுபிடித்து அவற்றை சேகரிக்க வேண்டும். இது எளிதான பணி. அதிக பயனளிக்கக் கூடிய தகவலும் இது தான். ஆனால் இது மட்டுமே முழுமையான தகவல் அல்ல. உதாரணமாக அலுவலக டேட்டாபேஸை எடுத்து அதிலுள்ள தகவல்களை இழுத்தெடுப்பது ! நிறைய பயனுள்ள தகவல்கள் கிடைக்கும்.
பின்பு நிறுவனம் சார்ந்த மற்ற இடங்களில் இருக்கின்ற தகவல்களை சேகரிக்க வேண்டும். உதாரணமாக அது ஒரு வலைத்தளமாக இருக்கலாம். நிறுவனத்தின் இன்ட்ரா நெட் எனப்படும் பாதுகாப்பான தனி வலைத்தளமாக இருக்கலாம். அவற்றையெல்லாம் சேகரிப்பது கொஞ்சம் கஷ்டமான பணி.
அடுத்தது அலுவலகத்திலுள்ள தகவல்களில் வகைப்படுத்தப்படாத தகவல்களைச் சேகரிப்பது. தலைவலியான வேலை என இதைச் சொல்லலாம். வகைப்படுத்தாத தகவல் எப்படி வேண்டுமானாலும் இருக்கலாம். ஒரு வீடியோவாகவோ, ஆடியோவாகவோ, ஒரு கிறுக்கல் கையெழுத்தாகவோ, ஒரு வாய்ச்சொல்லாகவோ எப்படி வேண்டுமானாலும் இருக்கலாம். அவையும் சேகரிக்கப்பட வேண்டும். அப்போது தான் முழுமையான ஒரு தீர்வுக்குள் செல்ல முடியும்.
தகவல்களைச் சேகரிக்கும் போது, முதல் கட்டத்தில் நாம் ஏகப்பட்ட கேள்விகளைக் கேட்டோமல்லவா ? அந்த அத்தனை கேள்விகளுக்குமான விடைகள் வந்திருக்கின்றனவா என்பதை பரிசீலனை செய்ய வேண்டும். புதிதாக கேள்விகள் கேட்க வேண்டிய தேவையிருந்தால் கேட்கலாம். இந்த கட்டம் மிக முக்கியமான கட்டம். இதில் தவற விடுகின்ற முக்கியமான தகவல்கள் நிறுவனத்தின் முடிவுகளை பெரிய அளவில் பாதிக்க வாய்ப்பு உண்டு.
3. தகவல் செயல்முறை
தகவல் அறிவியலின் முதுகெலும்பு என்பது தகவல் செயல்முறை அதாவது டேட்டா புராசசிங். பிரச்சினையைப் புரிந்து கொள்வதும், தகவல்களை சேகரிப்பதும் எந்த அளவுக்கு சிறப்பாக நடந்திருக்கிறது என்பதை வைத்து தான் இந்த செயல்முறைப் பகுதி வெற்றியடையுமா தோல்வியடையுமா என்பதைச் சொல்ல முடியும்.
தகவல் செயல்முறைக்கு முன்பு இருக்கின்ற ஒரு வேலை தகவல்களை தூசு தட்டி துடைத்து எடுப்பதும். தேவையற்ற தகவல்களை உடைத்து எறிவதும் தான். அந்த வேலைக்காகத் தான் பெரும்பாலான நேரத்தை தகவல் அறிவியலார்கள் செலவிடுவார்கள். சுமார் 70 முதல் 80 சதவீதம் நேரம் தேவையற்ற தகவல்களை நீக்குவதில் செலவாகும் என்கிறது ஒரு ஆய்வு.
தேவையற்ற ஒரு தகவல், முடிவில் மிகப்பெரிய மாற்றத்தை உருவாக்கி விடக்கூடும். எனவே தான் தேவையற்ற தகவல்களை அகற்ற வேண்டியது அவசியாகிறது. எல்லா பாடத்துக்கும் தோற்றுப் போகும் ஒரு மாணவனுக்கு, கணிதத்தில் 400 மதிப்பெண் என தவறாகப் பதிவாகியிருந்தால் மொத்த சதவீதத்தில் அவன் பெயர் முன்னணியில் வருமில்லையா ? அதே போல நினைத்துக் கொள்ளுங்கள்.
இந்த இடத்தில் மென்பொருட்கள் உதவிக்கு வரும். இருக்கின்ற தகவல்களை நாம் அப்படியே எதுவும் செய்து விட முடியாது. அதை அலச, அதை வைத்து உருப்படியாய் ஏதாவது செய்ய கணினியின் உதவி மிக மிக அவசியம். பைத்தான் , ஆர் போன்ற மென்பொருட்கள் இந்த இடத்தில் மிகப்பெரிய உதவியாய் இருக்கும்.
4. தகவல் ஆராய்ச்சி
இப்போது கைவசம் இருப்பவை நல்ல தகவல்கள். முறைப்படுத்தப்பட்ட தகவல்கள். இவற்றை வைத்துக் கொண்டு எப்படியெல்லாம் வித்தை காட்டலாம் என்பது தான் தகவல் அறிவியலின் ஒட்டு மொத்த விஷயம்.
இந்த தகவல்களை அலசி, ஆராய்ந்து, தொடர்புகளைக் கண்டறிந்து அதன்’பேட்டர்ன்’ அதாவது முறைகளை அறிந்து, அதைக் கொண்டு நிறுவனத்துக்குத் தேவையான தீர்வுகளை உருவாக்கும் இடம் இது தான்.
இங்கே எப்படி தகவலை நாம் காட்சிப்படுத்திப் பார்க்கிறோம், மனதுக்குள் படமாக விரித்துப் பார்க்கிறோம் என்பது மிக முக்கியம். அது தான் நிறுவனத்திற்குத் தேவையான தீர்வுகளை நோக்கி வழிநடத்தும்.
இந்த அலசலில் கிடைக்கின்ற தகவல்களை, பேட்டர்ன்களை வைத்து தான் ஆழமான அலசல் செய்ய முடியும். ஆழமன அலசலுக்குள் நுழைவதற்கு முன் தகவல்களை எப்படியெல்லாம் பயன்படுத்தலாம் என்பது குறித்த ஒரு பார்வை இருக்க வேண்டும். இந்த கட்டம் அதைத் தான் தரும்.
5. ஆழமான அலசல்
இந்த கட்டத்தில் தான் கண்டறிந்த தகவல்களை வைத்துக் கொண்டு நிறுவனம் எதிர்பார்க்கின்ற மாடலை உருவாக்கும் வேலை நடைபெறும். இந்த தகவல்களை எப்படிப் பயன்படுத்தினால் எப்படிப்பட்ட பயன்கள் கிடைக்கும் என்பதைக் கணிக்கும் ‘பிரடிக்டிவ் மாடல்’ உருவாவது இப்போது தான்.
இந்த இடத்தில் மீண்டும் சில கேள்விகளை எழுப்ப வேண்டும் ! நான் என்ன மாடலை கணிக்கப் போகிறேன். எனது நோக்கம் என்ன ? அது தான் நிறுவனம் எதிர்பார்க்கின்ற விஷயமா ? நிறுவனத்தின் நோக்கத்தோடும், எதிர்பார்ப்போடும் நான் ஒத்துப் போகிறேனா ? என்பதையெல்லாம் கேள்விகள் மூலம் உறுதி செய்து கொள்ள வேண்டியது முக்கியம்.
ஒரு மாடலை மட்டும் உருவாக்கி நிறுவனத்துக்கு அளிப்பது சரியான முறையல்ல. அது முழுமையான, சரியான, பக்காவான ஒரு தீர்வைத் தருமென்பதில்லை. எனவே பல மாடல்களை உருவாக்கி அதில் எது சிறந்ததாக இருக்கிறதோ, அதைப் பயன்படுத்துவதே சரியான வழி.
அல்காரிதங்கள், மெஷின் லேர்னிங் கான்செப்ட் போன்றவற்றையெல்லாம் பயன்படுத்தும் சரியான இடம் இது தான்.
எவ்வளவு தெளிவான, அழகான மாடலிஅ உருவாக்குகிறோம் என்பதல்ல முக்கியம். அந்த மாடல் நமக்குத் தேவையான ஒரு தீர்வைத் தருமா என்பதே கேள்வி. அதற்குத் தேவையான முயற்சிகளை எடுப்பதே இங்கே முக்கியமான விஷயம்.
5. அறிக்கை தயாரித்தல்
ரிப்போர்ட் ஜெனரேஷன் என்பது எந்த ஒரு பணியிலும் கிட்டத்தட்ட கடைசியில் வருகின்ற ஒரு வேலை. அது தான் அந்த ஒட்டு மொத்தப் பணிக்கும் ஒரு மரியாதையைக் கொண்டு வரும். ராப்பகலா கண்ணு முழிச்சு படிச்சேன், ஆனா பரீட்சைக்கு எதுவும் எழுதல என்றால் எப்படி இருக்கும். அதே போல தான், என்ன தான் முழு உழைப்பையும் போட்டு மாடல் உருவாக்கினாலும், அதை சரியான முறையில் காட்டவில்லையேல் பயனில்லை.
இந்த ஏரியாவை பலரும் அலட்சியமாக நினைப்பதுண்டு. ஆனால் இது மிக முக்கியமான ஒரு கட்டம் என்பதைப் புரிந்து கொள்ள வேண்டும்.
பார்த்தவுடன் பளிச் என புரிகின்ற படங்கள் மூலமாகவோ, புள்ளி விவரங்கள் மூலமாகவோ, இதை எளிமையாக விளக்குவது பயனளிக்கும். டைனமிக் ரிப்போர்ட்டிங் எனப்படும் தகவல்களை மாற்றுவதற்கு ஏற்ப மாறுகின்ற ஆன்லைன் ரிப்போர்டிங் இங்கே ரொம்ப வலிமையானது.
இவை தான் தகவல் அறிவியல் வேலையில் நடக்கின்ற பணிகள்.
( தொடர்வோம் )

கருத்துகள் இல்லை:

கருத்துரையிடுக