โลกกำลังจะเปลี่ยนไป เมื่อ AI กำลังจะมีประสาทสัมผัสที่เหมือนมนุษย์

ในช่วงปลายปี 2012 นักวิทยาศาสตร์ AI ได้ค้นพบวิธีทำให้เทคโนโลยีอย่าง Neural Network สามารถที่จะมองเห็นได้เป็นครั้งแรก พวกเขาพิสูจน์แล้วว่าซอฟต์แวร์ที่ออกแบบมาเพื่อเลียนแบบสมองของมนุษย์อย่างหลวม ๆ สามารถปรับปรุงระบบการมองเห็นด้วยคอมพิวเตอร์ที่มีอยู่ได้อย่างมาก 

แต่ในขณะที่ AI เติบโตขึ้นอย่างน่าทึ่งเหมือนมนุษย์ แม้มันจะดูเหมือนเป็นยอดมนุษย์ในการทำภารกิจบางอย่าง แต่มันก็ยังไม่สามารถสร้างความยืดหยุ่นของสมองเหมือนกับมนุษย์ได้ 

แน่นอนว่าเราสามารถเรียนรู้ทักษะในบริบทหนึ่งและนำไปใช้กับอีกบริบทหนึ่งได้ ในทางตรงกันข้ามแม้ว่า AlphaGo อัลกอริทึมการเล่นเกมของ DeepMind จะสามารถเอาชนะผู้เชี่ยวชาญ Go ที่ดีที่สุดในโลกได้

AlphaGo อัลกอริทึมการเล่นเกมของ DeepMind จะสามารถเอาชนะผู้เชี่ยวชาญ Go ที่ดีที่สุดในโลกได้
AlphaGo อัลกอริทึมการเล่นเกมของ DeepMind จะสามารถเอาชนะผู้เชี่ยวชาญ Go ที่ดีที่สุดในโลกได้

แต่พวกมันก็ไม่สามารถที่จะขยายกลยุทธ์นั้นไปไกลกว่าในเกมกระดานได้ ซึ่งกล่าวอีกนัยหนึ่งคือ อัลกอริทึม Deep Learning นั้นดูเหมือนเป็นผู้เชี่ยวชาญในการเลือกรูปแบบหรือ pattern ในการทำงาน แต่มันไม่สามารถเข้าใจและปรับตัวให้เข้ากับโลกที่เปลี่ยนแปลงได้

นักวิจัยมีสมมติฐานมากมายว่าปัญหานี้จะเอาชนะได้อย่างไร แต่โดยเฉพาะอย่างยิ่งปัญหาหนึ่งที่ได้รับแรงบันดาลใจจาก เหล่าเด็ก ๆ ที่เรียนรู้เรื่องราวต่าง ๆ เกี่ยวกับโลกของเรา โดยการรับรู้และพูดคุยกันในเรื่องนั้น ๆ

เมื่อเด็ก ๆ เริ่มเชื่อมโยงคำกับสถานที่ท่องเที่ยว เสียงและข้อมูลทางประสาทสัมผัสอื่น ๆ ของพวกเขาจะสามารถอธิบายปรากฏการณ์และพลวัตที่ซับซ้อนมากขึ้นเรื่อย ๆ แยกสิ่งที่เป็นเหตุเป็นผลจากสิ่งที่สะท้อนความสัมพันธ์เพียงอย่างเดียวและสร้างแบบจำลองที่ซับซ้อนของโลก จากนั้นโมเดลดังกล่าวจะช่วยให้พวกเขาสำรวจสภาพแวดล้อมที่ไม่คุ้นเคยและนำความรู้และประสบการณ์ใหม่มาใช้ได้นั่นเอง

ในทางกลับกันระบบ AI ถูกสร้างขึ้นเพื่อทำสิ่งเหล่านี้เพียงครั้งเดียว อัลกอริธึมการมองเห็นด้วยคอมพิวเตอร์ (Computer Vision) และการจดจำเสียง (Voice Recognition) สามารถรับรู้สิ่งต่างๆได้ แต่ไม่สามารถใช้ภาษาเพื่ออธิบายสิ่งเหล่านี้ได้ 

ซึ่งหากความรู้สึกและภาษาถูกรวมเข้าด้วยกันเพื่อให้ AI มีวิธีที่เหมือนมนุษย์มากขึ้นในการรวบรวมและประมวลผลข้อมูลใหม่ในที่สุดมันจะพัฒนาสิ่งที่เหมือนกับการเข้าใจโลกได้หรือไม่?

ความหวังก็คือระบบที่เรียกว่า “multimodal” ซึ่งสามารถเข้าถึง “โหมด” ของสติปัญญาของมนุษย์ทั้งทางประสาทสัมผัสและภาษา ซึ่งก่อให้เกิด AI ที่มีประสิทธิภาพมากขึ้นซึ่งสามารถปรับให้เข้ากับสถานการณ์หรือปัญหาใหม่ ๆ ได้ง่ายขึ้น 

จากนั้นอัลกอริทึมดังกล่าวจะช่วยให้เราจัดการกับปัญหาที่ซับซ้อนมากขึ้น และนำไปประยุกต์ใช้กับหุ่นยนต์ที่สามารถสื่อสารและทำงานร่วมกับเราในชีวิตประจำวันของเราได้ในท้ายที่สุด

ความก้าวหน้าใหม่ในอัลกอริทึมการประมวลผลภาษาเช่น GPT-3 ของ OpenAI ได้เข้ามาช่วยในส่วนนี้ ซึ่งขณะนี้นักวิจัยเข้าใจวิธีการจำลองการปรับแต่งภาษาได้ดีพอที่จะทำให้การรวมเข้ากับความสามารถในการประมวลผลได้ดียิ่งขึ้น 

ในปีที่ผ่านมามีผลงานที่น่าตื่นเต้นหลายประการในด้านนี้ ในเดือนกันยายนนักวิจัยจาก Allen Institute for Artificial Intelligence, AI2 ได้สร้างแบบจำลองที่สามารถสร้างภาพจากคำบรรยายข้อความซึ่งแสดงให้เห็นถึงความสามารถของอัลกอริทึมในการเชื่อมโยงคำกับข้อมูลภาพ 

ในเดือนพฤศจิกายนนักวิจัยจากมหาวิทยาลัยนอร์ทแคโรไลนา Chapel Hill ได้พัฒนาวิธีการที่รวมภาพเข้ากับแบบจำลองภาษาที่มีอยู่ซึ่งช่วยเพิ่มความเข้าใจในการอ่านได้อย่างมีประสิทธิภาพมากยิ่งขึ้น

จากนั้น OpenAI ใช้แนวคิดเหล่านี้เพื่อขยายความสามารถของ GPT-3 เมื่อต้นปี 2021 ห้องปฏิบัติการได้เปิดตัวแบบจำลองภาษาภาพสองแบบ หนึ่งเชื่อมโยงวัตถุในรูปภาพกับคำที่อธิบายในคำบรรยายใต้ภาพ 

และอีกภาพหนึ่งสร้างภาพตามการผสมผสานของแนวคิดที่มันได้เรียนรู้ ตัวอย่างเช่น คุณสามารถแจ้งให้สร้าง “ภาพวาดสิงโตนั่งอยู่ในท้องทุ่งตอนพระอาทิตย์ขึ้น” แม้ว่า AI มันอาจจะไม่เคยเห็นมาก่อนก็ตาม แต่ก็สามารถผสมผสานและจับคู่สิ่งที่มันรู้ได้จากภาพวาดสิงโต ทุ่งนา และพระอาทิตย์ขึ้น เพื่อสร้างภาพนั้นออกมาได้

ระบบที่มีความซับซ้อนมากขึ้นจะทำให้อนาคตของผู้ช่วยหุ่นยนต์ขั้นสูงเป็นไปได้มากขึ้น (ให้คิดว่าต่อไปหุ่นยนต์ผู้ช่วยไม่ใช่แค่เพียงรูปแบบของ Alexa เพียงอย่างเดียวอีกต่อไป) ซึ่งหุ่นยนต์ที่ขับเคลื่อนด้วย AI ที่มีอยู่าในปัจจุบันใช้ข้อมูลภาพเพื่อนำทางและโต้ตอบกับสิ่งรอบตัวเป็นหลัก 

ต่อไปหุ่นยนต์ผู้ช่วยไม่ใช่แค่เพียงรูปแบบของ Alexa เพียงอย่างเดียวอีกต่อไป
ต่อไปหุ่นยนต์ผู้ช่วยไม่ใช่แค่เพียงรูปแบบของ Alexa เพียงอย่างเดียวอีกต่อไป

แน่นอนว่าเป็นสิ่งที่ดีสำหรับการทำงานง่าย ๆ ให้เสร็จสิ้นในสภาพแวดล้อมที่จำกัด เช่น การดำเนินการตามคำสั่งซื้อในคลังสินค้า 

แต่ห้องปฏิบัติการ เช่น AI2 กำลังทำงานเพื่อเพิ่มภาษาและรวมอินพุตทางประสาทสัมผัสเข้าด้วยกันมากขึ้น เช่น ข้อมูลเสียงและการสัมผัสเพื่อให้ AI เข้าใจคำสั่งและดำเนินการที่ซับซ้อนมากขึ้น เช่น การเปิดประตูเมื่อมีคนมาเคาะประตู เป็นต้น

ในระยะยาวการพัฒนาระบบ “multimodal” สามารถช่วยเอาชนะข้อ จำกัด ที่ใหญ่ที่สุดของ AI ได้ ยกตัวอย่างเช่น การที่หุ่นยนต์มันไม่เข้าใจโลกก็เป็นสาเหตุสำคัญที่ทำให้มันถูกหลอกได้อย่างง่ายดายนั่นเอง 

การได้รับข้อมูลที่ยืดหยุ่นมากขึ้นไม่เพียงแค่ปลดล็อกแอปพลิเคชัน AI ใหม่ ๆ เท่านั้น แต่จะทำให้มันมีความปลอดภัยยิ่งขึ้นด้วย

ซึ่งในอนาคตเราอาจจะได้เห็นรถยนต์ที่ขับเคลื่อนด้วยตัวเองจะสามารถทำงานได้ดีขึ้นในสภาพแวดล้อมที่ไม่คุ้นเคย และทำงานในที่มืดหรือในสภาพอากาศที่มีหิมะตกได้อย่างมีประสิทธิภาพมากยิ่งขึ้น ซึ่งระบบ“multimodal” อาจกลายเป็น AI ตัวแรกที่เราสามารถไว้วางใจได้ในชีวิตประจำวันของเราในอนาคตอันใกล้นี้นั่นเองครับผม

References :
https://venturebeat.com/2020/12/30/multimodal-systems-hold-immense-promise-once-they-overcome-technical-challenges/
https://www.technologyreview.com/2021/02/24/1018085/multimodal-ai-vision-language
https://newsbridge.io/blog/multimodal-ai-series-how-we-are-understanding-computer-perception-and-facial-recognition
https://www.aimesoft.com/multimodalai.html