โลกกำลังจะเปลี่ยนไป เมื่อ AI กำลังจะมีประสาทสัมผัสที่เหมือนมนุษย์

ในช่วงปลายปี 2012 นักวิทยาศาสตร์ AI ได้ค้นพบวิธีทำให้เทคโนโลยีอย่าง Neural Network สามารถที่จะมองเห็นได้เป็นครั้งแรก พวกเขาพิสูจน์แล้วว่าซอฟต์แวร์ที่ออกแบบมาเพื่อเลียนแบบสมองของมนุษย์อย่างหลวม ๆ สามารถปรับปรุงระบบการมองเห็นด้วยคอมพิวเตอร์ที่มีอยู่ได้อย่างมาก 

แต่ในขณะที่ AI เติบโตขึ้นอย่างน่าทึ่งเหมือนมนุษย์ แม้มันจะดูเหมือนเป็นยอดมนุษย์ในการทำภารกิจบางอย่าง แต่มันก็ยังไม่สามารถสร้างความยืดหยุ่นของสมองเหมือนกับมนุษย์ได้ 

แน่นอนว่าเราสามารถเรียนรู้ทักษะในบริบทหนึ่งและนำไปใช้กับอีกบริบทหนึ่งได้ ในทางตรงกันข้ามแม้ว่า AlphaGo อัลกอริทึมการเล่นเกมของ DeepMind จะสามารถเอาชนะผู้เชี่ยวชาญ Go ที่ดีที่สุดในโลกได้

AlphaGo อัลกอริทึมการเล่นเกมของ DeepMind จะสามารถเอาชนะผู้เชี่ยวชาญ Go ที่ดีที่สุดในโลกได้
AlphaGo อัลกอริทึมการเล่นเกมของ DeepMind จะสามารถเอาชนะผู้เชี่ยวชาญ Go ที่ดีที่สุดในโลกได้

แต่พวกมันก็ไม่สามารถที่จะขยายกลยุทธ์นั้นไปไกลกว่าในเกมกระดานได้ ซึ่งกล่าวอีกนัยหนึ่งคือ อัลกอริทึม Deep Learning นั้นดูเหมือนเป็นผู้เชี่ยวชาญในการเลือกรูปแบบหรือ pattern ในการทำงาน แต่มันไม่สามารถเข้าใจและปรับตัวให้เข้ากับโลกที่เปลี่ยนแปลงได้

นักวิจัยมีสมมติฐานมากมายว่าปัญหานี้จะเอาชนะได้อย่างไร แต่โดยเฉพาะอย่างยิ่งปัญหาหนึ่งที่ได้รับแรงบันดาลใจจาก เหล่าเด็ก ๆ ที่เรียนรู้เรื่องราวต่าง ๆ เกี่ยวกับโลกของเรา โดยการรับรู้และพูดคุยกันในเรื่องนั้น ๆ

เมื่อเด็ก ๆ เริ่มเชื่อมโยงคำกับสถานที่ท่องเที่ยว เสียงและข้อมูลทางประสาทสัมผัสอื่น ๆ ของพวกเขาจะสามารถอธิบายปรากฏการณ์และพลวัตที่ซับซ้อนมากขึ้นเรื่อย ๆ แยกสิ่งที่เป็นเหตุเป็นผลจากสิ่งที่สะท้อนความสัมพันธ์เพียงอย่างเดียวและสร้างแบบจำลองที่ซับซ้อนของโลก จากนั้นโมเดลดังกล่าวจะช่วยให้พวกเขาสำรวจสภาพแวดล้อมที่ไม่คุ้นเคยและนำความรู้และประสบการณ์ใหม่มาใช้ได้นั่นเอง

ในทางกลับกันระบบ AI ถูกสร้างขึ้นเพื่อทำสิ่งเหล่านี้เพียงครั้งเดียว อัลกอริธึมการมองเห็นด้วยคอมพิวเตอร์ (Computer Vision) และการจดจำเสียง (Voice Recognition) สามารถรับรู้สิ่งต่างๆได้ แต่ไม่สามารถใช้ภาษาเพื่ออธิบายสิ่งเหล่านี้ได้ 

ซึ่งหากความรู้สึกและภาษาถูกรวมเข้าด้วยกันเพื่อให้ AI มีวิธีที่เหมือนมนุษย์มากขึ้นในการรวบรวมและประมวลผลข้อมูลใหม่ในที่สุดมันจะพัฒนาสิ่งที่เหมือนกับการเข้าใจโลกได้หรือไม่?

ความหวังก็คือระบบที่เรียกว่า “multimodal” ซึ่งสามารถเข้าถึง “โหมด” ของสติปัญญาของมนุษย์ทั้งทางประสาทสัมผัสและภาษา ซึ่งก่อให้เกิด AI ที่มีประสิทธิภาพมากขึ้นซึ่งสามารถปรับให้เข้ากับสถานการณ์หรือปัญหาใหม่ ๆ ได้ง่ายขึ้น 

จากนั้นอัลกอริทึมดังกล่าวจะช่วยให้เราจัดการกับปัญหาที่ซับซ้อนมากขึ้น และนำไปประยุกต์ใช้กับหุ่นยนต์ที่สามารถสื่อสารและทำงานร่วมกับเราในชีวิตประจำวันของเราได้ในท้ายที่สุด

ความก้าวหน้าใหม่ในอัลกอริทึมการประมวลผลภาษาเช่น GPT-3 ของ OpenAI ได้เข้ามาช่วยในส่วนนี้ ซึ่งขณะนี้นักวิจัยเข้าใจวิธีการจำลองการปรับแต่งภาษาได้ดีพอที่จะทำให้การรวมเข้ากับความสามารถในการประมวลผลได้ดียิ่งขึ้น 

ในปีที่ผ่านมามีผลงานที่น่าตื่นเต้นหลายประการในด้านนี้ ในเดือนกันยายนนักวิจัยจาก Allen Institute for Artificial Intelligence, AI2 ได้สร้างแบบจำลองที่สามารถสร้างภาพจากคำบรรยายข้อความซึ่งแสดงให้เห็นถึงความสามารถของอัลกอริทึมในการเชื่อมโยงคำกับข้อมูลภาพ 

ในเดือนพฤศจิกายนนักวิจัยจากมหาวิทยาลัยนอร์ทแคโรไลนา Chapel Hill ได้พัฒนาวิธีการที่รวมภาพเข้ากับแบบจำลองภาษาที่มีอยู่ซึ่งช่วยเพิ่มความเข้าใจในการอ่านได้อย่างมีประสิทธิภาพมากยิ่งขึ้น

จากนั้น OpenAI ใช้แนวคิดเหล่านี้เพื่อขยายความสามารถของ GPT-3 เมื่อต้นปี 2021 ห้องปฏิบัติการได้เปิดตัวแบบจำลองภาษาภาพสองแบบ หนึ่งเชื่อมโยงวัตถุในรูปภาพกับคำที่อธิบายในคำบรรยายใต้ภาพ 

และอีกภาพหนึ่งสร้างภาพตามการผสมผสานของแนวคิดที่มันได้เรียนรู้ ตัวอย่างเช่น คุณสามารถแจ้งให้สร้าง “ภาพวาดสิงโตนั่งอยู่ในท้องทุ่งตอนพระอาทิตย์ขึ้น” แม้ว่า AI มันอาจจะไม่เคยเห็นมาก่อนก็ตาม แต่ก็สามารถผสมผสานและจับคู่สิ่งที่มันรู้ได้จากภาพวาดสิงโต ทุ่งนา และพระอาทิตย์ขึ้น เพื่อสร้างภาพนั้นออกมาได้

ระบบที่มีความซับซ้อนมากขึ้นจะทำให้อนาคตของผู้ช่วยหุ่นยนต์ขั้นสูงเป็นไปได้มากขึ้น (ให้คิดว่าต่อไปหุ่นยนต์ผู้ช่วยไม่ใช่แค่เพียงรูปแบบของ Alexa เพียงอย่างเดียวอีกต่อไป) ซึ่งหุ่นยนต์ที่ขับเคลื่อนด้วย AI ที่มีอยู่าในปัจจุบันใช้ข้อมูลภาพเพื่อนำทางและโต้ตอบกับสิ่งรอบตัวเป็นหลัก 

ต่อไปหุ่นยนต์ผู้ช่วยไม่ใช่แค่เพียงรูปแบบของ Alexa เพียงอย่างเดียวอีกต่อไป
ต่อไปหุ่นยนต์ผู้ช่วยไม่ใช่แค่เพียงรูปแบบของ Alexa เพียงอย่างเดียวอีกต่อไป

แน่นอนว่าเป็นสิ่งที่ดีสำหรับการทำงานง่าย ๆ ให้เสร็จสิ้นในสภาพแวดล้อมที่จำกัด เช่น การดำเนินการตามคำสั่งซื้อในคลังสินค้า 

แต่ห้องปฏิบัติการ เช่น AI2 กำลังทำงานเพื่อเพิ่มภาษาและรวมอินพุตทางประสาทสัมผัสเข้าด้วยกันมากขึ้น เช่น ข้อมูลเสียงและการสัมผัสเพื่อให้ AI เข้าใจคำสั่งและดำเนินการที่ซับซ้อนมากขึ้น เช่น การเปิดประตูเมื่อมีคนมาเคาะประตู เป็นต้น

ในระยะยาวการพัฒนาระบบ “multimodal” สามารถช่วยเอาชนะข้อ จำกัด ที่ใหญ่ที่สุดของ AI ได้ ยกตัวอย่างเช่น การที่หุ่นยนต์มันไม่เข้าใจโลกก็เป็นสาเหตุสำคัญที่ทำให้มันถูกหลอกได้อย่างง่ายดายนั่นเอง 

การได้รับข้อมูลที่ยืดหยุ่นมากขึ้นไม่เพียงแค่ปลดล็อกแอปพลิเคชัน AI ใหม่ ๆ เท่านั้น แต่จะทำให้มันมีความปลอดภัยยิ่งขึ้นด้วย

ซึ่งในอนาคตเราอาจจะได้เห็นรถยนต์ที่ขับเคลื่อนด้วยตัวเองจะสามารถทำงานได้ดีขึ้นในสภาพแวดล้อมที่ไม่คุ้นเคย และทำงานในที่มืดหรือในสภาพอากาศที่มีหิมะตกได้อย่างมีประสิทธิภาพมากยิ่งขึ้น ซึ่งระบบ“multimodal” อาจกลายเป็น AI ตัวแรกที่เราสามารถไว้วางใจได้ในชีวิตประจำวันของเราในอนาคตอันใกล้นี้นั่นเองครับผม

References :
https://venturebeat.com/2020/12/30/multimodal-systems-hold-immense-promise-once-they-overcome-technical-challenges/
https://www.technologyreview.com/2021/02/24/1018085/multimodal-ai-vision-language
https://newsbridge.io/blog/multimodal-ai-series-how-we-are-understanding-computer-perception-and-facial-recognition
https://www.aimesoft.com/multimodalai.html


 


ติดตามสาระดี ๆ อัพเดททุกวันผ่าน Line OA



Geek Forever Club พื้นที่ของการแลกเปลี่ยนข้อมูลข่าวสาร ความรู้ ด้านธุรกิจ เทคโนโลยีและวิทยาศาสตร์ ใหม่ ๆ ที่น่าสนใจ



Geek Forever’s Podcast


“Open Your World With Technology


AI , Blockchain และเทคโนโลยีใหม่ ๆ กำลังเข้ามามีบทบาทสำคัญในหลายธุรกิจ ทั้ง แวดวงการเงิน สุขภาพ หรือ งานด้านบริการต่าง ๆ ผมเป็นคนหนึ่งที่สนใจเกี่ยวกับ AI หรือ Machine Learning

Podcast ของผมจะเล่าเรื่องราวต่าง รวมถึงเรื่องที่ผมสนใจอื่น ๆ เช่น startup หนังสือ หนัง หรือ กีฬาฟุตบอล อยากชวนคนที่สนใจให้ลองมาติดตาม podcast ของผมกันด้วยนะครับ

ฟังผ่าน podbean
ฟังผ่าน podbean
ฟังผ่าน Apple Podcasts
ฟังผ่าน Apple Podcasts
ฟังผ่าน Google Podcasts
ฟังผ่าน Google Podcasts
ฟังผ่าน Spotify
ฟังผ่าน Spotify
ฟังผ่าน Youtube
ฟังผ่าน Youtube