ศึกช่วงชิง Data? เมื่อบริการด้าน AI กำลังอยู่ในช่วงเริ่มต้นของการแย่งชิงเค้กข้อมูลครั้งใหญ่ทั่วโลก

ผมว่าหลายคนคงรู้สึกเอ๊ะกันไม่มากก็น้อย จากการเปิดตัว Sora ของ OpenAI ที่ทำให้พวกเราได้สร้างวีดีโอระดับ professional ได้เพียงแค่ปลายนิ้ว ว่า Video Footages ที่ออกมานั้นมันมีความคุ้นมาก ๆ เหมือนมาจากหนังดัง หรือ animation เรื่องดัง ๆ แต่ถูกดัดแปลงผ่านเทคโนโลยี AI ให้กลายเป็นสิ่งใหม่

เป็นเรื่องที่น่าสนใจนะครับว่าเทคโนโลยีอย่างปัญญาประดิษฐ์หรือ AI จะนำไปสู่จุดจบของบางธุรกิจหรือไม่ ตัวอย่างเช่น Adobe เองที่เป็นผู้ผลิตซอฟต์แวร์ที่เกี่ยวข้องกับความคิดสร้างสรรค์ของมนุษย์ ที่กำลังโดนถาโถมอย่างหนักทั้งการสร้างภาพและวีดีโอผ่าน AI

เครื่องมือใหม่ ๆ อย่าง DALL-E , Midjourney หรือแม้กระทั่งตัวใหม่ล่าสุดอย่าง Sora ซึ่งสามารถที่จะเสกรูปหรือวีดีโออะไรก็ได้จากข้อความ มันทำให้ดูเหมือนคนจะเลิกใช้แอปพลิเคชั่นอย่าง Adobe หรือไม่?

แต่กลับกันด้วยการที่ Adobe ได้สั่งสมภาพถ่ายสต็อกหลายร้อยล้านภาพมานาน พวกเขาสามารถนำมันมาใช้เพื่อสร้างเครื่องมือ AI ของตัวเองที่มีชื่อว่า Firefly โดยนับตั้งแต่เปิดตัวในเดือนมีนาคม เครื่องมือดังกล่าวได้ถูกนำมาใช้เพื่อสร้างภาพมากกว่า 1 พันล้านภาพแล้ว

ชัยชนะของ Adobe เหนือเทคโนโลยีที่คิดว่าจะมา disrupted ในหลายธุรกิจอย่าง AI นั้น แสดงให้เห็นวิธีการที่บริษัทยักษ์ใหญ่ได้เข้ามาเป็นส่วนหนึ่งและเกาะกระแสไปกับเทคโนโลยีดังกล่าวนี้

คลื่นลูกล่าสุดของเทคโนโลยี AI อย่าง “Generative AI” ได้อาศัยข้อมูลจำนวนมหาศาล ซึ่งล้วนแล้วมาจากอินเทอร์เน็ต และบางส่วนก็เป็นข้อมูลที่ไม่ได้รับอนุญาต ตอนนี้เหล่าบริษัทเทคโนโลยีกำลังมองหาแหล่งข้อมูลใหม่เพื่อเพิ่มประสิทธิภาพของมัน

ส่วนประกอบที่สำคัญสองประการสำหรับโมเดล AI คือ ชุดข้อมูลที่ได้รับการฝึกอบรม และพลังการประมวลผล ซึ่งโมเดลจะมีการตรวจจับความสัมพันธ์ระหว่างชุดข้อมูลเหล่านี้ โดยโมเดลสามารถปรับปรุงได้โดยการนำเข้าข้อมูลมากขึ้นหรือเพิ่มพลังการประมวลผลให้มากยิ่งขึ้น

อย่างไรก็ดี ท่ามกลางปัญหาขาดแคลนชิปที่เกิดขึ้น ทำให้ประเด็นในเรื่องการเพิ่มพลังการประมวลผลเป็นสิ่งที่ทำได้ยาก เพราะฉะนั้นตอนนี้ทุกฝ่ายมุ่งไปที่การเพิ่มคลังข้อมูลเป็นหลัก

AI สูบข้อมูลเร็วกว่าที่มันจะถูกสร้าง

หลายคนอาจจะคิดว่า โห โลกเรามีข้อมูลล้นเหลือและมีการสร้างขึ้นทุกวันในโลกออนไลน์ทั้งผ่านเครือข่ายโซเชียลมีเดีย เว็บไซต์ หรือ แพลตฟอร์มวีดีโอสตรีมมิ่งต่าง ๆ

แต่สิ่งที่น่าสนใจก็คือ AI มันสูบข้อมูลจนจะหมดโลกแล้วและทำด้วยอัตราเร่งที่มีความเร็วสูงมาก ๆ เช่นเดียวกัน

ตัวอย่างเช่น ความต้องการข้อมูลที่เติบโตเร็วมาก ๆ จนสต็อกข้อความคุณภาพสูงสำหรับการฝึกอบรมอาจหมดลงภายในปี 2026

ซึ่งเชื่อกันว่าโมเดล AI ล่าสุดจาก Google และ Meta สองยักษ์ใหญ่ทางด้านเทคโนโลยีได้รับการฝึกฝนโดยใช้ศัพท์มากกว่า 1 ล้านล้านคำ ซึ่งเมื่อเปรียบเทียบกันแล้ว ผลรวมของคำภาษาอังกฤษใน wikipedia สารานุกรมออนไลน์ อยู่ที่ประมาณ 4 พันล้านคำเพียงเท่านั้น

ไม่ใช่เพียงแค่ขนาดของข้อมูลเท่านั้นที่มีความสำคัญ ยิ่งข้อมูลดี โมเดลก็ยิ่งดีขึ้น โมเดลที่ใช้ข้อความที่ได้รับการฝึกอบรมอย่างดีในเรื่องรูปแบบข้อความยาว ๆ มักจะตอบได้ดี และจะตอบได้ถูกต้องตามความเป็นจริง

ในทำนองเดียวกันกับที่เกิดขึ้นกับ Chatbot AI จะให้คำตอบที่ดีกว่าเมื่อถูกขอให้อธิบายการทำงานทีละขั้นตอน ส่งผลให้มีความต้องการข้อมูลจากแหล่งต่าง ๆ โดยเฉพาะข้อมูลที่เป็นเฉพาะทาง เนื่องจากช่วยให้โมเดลปรับแต่งให้ใช้งานสำหรับงานเฉพาะกลุ่มมากยิ่งขึ้น

ตัวอย่างเช่น การซื้อ GitHub ของ Microsoft ซึ่งเป็นพื้นที่เก็บข้อมูลสำหรับการเขียนโค้ดทางด้านซอฟต์แวร์ด้วยมูลค่า 7.5 พันล้านดอลลาร์ในปี 2018 ช่วยให้บริษัทพัฒนาเครื่องมือ AI ในการเขียนโค้ดได้

Microsoft ได้พัฒนาเครื่องมือ AI ในการเขียนโค้ดได้ (CR:Open AI Master)
Microsoft ได้พัฒนาเครื่องมือ AI ในการเขียนโค้ดได้ (CR:Open AI Master)

การขโมยผลงานแบบหน้าด้าน ๆ ของ AI

เมื่อความต้องการข้อมูลเพิ่มมากขึ้น การเข้าถึงข้อมูลก็ยิ่งยุ่งยากมากขึ้น โดยเหล่าครีเอเตอร์ในปัจจุบันได้มีการเรียกร้องค่าชดเชยสำหรับเนื้อหาที่ติดเข้าไปในโมเดล AI เพิ่มมากขึ้น ก่อให้เกิดคดีละเมิดลิขสิทธิ์หลายคดีเกิดขึ้นกับผู้สร้างโมเดล AI ในอเมริกา

ตัวอย่างเช่น กลุ่มนักเขียน รวมถึง Sarah Silverman นักแสดงตลกกำลังฟ้องร้อง Open AI ผู้สร้าง Chat GPT และ Meta หรือศิลปินกลุ่มหนึ่งกำลังฟ้องร้อง Stability AI ซึ่งสร้างเครื่องมือแปลงข้อความเป็นรูปภาพและ Midjourney ก็โดนฟ้องในกรณีเดียวกัน

หรือเคสของตำนานนักแสดงตลกอย่าง George Carlin ที่ครอบครัวได้ยื่นฟ้องผู้ที่สร้างวีดีโอโดยใช้ตัวตนของเขาผ่านเทคโนโลยี AI ซึ่งตัวของ Carlin ได้เสียชีวิตด้วยภาวะหัวใจล้มเหลวในปี 2008

วีดีโอดังกล่าวปรากฎในช่อง Youtube ที่มีชื่อว่า Dudesy โดยใช้ชื่อวีดีโอว่า “George Carlin: I’m glad I’m dead,” ซึ่งทางครอบครัวของ Carlin ได้ยื่นฟ้องต่อศาลรัฐบาลกลางแคลิฟอร์เนีย โดยกล่าวหาว่ามีการละเมิดลิขสิทธิ์ในการเผยแพร่สู่สาธารณะสำหรับภาพลักษณ์ของนักแสดงตลกผู้ล่วงลับ

George Carlin นักแสดงตลกผู้ล่วงลับ (CR:nbcnews)
George Carlin นักแสดงตลกผู้ล่วงลับ (CR:nbcnews)

แม้ว่าจะไม่มีการแสดงภาพของ Carlin แบบชัดเจน ซึ่งในวีดีโอดังกล่าวจะแสดงรูปภาพที่สร้างโดย AI แทน แต่เสียงพูดนั้นเป็นเสียงของ Carlin ที่ทุกคนคุ้นเคย ในเรื่องต่าง ๆ เช่น ศาสนาและการเมือง ขณะเดียวกันก็มีการพูดถึงการเสียชีวิตของนักแสดงตลกด้วย

การดำเนินการทางกฎหมายนี้แสดงให้เห็นว่า AI ที่เรากำลังตกตะลึงกับความสามารถของมันเช่น Sora ของ OpenAI ได้กลายเป็นหนึ่งในปัญหาที่ใหญ่ที่สุดในวงการบันเทิง และมีการประท้วงของนักเขียนในฮอลลีวูดเป็นเวลาหลายเดือนในปีที่ผ่านมา ส่วนหนึ่งเนื่องมาจากการใช้ AI ของสตูดิโอในการสร้างสคริปต์

ศึกช่วงชิง Data

เนื่องจากบริษัท AI ต่างแข่งขันกันเพื่อรักษาความปลอดภัยของแหล่งข้อมูล ในเดือนกรกฎาคม Open AI ลงนามข้อตกลงกับ Associated Press ซึ่งเป็นสำนักข่าว เพื่อเข้าถึงคลังเนื้อหา และเมื่อเร็ว ๆ นี้ Meta ได้ขยายข้อตกลงกับ Shutterstoock ซึ่งเป็นผู้ให้บริการภาพสต็อกชั้นนำของโลก

หรือ Google เองกำลังหารือกับ Universal Music ซึ่งเป็นค่ายเพลงดัง เพื่ออนุญาตให้ใช้เสียงของศิลปินเพื่อป้อนเครื่องมือ AI ในการแต่งเพลง Fidelity ซึ่งเป็นบริษัทด้านจัดการสินทรัพย์กล่าวว่าได้รับการทาบทามจากบริษัทเทคโนโลยีเพื่อขอให้เข้าถึงข้อมูลทางการเงินของตน

มีข่าวลือแพร่สะพัดเกี่ยวกับห้องปฏิบัติการ AI ที่อยู่ใกล้กับ BBC ซึ่งเป็นสถานีโทรทัศน์สาธารณะของสหราชอาณาจักรสำหรับการเข้าถึงคลังภาพและภาพยนตร์ เป้าหมายอีกแห่งหนึ่งคือ JSTOR ซึ่งเป็นห้องสมุดดิจิทัลสำหรับวารสารทางวิชาการ

ผู้ที่ถือครองข้อมูลที่เปรียบเสมือนทองคำในขณะนี้กำลังใช้ประโยชน์จากอำนาจต่อรองมากขึ้น Reddit ฟอรัมสนทนาชื่อดังและ Stack Overflow ซึ่งเป็นเว็บไซต์ถามตอบที่ได้รับความนิยมของกลุ่มผู้เขียนโค้ด ได้คิดค่าใช้จ่ายเพิ่มเติมสำหรับบริการใด ๆ ที่ต้องการมาดูดข้อมูลจากเขา

Reddit ที่มีคลังข้อมูลที่มีคุณค่ามหาศาลสำหรับ AI (CR:Reddit)
Reddit ที่มีคลังข้อมูลที่มีคุณค่ามหาศาลสำหรับ AI (CR:Reddit)

ตรงนี้ค่อนข้างน่าสนใจเพราะประเทศไทยเราเองก็มีแหล่งข้อมูลทั้งในฟอรัมต่าง ๆ เช่น pantip เองที่กลายเป็นเครื่องมือสำคัญ ๆ ในการค้นหาลำดับต้น ๆ ของคนไทยเรา หรือแพลตฟอร์มใหม่ ๆ อย่าง blockdit เอง ที่สุดท้ายแล้วข้อมูลจำนวนมหาศาลที่เก็บไว้จะกลับมาสร้างรายได้มากมายให้กับพวกเขาในอนาคต

ขยายขอบเขตสู่คลังข้อมูลทางธุรกิจ

ความน่าสนใจก็คือ มีแหล่งข้อมูลอีกแห่งที่ใหญ่มาก ๆ ที่ส่วนใหญ่ยังไม่ได้ถูกนำมาใช้งาน นั่นก็คือข้อมูลที่อยู่ภายใต้กำแพงขององค์กรธุรกิจต่างๆ ที่มีอยู่ทั่วทุกมุมโลก

ธรุกิจจำนวนมากมีข้อมูลที่เป็นประโยชน์จำนวนมหาศาลโดยไม่รู้ตัว ตั้งแต่บันทึกในการโทรศัพท์ของศูนย์บริการไปจนถึงบันทึกค่าใช้จ่ายของลูกค้า ข้อมูลดังกล่าวมีคุณค่าอย่างยิ่งเนื่องจากสามารถใช้เพื่อปรับแต่งโมเดลเพื่อวัตถุประสงค์ทางธุรกิจที่เฉพาะเจาะจงได้ เช่น ช่วยให้พนักงานคอลเซ็นเตอร์ตอบคำถามของลูกค้า หรือนักวิเคราะห์ธุรกิจที่มองเห็นวิธีในการเพิ่มยอดขายได้

แต่ก็ต้องบอกว่ามีธุรกิจไม่มากนักที่สนใจกับโครงสร้างข้อมูลเหล่านี้ ซึ่งส่วนใหญ่จะมีการจัดเก็บแบบไร้โครงสร้างซึ่งอาจจะไม่มีประโยชน์กับ AI และบ่อยครั้งที่มีการกระจายอยู่หลายระบบ โดยฝังอยู่ในเซิร์ฟเวอร์ของบริษัทมากกว่าในระบบคลาวด์

ซึ่งท้ายที่สุดการปลดล็อกข้อมูลดังกล่าวจะช่วยให้บริษัทต่าง ๆ ปรับแต่งเครื่องมือ AI เพื่อตอบสนองความต้องการเฉพาะของตนได้ดียิ่งขึ้น โดยเฉพาะธุรกิจที่ดำเนินการแบบเฉพาะของตนเองไม่ได้ต้องดำเนินการตามมาตรฐานสากล ซึ่งมันจะกลายเป็นขุมทรัพย์ที่สำคัญในอนาคต

เพราะฉะนั้นในตอนนี้ก็ยังไม่สายไปที่จะเริ่มมาจัดข้อมูลเหล่านี้ให้มีโครงสร้างที่พร้อมที่จะรับมือการเปลี่ยนแปลงที่จะเกิดขึ้น เพราะหากเริ่มก่อนก็จะเป็นการชิงความได้เปรียบก่อน และอาจจะส่งผลให้เอาชนะเกมธุรกิจได้ในยุคของเทคโนโลยี AI First ในวันข้างหน้าได้นั่นเองครับผม

References :
https://www.economist.com/business/2023/08/13/ai-is-setting-off-a-great-scramble-for-data
https://seekingalpha.com/article/4597241-is-ai-the-adobe-killer
https://myshingle.com/2023/03/articles/start-a-law-firm-101/faqs-on-chat-gpt-for-solo-and-small-law-firms/
https://www.nbcnews.com/news/us-news/george-carlins-estate-sues-ai-generated-stand-special-titled-glad-dead-rcna135808


 


ติดตามสาระดี ๆ อัพเดททุกวันผ่าน Line OA



Geek Forever Club พื้นที่ของการแลกเปลี่ยนข้อมูลข่าวสาร ความรู้ ด้านธุรกิจ เทคโนโลยีและวิทยาศาสตร์ ใหม่ ๆ ที่น่าสนใจ



Geek Forever’s Podcast


“Open Your World With Technology


AI , Blockchain และเทคโนโลยีใหม่ ๆ กำลังเข้ามามีบทบาทสำคัญในหลายธุรกิจ ทั้ง แวดวงการเงิน สุขภาพ หรือ งานด้านบริการต่าง ๆ ผมเป็นคนหนึ่งที่สนใจเกี่ยวกับ AI หรือ Machine Learning

Podcast ของผมจะเล่าเรื่องราวต่าง รวมถึงเรื่องที่ผมสนใจอื่น ๆ เช่น startup หนังสือ หนัง หรือ กีฬาฟุตบอล อยากชวนคนที่สนใจให้ลองมาติดตาม podcast ของผมกันด้วยนะครับ

ฟังผ่าน podbean
ฟังผ่าน podbean
ฟังผ่าน Apple Podcasts
ฟังผ่าน Apple Podcasts
ฟังผ่าน Google Podcasts
ฟังผ่าน Google Podcasts
ฟังผ่าน Spotify
ฟังผ่าน Spotify
ฟังผ่าน Youtube
ฟังผ่าน Youtube