หากมีโอกาสติดตามข่าวในวงการคอมพิวเตอร์ เราจะเห็นว่าเทคโนโลยีที่เกี่ยวข้องกับ AI มีการเติบโตแบบก้าวกระโดดเลยทีเดียว โดยเฉพาะ Trend ที่เกิดขึ้นในช่วง 3 – 4 ปีที่ผ่านมาในเรื่องของ Generative AI ทำให้เกิดคำถามที่น่าสนใจว่า มันแตกต่างจาก AI ที่เราใช้งานกันมานานนับ 10 ปีอย่างไร และทำไมสื่อ ผู้เชี่ยวชาญ และคนจำนวนมากถึงมองว่า Generative AI คืออนาคต วันนี้เรามาหาคำตอบพร้อม ๆ กัน
AI และ Machine Learning ก่อน Generative Model
เมื่อ 10 กว่าปีที่แล้ว คำว่า AI และ Machine Learning เริ่มเข้ามาอยู่ในการตลาดผลิตภัณฑ์ Software และ Hardware ต่าง ๆ มากขึ้นเรื่อย ๆ แต่จริง ๆ แล้วเรื่องของ AI และ Machine Learning นั้นเกิดก่อนหน้านี้นานมาก ๆ ตั้งแต่ช่วงปี 1950s เนื่องจากเป็นวิชาหนึ่งที่คนเรียน Computer Science ทุกคนต้องเรียนกันเลยทีเดียว
คำว่า AI หรือ Artificial Intelligence หรือภาษาไทยเรียกว่า ปัญญาประดิษฐ์ เป็นศาสตร์หนึ่งทางคอมพิวเตอร์ที่มุ่งเน้นการสร้าง ความฉลาด ของเครื่อง ทำให้เครื่องสามารถคิด วิเคราะห์ แยกแยะข้อมูลเพื่อตอบสนองกับสิ่งเร้าได้เองโดยอัตโนมัติเหมือนกับคน
แต่เมื่อเรามีข้อมูลมากขึ้น เราอยากให้เครื่องสามารถแยกแยะข้อมูลบางอย่างออกจากกันได้ เช่น การแยกอีเมลขยะ แต่การที่จะให้เครื่องสามารถแยกข้อมูลออกจากกันได้นั้นทำได้ 2 วิธีคือ การเขียนโปรแกรมเพื่อสอน และการสอนให้เครื่องเรียนรู้ ซึ่งในสเกลข้อมูลจำนวนมาก ๆ การใช้คนมานั่งดู จับลักษณะต่าง ๆ ของข้อมูล มันอาจจะไม่ใช่ไอเดียที่ดีเท่าไหร่ จึงทำให้เกิดอีกศาสตร์หนึ่งขึ้นมาที่มีเป้าหมายในการสอนเครื่องให้เรียนรู้บางอย่างจากข้อมูลได้ นั่นคือ Machine Learning หากเรามองภาพกันจริง ๆ มันเป็นส่วนย่อยออกจาก AI อีกทีหนึ่ง
ในช่วงแรก ๆ ของการทำ Machine Learning เริ่มมีการออกแบบวิธีการที่จะสอนให้เครื่องสามารถแยกแยะข้อมูลบางอย่างได้ ซึ่งวิธีการหลัก ๆ จะแบ่งออกเป็น 2 วิธีคือ การให้ข้อมูลพร้อมกับเฉลย เพื่อให้เครื่องจดจำรูปแบบของข้อมูลที่มันต้องแยกแยะ เราเรียกว่า Supervised Learning และกลับกัน เราให้ข้อมูลก้อนหนึ่งกับเครื่อง แล้วให้เครื่องพยายามแยกเป็นกลุ่ม ๆ ออกไป โดยไม่ให้เฉลยมากก่อน เราเรียกว่า Unsupervised Learning ทั้งสองวิธีการนี้มันมีพื้นฐานมาจากการสร้างแบบจำลองทางคณิตศาสตร์ค่อนข้างมาก ทำให้เราเรียกแบบจำลองที่เครื่องเรียนรู้ว่า Model นั่นเอง
เมื่อเวลาผ่านไป เรามีข้อมูลจำนวนมาก ๆ ขึ้นไปอีก ข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data) เริ่มมีจำนวนมากขึ้น เช่น ข้อมูลที่เป็นข้อความ, เสียง และ ภาพที่มีความซับซ้อนกว่าข้อมูลที่เป็นตัวเลขมาก ๆ ทำให้การแยก หรือจำแนกข้อมูลด้วยวิธีการที่ทำก่อนหน้านี้อาจจะยังไม่ได้ผลดีมากนัก ทั้งในเรื่องความแม่นยำและประสิทธิภาพการทำงาน จึงทำให้เริ่มมีการนำวิธีการอีกตัวกลับมาใช้ นั่นคือ Deep Learning ทำให้เรามีความก้าวหน้าในเทคโนโลยี AI ค่อนข้างมาก แต่ก็ยังไม่สามารถแยกหมาชิวาว่าและเค้กมัฟฟินได้ เพราะคล้ายกันเกิ้น
ดังนั้น การนำ Machine Learning มาใช้ก่อนหน้านี้ เป็นการใช้ AI ในลักษณะของการจำแนก แยกแยะข้อมูล ผ่านการเรียนรู้ความสัมพันธ์ของข้อมูล ทำให้เราเรียก Model ที่ทำงานในลักษณะนี้ว่า Discriminative Model
Generative AI Model ก้าวต่อไปของเทคโนโลยีทาง AI
มาในยุคใหม่กว่านั้น เริ่มมีการออกแบบ Model ที่สามารถสร้างชุดข้อมูลใหม่ขึ้นมา โดยการอ้างอิงจากชุดข้อมูลเก่าได้ โดยเราจะเรียก Model ที่มีความสามารถลักษณะนี้ว่า Generative Model
ตัวอย่างเช่น ChatGPT ของ OpenAI และ Gemini ของ Google เป็นตัวอย่างหนึ่งของการนำ Generative Model มาใช้งาน สำหรับการสร้าง หรือ Generate รูปประโยค จนถึงข้อความที่มีความยาวมาก เราเรียก Model พวกนี้ว่า Large-Language Model (LLM) หลักการการทำงานคือ เราใช้หลักการของ Deep Learning เข้ามา เพื่อสอนให้เครื่องเข้าใจลักษณะการเรียงตัวของคำแต่ละคำ เช่น คำว่า Dog รวมกับคำที่เกิดขึ้นก่อนหน้า มีลักษณะแบบนี้ คำต่อไปน่าจะเป็นอะไรกันนะ มันจะเลือกคำที่มีความน่าจะเป็นสูงที่สุดขึ้นมา เมื่อเวลาผ่านไป มันเริ่มแสดงปัญหาความล่าสุดของข้อมูลที่เราถาม เช่น ข้อมูลที่เราใช้สอนเครื่องมาจากปี 2000 แต่ ณ เวลาที่เอา Model มาใช้ ข้อมูลมีการเปลี่ยนแปลง ทำให้มีการพัฒนาเทคนิคอย่าง Retrieval Augmented Generation (RAG) ขึ้นมาเพื่อแก้ปัญหา หากใครสนใจเพิ่มเติมสามารถนำไปค้นหาต่อได้
นอกจากข้อความ มันยังสามารถ Generate ข้อมูลอื่น ๆ ได้ เช่น รูปภาพ ที่ใช้อีกหลักการหนึ่ง ในช่วงแรก ๆ เราเริ่มมีการใช้สิ่งที่เรียกว่า Diffusion Model เป็นวิธีการคิดที่แตกต่างจากคนพอสมควร ให้คิดภาพง่าย ๆ ว่า หากเราถ่ายภาพในที่มืดมาก ๆ มันจะมี Noise ที่เราเห็นเป็น จุด ๆๆๆ อยู่เต็มภาพไปหมด หากเราต้องการภาพที่สะอาด เราก็ต้องเอาไปผ่านพวกโปรแกรม Denoise เพื่อเอา Noise ออกไปจากภาพ หลักการของ Diffusion คือตรงนี้แหละ มันเริ่มจากภาพที่มีแต่ Noise อะไรไม่รู้สุ่ม ๆ ขึ้นมา เอาไปรวมกับ Prompt หรือคำสั่ง หรืออาจจะเป็นรูปภาพเข้าไปให้ Model มันจะแก้ Noise ที่ใส่เข้าไป ทำไปหลาย ๆ รอบ เราจะได้รูปภาพที่สมบูรณ์ขึ้นมา นอกจากนั้นยังมีวิธีอื่น ๆ สำหรับการทำให้เครื่องสร้างรูปภาพขึ้นมาได้อีก หากต้องการไปลองหาดู ลองค้นหาคำว่า Generative Adversarial Network (GAN) และ Variational Autoencoder (VAE)
และในข้อมูลประเภทอื่น ๆ ที่มี Model ออกมา ส่วนใหญ่มักใช้เทคนิคคล้าย ๆ กันหมด นั่นคือ การโยนข้อมูลให้เครื่องว่ารูปแบบของข้อมูลมันเรียงลำดับอย่างไร พอเอามาใช้งานจริง เครื่องจะค่อย ๆ สร้างขึ้นมาทีละหน่วย และใช้ข้อมูลของหน่วยก่อนหน้านี่แหละไปสร้างหน่วยต่อ ๆ ไป ไปเรื่อย ๆ จนจบ เช่นข้อความ หน่วยที่เล็กที่สุดคือ คำ ดังนั้นจริง ๆ แล้ว Model ที่ใช้งาน ณ วันนี้ เราไม่มีกลไกในการสอนให้เครื่องมีเหตุผลใด ๆ เหมือนกับนกแก้วนกขุนทองที่เน้นจำลักษณะของข้อมูลแล้วเดาคำต่อไปมากกว่า เรียกว่าเป็นเหมือนขั้นกว่าของระบบเดาคำบนแป้นพิมพ์โทรศัพท์เท่านั้นเอง
Multimodal และ AGI: อนาคตและเป้าหมายของวิศวกร
เหล่าผู้เล่นในกลุ่ม AI ใหญ่ ๆ อย่าง OpenAI และ DeepMind พุ่งเป้าหมายของเขาจริง ๆ คือการสร้าง AGI (Artificial General Intelligence) หรือ AI ที่มีความฉลาดมากพอที่จะคิด วิเคราะห์ วางแผน และเรียนรู้ได้เหมือนที่มนุษย์ทำ รวมไปถึงการหลุดข้อจำกัดในเรื่องของจุดประสงค์ที่มันสร้างมา เช่น เราสามารถทำให้ Model สามารถเล่นหมากรุกก็ได้ พูดกับเราได้ในตัวเดียว เหมือนที่คนเกิดมาสามารถเรียนรู้ทักษะการทำงานได้หลาย ๆ อย่าง ซึ่งต้องบอกก่อนว่า ณ วันที่เขียนนั้น เรายังไปไม่ถึงจุดที่เป็น AGI เรียกว่ายังห่างไกลมาก ๆ แต่มีสัญญาณที่ดีว่า จากเรื่องเพ้อฝันในอดีต มันอาจจะเป็นจริงได้ในอนาคตอีกไม่ไกลนี้
หนึ่งในความพยายามที่จะทำให้ Model สามารถทำได้หลาย ๆ อย่างมากขึ้น นอกจากการสร้าง LLM ที่มีความซับซ้อนสูงขึ้น เข้าใจบริบทได้มากขึ้นแล้ว ยังมีการพัฒนาที่ฝั่ง Google เรียกว่า Multimodal Model และ OpenAI เรียก Omni-Model หรือก็คือ การทำให้ Model มีความสามารถในการรับข้อมูลหลากหลายประเภทในตัวเดียวกันมากขึ้น อย่างฝั่ง Google เปิดตัว Project Astra ในงาน Google I/O 2024 ที่ผ่านมา Google แสดงให้เห็นว่า มันสามารถรับข้อมูลเสียงพูดและภาพจากกล้อง พร้อมโต้ตอบกับผู้ใช้ได้ เช่น สามารถเอากล้องส่องไปที่โจทย์เลข และถามว่าคำตอบคืออะไร มันสามารถรับคำถามจากเสียงพูด พร้อมกับภาพของโจทย์เลขผ่านกล้อง เอาไปประมวลผลและตอบคำถามเราได้
ฝั่ง OpenAI เอง แสดงตัวอย่างการทำงานของ ChatGPT-4o ออกมา ที่ทำให้เราเห็นได้ว่ามันเป็นอีกตัวที่สามารถรับได้ทั้งเสียงและภาพจากผู้ใช้ ทั้งมันยังสามารถโต้ตอบกับผู้ใช้ได้อย่างเป็นธรรมชาติมากกว่าเดิม มีความสามารถในการเปลี่ยนโทนเสียงได้ ที่น่าสนใจมาก ๆ คือ ผู้ใช้สามารถพูดแทรกเครื่องได้ด้วย
เมื่อเราดูจาการพัฒนาที่รวดเร็วและมีความสามารถมากขึ้นเรื่อย ๆ ตอบโต้เราได้อย่างเป็นธรรมชาติ ผลลัพธ์ค่อนข้างมีความถูกต้องมากขึ้น ทำให้นักพัฒนา AI หลาย ๆ คนเริ่มมองว่า เราน่าจะมาถูกทางแล้วในการที่จะพัฒนาต่อไปให้มันมีความสามารถผ่านการทดสอบความฉลาดระดับ AGI ได้ จึงทำให้ปี 2024 นี้เรื่องของ Multimodal และ Generative Model จึงเป็นประเด็นที่น่าสนใจมาก ๆ สำหรับสายพัฒนา AI Model เราน่าจะได้เห็นงานวิจัยออกมารัว ๆ ไฟลุกจนอ่านกันไม่ทันเลยทีเดียว
การใช้ AI อย่างมีความรับผิดชอบ
“With great power comes great responsibility” พลังอันยิ่งใหญ่มาพร้อมกับความรับผิดชอบอันใหญ่ยิ่ง เป็นคำพูดที่คิดว่าน่าจะเหมาะกับการใช้ AI ในยุคนี้มาก ๆ ด้วยความสามารถของ AI ที่มากขึ้นเรื่อย ๆ โดยเฉพาะ Generative AI ที่สามารถตอบคำถามเราได้อย่างรวดเร็ว หรือกระทั่งสรรค์สร้างสิ่งที่ไม่มีให้มีได้ ย่อมมาพร้อมกับความรับผิดชอบกับการใช้งานด้วยเช่นกัน ดังนั้น เราที่เป็นผู้ใช้ เราก็ต้องรู้เท่าทันความสามารถของมันว่าความสามารถจริง ๆ มันคืออะไร อะไรคือสิ่งที่มันทำไม่ได้ ถึงแม้ว่ามันเหมือนจะทำได้ เราที่เป็นมนุษย์ยังคงต้องทำหน้าที่คอยตรวจทานความถูกต้องอยู่เสมอ เราต้องเป็นนายมัน ไม่ใช่ให้เครื่องเป็นนายเรา จะทำให้เราทำงานได้เร็วขึ้น ง่ายขึ้น มีประสิทธิภาพมากขึ้นแน่นอน และต่อจากนี้รอติดตามกันดูว่า เทคโนโลยีด้านนี้จะไปทางไหน บอกเลยว่าร้อนแรงแน่นอน