ข้อมูล Data

เราเคยเชื่อกันว่า อินเทอร์เน็ต คือแหล่งรวมข้อมูลที่ใหญ่มาก ๆ อาจจะใหญ่ที่สุดเท่าที่มนุษย์สร้างขึ้นตอนนี้เลย เราหาอะไรมันก็มีออกมาให้เราได้แทบจะตลอด จนมีคนออกมาพูดว่า “Information is the new gold” หรือ “ข้อมูลคือทองในยุคใหม่” แต่เชื่อหรือไม่ว่า ‘ข้อมูล’ ที่เราว่ามันเป็นทองในยุคใหม่นี้ถูกนำมาใช้ในปริมาณสูงมากจนมันกำลังจะหมดโลกแล้ว เราจะมีวิธีการแก้ปัญหาอย่างไร

วิธีที่ 1 การพยายามหาแหล่งข้อมูลใหม่

วิธีแรก ดูจะเป็นวิธีที่กำปั้นทุบดินสักหน่อย คือในเมื่อข้อมูลเราจะหมดแล้ว งั้นเราก็หาแหล่งข้อมูลใหม่ซะสิ เช่นช่วงแรกของการพัฒนากลุ่มโมเดลทางภาษา เราเริ่มจากการใช้ตัวอย่างข้อมูลขนาดเล็กที่มีทีมไปดึงข้อมูลมาจากหลาย ๆ แหล่ง และนำมาคัดสรร สร้างออกมาเป็นชุดข้อมูลคุณภาพสูงสำหรับการนำไปสร้าง Model แต่ข้อมูลนั้นมีขนาดไม่พอ

จนเริ่มมีการใช้วิธีการดึงข้อมูลจากหน้าเว็บไซต์และโซเชียลมีเดียต่าง ๆ มากขึ้นเรื่อย ๆ ซึ่งข้อมูลในส่วนนี้เยอะมาก ๆ จนเรียกได้ว่าเหมือนเจอบ่อน้ำมันใหม่เลย เลยมีการนำข้อมูลจากแหล่งพวกนี้มาใช้กันเยอะมาก ๆ จนกระทั่งเริ่มบูมมากขึ้นเรื่อย ๆ เกิดเป็นกระแสเรื่องลิขสิทธิ์มากขึ้นว่า การที่ผู้สร้างโมเดลนำข้อมูลที่คนอื่นสร้างและเผยแพร่อยู่บนอินเทอร์เน็ตไปใช้มันจะผิดหรือไม่ จนทำให้เกิดเกม แมวจับหนูขึ้น กลุ่มหนึ่งสร้างเทคโนโลยีสำหรับการป้องกัน Bot เข้ามาดึงข้อมูลไป เช่น AI Labyrinth ของ Cloudflare ที่แก้เผ็ดได้อย่างเจ็บแสบมาก ในเมื่อเอา Bot มาดูดข้อมูลเราไปใช้ใช่ไหม งั้นก็เอาข้อมูลปลอมที่ใช้โมเดลสร้างไปแทนละกัน หลักการมันคือ เมื่อระบบเห็นว่าคนที่เรียกหน้าเว็บน่าจะเป็น Bot แทนที่จะส่งหน้าเว็บจริงที่มีข้อมูลไป มันจะใช้โมเดลสร้างเนื้อหาบนหน้าเว็บปลอมขึ้นมา 

ฝั่งคนจะดึงก็เอากับเขาสิ ในเมื่อเช็กว่าเราเป็น Bot ไหม งั้นเราเอา Bot ติดหนวดแปลงเป็นคนแบบละครไทยไปเลย เช่น การดัดแปลง Header หรือชุดข้อมูลที่ส่งไปขอข้อมูลจากเว็บ เพื่อให้เว็บเข้าใจว่า อ๋อ นี่คือคนเข้าธรรมดานะ ส่งข้อมูลปกติกลับไปได้ หรือบางเว็บเช็กลักษณะพฤติกรรมการเข้าใช้งาน ก็ใช้ AI จดจำวิธีการที่คนใช้งานเว็บแล้วให้มันเลียนแบบไปเรียกข้อมูลกลับมาให้ เรียกว่าไปสุดกันจริง ๆ

วิธีที่ 2 การทำให้ข้อมูลที่มีอยู่ดีกว่าเดิม

มีคนเคยบอกไว้ว่า ถ้าเราเอาขยะให้โมเดลเรียน มันก็จะได้โมเดลขยะออกมา คำพูดนี้ไม่เกินจริง  เพราะโมเดลมันจะจดจำข้อมูลที่ผิดหรือไม่เป็นความจริง ดังนั้น ถึงเราจะมีข้อมูลเยอะขนาดไหน ถ้าเป็นข้อมูลที่ไม่มีคุณภาพ มีข้อมูลผิด ๆ เยอะ โมเดลของเราก็จะไม่เก่งอยู่ดี เผลอ ๆ พังกว่าเดิมซะอีก

โดยเฉพาะข้อมูลที่ทำการดึงมาจากอินเทอร์เน็ต ด้วยความที่ใช้ Bot ไปดึงข้อมูลมาจากเว็บแบบอัตโนมัติ ทำให้มีข้อมูลบางส่วนที่ไม่สามารถใช้งานได้ หากมันปน ๆ อยู่กับชุดข้อมูล ก็จะทำให้โมเดลแย่ได้เหมือนกัน ดังนั้น ใหญ่ เยอะ ไม่ได้แปลว่าดีกว่าเสมอไป

ทำให้ในวิธีที่ 2 คือเป็นการพยายามที่จะเอาข้อมูลผิด ๆ ออกไป ซึ่งมีอยู่หลายวิธี เช่น การทำ Data Distillation คือ การกลั่นข้อมูลที่สำคัญ ๆ ออกมาจากชุดข้อมูลขนาดใหญ่ เมื่อเรานำข้อมูลที่ได้รับการกลั่นมาแล้วไปใช้งาน ถึงแม้ว่าชุดข้อมูลนี้จะมีขนาดเล็กลง แต่มันเข้มข้น เปี่ยมไปด้วย Pattern หรือส่วนที่สำคัญของข้อมูลอยู่จริง ๆ ทำให้โมเดลที่ได้ออกมาอาจจะมีความสามารถมากกว่าการใช้ชุดข้อมูลเต็ม ๆ ขนาดใหญ่ก็เป็นได้

วิธีที่ 3 สร้างข้อมูลขึ้นมาใหม่

อีกวิธีที่กำปั้นทุบดินไม่แพ้กัน แต่โลกเราเริ่มเอียงไปทางวิธีนี้กันเยอะมาก คือการสร้าง ‘ข้อมูลเทียม’ (Synthetic Data) ขึ้นมาใช้แทนเลยสิ ในยุคเริ่มแรก เราเริ่มมีการนำมาใช้กับข้อมูลที่เป็นรูปภาพ โดยการเอาภาพมาหมุน ย่อ ขยาย ปรับสี แสง ให้แตกต่างไปจากเดิม จาก 1 ภาพต้นฉบับกลายเป็นหลายสิบภาพได้ เพื่อให้โมเดลสามารถจดจำภาพที่มีลักษณะที่แตกต่างออกไปได้มีประสิทธิภาพมากขึ้น เราเรียกการทำพวกนี้ว่า Data Augmentation

แต่ในยุคใหม่ ๆ การเอาภาพเดิมหรือข้อมูลเดิม ๆ มาดัดแปลง ตัด ย่อ ผ่าตัด มันไม่มีประสิทธิภาพมากเพียงพอแล้ว ทำให้มีการสร้างโมเดลขึ้นมาเพื่อสร้างชุดข้อมูลใหม่ขึ้นมาเลย แต่หลายคนอาจจะมองว่า ถ้าทำแบบนั้นโมเดลอาจจะมีความเอนเอียงไปทางเดียวกับโมเดลที่ใช้สร้างชุดข้อมูลสังเคราะห์สิ แต่เรามีหลายวิธีในการแก้ปัญหานี้ เช่น การใช้ Human-in-the-loop หรือก็คือการเอาคนที่เป็นผู้เชี่ยวชาญในด้านนั้นมาคอยตรวจสอบความถูกต้องของข้อมูลสังเคราะห์อยู่เรื่อย ๆ เพื่อให้มั่นใจว่าชุดข้อมูลที่เครื่องสร้างขึ้นมาจะมีคุณภาพสูง และสามารถนำไปใช้งานได้จริง ซึ่งนี่คือวิธีการที่โมเดลทางภาษาสมัยใหม่อย่าง ChatGPT และอื่น ๆ ใช้กันเยอะมาก จริง ๆ อาจจะเกิน 50% ของข้อมูลจริงที่ใช้งานเลยก็เป็นได้

อีกอันที่น่าสนใจมากคือ การสร้าง ‘โลกเทียม’ ขึ้นมา เพื่อให้เครื่องเรียนรู้จากแบบจำลอง เช่นฝั่ง Nvidia สร้าง Omniverse หรือโลกจำลองขึ้นมา แทนที่จะสอนหุ่นให้เดินตรง ๆ ก็สร้างโลกที่มีฟิสิกส์เหมือนจริงให้หุ่นลองเดินแล้วเก็บข้อมูลออกมาให้ไปสร้างโมเดลใหม่ที่ดีกว่าเดิม โดยที่เราไม่ต้องสร้างหุ่นของจริงและสถานที่ทดสอบเลย หรือกระทั่งรถที่ขับเองได้ แทนที่เขาจะต้องเก็บข้อมูลจากถนนจริงซึ่งอาจจะทำให้เกิดอุบัติเหตุได้ งั้นเราสร้างแบบจำลองถนนขึ้นมา เลือกใส่จำนวนและประเภทรถได้ตามต้องการ หรือกระทั่งการจำลองเหตุการณ์ฉุกเฉินต่าง ๆ เข้ามา ทำให้มีข้อมูลที่เกิดจากข้อมูลสังเคราะห์อีกทีไปใช้งานเพิ่มขึ้นได้ พูดง่าย ๆ คือเหมือนกับนักบินที่ต้องฝึกบินบน Simulator ก่อนจะขึ้นบินจริง เพราะเราไม่สามารถรับกับความเสียหายที่เกิดขึ้นจากการฝึกได้มากนั่นเอง

วิธีที่ 4 เปลี่ยนวิธีสอนซะเลย

ในเมื่อสอนวิธีเดิม เราได้ผลลัพธ์เหมือนเดิม เปลี่ยนข้อมูลก็มีน้อยเหลือเกิน สอนเท่าไหร่ก็ไม่รู้เรื่องไปมากกว่านี้แล้ว งั้นเปลี่ยนวิธีการสอนกันดูไหมเผื่อมันจะดีขึ้น ใช่ นักคอมพิวเตอร์ก็คิดแบบนั้นเหมือนกัน วิธีการเดิม ๆ คือ เราสร้างโมเดลขึ้นมา แล้วเอาข้อมูลยัดใส่เข้าไปให้โมเดลเรียนรู้ วิธีนี้อาจจะไม่ตอบโจทย์ทุกครั้ง

วิธีการใหม่ที่ถูกคิดขึ้นมาเพื่อทำให้ประสิทธิภาพของโมเดลดีขึ้นมีหลายวิธีมาก เช่น การทำ Fine-tuning มันคือ วิธีการที่เราเอาโมเดลตัวหนึ่งที่เรียนรู้ชุดข้อมูลหนึ่งไว้ซึ่งเก่งประมาณหนึ่งมาเรียนรู้ต่อเพื่อให้โมเดลใหม่นั้นเก่งขึ้น หรือมีความรู้เชิงลึกมากกว่าเดิม วิธีการนี้ถูกนำมาใช้เยอะมาก ๆ โดยเฉพาะกับการทำให้โมเดลมีความรู้เชิงลึกมากขึ้น เช่น เราเอาโมเดลทางภาษาที่เก่งเรื่องการพูดมาก ๆ มาเรียนรู้ข้อมูลทางการแพทย์ จากเดิมที่เป็นคนไทยพูดไปเรื่อยเรื่องอะไรก็ได้แต่ไม่รู้จริงสักเรื่อง มันก็จะพูดเรื่องการแพทย์ได้เก่งมาก ๆ  โดยที่เราไม่ต้องใช้ข้อมูลทางการแพทย์ที่หายากกว่าเรื่องทั่วไปเยอะเลย

แล้วเราก็ยังไม่ต้องลงทุนเช่าเครื่องขนาดใหญ่ ๆ มาเทรนโมเดลขนาดใหญ่ ๆ ทั้งหมดเองด้วย แค่ไปดาวน์โหลดโมเดลที่เขา Train ไป ‘Pretrained Model’ แล้วมาทำต่อเท่านั้นเอง ด้วยวิธีการนี้จึงทำให้เกิดโมเดลเยอะแยะเต็มไปหมด เช่นฝั่งประเทศไทยเราอย่าง Typhoon 2.1 “Gemma” ของ SCB 10x เองที่เพิ่งออกมาล่าสุด พื้นฐานใช้ Gemma 3 ที่เป็น Pretrained Model ของ Google ผนวกกับชุดข้อมูลภาษาไทยและเทคนิคการ Train รวมถึงย่อขนาดของโมเดลลงไป (Quantisation) ทำให้เราได้โมเดลทางภาษาที่เก่งภาษาไทย ที่มีขนาดเล็ก สามารถนำไปใช้กับอุปกรณ์ได้หลากหลายรูปแบบนั่นเอง ในช่วงไม่กี่ปีที่ผ่านมานี้ ท่าทางหรือเทคนิคในการทำ Fine-tuning ใหม่ ๆ มีออกมากันเป็นหางว่าว เช่นตัวที่ GPT-4 ใช้คือ Fine-tuning with Reinforcement Learning from Human Feedback (RLHF)

สรุป

ข้อมูลที่เราเคยคิดว่ามันมีเยอะมากบนโลกอินเทอร์เน็ต ณ วันนี้เรามีการนำมาใช้ในการสร้างโมเดลกันเรียกได้ว่าดูดจนแทบจะหมดโลกแล้ว จากเดิมที่แข่งกันเรื่องว่าใครถือข้อมูลเยอะกว่าก็ชนะใส ๆ เอาข้อมูลจำนวนมากโยนให้โมเดลเรียน แล้วคาดหวังว่าโมเดลจะเก่งขึ้นเรื่อย ๆ เราผ่านจุดนั้นมานานแล้ว ตอนนี้วิธีการเริ่มเข้ามามีบทบาทมากขึ้น เป็นอีกช่องทางที่ทำให้บริษัท AI ขนาดเล็กมีเทคนิคใหม่ ๆ เข้ามาเล่นในตลาดได้มากขึ้น เราก็ต้องรอดูกันต่อไปว่า มันจะมีท่ายากแบบไหนออกมาอีก ทุกวันนี้ก็ว่ายากแล้ว แต่มั่นใจว่าอนาคตอันใกล้นี้จะต้องมียากแบบหมุน ๆ เป็นเฮลิคอปเตอร์ ๆๆๆ อย่างแน่นอน

แต่ถ้าอยากอ่านอันที่แพรวพราวแวววับว่า “แกทำได้ยังไง” แนะนำให้ลองไปอ่านท่าที่เขาใช้ทำ DeepSeek R1 อันนั้นคือสุด จริง ๆ จีนซื้อการ์ดจอมาสร้างโมเดลได้น้อยใช่มั้ย งั้นก็หาวิธีการที่ทำให้มันสอนได้ง่ายขึ้น ถ้าโมเดลใหญ่ไปรันยาก ไม่เป็นไรเราใช้เทคนิค Mixture-of-Expert (MoE) เข้ามาใช้เหมือนมีผู้เชี่ยวชาญด้านนั้น ๆ อยู่ ไม่ต้องส่งข้อมูลไปทำงานกับโมเดลทั้งตัวก็ได้ ส่วนชุดข้อมูลจะเล็กไม่เป็นไร เราทำ Data Distillation แยกขยะออกไป กลั่นแต่ของดี ๆ มาใช้ เป็นโมเดลที่พออ่าน Paper ของมันครั้งแรกแล้วรู้สึกว่า ดูเขาพยายามสุด ๆ เพื่อจะเข็นมันออกมา แล้วมันก็ทำงานได้ไม่เลวเลย ที่สำคัญฟรีด้วย ถ้าอยากลองเล่นก็สามารถไปดาวน์โหลดมารันบนเครื่องได้

AUTHOR

I believe in technology and sharing, as they enable us with a better world via several clicks. Especially, programming is one of the most powerful tools which inspire people to make their dreams come true. I want to share, publicise and innovate new technology so as to change our world in the way we could hardly imagine.