ดักฟังโทรศัพท์ บันทึกการสนทนา

‘โทรศัพท์’ เป็นอุปกรณ์การสื่อสารที่สำคัญสำหรับคนในยุคปัจจุบัน มันทำให้เราสามารถติดต่อสื่อสารกันได้อย่างรวดเร็วกว่าการส่ง​โทรเลขและจดหมายมาก ๆ แต่เทคโนโลยีมันก็มีทั้งข้อดีและข้อเสีย วันนี้ SUM UP จะพามาดูกันว่า ในโลกของโทรศัพท์ที่เป็นการสื่อสารด้วยเสียงแบบ 2 ทางนั้น มันมีเทคโนโลยีอะไรที่ถูกนำมาใช้ ทั้งแบบถูก ๆ และ ผิด ๆ จนสามารถสร้างความเสียหายในวงกว้างกันได้บ้าง

การดักฟังและการบันทึกการสนทนา

การดักฟังและการบันทึกการสนทนาไม่ว่าจะบนโทรเลขหรือโทรศัพท์นั้นเป็นสิ่งที่ทำกันมายาวนานมาก ๆ ตั้งแต่ช่วงก่อนสงครามโลกมาจนถึงยุคสงครามเย็น เรียกได้ว่าแทบจะทันทีหลังจากที่มีการพัฒนาเทคโนโลยีสำหรับการสื่อสารเลยก็ว่าได้ และเริ่มใช้งานกันเป็นล่ำเป็นสันกันในปี 1895 หากใครที่เคยดูพวกหนังสายลับยุคสงครามหรือสงครามเย็น ก็จะเห็นว่าบรรดาหน่วยข่าวกรองมีการดักฟังโทรศัพท์กันอยู่ตลอด ซึ่งในสมัยนั้นจะนิยมใช้โทรศัพท์บ้านกันเป็นหลัก โดยหลักการทำงานง่ายมาก ๆ คือแค่เชื่อมต่อวงจรของต้นสายกับปลายสายเข้าหากัน แล้วส่งเสียงผ่านสัญญาณไฟฟ้า จากนั้นต้นทางไมโครโฟนก็จะแปลงเสียงผู้พูดเป็นสัญญาณไฟฟ้า และส่งผ่านสายโทรศัพท์ข้ามไปที่ปลายทาง เสร็จแล้วก็จะแปลงสัญญาณนั้นกลับมาเป็นเสียงแค่นั้นเลย

หากใครพอจะมีประสบการณ์มากหน่อยก็อาจจะเคยได้ยินอาชีพ Operator ทำหน้าที่เชื่อมต่อสัญญาณของต้นทางและปลายทางเข้าหากัน พอเทคโนโลยีพัฒนาขึ้นไปอีกขั้น เราก็ทดแทน Operator ที่เป็นคนด้วยเครื่องจักร ทำหน้าที่แค่กดเบอร์ มีเสียง ตู๊ ตู่ ตู้ ระบบจะก็สลับช่องสัญญาณไปหาปลายทางให้ได้ทันที ซึ่งเสียงที่เราส่งผ่านสายโทรศัพท์เป็นเพียงสัญญาณไฟฟ้าธรรมดา ที่ถ้าหากใครแอบตัดสายโทรศัพท์หน้าบ้าน แล้วเอาหูโทรศัพท์ไปต่อ ก็จะทำให้คน ๆ นั้นดักฟังการสนทนาของเราเหมือนที่เห็นในหนังสายลับในยุคก่อนได้ทันทีเลย

ต่อมาเทคโนโลยีการบันทึกการสนทนาก็ได้ถูกพัฒนาขึ้นมาอีกที จากเดิมสัญญาณไฟฟ้าที่อ่านได้จากสายจะแปลงเป็นเสียง ก็เอามาวิ่งผ่านเครื่องบันทึกเก็บลงไปในหน่วยความจำ เช่น เทป หรือแผ่นแม่เหล็กต่าง ๆ แล้วเสียงค่อยวิ่งส่งไปที่ลำโพงเพื่อให้เรายังได้ยินการสนทนาอยู่นั่นเอง แต่โลกเราก็พัฒนาเทคโนโลยีมาเรื่อย ๆ ตั้งแต่ยุค 2G เครือข่ายโทรศัพท์เคลื่อนที่ก็ได้ถูกพัฒนาให้ใช้งานในระบบดิจิทัล มีการเข้ารหัส ทำให้มีเพียงแค่ผู้รับและผู้ส่งเท่านั้นที่จะสามารถถอดรหัสและรับสารได้ 

ใช่แล้วล่ะ เราเริ่มมีการตระหนักรู้เรื่องความปลอดภัยและความเป็นส่วนตัวกันตั้งแต่สมัยที่ใช้งาน 2G แล้ว ทำให้การดักฟังเป็นเรื่องที่ทำได้ยากขึ้นมาก แต่สำหรับการบันทึกเสียงสนทนาเรียกนั้นกลับทำได้ง่ายยิ่งกว่าเดิมไปอีก เพียงแค่นำเสียงที่ส่งมาเป็นดิจิทัลบันทึกลงไปในหน่วยความจำก็เรียบร้อย ยิ่งมาในยุค 3G ที่มี Bandwidth สำหรับส่งข้อมูลเพิ่มขึ้นมหาศาล คนที่อยู่ในยุคเปลี่ยนผ่านจะรู้ดีว่า ระหว่างเน็ต GPRS บน 2G กับ 3G ความเร็วมันช่างต่างกันราวฟ้ากับเหว จนต่อมาก็มีเทคโนโลยี HD Voice ที่เครือข่ายโทรศัพท์ในบ้านเราโหมโฆษณากัน เป็นเทคโนโลยีการส่งเสียงสนทนาแบบคุณภาพสูง เรียกว่าถ้าโดนอัด รับรอง ชัด เป๊ะ ให้ Uncle เก็บได้ทุกเม็ดแน่นอน

การสร้างเสียงปลอม

อีกหนึ่งเทคโนโลยีที่ถูกนำเข้ามาใช้ในวงการโทรศัพท์กันอย่างแพร่หลายตอนนี้คือ การสร้างเสียงปลอม หรือ ‘เสียงสังเคราะห์’ ไม่ว่าจะเพื่อจุดประสงค์ของการเป็นเครื่องตอบรับอัตโนมัติ สำหรับแก๊งคอลเซ็นเตอร์ หรือจะเป็นการเรียกรับยาที่ช่อง 2 ต่างก็ได้รับความนิยมทั้งสิ้น ซึ่งการสังเคราะห์เสียงรูปแบบที่ง่ายที่สุด คือ การที่เราบันทึกเสียงและเปิดเสียงนั้นซ้ำ ๆ ดีขึ้นมาหน่อยคือการเอาเสียงที่บันทึกไว้มาตัดต่อเพื่อเปลี่ยนสารที่ส่งออกไป เช่น การตัดคำนิเสธ อย่าง “เธอไม่ต้องทำ” เป็น “เธอต้องทำ” วิธีการนี้น่าจะเป็นวิธีการที่ทำกันมาอย่างยาวนานมาก ๆ แล้ว วิธีการที่อยู่เบื้องหลังของเสียงสังเคราะห์ที่เราได้ยินกันบ่อย ๆ

อย่าง ระบบคิวที่เวลาเราไปรอรับยา มีเสียงประกาศว่า “หมายเลข xxx รับยาที่ช่อง 2 ค่ะ” ถ้าลองฟังดี ๆ จะรู้ว่าเสียงที่พูดนั้นมีการเว้นวรรคอย่างชัดเจน การบอกตัวเลขก็จะบอกเป็นตัว ๆ เช่น 204 จะบอกว่า “สอง ศูนย์ สี่” ไม่ใช่ “สองร้อยสี่” เป็นเพราะเบื้องหลังของระบบพวกนี้คือ มีการอัดเสียงที่ต้องใช้เอาไว้ก่อน เช่น เสียงที่ต้องพูดทุกครั้งอย่าง “เชิญรับยาที่ช่อง” และกลุ่มตัวเลขตั้งแต่ 0-9 พอถึงคิวไหน ก็เล่นเสียงเชิญรับยา แล้วตามด้วยเสียงของเลขนั้น ๆ ประกอบกัน ก็จะได้ระบบเสียงพวกนี้ออกมา

ถ้าจะเอาเสียงลักษณะนี้ไปหลอกคนใครมันจะเชื่อใช่ไหมล่ะ ขนาดเราฟังแล้วรู้เลยว่า นี่เป็นเสียงที่มาจากเครื่องตอบรับอัตโนมัติแน่นอน ทำให้หลังจากนั้นเทคโนโลยีก็ได้ถูกพัฒนาต่อ โดยใช้วิธีการประมวลผลสัญญาณ (Signal Processing) เพื่อทำให้เสียงมีความใกล้เคียงกับมนุษย์ยิ่งขึ้น หรือไม่ก็เปลี่ยนเนื้อเสียงไปเลย เช่น เสียงแบบ Chipmunk หรือเสียงแบบเอเลี่ยน โดยที่ไม่ได้เป็นการสร้างเสียงใหม่ซะทีเดียว แต่เป็นการเอาวัตถุดิบคือเสียงคนที่ถูกบันทึกไว้มาผ่านกระบวนการเพื่อให้ได้เสียงใหม่ที่เป็นธรรมชาติมากกว่าเดิม ซึ่งเรามักจะนำไปใช้กับเทคโนโลยีที่เรียกว่า Text-to-Speech (TTS) หรือก็คือเทคโนโลยีที่แปลงตัวหนังสือให้กลายเป็นเสียง และถูกนำมาใช้อย่างแพร่หลายตั้งแต่การทำหนังสือเสียง ไปจนถึงการอ่านออกเสียงบนหน้าจอสำหรับผู้พิการทางสายตา

ปัจจุบันนี้เรามี Generative AI ที่ไม่ได้มีความสามารถแค่การพ่นตัวหนังสือออกมาเหมือนที่เราเห็นและได้ใช้งานกันในช่วงแรก แต่มันยังมี Model สำหรับการสร้างภาพ วีดีโอ และเสียงได้แล้ว ทำให้เทคโนโลยี TTS เก่งกว่าเดิมมาก จนตอนนี้แทบจะเรียกว่า AI พูดได้แนบเนียนยิ่งกว่าเดิม จะเห็นได้จาก ChatGPT ในโหมดที่เราสามารถโต้ตอบกับ AI ด้วยเสียงได้ ซึ่งเสียงที่ตอบกลับมาค่อนข้างเป็นธรรมชาติกว่าเสียงเรียกรับยาช่อง 2 แน่นอน

ที่สนุกกว่านั้น คือ ในโมเดลรุ่นใหม่ ๆ เราสามารถป้อนเสียงตัวอย่างเพื่อให้ AI เรียนรู้และเลียนเสียงของคน ๆ นั้นได้อีกด้วย เพียงแต่ตัวอย่างเสียงจะต้องเยอะในระดับหนึ่งเลย ไม่งั้นเสียงที่ออกมาก็จะไม่เนียนเท่าไหร่ ดังนั้น เรายังไม่ต้องกลัวว่า พอแก๊งคอลเซ็นเตอร์เขาโทรมา แล้วอัดเสียงของเราไปใช้ก็จะปลอมเป็นเราได้ทันที มันไม่ได้ง่ายขนาดนั้น และยังทำในระดับสเกลใหญ่มาก ๆ ที่ปลอมเสียงคนหลายร้อยคนยังไม่คุ้มเท่าไหร่ ณ ตอนนี้

เหรียญมีสองด้าน อยู่ที่เลือกใช้

เทคโนโลยีทั้งสองตัวที่ได้เล่าไปนี้ถูกนำไปใช้งานอย่างแพร่หลาย และเราที่เป็นผู้ใช้ก็มักจะได้เห็นกันอยู่รอบตัวเต็มไปหมด อย่างความสามารถในการบันทึกการสนทนา เมื่อรวมเข้ากับ AI สมัยใหม่ ก็ทำให้ระบบสามารถฟัง ทำความเข้าใจ และบอกถึงสิ่งที่เราจะต้องทำ ไปจนถึงจดบันทึกเรื่องที่เราคุยกันบนโทรศัพท์ ทำให้สามารถทบทวนเรื่องนั้น ๆ ได้ในภายหลัง ซึ่ง ณ วันนี้ โทรศัพท์หลาย ๆ ค่าย ทั้ง Apple และ Android ต่างก็มีความสามารถในการบันทึกเสียงการสนทนา โดยแต่ละเจ้าก็จะมีวิธีการที่แตกต่างกัน บางเจ้า เมื่อเรากดบันทึก มันจะมีเสียงแจ้งเตือนคู่สนทนาว่ามีการบันทึกเสียง หรือบางเจ้าอาจจะไม่มีอะไรเลย เป็นการบันทึกเสียงโดยที่คู่สนทนาไม่รู้อะไรเลยก็มีเหมือนกัน

หรือเทคโนโลยีการสร้างเสียงปลอม หรือถ้าพูดให้ดูสุภาพก็จะเรียกว่าเป็น การสังเคราะห์เสียง ถือเป็นอีกเทคโนโลยีที่เข้ามาช่วยในหลายเรื่องมาก ๆ เช่น เป็นผู้ช่วยประชาสัมพันธ์สารหรือข้อความต่าง ๆ ไม่อย่างนั้นต้องคงให้คนมาพูดทุกคิวก็ไม่ไหวเหมือนกัน หรือกระทั่งล่าสุดผู้ให้บริการโทรศัพท์ฝั่งเกาะอังกฤษอย่าง Virgin Media O2 ก็ได้พัฒนา AI Model ที่ปลอมตัวเป็นคุณยายเพื่อให้มิจจี้โทรหา เป้าหมายของโดเดลนี้คือ การทำให้มิจจี้คุยกับเครื่องให้นานที่สุดจนทำให้ไม่มีเวลาไปเล่นกับคนจริง เบื้องหลังก็เป็นการใช้ Generative AI เพื่อสื่อสารเป็นข้อความ แล้วใช้ TTS แปลงเป็นเสียงคุณยายเพื่อคุยกับมิจจี้อีกทีหนึ่ง

แต่กลับกัน เทคโนโลยีที่มีประโยชน์นี้ก็สามารถถูกเอามาใช้งานในทางที่ผิดได้ด้วย อย่าง การบันทึกการสนทนา ที่สมัยก่อนก็ถูกนำมาใช้ในงานข่าวกรอง ดักฟังการสนทนาและเก็บข้อมูลต่าง ๆ ของฝ่ายตรงข้าม หรือกระทั่งนำมาใช้เป็นข้อมูลในการ Blackmail กันบนโทรศัพท์เลยก็พบเจอกันมาเยอะแยะ จนมาถึงปัจจุบัน คอลเซ็นเตอร์สมัยใหม่นางก็เก่งขึ้นนะ เพราะรู้แล้วว่าถ้ามีรับสายมา คนมันรู้เยอะขึ้น จะให้คนจริงคุยก่อนก็เสียเวลา งั้นก็เอา AI เข้ามาช่วยซะเลยสิ ด้วยการให้ AI คุยกับคนเพื่อคัดกรองออกมาก่อน ถ้าถึงจุดหนึ่งที่คนยังไม่วางสายก็ค่อยโอนสายไปเพื่อให้คุยกับคนจริง ๆ อีกที ประกอบกับถ้าเอา Generative AI เข้ามาใช้ จะทำบทสนทนาในแต่ละรอบไม่เหมือนกันเลย และสามารถเปลี่ยนไปตามคู่สนทนาได้ด้วยก็ยิ่งน่ากลัวเข้าไปใหญ่เลย นี่สินะ หัวหน้าแก๊งคอลเซ็นเตอร์

ด้วยความที่การสร้างสรรค์เนื้อหาด้วย AI ทำได้ง่ายขึ้น เร็วมากขึ้น ในฐานะของผู้รับสาร การรับสารอย่างมีสติและการมีความรู้ในเรื่องของ Digital Literacy เป็นเรื่องสำคัญมาก ๆ สำหรับคนที่อยู่ในยุคนี้ ดังนั้น ถ้าเกิดว่าเราได้รับสายโทรศัพท์แปลก ๆ ครั้งหน้า ก็อย่าลืมสังเกตความผิดปกติก่อน และอย่าไปคุยกับมิจจี้จะดีที่สุด

AUTHOR

I believe in technology and sharing, as they enable us with a better world via several clicks. Especially, programming is one of the most powerful tools which inspire people to make their dreams come true. I want to share, publicise and innovate new technology so as to change our world in the way we could hardly imagine.