Sahara AI: Part 2, Data Services Platform
January 9th, 2025

Last Revise: 16.02.2025

สวัสดีครับเพื่อนๆ

ในบทความนี้เราจะมาเรียนรู้เกี่ยวกับโปรเจค Sahara AI ในส่วนของ Data Services Platform (DSP) กันก่อนที่ Season ถัดๆไปกำลังจะมาถึงครับ ในฐานะที่ผู้เขียนเป็นหนึ่งในผู้โชคดีหมื่นกว่าคนที่ได้มีโอกาสมาทดสอบในรอบแรกๆ

ซึ่ง DSP นั้นเป็น 1 ใน 5 กิจกรรมหลักบน Sahara Legends เพื่อที่จะเก็บ NFT น้องง Bitsy ให้ได้ ผู้เขียนจึงขอแนะนำให้ผู้อ่านเริ่มต้นศึกษาบทความนี้ได้เลยเพื่อให้ไม่เกิดปัญหาตอนทำงานจริงครับ

Introduction

ผู้เขียนมีโอกาสได้เกริ่นถึงความน่าสนใจของโปรเจค Sahara AI ไว้แล้วในบทความ

โดยโปรเจค Sahara AI เป็นโปรเจค Decentralize AI ที่เคยมาจัด event ที่ไทยกับ SCB 10X อีกทั้งยังได้เงินระดมทุนที่ค่อนข้างสูงถึง 43 ล้านดอลล่าร์สหรัฐรวมถึงได้เงินระดมทุนจาก SCB 10X อีกด้วย ผู้อ่านจึงไม่ควรพลาดโปรเจคนี้แต่อย่างใด

Overview

Data Services Platform (DSP)

โดยในปัจจุบัน เราจะมี 2 เว็ปไซต์สำหรับใช้งาน DSP ได้แก่

  • เว็ปไซต์หลัก - https://app.saharalabs.ai โดยในบทความนี้ เราจะมาอธิบายทริคในเบื้องต้นสำหรับการเป็นผู้ใช้งานคุณภาพของ platform นี้กัน ส่วนรายละเอียดอื่นๆ
    ขอแนะนำท่านผู้อ่านสามารถติดตามต่อได้ในกลุ่ม Telegram คนไทยชื่อ “เฮฮา Sahara AI”

  • เว็ปไซต์ faucet - https://faucet.saharaa.info ใช้ขอเหรียญ $SAH บน Sahara Testnet เพื่อใช้งานบน platform ดังกล่าว

0. เข้าใจคำศัพท์เฉพาะบนแพลตฟอร์มในเบื้องต้น

  • Annotator - ผู้สร้างข้อมูลคุณภาพสูงเพื่อให้ AI สามารถนำไปใช้งานได้
    (ดูเงื่อนไขการทำงานได้ที่นี่)
  • Reviewer - ผู้ตรวจสอบ (หรือการทำ labeling) ข้อมูลว่ามีคุณภาพตรงตามที่ต้องการหรือไม่
    (ดูเงื่อนไขการทำงานได้ที่นี่)
  • Datapoint - จำนวน Task (ที่ทำได้/ทำเสร็จ)

  • Task Difficulty - ความยากของงานเริ่มต้นตั้งแต่ Beginner, Intermediate, Advanced จนไปถึง Expert

  • SP (Sahara Points) - แต้มที่ได้จากการทำงานเป็น Annotator หรือ Reviewer โดยในความยากระดับเดียวกันฝั่ง Annotator จะได้ SP ต่อ Datapoint มากกว่า Reviewer

  • EXP (Experience Points) - แต้มที่ได้จากการทำ Achievement เสร็จ

โดยเพื่อนๆสามารถดูคำศัพท์อื่นๆเพิ่มเติมได้ที่ Glossary

1. [ใหม่!!] เข้าใจ DSP ว่าคืออะไร

ก่อนอื่น ผู้เขียนต้องขออภัยอีกครั้งที่ไม่ได้อธิบายให้เพื่อนๆเห็นภาพว่า DSP นั้นเป็น Platform ที่เกี่ยวกับ AI ยังไง

DSP เป็นแพลตฟอร์ม Data Labeling (เพิ่มเติม) สำหรับ AI แบบ Decentralize โดยที่ผู้ใช้งานทุกท่านสามารถเป็นได้ทั้งผู้สร้างข้อมูล (annotator) และผู้ตรวจสอบข้อมูล (reviewer) ในเวลาเดียวกัน

ยกตัวอย่างเช่น ในการฝึกสอน AI สำหรับรถยนต์ไร้คนขับ จะต้องให้ AI เรียนรู้ว่าภาพตรงหน้ารถยนต์นั้นคืออะไร คน, รถ หรือไฟแดง? เพื่อที่ AI สามารถตัดสินใจในสถานการณ์ต่างๆได้ เช่นการขับรถหลบหลีกสิ่งกีดขวาง, การจอดรถเมื่อเห็นไฟแดง โดยในกรณีของ DSP ผู้เข้าร่วมจะสามารถทำงานทั้งในฝั่งที่ระบุ (label) ว่าวัตถุในรูปนั้นคืออะไร รถ, คน หรือ ไฟแดง รวมถึงสามารถตรวจสอบได้ด้วยว่า label วัตถุในรูปนั้นถูกต้องแล้วหรือไม่ สิ่งนี้คือรถ? สิ่งนี้คือคน?

https://medium.com/unpackai/the-one-two-threes-of-data-labeling-for-computer-vision-4c0b022cef4
https://medium.com/unpackai/the-one-two-threes-of-data-labeling-for-computer-vision-4c0b022cef4

ถึงแม้ว่าการทำ Decentralized Data Labeling จะเป็น concept ที่ช่วยให้การทำ Data Labeling สามารถ scale ได้ดีกว่าการทำ Data Labeling แบบดั้งเดิม (เพราะทุกคนสามารถมีส่วนร่วมได้) แต่ในกรณีนี้ ทาง DSP ก็จะต้องรับมือผู้เข้าร่วมที่อาจจะหวัง incentive มากกว่ามุ่งผลิตงานคุณภาพ เราจะอธิบายสิ่งที่ Sahara AI กำลังทำเพื่อรับมือในหัวข้อที่ 5

2. เข้าใจระบบการไต่แร้งค์ของ Sahara AI

และตอนนี้ เพื่อนๆน่าจะพอเห็นภาพของ DSP แล้ว เมื่อเพื่อนๆทำ Task เสร็จทั้งในฝั่งของ Annotator และ Reviewer ก็จะมีระบบที่คอย approve งาน (Datapoint) ที่ทำ (เราจะมาพูดถึงระบบในการ approve แต้มคร่าวๆในหัวข้อที่ 5) แล้วนำ approved Datapoint มาคิดแต้ม SP สุทธิที่ทำได้ แต่หากเพื่อนๆทำงานได้ไม่ถึงเกณฑ์ (Accuracy) ที่กำหนดไว้ (ปัจจุบัน 15%) ก็จะถูกแบนจาก task นั้น แต่ยังสามารถทำ tasks อื่นในกลุ่ม Knowledge Domain เดียวกันได้

ตัวอย่างการทำงานฝั่ง Reviewer จะพิจารณาว่าคำตอบของแต่ละคำถามจากฝั่ง Annotator นั้นมีมาตรฐานตรงตามที่ platform ต้องการหรือไม่
ตัวอย่างการทำงานฝั่ง Reviewer จะพิจารณาว่าคำตอบของแต่ละคำถามจากฝั่ง Annotator นั้นมีมาตรฐานตรงตามที่ platform ต้องการหรือไม่

โดยการไต่แร้งค์ภายใน DSP หลักๆนั้นจะอิงแต้ม EXP เป็นหลักซึ่งได้มาจากการทำ Achievement เท่านั้น โดยมีการเคลมแต้มแบบ on-chain

หน้า Acheivement
หน้า Acheivement

ซึ่งนั่นหมายความว่าผู้ใช้งานจะต้องทำความเข้าใจว่าแต่ละ Achievement นั้นมีเงื่อนไขแตกต่างกันอย่างไรบ้าง เช่นใน Season 1 จะประกอบด้วย

  • Titan’s Vigil - การทำ Daily Check-in

  • Forge of Preseverance - การทำ Tasks ในแต่ละวันให้ได้ขั้นต่ำ 20 SP

  • Oracle of Knowledge - การทำ Tasks ในกลุ่ม Knowledge Domain ที่กำหนดไว้ภายใน Season ให้ขั้นต่ำ 100 คะแนน

ซึ่งเมื่อจบ Season 1 ผู้เล่นที่ได้ 1,000 อันดับแรกจะได้รับแต้ม SP พิเศษ

หมายเหตุ: ใน Season 2 ที่ผ่านมา มีการปรับเกณฑ์เรื่องแต้ม SP พิเศษเป็น 15,000 อันดับแรก
หมายเหตุ: ใน Season 2 ที่ผ่านมา มีการปรับเกณฑ์เรื่องแต้ม SP พิเศษเป็น 15,000 อันดับแรก

รวมถึงสถานะ “Demigods” โดยสามารถนำ SP points ที่ได้มาใช้ในการ access Tasks ที่มีความยากระดับ Advanced และ Expert ได้ใน season ถัดๆไป (ใน Season 1 ผู้ใช้งานสามารถ access ความยากได้ทุกระดับ)

3. ช่วงที่สำคัญที่สุดคือ Pre-Exam

ก่อนที่เพื่อนๆจะเริ่มทำงานใน Knowledge หัวข้อใหม่ๆ จะต้องมีการทำ Pre-Exam ก่อน เพื่อคัดคนที่มีสกิลในหัวข้อนั้นจริงๆ

https://docs.saharalabs.ai/data-services-page/task-overview-and-pre-exam
https://docs.saharalabs.ai/data-services-page/task-overview-and-pre-exam

ซึ่งขั้นตอนนี้เป็นขั้นตอนที่สำคัญมากๆ เพราะการทำ Pre-Exam พลาดนั้นจะส่งผลให้ไม่มีสิทธิทำงานใน Knowledge Domain ที่พึ่งทำข้อสอบพลาดไปใน Season นั้นๆไปเลย ซึ่งการพลาดในครั้งอาจส่งผลให้ EXP หายเป็นจำนวนมาก เช่น Tasks ในกลุ่ม Achievement ของ Oracle of Knowledge ใน Season 1 ที่หากเพื่อนๆพลาด Pre-Exam แล้ว คะแนนจะหายไปทันที 30 EXP (จารโดนมาแล้ว)

เมื่อจารทำข้อสอบไม่ผ่าน T T สังเกตุว่าในรูป Knowledge Domain คือ Prompt Collection
เมื่อจารทำข้อสอบไม่ผ่าน T T สังเกตุว่าในรูป Knowledge Domain คือ Prompt Collection

ดังนั้นเพื่อนๆควรจะมีสติก่อนทำข้อสอบทุกครั้ง หรือในทางที่ดีมีการตั้งวงเพื่อช่วยกันปรึกษา

4. และที่สำคัญ ไม่ตกม้าตายตอนทำงานจริง

ถึงแม้เพื่อนๆจะผ่าน Pre-Exam และได้เข้าไปทำงานจริง เพื่อนๆก็อาจโดน terminate งานได้จากการที่เพื่อนๆทำงานงานเร็วเกินไป (จารโดนข้อนี้บ่อย) หรือช้าเกินไป หรือแท้กระทั่งการตอบคำถามไม่เหมือนชาวบ้าน (ใช่ครับอ่านไม่ผิด ถึงแม้ว่าเพื่อนๆทำงานอย่างสุจริตก็อาจโดน terminate งานได้**)**

จารไม่รอด โดนระบบสั่งแบนงาน T T สังเกตุว่าในรูป Knowledge Domain คือ Dating, Investment และ Web3
จารไม่รอด โดนระบบสั่งแบนงาน T T สังเกตุว่าในรูป Knowledge Domain คือ Dating, Investment และ Web3

ยิ่งถ้าเพื่อนๆโดนแบน 4 tasks จาก 10 tasks ที่พึ่งทำงานมา จะทำให้เพื่อนๆถูกพักงานไปถึง 7 วันเลยทีเดียว (เพื่อนๆจารก็โดนกันพรึ่บๆ) รวมถึงอาจโดน permanent ban จากทาง platform ไปเลย

หมายเหตุ:

  1. อ่าน documentation ได้ที่นี่

  2. สำหรับเพื่อนๆที่ต้องการวงเพื่อช่วยกันปรึกษา ขอแนะนำท่านผู้อ่านเข้าร่วมกลุ่ม Telegram คนไทยชื่อ เฮฮา Sahara AI

  3. จากบทความ ทาง Sahara AI จะการแบนงานทันทีหากคำนวนความแม่นยำแล้วไม่ถึงเกณฑ์ เช่นหากตัวงานต้องการความแม่นยำที่ 80% แล้วเพื่อนๆส่งไปห้างานแต่สองงานแรกไม่ผ่าน ก็จะโดนระบบแบนทันที เพื่อนๆจะต้องระมัดระวังในการส่งงานมากขึ้น

5. [ใหม่!!] ระบบตรวจงานบน DSP

บทความ ของ Sahara AI ได้อธิบายถึงกระบวนการตรวจสอบคุณภาพของงานที่ส่ง โดยมีขั้นตอนที่หลากหลายได้แก่

  1. Automated Quality Screening: เป็นด่านตรวจแรก ใช้ ML model สำหรับการตรวจงานซ้ำ, งานที่ไม่ครบถ้วน รวมถึงงานที่ไม่คงเส้นคงวาเพื่อลดการตรวจแบบ manual จาก (peer) reviewers

  2. Decentralized Peer Review: เมื่องานที่ส่งผ่านด่านแรกแล้ว ก็จะเป็นหน้าที่ของเหล่า reviewer ในการตรวจสอบงาน โดยงานที่ส่งจะถูก approve ผ่านระบบเสียงส่วนมากจาก reviewers ที่ได้ตรวจงานนั้นๆ (จึงมักมีปัญหาเวลาที่ review งานแล้วไม่เหมือนชาวบ้าน)

  3. Task-Specific Machine Review: สำหรับการ review ในขั้นตอนนี้ จะเป็นกลุ่ม tasks ที่มี criteria ระบุไว้ชัดเจนอยู่แล้วเช่น Red Team ที่ดูว่า prompt ที่เรานั้นใช้สามารถ jailbreak AI ได้สำเร็จหรือไม่ โดยกรณีนี้สามารถใช้ ML เพื่อตรวจสอบงานแบบ automate ได้ เนื่องจาก tasks ประเภทนี้มักมีผลลัพธ์แบบ binary output หรือ objective benchmarks ที่กำหนดไว้ชัดเจนอยู่แล้ว

  4. In-House Human QA: โดยทางทีมงาน Sahara AI จะนำกลุ่มตัวอย่างงานที่ถูก approve แล้วจากขั้นตอนก่อนๆหน้าไปตรวจซ้ำอีกที (โหดไหมล่ะ กว่าจะได้คะแนน)

นอกจากนั้น ทาง Sahara AI ได้มองเห็นถึงปัญหาโดยเฉพาะในเรื่องของความเสี่ยงที่ผู้เข้าร่วมจะส่งงานและตรวจสอบงานที่มีคุณภาพต่ำเพื่อเอื้อผลประโยชน์ร่วมกัน ทาง Sahara AI จึงมีการ implement safeguards ได้แก่

  • Pre-task Qualification Quizzes: หรือก็คือ Pre-Exam ที่เราได้อธิบายไป

  • Dynamic Incentive Structures: เป็นระบบที่ให้รางวัลสำหรับผู้ส่งงานคุณภาพและทำโทษผู้ที่ทำงานไม่ดี เช่นการ ban การทำงานชั่วคราวจนไปถึงการ ban ออกจากตัว DSP

6. [ใหม่!!] ความเป็นไปได้ของ DCP (Proof of Concept)

บทความ ของ Sahara AI ได้ update สถิติจาก Season 1 ไว้ดังต่อนี้

  • การตรวจสอบงานแบบ peer review นั้นมีความแม่นยำสูงถึง 92% สำหรับงานระดับ Beginner และมีความแม่นยำสูงถึง 88% สำหรับงานระดับ Intermediate บนมาตรวัด internal QA แสดงให้เห็นว่าการทำ Decentralized Data Labeling ที่มีคุณภาพนั้นเป็นไปได้จริงเมื่อมีการ incentivize ที่เหมาะสม อีกทั้งทุกคนทั่วทุกมุมโลกยังสามารถเข้ามามีส่วนรวมในการสร้างข้อมูลคุณภาพให้กับ AI ได้จริงๆ
https://saharalabs.ai/blog/decentralized-data-collection-and-labeling-at-scale
https://saharalabs.ai/blog/decentralized-data-collection-and-labeling-at-scale
  • ถึงแม้ว่าข้อมูลจากงานในระดับ Advanced, Expert นั้นจะสามารถใช้ได้จริงเพียง 3-10% จากงานทั้งหมด แต่หากดูในเชิงปริมาณแล้วเรายังได้ข้อมูลคุณภาพสูงในจำนวนหลักหมื่นเลยทีเดียว
https://saharalabs.ai/blog/decentralized-data-collection-and-labeling-at-scale
https://saharalabs.ai/blog/decentralized-data-collection-and-labeling-at-scale

ดังนั้นสำหรับผู้อ่านที่กำลังลังเลอยู่ว่าควรจะทุ่ม effort ในการทำ DSP ดีไหม ผู้เขียนอยากแชร์ว่าคุณกำลังจะได้เข้ามาอยู่ในส่วนหนึ่งของประวัติศาสตร์ของการทำ Data Labeling ให้กับ AI แบบ Decentralized แบบที่ทุกคนสามารถมีส่วนร่วมกับการสร้างข้อมูลคุณภาพให้กับ AI ได้จริงๆ

หมายเหตุ: ทาง Sahara AI ให้ไว้ 3 ข้อ แต่ผู้เขียนคิดว่าสำคัญจริงๆ 2 ข้อ

Updated Roadmap

Sahara AI ได้กล่าวไว้ในบทความว่า

Our mission is to create a decentralized ecosystem where AI developers, data labelers, resource providers, and end-users all work together to drive AI innovation and progress.

หรือแปลเป็นภาษาไทยได้ว่า พันธกิจของ Sahara AI คือการสร้างสถานที่กระจายศูนย์ให้ผู้พัฒนา AI, นัก label ข้อมูล, ผู้ให้บริการทรัพยากร AI รวมถึงผู้ใช้งาน AI มาร่วมกันผลักดันสร้าง AI Assets ไปด้วยกัน

จากที่เราได้ทำการสำรวจ Roadmap เทียบกับบทความที่เราเคยเขียนไป ทาง Sahara AI ได้มีการเปลี่ยนแปลง Roadmap จากที่เคยมีแผนจะ Mainnet ใน Q1 2025 เป็น Mainnet Q3 2025 แทน

หมายเหตุ: การใช้งาน Sahara Testnet นั้นใช้ค่าแก๊สเป็นเหรียญ $SAH จึงสามารถสรุปได้ว่าการมาของ Mainnet = TGE

โดยในปัจจุบัน จะเป็นการทดสอบตัว DSP ตามที่เราได้พึ่งอธิบายไป โดยใน Q1 นี้คาดว่าเราจะได้เห็น AI Marketplace สำหรับ developers เพื่อที่จะสำรวจ, customize และ deploy ตัว AI models โดยหน้าที่ของ DSP จะเป็นการช่วยเหลือ developers ให้สามารถรวมรวบ, กรั่นกรอง และ label ข้อมูลสำหรับการพัฒนา AI โดยใน Q2 จะเป็นการนำเสนอ suite of tools ที่มีชื่อว่า Sahara Studio (ผู้เขียนจะยังไม่ขอลงดีเทล เผื่อมีการเปลี่ยนแปลงในอนาคตอีกครั้ง)

  • สำหรับผู้อ่านทั่วไปที่สนใจมีส่วนร่วมกับ Sahara AI สามารถสมัคร waitlist ของ Data Service ได้ที่นี่

  • สำหรับผู้อ่านที่มีสกิลในการพัฒนาตัว AI ให้สมัคร early access ได้ที่นี่

หมายเหตุ: หากผู้เขียนมีสิทธิ์ได้ใช้งาน products ถัดๆไปของทาง Sahara AI ด้วย ผู้เขียนคาดว่าจะมาเขียนบทความเกี่ยวกับ Sahara AI ต่อครับ

Conclusion

Sahara AI เป็นโปรเจค Decentralized AI อันดับต้นๆที่ผู้เขียนชื่นชอบไอเดียในการทำ AI Agents Platform โดยผู้เขียนจะอธิบายเพิ่มเติมถึงเหตุผลในโพสถัดๆไป ขอให้เพื่อนๆทุกๆท่านโชคดี ได้ Whitelist และมาร่วมกันสร้างข้อมูลคุณภาพให้กับ Sahara AI กันครับ

Acknowledgement

โพสนี้จะเกิดขึ้นไม่ได้เลย ถ้าหากไม่มีท่านเหล่านี้มาพูดคุยและแลกเปลี่ยนความคิดเห็นกัน

Reference

Subscribe to lordachita
Receive the latest updates directly to your inbox.
Mint this entry as an NFT to add it to your collection.
Verification
This entry has been permanently stored onchain and signed by its creator.
More from lordachita

Skeleton

Skeleton

Skeleton