که تاسو کله هم داسې ماډل لیږلی وي چې په نوټ بوک کې ځلیدلی وي مګر په تولید کې یې ټکر کړی وي، تاسو دمخه راز پوهیږئ: د AI فعالیت اندازه کول یو جادویی میټریک نه دی. دا د چیکونو سیسټم دی چې د ریښتیني نړۍ اهدافو سره تړلی دی. دقت ښکلی دی. اعتبار، خوندیتوب، او د سوداګرۍ اغیز غوره دی.
هغه مقالې چې تاسو یې له دې وروسته لوستل خوښولی شئ:
🔗 څنګه له AI سره خبرې وکړو
د دوامداره غوره پایلو لپاره د مصنوعي ذهانت سره په مؤثره توګه د خبرو اترو لارښود.
🔗 AI څه هڅوي؟
تشریح کوي چې څنګه اشارې د AI ځوابونو او د محصول کیفیت ته شکل ورکوي.
🔗 د AI معلوماتو لیبل کول څه شی دی؟
د روزنې ماډلونو لپاره معلوماتو ته د دقیقو لیبلونو ټاکلو عمومي کتنه.
🔗 د مصنوعي ذهانت اخلاق څه شی دی؟
د اخلاقي اصولو معرفي کول چې د AI د مسؤلیت پراختیا او ځای پرځای کولو لارښوونه کوي.
څه شی د مصنوعي ذهانت ښه فعالیت رامنځته کوي؟ ✅
لنډه نسخه: د مصنوعي ذهانت ښه فعالیت پدې معنی دی چې ستاسو سیسټم ګټور، باوري، او د ګډوډو او بدلیدونکو شرایطو لاندې د تکرار وړ دی. په مشخص ډول:
-
د دندې کیفیت - دا د سمو دلیلونو لپاره سم ځوابونه ترلاسه کوي.
-
کیلیبریشن - د باور نمرې د واقعیت سره سمون لري، نو تاسو کولی شئ هوښیارانه اقدام وکړئ.
-
ټینګښت - دا د څنډې، څنډې او مخالفې څپې لاندې مقاومت کوي.
-
خوندیتوب او انصاف - دا د زیان رسونکي، تعصب لرونکي، یا غیر مطابقت لرونکي چلند څخه مخنیوی کوي.
-
موثریت - دا کافي ګړندی، کافي ارزانه، او په کافي اندازه باثباته دی چې په پراخه کچه چلیږي.
-
د سوداګرۍ اغیزه - دا په حقیقت کې هغه KPI ته حرکت ورکوي چې تاسو یې پاملرنه کوئ.
که تاسو د میټریکونو او خطرونو د سمون لپاره رسمي حواله غواړئ، د NIST AI د خطر مدیریت چوکاټ د باور وړ سیسټم ارزونې لپاره یو قوي شمالي ستوری دی. [1]

د مصنوعي ذهانت د فعالیت اندازه کولو لپاره د لوړې کچې ترکیب 🍳
په دریو طبقو :
-
د دندې میټریکونه - د دندې ډول لپاره سموالی: طبقه بندي، بیرته راګرځیدنه، درجه بندي، نسل، کنټرول، او نور.
-
د سیسټم میټریکونه - ځنډ، تروپټ، د هر کال لګښت، د ناکامۍ کچه، د ډریفټ الارمونه، د اپټایم SLAs.
-
د پایلو معیارونه - هغه سوداګرۍ او کاروونکي پایلې چې تاسو یې په حقیقت کې غواړئ: بدلون، ساتل، د خوندیتوب پیښې، د لاسي بیاکتنې بار، د ټکټونو حجم.
د اندازه کولو یو ښه پلان په قصدي ډول درې واړه سره یوځای کوي. که نه نو تاسو یو راکټ ترلاسه کوئ چې هیڅکله د لانچ پیډ څخه نه وځي.
د ستونزې ډول له مخې اصلي میټریکونه - او کله چې کوم وکاروئ 🎯
۱) طبقه بندي
-
دقیقیت، یادونه، F1 - د لومړۍ ورځې درې ګونی. F1 د دقیقیت او یادونې همغږي اوسط دی؛ هغه وخت ګټور دی کله چې ټولګي غیر متوازن وي یا لګښتونه غیر متناسب وي. [2]
-
ROC-AUC - د طبقه بندي کونکو د حد-اګنوسټیک درجه بندي؛ کله چې مثبتې پایلې کمې وي، نو PR-AUC . [2]
-
متوازن دقت - په ټولګیو کې د یادولو اوسط؛ د پیچلو لیبلونو لپاره ګټور. [2]
د خطر څارنه: یوازې دقت کولی شي د عدم توازن سره خورا ګمراه کونکی وي. که چیرې 99٪ کاروونکي قانوني وي، یو احمق تل قانوني ماډل 99٪ نمره کوي او د غرمې دمخه ستاسو د درغلۍ ټیم ناکاموي.
۲) رجعت
-
د انسان د لوستلو وړ تېروتنې لپاره MAE RMSE کله چې تاسو غواړئ لویې تېروتنې مجازات کړئ؛ R² د توپیر لپاره تشریح شوی. بیا د هوښیارۍ چک ویشونه او پاتې پلاټونه. [2]
(د ډومین دوستانه واحدونو څخه کار واخلئ ترڅو ونډه وال په حقیقت کې تېروتنه احساس کړي.)
۳) درجه بندي، ترلاسه کول، سپارښتنې
-
nDCG - د موقعیت او درجه بندي شوي تړاو په اړه پاملرنه کوي؛ د لټون کیفیت لپاره معیار.
-
MRR - په دې تمرکز کوي چې لومړی اړونده توکي څومره ژر څرګندیږي (د "یو ښه ځواب موندلو" دندو لپاره عالي).
(د تطبیق حوالې او کار شوي مثالونه په اصلي میټریک کتابتونونو کې دي.) [2]
۴) د متن تولید او لنډیز
-
BLEU او ROUGE - کلاسیک اوورلیپ میټریکونه؛ د اساساتو په توګه ګټور دي.
-
د ایمبیډینګ پر بنسټ میټریکونه (د مثال په توګه، BERTScore ) ډیری وختونه د انسان قضاوت سره ښه اړیکه لري؛ تل د سټایل، وفادارۍ او خوندیتوب لپاره د انسان درجه بندي سره یوځای کړئ. [4]
۵) د پوښتنې ځواب ورکول
-
دقیق میچ او د ټوکن کچه F1 د استخراجي QA لپاره عام دي؛ که ځوابونه باید سرچینې حواله کړي، نو د ځمکې (د ځواب ملاتړ چکونه).
کیلیبریشن، باور، او د بریر لینز 🎚️
د باور نمرې هغه ځایونه دي چیرې چې ډیری سیسټمونه په خاموشۍ سره پروت دي. تاسو احتمالات غواړئ چې واقعیت منعکس کړي نو عملیات کولی شي حدونه، انسانانو ته لاره، یا د قیمت خطر وټاکي.
-
د کیلیبریشن منحني - د تجربوي فریکونسۍ په پرتله د وړاندوینې احتمال تصور کړئ.
-
د بریر نمره - د احتمالي دقت لپاره د نمرې ورکولو یو مناسب قاعده؛ ټیټ غوره دی. دا په ځانګړي ډول ګټور دی کله چې تاسو د احتمال کیفیت
د ساحې یادونه: یو څه "خراب" F1 مګر ډیر ښه کیلیبریشن کولی شي په پراخه کچه ټریج ته وده ورکړي - ځکه چې خلک بالاخره په نمرو باور کولی شي.
خوندیتوب، تعصب، او انصاف - هغه څه اندازه کړئ چې مهم دي 🛡️⚖️
یو سیسټم په ټولیز ډول دقیق کیدی شي او بیا هم ځانګړو ډلو ته زیان رسوي. د ګروپ شوي میټریکونو او انصاف معیارونو تعقیب کړئ:
-
د نفوسو برابري - په ټولو ډلو کې مساوي مثبت نرخونه.
-
مساوي امکانات / مساوي فرصت - په ډلو کې د مساوي غلطۍ نرخونه یا ریښتیني مثبت نرخونه؛ دا د سوداګرۍ کشف او اداره کولو لپاره وکاروئ، نه د یو شاټ پاس – ناکامي ټاپې په توګه. [5]
عملي لارښوونه: د ډشبورډونو سره پیل وکړئ چې اصلي میټریکونه د کلیدي ځانګړتیاو له مخې ټوټې کوي، بیا د خپلو پالیسیو اړتیا سره سم ځانګړي انصاف میټریکونه اضافه کړئ. دا ګډوډ ښکاري، مګر دا د یوې پیښې په پرتله ارزانه دی.
LLMs او RAG - د اندازه کولو یوه لارښود چې په حقیقت کې کار کوي 📚🔍
د تولیدي سیسټمونو اندازه کول ... پیچلي دي. دا کار وکړئ:
-
پایلې تعریف کړئ : سموالی، ګټورتوب، بې ضرره والی، د سټایل اطاعت، د برانډ سره سم غږ، د حوالې اساس، د رد کیفیت.
-
د اساساتو ارزونې اتومات کړئ (د مثال په توګه، ستاسو په سټیک کې د ارزونې وسیلې) او دوی د خپلو ډیټاسیټونو سره نسخه وساتئ.
-
سیمانټیک میټریکونه (د ضمیمې پر بنسټ) او د اوورلیپ میټریکونه (BLEU/ROUGE) اضافه کړئ. [4]
-
د وسایلو ځمکنۍ کول : د بیرته ترلاسه کولو هټ کچه، د شرایطو دقیقیت/یادونه، د ځواب ملاتړ اوورلیپ.
-
د انسان بیاکتنه د موافقې سره - د ریټر تسلسل اندازه کړئ (د مثال په توګه، د کوهن κ یا د فلیس κ) نو ستاسو لیبلونه وایبس نه وي.
بونس: د ځنډ سلنې او نښه ثبتول یا د هر کار لګښت محاسبه کول. هیڅوک داسې شاعرانه ځواب نه خوښوي چې راتلونکې سه شنبه راشي.
د پرتله کولو جدول - هغه وسایل چې تاسو سره د AI فعالیت اندازه کولو کې مرسته کوي 🛠️📊
(هو، دا په قصدي ډول یو څه ګډوډ دی - اصلي یادښتونه ګډوډ دي.)
| وسیله | غوره لیدونکي | د بیې | ولې دا کار کوي - چټک اقدام |
|---|---|---|---|
| د سایکیټ زده کړې میټریکونه | د ML متخصصین | وړیا | د طبقه بندي، شاته تګ، درجه بندي لپاره کینونیکي تطبیقونه؛ په ازموینو کې د شاملولو لپاره اسانه. [2] |
| د MLflow ارزونه / GenAI | د معلوماتو ساینس پوهان، MLOps | وړیا + ورکړل شوی | مرکزي منډې، اتومات شوي میټریکونه، د LLM قاضیان، دودیز نمرې اخیستونکي؛ اثار په پاکه توګه ثبتوي. |
| په څرګنده توګه | هغه ټیمونه چې ډشبورډونه ګړندي غواړي | OSS + کلاوډ | له ۱۰۰ څخه زیات میټریکونه، د کیفیت او ډریفټ راپورونه، د څارنې هکونه - په یوه چټکه کې ښه لیدونه. |
| وزنونه او تعصبونه | د تجربې درنو سازمانونو | وړیا کچه | څنګ په څنګ پرتله کول، د ارزونې ډیټاسیټونه، قاضیان؛ جدولونه او نښې نښانې منظمې دي. |
| لانګسمیت | د LLM اپلیکیشن جوړونکي | ورکړل شوی | هر ګام تعقیب کړئ، د انسان بیاکتنه د قاعدې یا LLM ارزونکو سره ګډ کړئ؛ د RAG لپاره عالي. |
| ټرو لینز | د خلاصې سرچینې LLM eval مینه وال | او ایس ایس | د فیډبیک فعالیتونه د زهریت، بنسټیزوالي، او تړاو نمرې ورکولو لپاره؛ هرچیرې مدغم کوي. |
| لوړې هیلې | د معلوماتو کیفیت-لومړی سازمانونه | او ایس ایس | په معلوماتو باندې تمې رسمي کړئ - ځکه چې خراب معلومات په هرصورت هر میټریک خرابوي. |
| ژورې معاینې | د ML لپاره ازموینه او CI/CD | OSS + کلاوډ | د معلوماتو د ډریفټ، ماډل مسلو، او څارنې لپاره د بیټرۍ شاملې ازموینې؛ ښه ساتونکي پټلۍ. |
نرخونه بدلیږي - اسناد وګورئ. او هو، تاسو کولی شئ دا د وسیلې پولیس له څرګندیدو پرته مخلوط کړئ.
حدونه، لګښتونه، او د پریکړې منحني - پټ ساس 🧪
د حد او لګښت تناسب پورې اړه لري خورا مختلف سوداګریز ارزښت لري .
د جوړولو لپاره چټکه پاڼه:
-
د غلط مثبت او غلط منفي لګښت په پیسو یا وخت کې تنظیم کړئ.
-
حدونه پراخ کړئ او د هر 1k پریکړو لپاره متوقع لګښت محاسبه کړئ.
-
د لګښت لږترلږه حد غوره کړئ، بیا یې د څارنې سره بند کړئ.
کله چې مثبتې برخې کمې وي، د PR منحني برخې وکاروئ، د عمومي شکل لپاره ROC منحني برخې وکاروئ، او کله چې پریکړې په احتمالاتو تکیه کوي نو د کیلیبریشن منحني برخې وکاروئ. [2][3]
مینی-کیس: د ملاتړ-ټیکټ ټریج ماډل چې د معمولي F1 سره مګر غوره کیلیبریشن د عملیاتو وروسته د سخت حد څخه ټایر شوي روټینګ ته د بدلولو وروسته لاسي بیا لارې پرې کوي (د مثال په توګه، "اتوماتیک حل،" "انساني بیاکتنه،" "تیښته") د کیلیبریټ شوي سکور بینډونو سره تړلي.
آنلاین څارنه، څرخېدل، او خبرتیا 🚨
آفلاین ارزونې پیل دی، نه پای. په تولید کې:
-
د ننوتلو ، وتلو او فعالیت تخریب تعقیب کړئ .
-
د ساتونکو پټلۍ چیکونه تنظیم کړئ - د وهم اعظمي کچه، د زهرجنیت حدونه، د عادلانه ډیلټا.
-
د p95 ځنډ، وخت پای ته رسیدو، او د هرې غوښتنې لګښت لپاره د کانري ډشبورډونه اضافه کړئ
-
د دې کار د چټکولو لپاره د هدف لپاره جوړ شوي کتابتونونه وکاروئ؛ دوی د بکس څخه بهر ډریفټ، کیفیت، او څارنې لومړني توکي وړاندې کوي.
کوچنۍ نيمګړې استعاره: د خپل ماډل په اړه د خرما د سټارټر په څیر فکر وکړئ - تاسو یوازې یو ځل پخلی نه کوئ او لاړ نه شئ؛ تاسو خواړه ورکوئ، ګورئ، بوی کوئ، او ځینې وختونه بیا پیل کوئ.
انساني ارزونه چې نه ماتېږي 🍪
کله چې خلک پایلې درجه بندي کوي، پروسه ستاسو د فکر څخه ډیره مهمه ده.
-
د پاس او بې پولې او ناکامۍ مثالونو سره سختې مقالې ولیکئ
-
کله چې امکان ولري نمونې په ناڅاپي ډول تنظیم او ړندې کړئ.
-
د انټر ریټر تړون اندازه کړئ (د مثال په توګه، د دوو ریټرونو لپاره د کوهن κ، د ډیری لپاره د فلیس κ) او که چیرې تړون ناکام شي نو روبریکونه تازه کړئ.
دا ستاسو د انسان لیبلونه د مزاج یا کافي رسولو سره د تیریدو څخه ساتي.
ژوره غوطه: په RAG کې د LLMs لپاره د AI فعالیت څنګه اندازه کول
-
د ترلاسه کولو کیفیت - recall@k، precision@k، nDCG؛ د سرو زرو حقایقو پوښښ. [2]
-
د ځواب وفاداري - د حوالې او تایید چکونه، د ځمکې نمرې، د مخالفو تحقیقاتو.
-
د کارونکي رضایت - ګوته نیول، د دندې بشپړول، د وړاندیز شوي مسودو څخه د ترمیم واټن.
-
خوندیتوب - زهریت، د PII لیک، د پالیسۍ اطاعت.
-
لګښت او ځنډ - ټوکنونه، کیش هټونه، p95 او p99 ځنډونه.
دا د سوداګرۍ کړنو سره وصل کړئ: که چیرې ځمکنۍ بې ثباتي د یوې کرښې څخه ښکته شي، نو په اتوماتيک ډول سخت حالت یا انساني بیاکتنې ته لاړ شئ.
د نن ورځې د پیل لپاره یو ساده کتاب 🪄
-
دنده تعریف کړئ - یوه جمله ولیکئ: مصنوعي ذهانت باید څه وکړي او د چا لپاره.
-
د ۲-۳ کاري میټریکونو غوره کړئ - جمع کیلیبریشن او لږترلږه د انصاف یوه ټوټه. [2][3][5]
-
د لګښت په کارولو سره حدونه وټاکئ - اټکل مه کوئ.
-
د ارزونې یوه کوچنۍ سیټ جوړ کړئ - د ۱۰۰-۵۰۰ لیبل شوي مثالونه چې د تولید مخلوط منعکس کوي.
-
خپل ارزونې اتومات کړئ - د تار ارزونه/څارنه په CI کې وکړئ ترڅو هر بدلون ورته چکونه ترسره کړي.
-
په محصول کې څارنه - ډرافټ، ځنډ، لګښت، د پیښې بیرغونه.
-
د میاشتني ډول - د شاخه برۍ معیارونه بیاکتنه وکړئ چې هیڅوک یې نه کاروي؛ هغه اضافه کړئ چې اصلي پوښتنو ته ځواب ورکوي.
-
د اسنادو پریکړې - یو ژوندی سکور کارډ چې ستاسو ټیم یې په حقیقت کې لولي.
هو، په لفظي ډول همداسې ده. او دا کار کوي.
عام ګوتچا او څنګه یې مخنیوی وکړو 🕳️🐇
-
د یو واحد میټریک سره ډیر مناسب کول میټریک باسکیټ وکاروئ چې د پریکړې شرایطو سره سمون ولري. [1][2]
-
د کیلیبریشن له پامه غورځول - د کیلیبریشن پرته باور یوازې مغرور دی. [3]
-
هیڅ قطع کول نشته - تل د کارونکي ګروپونو، جغرافیې، وسیلې، ژبې له مخې ټوټه ټوټه کړئ. [5]
-
نا ټاکل شوي لګښتونه - که تاسو د غلطیو قیمت ونه ټاکئ، نو تاسو به غلط حد غوره کړئ.
-
د انسان د ارزونې جریان - د تړون اندازه کول، د قواعدو تازه کول، بیاکتونکي روزل.
-
د خوندیتوب وسایل نشته - انصاف، زهرجنتوب، او د پالیسۍ چکونه اوس اضافه کړئ، وروسته نه. [1][5]
هغه جمله چې تاسو یې لپاره راغلې: د مصنوعي ذهانت فعالیت څنګه اندازه کړو - ډیر اوږد، ما دا نه دی لوستلی 🧾
-
د روښانه پایلو سره پیل وکړئ ، بیا دنده ، سیسټم ، او د سوداګرۍ میټریکونه سټک کړئ. [1]
-
د دندې لپاره سم میټریکونه وکاروئ - د طبقه بندي لپاره F1 او ROC-AUC؛ د درجه بندي لپاره nDCG/MRR؛ د نسل لپاره اوورلیپ + سیمانټیک میټریکونه (د انسانانو سره جوړه شوې). [2][4]
-
محاسبه کړئ او خپلې تېروتنې د حدونو د ټاکلو لپاره قیمت کړئ. [2][3]
-
د انصاف اضافه کړئ او په واضح ډول د تبادلې اداره وکړئ. [5]
-
د ارزونې او څارنې اتومات کول ترڅو تاسو پرته له ویرې تکرار شئ.
تاسو پوهیږئ چې دا څنګه ده - هغه څه اندازه کړئ چې مهم دي، که نه نو تاسو به هغه څه ته وده ورکړئ چې مهم ندي.
ماخذونه
[1] NIST. د AI د خطر مدیریت چوکاټ (AI RMF). نور ولولئ
[2] scikit-learn. د ماډل ارزونه: د وړاندوینو کیفیت اندازه کول (د کارونکي لارښود). نور ولولئ
[3] scikit-learn. د احتمال کیلیبریشن (د کیلیبریشن منحني، د بریر سکور). نور ولولئ
[4] Papineni et al. (2002). BLEU: د ماشین ژباړې د اتوماتیک ارزونې لپاره یوه طریقه. ACL. نور ولولئ
[5] Hardt, Price, Srebro (2016). په نظارت شوي زده کړه کې د فرصت مساوات. NeurIPS. نور ولولئ