لنډ ځواب: تعریف کړئ چې ستاسو د کارونې قضیې لپاره "ښه" څه ښکاري، بیا د نمایشي، نسخې شوي اشارو او څنډې قضیو سره ازموینه وکړئ. اتوماتیک میټریکونه د انساني روبریک سکور کولو سره یوځای کړئ، د مخالف خوندیتوب او سمدستي انجیکشن چیکونو سره یوځای. که چیرې لګښت یا ځنډ محدودیتونه اړین شي، ماډلونه د هر پونډ مصرف شوي دندې بریالیتوب او p95/p99 غبرګون وختونو سره پرتله کړئ.
مهم ټکي:
حساب ورکول : د واضح مالکینو ټاکل، د نسخې لاګونه ساتل، او د هر ډول پرامپټ یا ماډل بدلون وروسته ارزونې بیا پیلول.
شفافیت : د نمرو راټولولو پیل کولو دمخه د بریالیتوب معیارونه، محدودیتونه، او د ناکامۍ لګښتونه ولیکئ.
د پلټنې وړتیا : د تکرار وړ ازموینې سویټونه، لیبل شوي ډیټاسیټونه، او تعقیب شوي p95/p99 لیټینسي میټریکونه وساتئ.
د سیالۍ وړتیا : د جنجالي پایلو لپاره د انساني بیاکتنې روبریکونه او د اپیل تعریف شوې لاره وکاروئ.
د ناوړه ګټې اخیستنې مقاومت : د سره ټیم چټک انجیکشن، حساس موضوعات، او د کاروونکو د ساتنې لپاره له حده زیات انکار.
که تاسو د یو محصول، یوې څیړنې پروژې، یا حتی د یوې داخلي وسیلې لپاره ماډل غوره کوئ، تاسو نشئ کولی یوازې "دا هوښیار ښکاري" لاړ شئ او هغه یې واستوئ ( د OpenAI ارزونې لارښود او د NIST AI RMF 1.0 ). پدې توګه تاسو د چیټ بوټ سره پای ته رسیږئ چې په ډاډ سره تشریح کوي چې څنګه فورک مایکروویو کړئ. 😬

هغه مقالې چې تاسو یې له دې وروسته لوستل خوښولی شئ:
🔗 د مصنوعي ذهانت راتلونکی: هغه رجحانات چې راتلونکې لسیزه جوړوي.
مهم نوښتونه، د دندو اغیزې، او اخلاق چې باید په راتلونکي کې یې وګورو.
🔗 د جنراتور AI بنسټیز ماډلونه د پیل کونکو لپاره تشریح شوي
زده کړئ چې دوی څه دي، څومره روزل شوي، او ولې مهم دي.
🔗 څنګه AI چاپیریال او د انرژۍ کارول اغیزمن کوي
اخراج، د بریښنا تقاضا، او د فوټ پرینټ کمولو لارې چارې وپلټئ.
🔗 نن ورځ د تیزو انځورونو لپاره د AI لوړوالی څنګه کار کوي
وګورئ چې ماډلونه څنګه توضیحات اضافه کوي، شور لرې کوي، او په پاکه توګه لویوي.
۱) د "ښه" تعریف کول (دا پورې اړه لري، او دا سمه ده) 🎯
مخکې له دې چې تاسو کومه ارزونه ترسره کړئ، پریکړه وکړئ چې بریالیتوب څنګه ښکاري. که نه نو تاسو به هرڅه اندازه کړئ او هیڅ به زده نه کړئ. دا د کیک سیالۍ قضاوت کولو لپاره د ټیپ اندازه کولو په څیر دی. البته، تاسو به شمیرې ترلاسه کړئ، مګر دوی به تاسو ته ډیر څه ونه وايي 😅
واضح کړئ:
-
د کارونکي هدف : لنډیز، لټون، لیکنه، استدلال، د حقیقت استخراج
-
د ناکامۍ لګښت : د فلم غلط سپارښتنه مسخره ده؛ غلط طبي لارښوونه ... مسخره نه ده (د خطر چوکاټ: NIST AI RMF 1.0 ).
-
د چلولو وخت چاپیریال : په وسیله کې، په کلاوډ کې، د اور وژنې شاته، په منظم چاپیریال کې
-
لومړني محدودیتونه : ځنډ، د هرې غوښتنې لګښت، محرمیت، تشریح، څو ژبو ملاتړ، د غږ کنټرول
هغه ماډل چې په یوه دنده کې "غوره" وي په بل کار کې ناورین کیدی شي. دا تضاد نه دی، دا واقعیت دی. 🙂
۲) د مصنوعي ذهانت ماډل ارزونې چوکاټ څومره پیاوړی ښکاري 🧰
هو، دا هغه برخه ده چې خلک یې پریږدي. دوی یو بنچمارک نیسي، یو ځل یې چلوي، او یوه ورځ یې بولي. د ارزونې یو پیاوړی چوکاټ یو څو ثابت ځانګړتیاوې لري (د عملي وسیلو مثالونه: د OpenAI Evals / د OpenAI Evals لارښود ):
-
د تکرار وړ - تاسو کولی شئ دا راتلونکې اونۍ بیا پرمخ بوځئ او په پرتله کولو باور وکړئ
-
استازی - دا ستاسو اصلي کاروونکي او دندې منعکس کوي (نه یوازې لنډ معلومات)
-
څو پوړیزه - اتومات میټریکونه + د انسان بیاکتنه + د مخالفو ازموینو سره یوځای کوي
-
د عمل وړ - پایلې تاسو ته وایي چې څه باید حل کړئ، نه یوازې "نمره کمه شوه"
-
د لاسوهنې په وړاندې مقاومت لرونکی - د "ازموینې ته د تدریس" یا ناڅاپي لیکیدو مخه نیسي
-
د لګښت په اړه پوهاوی - ارزونه باید پخپله تاسو افلاس نه کړي (مګر که تاسو درد خوښوئ)
که ستاسو ارزونه د یو شکمن ټیم ملګري د خبرو سره مقاومت ونکړي چې وايي "ښه، مګر دا د تولید لپاره نقشه کړئ،" نو دا لا پای ته نه دی رسیدلی. دا د وایب چیک دی.
۳) د کارولو د قضیو د ټوټې په پیل کولو سره د AI ماډلونو ارزونه څنګه وکړو 🍰
دلته یو چل دی چې ډیر وخت خوندي کوي: د کارولو قضیه په ټوټو وویشئ .
د "ماډل ارزونه" پر ځای، دا کار وکړئ:
-
د ارادې پوهه (ایا دا هغه څه ترلاسه کوي چې کاروونکی یې غواړي)
-
ترلاسه کول یا د شرایطو کارول (ایا دا چمتو شوي معلومات په سمه توګه کاروي)
-
استدلال / څو مرحلې دندې (ایا دا په ټولو مرحلو کې همغږي پاتې کیږي)
-
بڼه ورکول او جوړښت (ایا دا لارښوونې تعقیبوي)
-
د خوندیتوب او پالیسۍ سمون (ایا دا د ناامنه محتوا څخه مخنیوی کوي؛ د NIST AI RMF 1.0 )
-
ټون او برانډ غږ (ایا دا داسې غږ کوي لکه تاسو چې غواړئ غږ یې کړئ)
دا د "د مصنوعي ذهانت ماډلونو ارزونه څنګه وکړو" د یوې لویې ازموینې په څیر لږ او د هدفمنو پوښتنو سیټ په څیر ډیر احساسوي. پوښتنې ځورونکې دي، مګر د مدیریت وړ دي. 😄
۴) د آفلاین ارزونې اساسات - د ازموینې سیټونه، لیبلونه، او هغه بې خونده توضیحات چې مهم دي 📦
آفلاین ایوال هغه ځای دی چې تاسو د کاروونکو لخوا د هر څه لمس کولو دمخه کنټرول شوي ازموینې ترسره کوئ (د کاري جریان نمونې: OpenAI ایوالز ).
د ازموینې سیټ جوړ کړئ یا راټول کړئ چې په ریښتیا ستاسو وي
د ازموینې یو ښه سیټ معمولا پدې کې شامل وي:
-
زرین مثالونه : مثالي محصولات چې تاسو به یې په ویاړ سره واستوئ
-
د څنډې قضیې : مبهم اشارې، ناپاکې ان پټې، ناڅاپي بڼه ورکول
-
د ناکامۍ حالت پروبونه : هغه هڅونې چې وهمي یا ناامنه ځوابونه هڅوي (د خطر ازموینې چوکاټ: NIST AI RMF 1.0 )
-
د تنوع پوښښ : د کاروونکو د مهارتونو مختلفې کچې، لهجې، ژبې، سیمې
که تاسو یوازې په "پاک" اشارو ازموینه وکړئ، ماډل به حیرانونکی ښکاري. بیا ستاسو کاروونکي د ټایپ کولو غلطیو، نیمه جملو، او د غضب کلیک انرژۍ سره ښکاره کیږي. حقیقت ته ښه راغلاست.
د لیبل کولو انتخابونه (چې د سختۍ کچه هم ورته ویل کیږي)
تاسو کولی شئ محصولات په لاندې ډول لیبل کړئ:
-
بائنري : پاس/ناکام (چټک، سخت)
-
عادي : ۱-۵ د کیفیت نمره (معمولي، موضوعي)
-
څو-ځانګړتیاوې : دقت، بشپړتیا، لهجه، د حوالې کارول، او نور (غوره، ورو)
څو-ځانګړتیاوې د ډیری ټیمونو لپاره خوږ ځای دی. دا د خوړو خوند اخیستلو او د جوړښت څخه جلا د مالګینې قضاوت کولو په څیر دی. که نه نو تاسو یوازې "ښه" ووایاست او اوږې پورته کړئ.
۵) هغه میټریکونه چې دروغ نه وایي - او هغه میټریکونه چې یو څه دروغ وایي 📊😅
میټریکونه ارزښتناک دي ... مګر دوی کولی شي یو ځلیدونکی بم هم وي. ځلیدونکی، هرچیرې، او پاکول یې ګران دي.
عام میټریک کورنۍ
-
دقت / دقیق مطابقت : د استخراج، طبقه بندي، او جوړښتي دندو لپاره غوره
-
F1 / precision / recall : د یو څه له لاسه ورکولو په وخت کې کار کول د اضافي شور څخه بدتر دي (تعریفونه: scikit-learn precision/recall/F-score )
-
د BLEU / ROUGE سټایل اوورلیپ : د لنډیز کولو په څیر دندو لپاره سمه ده، ډیری وختونه ګمراه کونکي (اصلي میټریکونه: BLEU او ROUGE )
-
د ورته والي ځای پر ځای کول : د سیمانټیک مطابقت لپاره ګټور، کولی شي غلط مګر ورته ځوابونه انعام ورکړي
-
د دندې د بریالیتوب کچه : "ایا کارونکي هغه څه ترلاسه کړل چې دوی ورته اړتیا درلوده" د سرو زرو معیار کله چې په ښه توګه تعریف شي
-
د محدودیت اطاعت : بڼه، اوږدوالی، د JSON اعتبار، د سکیما اطاعت تعقیبوي
مهم ټکی
که ستاسو دنده خلاصه وي (لیکل، استدلال، د ملاتړ خبرې اترې)، د واحد شمیرې میټریکونه کولی شي ... په ټپه ولاړ وي. بې معنی نه دي، یوازې په ټپه ولاړ دي. د یو خط سره د تخلیقیت اندازه کول ممکن دي، مګر تاسو به د دې کولو سره احمقانه احساس وکړئ. (همدارنګه تاسو به خپله سترګه وباسئ، شاید.)
نو: میټریکونه وکاروئ، مګر هغه د انسان بیاکتنې او اصلي دندې پایلو سره وتړئ (د LLM پر بنسټ د ارزونې بحث + احتیاطونو یوه بیلګه: G-Eval ).
۶) د پرتله کولو جدول - د ارزونې غوره انتخابونه (د ځانګړتیاوو سره، ځکه چې ژوند ځانګړتیاوې لري) 🧾✨
دلته د ارزونې د طریقو عملي مینو ده. مخلوط او مطابقت. ډیری ټیمونه دا کار کوي.
| وسیله / طریقه | اورېدونکي | د بیې | ولې دا کار کوي |
|---|---|---|---|
| په لاس جوړ شوی د چټک ازموینې سویټ | محصول + انګلیسي | $ | ډېر هدفمند، د ریګریشنونو چټک نیول - مګر تاسو باید دا د تل لپاره وساتئ 🙃 (د پیل کولو وسیله: OpenAI Evals ) |
| د انسان روبریک نمرې ورکولو پینل | هغه ټیمونه چې کتونکي معاف کولی شي | $$ | د غږ، لنډوالي لپاره غوره، "ایا یو انسان به دا ومني"، د بیاکتونکو پورې اړه لري یو څه ګډوډي |
| د قاضي په توګه د لیسانس سند (د جدولونو سره) | د چټک تکرار لوپونه | $-$$ | چټک او د اندازې وړ، خو تعصب میراث کولی شي او ځینې وختونه د حقایقو پر ځای احساسات درجه بندي کوي (څیړنه + د تعصب پیژندل شوې مسلې: G-Eval ) |
| د مخالفو سره ټیمونو ترمنځ سپرنټ | خوندیتوب + اطاعت | $$ | د مسالې ناکامۍ طریقې موندل کیږي، په ځانګړې توګه د چټک انجیکشن - په جم کې د فشار ازموینې په څیر احساس کوي (د ګواښ عمومي کتنه: OWASP LLM01 چټک انجیکشن / د LLM ایپسونو لپاره OWASP غوره 10 ) |
| د مصنوعي ازموینې نسل | د معلوماتو رڼا ټیمونه | $ | ښه پوښښ، خو مصنوعي اشارې ډېرې ښې او ډېرې مهربانې کېدای شي... کاروونکي ډېر مهربان نه دي |
| د اصلي کاروونکو سره د A/B ازموینه | پاخه شوي محصولات | $$$ | تر ټولو روښانه سیګنال - همدارنګه تر ټولو احساساتي فشار لرونکی کله چې میټریکونه بدلیږي (کلاسیک عملي لارښود: کوهاوي او نور، "په ویب کې کنټرول شوي تجربې" ) |
| د ترلاسه کولو پر بنسټ ارزونه (RAG چکونه) | لټون + د کیفیت ډاډ ایپسونه | $$ | اقدامات "په سمه توګه شرایط کاروي،" د وهم د سکور انفلاسیون کموي (د RAG ارزونه: د RAG ارزونه: یوه سروې ) |
| څارنه + د څپو کشف | د تولید سیسټمونه | $$-$$$ | د وخت په تیریدو سره تخریب نیسي - تر هغه ورځې پورې چې تاسو وژغوري بې ساري 😬 (د ډرافټ عمومي کتنه: د مفهوم ډرافټ سروې (PMC) ) |
پام وکړئ چې نرخونه په قصدي ډول ټیټ دي. دوی په پیمانه، وسایلو، او څومره غونډې چې تاسو په ناڅاپي ډول رامینځته کوئ پورې اړه لري.
۷) د انسان ارزونه - هغه پټه وسله چې خلک یې کم تمویل کوي 👀🧑⚖️
که تاسو یوازې اتومات ارزونه ترسره کوئ، نو تاسو به له لاسه ورکړئ:
-
د غږ بې اتفاقي ("ولې دومره بې خونده ده")
-
دقیقې او څرګندې غلطۍ چې روانې ښکاري
-
زیانمنونکي اغیزې، سټیریوټایپونه، یا نا آرامه جملې (د خطر + تعصب چوکاټ: NIST AI RMF 1.0 )
-
د لارښوونې وروسته ناکامۍ چې لاهم "هوښیار" ښکاري
د روبریکونو کانکریټ جوړ کړئ (یا بیاکتونکي به فری سټایل وکړي)
خراب سرلیک: "مرسته کول"
غوره سرلیک:
-
دقت : د اشارې + شرایطو په پام کې نیولو سره په واقعیت کې دقیق
-
بشپړتیا : اړین ټکي پرته له ځنډه پوښي
-
وضاحت : د لوستلو وړ، جوړښت لرونکی، لږترلږه ګډوډي
-
پالیسي / خوندیتوب : د محدود شوي مینځپانګې څخه مخنیوی کوي، د ردولو سره ښه چلند کوي (د خوندیتوب چوکاټ: NIST AI RMF 1.0 )
-
سټایل : د غږ، ټون، د لوستلو کچې سره سمون خوري
-
وفاداري : هغه سرچینې یا ادعاوې نه ایجادوي چې ملاتړ یې نه کیږي
همدارنګه، کله ناکله د انټر-ریټر چکونه وکړئ. که دوه بیاکتونکي په دوامداره توګه اختلاف ولري، دا د "خلکو ستونزه" نه ده، دا د روبریک ستونزه ده. معمولا (د انټر-ریټر اعتبار اساسات: مک هیوګ د کوهن کاپا په اړه ).
۸) د خوندیتوب، پیاوړتیا، او "اوف، کاروونکو" لپاره د AI ماډلونو ارزونه څنګه وکړو 🧯🧪
دا هغه برخه ده چې تاسو یې د پیل کولو دمخه کوئ - او بیا یې ترسره کولو ته دوام ورکړئ، ځکه چې انټرنیټ هیڅکله خوب نه کوي.
د ټینګښت ازموینې شاملې دي
-
ټایپو، ناروا خبرې، مات شوی ګرامر
-
ډېرې اوږدې او ډېرې لنډې لارښوونې
-
متضاد لارښوونې ("لنډې وي مګر هر تفصیل پکې شامل وي")
-
څو اړخیزې خبرې اترې چیرې چې کاروونکي اهداف بدلوي
-
د انجیکشن سمدستي هڅې ("مخکیني مقررات له پامه غورځوئ...") (د ګواښ توضیحات: OWASP LLM01 پرامپټ انجیکشن )
-
حساس موضوعات چې په احتیاط سره ردولو ته اړتیا لري (د خطر/خوندیتوب چوکاټ: NIST AI RMF 1.0 )
د خوندیتوب ارزونه یوازې "دا ردوي" نه ده
یو ښه ماډل باید:
-
ناامنه غوښتنې په واضح او ارام ډول رد کړئ (د لارښوونې چوکاټ: NIST AI RMF 1.0 )
-
کله چې مناسب وي خوندي بدیلونه وړاندې کړئ
-
د بې ضرره پوښتنو (غلط مثبت) څخه د ډیر انکار کولو څخه ډډه وکړئ
-
د وضاحتي پوښتنو سره مبهم غوښتنې حل کړئ (کله چې اجازه ورکړل شي)
له حده زیات انکار د محصول یوه اصلي ستونزه ده. کاروونکي نه خوښوي چې د شکمنو ګوبلینونو په څیر چلند ورسره وشي. 🧌 (حتی که دوی شکمن ګوبلینونه هم وي.)
۹) لګښت، ځنډ، او عملیاتي واقعیت - هغه ارزونه چې هرڅوک یې هېروي 💸⏱️
یو ماډل "حیرانونکی" کیدی شي او بیا هم ستاسو لپاره غلط وي که چیرې دا ورو، ګران، یا د عملیاتي پلوه نازک وي.
ارزونه:
-
د ځنډ ویش (یوازې اوسط نه - p95 او p99 مهم دي) (ولې سلنه مهمه ده: د څارنې په اړه د ګوګل SRE کاري کتاب )
-
د هر بریالي کار لګښت (په جلا توګه د هر ټوکن لګښت نه)
-
د بار لاندې ثبات (وخت پای، د نرخ محدودیتونه، غیر معمولي لوړوالی)
-
د وسیلې زنګ وهلو اعتبار (که چیرې دا دندې کاروي، ایا دا چلند کوي)
-
د محصول اوږدوالي تمایلات (ځینې ماډلونه په اسانۍ سره ګرځي، او په اسانۍ سره ګرځي پیسې مصرفوي)
یو څه بد ماډل چې دوه چنده ګړندی دی په عمل کې ګټلی شي. دا څرګند ښکاري، خو خلک یې له پامه غورځوي. لکه د خوراکي توکو د چلولو لپاره د سپورت موټر اخیستل، بیا د موټر د ځای په اړه شکایت کول.
۱۰) یو ساده له پیل څخه تر پایه کاري جریان چې تاسو یې کاپي کولی شئ (او ټیک کولی شئ) 🔁✅
د بې پایه تجربو کې له بند پاتې کیدو پرته د مصنوعي ذهانت ماډلونو د ارزونې لپاره عملي جریان دی
-
بریالیتوب تعریف کړئ : دنده، محدودیتونه، د ناکامۍ لګښتونه
-
د "اصلي" ازموینې یو کوچنی سیټ جوړ کړئ : 50-200 مثالونه چې اصلي کارونې منعکس کوي
-
د څنډې او مخالف سیټونه اضافه کړئ : د انجیکشن هڅې، مبهم اشارې، د خوندیتوب پروبونه (د سمدستي انجیکشن ټولګي: OWASP LLM01 )
-
اتوماتیک چکونه پرمخ وړئ : فارمیټ کول، د JSON اعتبار، چیرې چې امکان ولري اساسي درستیت
-
د انسان بیاکتنه پرمخ وړئ : د کټګوریو په اوږدو کې د نمونې پایلې، د روبریک سره نمره
-
د متقابلو ګټو پرتله کول : کیفیت د لګښت په وړاندې د ځنډ په وړاندې د خوندیتوب په وړاندې
-
په محدود ډول خپرېږي : د A/B ازموینې یا مرحله اییز رول آوټ (د A/B ازموینې لارښود: کوهاوي او نور. )
-
په تولید کې څارنه : ډرافټ، ریګریشنونه، د کارونکي فیډبیک لوپس (ډرافټ عمومي کتنه: د مفهوم ډرافټ سروې (PMC) )
-
تکرار : د تازه کولو اشارې، بیرته ترلاسه کول، ښه تنظیم کول، ساتونکي پټلۍ، بیا د eval بیا چلول (د eval تکرار نمونې: د OpenAI evals لارښود )
نسخې شوي لاګونه وساتئ. د دې لپاره نه چې دا ساتیري وي، مګر د دې لپاره چې په راتلونکي کې - تاسو به د قهوې په نیولو او د "څه بدلون راغلی ..." په غږولو سره مننه وکړئ ☕🙂
۱۱) عامې ستونزې (چې عبارت دي له: هغه لارې چې خلک په ناڅاپي ډول ځانونه غولوي) 🪤
-
د ازموینې لپاره روزنه : تاسو اشارې غوره کوئ تر هغه چې بنچمارک ښه ښکاري، مګر کاروونکي زیانمن کیږي
-
د ارزونې معلومات لیک شوي : د ازموینې اشارې په روزنه یا د معلوماتو ښه کولو کې څرګندیږي (اوپس)
-
یو واحد میټریک عبادت : د یوې نمرې تعقیب کول چې د کارونکي ارزښت نه منعکس کوي
-
د ویش بدلون له پامه غورځول : د کارونکي چلند بدلیږي او ستاسو ماډل په خاموشۍ سره خرابیږي (د تولید خطر چوکاټ: د مفهوم ډرافټ سروې (PMC) )
-
په "هوښیارۍ" باندې ډیر شاخص ورکول : هوښیار استدلال مهمه نده که دا فارمیټ ماتوي یا حقایق اختراع کوي
-
د ردولو کیفیت نه ازمول : "نه" سم کیدی شي مګر بیا هم ناوړه UX
همدارنګه، د ډیموګانو څخه محتاط اوسئ. ډیموګانې د فلم ټریلرونو په څیر دي. دوی مهم ټکي ښیې، ورو برخې پټوي، او کله ناکله د ډراماتیک موسیقۍ سره دروغ وايي. 🎬
۱۲) د مصنوعي ذهانت ماډلونو د ارزونې په اړه وروستۍ لنډیز 🧠✨
د مصنوعي ذهانت ماډلونو ارزونه یوه نمره نه ده، دا یو متوازن خواړه دي. تاسو پروټین (سموالی)، سبزیجات (خوندیتوب)، کاربوهایډریټ (سرعت او لګښت)، او هو، ځینې وختونه خواږه (ټون او خوند) ته اړتیا لرئ 🍲🍰 (د خطر چوکاټ: NIST AI RMF 1.0 )
که تاسو نور هیڅ نه په یاد ولرئ:
-
تعریف کړئ چې ستاسو د کارونې قضیې لپاره "ښه" څه معنی لري
-
د ازموینې نمایشي سیټونه وکاروئ، نه یوازې مشهور معیارونه
-
اتومات شوي میټریکونه د انساني روبریک بیاکتنې سره یوځای کړئ
-
د ازموینې پیاوړتیا او خوندیتوب لکه کاروونکي مخالف دي (ځکه چې ځینې وختونه ... دوی دي) (د سمدستي انجیکشن ټولګي: OWASP LLM01 )
-
په ارزونه کې لګښت او ځنډ شامل کړئ، نه د وروسته فکر په توګه (ولې سلنه مهمه ده: د ګوګل SRE کاري کتاب )
-
د لانچ وروسته څارنه - ماډلونه ډرافټ کیږي، ایپسونه وده کوي، انسانان تخلیقي کیږي (د ډرافټ عمومي کتنه: د مفهوم ډرافټ سروې (PMC) )
دا د مصنوعي ذهانت ماډلونو ارزونه په داسې ډول ده چې کله ستاسو محصول ژوندی وي او خلک د خلکو لپاره غیر متوقع کارونه پیل کړي نو دوام وکړي. کوم چې تل وي. 🙂
پرله پسې پوښتنې
د یو ریښتیني محصول لپاره د مصنوعي ذهانت ماډلونو ارزولو لپاره لومړی ګام څه دی؟
د خپل ځانګړي کارونې قضیې لپاره د "ښه" معنی تعریفولو سره پیل وکړئ. د کارونکي هدف تشریح کړئ، کوم ناکامۍ تاسو ته لګښت لري (ټیټ سټیکونه د لوړ سټیکونو په مقابل کې)، او چیرې چې ماډل به پرمخ ځي (کلاوډ، په وسیله، تنظیم شوی چاپیریال). بیا سخت محدودیتونه لکه ځنډ، لګښت، محرمیت، او د غږ کنټرول لیست کړئ. د دې بنسټ پرته، تاسو به ډیر څه اندازه کړئ او بیا هم به بد پریکړه وکړئ.
څنګه کولی شم د ازموینې سیټ جوړ کړم چې په ریښتیا سره زما کاروونکي منعکس کړي؟
د ازموینې داسې سیټ جوړ کړئ چې په ریښتیا ستاسو وي، نه یوازې یو عامه معیار. هغه طلايي مثالونه شامل کړئ چې تاسو به یې په ویاړ سره واستوئ، سربیره پردې شورماشور، په وحشي ډول وړاندیزونه د ټایپونو، نیمه جملو، او مبهم غوښتنو سره. د کنډک قضیې او د ناکامۍ حالت پروبونه اضافه کړئ چې وهم یا غیر خوندي ځوابونه هڅوي. د مهارت کچې، لهجو، ژبو او ډومینونو کې تنوع پوښئ ترڅو پایلې په تولید کې سقوط ونه کړي.
کوم معیارونه باید وکاروم، او کوم یې ګمراه کوونکي کیدی شي؟
میټریکونه د دندې ډول سره پرتله کړئ. دقیق میچ او دقت د استخراج او جوړښتي پایلو لپاره ښه کار کوي، پداسې حال کې چې دقیقیت/یادونه او F1 د یو څه له لاسه ورکولو په وخت کې مرسته کوي د اضافي شور څخه بدتر دي. د BLEU/ROUGE په څیر اوورلیپ میټریکونه کولی شي د خلاص پای کارونو لپاره ګمراه کړي، او ورته والی ځای په ځای کول کولی شي "غلط مګر ورته" ځوابونه انعام ورکړي. د لیکلو، ملاتړ، یا استدلال لپاره، میټریکونه د انساني بیاکتنې او د دندې بریالیتوب نرخونو سره یوځای کړئ.
زه باید ارزونې څنګه داسې تنظیم کړم چې تکراري او د تولید درجې وي؟
د ارزونې یو پیاوړی چوکاټ د تکرار وړ، استازیتوب کوونکی، څو پوړیز او د عمل وړ دی. اتومات شوي چکونه (بڼه، د JSON اعتبار، اساسي سموالی) د انساني روبریک سکور کولو او مخالف ازموینو سره یوځای کړئ. د لیکیدو څخه مخنیوي او "ازموینې ته درس ورکولو" سره یې د لاسوهنې مقاومت وکړئ. د ارزونې لګښت څخه خبر اوسئ ترڅو تاسو وکولی شئ دا په مکرر ډول بیا پیل کړئ، نه یوازې د پیل کولو دمخه یو ځل.
د انسان د ارزونې غوره لاره څه ده پرته له دې چې ګډوډي رامینځته شي؟
یو مشخص روبریک وکاروئ ترڅو بیاکتونکي په آزاده توګه کار ونکړي. د نمره ورکولو ځانګړتیاوې لکه سموالی، بشپړتیا، وضاحت، خوندیتوب/پالیسۍ اداره کول، سټایل/غږ مطابقت، او وفاداري (د ادعاوو یا سرچینو اختراع نه کول). په دوره یي ډول د بین النظري تړون وګورئ؛ که بیاکتونکي په دوامداره توګه موافق نه وي، روبریک احتمال لري چې اصلاح ته اړتیا ولري. انساني بیاکتنه په ځانګړي ډول د ټون نا مطابقت، دقیقو واقعیتي غلطیو، او د لارښوونې تعقیب ناکامیو لپاره ارزښتناکه ده.
زه څنګه د خوندیتوب، پیاوړتیا، او د چټک انجیکشن خطرونه ارزولی شم؟
د "اف، کاروونکو" معلوماتو سره ازموینه وکړئ: ټایپونه، سلیګ، متضاد لارښوونې، ډیر اوږد یا ډیر لنډ اشارې، او د څو ځله هدف بدلونونه. د سمدستي انجیکشن هڅې لکه "مخکیني قواعد له پامه غورځول" او حساس موضوعات شامل کړئ چې محتاط ردولو ته اړتیا لري. د خوندیتوب ښه فعالیت یوازې رد کول ندي - دا په څرګنده توګه رد کول دي، کله چې مناسب وي خوندي بدیلونه وړاندې کوي، او د بې ضرره پوښتنو څخه د ډیر انکار کولو څخه ډډه کول چې UX ته زیان رسوي.
زه څنګه لګښت او ځنډ په داسې ډول ارزولی شم چې له واقعیت سره سمون ولري؟
یوازې اوسط مه اندازه کوئ - د ځنډ ویش تعقیب کړئ، په ځانګړې توګه p95 او p99. د هر بریالي کار لګښت ارزونه وکړئ، نه د هر ټوکن لګښت په جلا توګه، ځکه چې بیا هڅې او د رامبلینګ محصولات کولی شي سپما له منځه یوسي. د بار لاندې ثبات ازموینه وکړئ (وخت پای، د نرخ محدودیتونه، سپکونه) او د وسیلې/فعالیت زنګ وهلو اعتبار. یو څه بد ماډل چې دوه چنده ګړندی یا ډیر مستحکم وي د محصول غوره انتخاب کیدی شي.
د مصنوعي ذهانت ماډلونو د ارزونې لپاره یو ساده او له پیل څخه تر پایه کاري جریان څه شی دی؟
د بریالیتوب معیارونه او محدودیتونه تعریف کړئ، بیا د یوې کوچنۍ اصلي ازموینې سیټ جوړ کړئ (نږدې 50-200 مثالونه) چې د ریښتینې کارونې منعکس کوي. د خوندیتوب او انجیکشن هڅو لپاره د څنډې او مخالف سیټونه اضافه کړئ. اتوماتیک چیکونه چل کړئ، بیا د انساني روبریک سکور کولو لپاره نمونې پایلې. د کیفیت او لګښت او ځنډ او خوندیتوب پرتله کړئ، د محدود رول آوټ یا A/B ازموینې سره پیلوټ، او د ډریفټ او ریګریشن لپاره په تولید کې څارنه وکړئ.
د ماډل ارزونې په برخه کې ټیمونه په ناڅاپي ډول ځانونه غولوي، کومې عامې لارې دي؟
عام جالونه د هغو بنچمارکونو د غوره کولو لپاره د هڅونې اصلاح کول دي پداسې حال کې چې کاروونکي رنځ وړي، د ارزونې هڅونې په روزنه یا د معلوماتو ښه کولو کې لیک کول، او د یو واحد میټریک عبادت کول چې د کاروونکي ارزښت نه منعکس کوي. ټیمونه د توزیع بدلون هم له پامه غورځوي، د فارمیټ اطاعت او وفادارۍ پرځای په "هوښیارتیا" باندې ډیر شاخص لري، او د رد کیفیت ازموینې پریږدي. ډیمو کولی شي دا مسلې پټې کړي، نو په جوړښتي ارزونو تکیه وکړي، نه د ریلونو روښانه کول.
ماخذونه
-
OpenAI - د OpenAI ارزونې لارښود - platform.openai.com
-
د معیارونو او ټیکنالوژۍ ملي انسټیټیوټ (NIST) - د AI د خطر مدیریت چوکاټ (AI RMF 1.0) - nist.gov
-
اوپن ای آی - اوپن ای/ایوالز (ګیټ هب ذخیره) - github.com
-
سایکیټ-زده کړه - precision_recall_fscore_support - scikit-learn.org
-
د کمپیوټري ژبپوهنې ټولنه (ACL انټولوژي) - BLEU - aclanthology.org
-
د محاسبوي ژبپوهنې ټولنه (ACL انټولوژي) - ROUGE - aclanthology.org
-
arXiv - جي-ایوال - arxiv.org
-
OWASP - LLM01: پرامپټ انجیکشن - owasp.org
-
OWASP - د لویو ژبو ماډل غوښتنلیکونو لپاره OWASP غوره 10 - owasp.org
-
د سټینفورډ پوهنتون - کوهاوي او نور، "په ویب کې کنټرول شوي تجربې" - stanford.edu
-
arXiv - د RAG ارزونه: یوه سروې - arxiv.org
-
پب مېډ سنټرل (PMC) - د مفهوم ډرافټ سروې (PMC) - nih.gov
-
پب میډ سنټرل (PMC) - مک هیو د کوهن په کاپا - nih.gov
-
ګوګل - د څارنې په اړه د SRE کاري کتاب - google.workbook