کله چې ډیری خلک "مصنوعي استخبارات" اوري، دوی د عصبي جالونو، خیالي الګوریتمونو، یا شاید هغه یو څه عجیب انسان نما روبوټونو تصور کوي. هغه څه چې په ندرت سره مخکې یادونه کیږي دا دي: AI ذخیره تقریبا په دومره لیوالتیا سره خوري لکه څنګه چې دا محاسبه کوي . او نه یوازې د ذخیره کولو شیانو ذخیره په خاموشۍ سره په شالید کې ناست دی، د هغه بې شرمه مګر په بشپړ ډول اړین کار کوي چې ماډلونو ته هغه معلومات ورکوي چې دوی ورته اړتیا لري.
راځئ چې هغه څه چې د مصنوعي ذخیرې لپاره د شیانو ذخیره کول خورا مهم کوي، دا څنګه د ذخیره کولو سیسټمونو "زاړه ساتونکي" څخه توپیر لري، او ولې دا د توزیع کولو او فعالیت لپاره یو له مهمو لیورونو څخه دی.
هغه مقالې چې تاسو یې له دې وروسته لوستل خوښولی شئ:
🔗 د سوداګرۍ لپاره د لوی پیمانه تولیدي AI کارولو لپاره باید کومې ټیکنالوژي شتون ولري؟
هغه کلیدي ټیکنالوژیو ته سوداګرۍ اړتیا لري ترڅو د تولیدي مصنوعي ذهانت په مؤثره توګه اندازه کړي.
🔗 د AI وسیلو لپاره د معلوماتو مدیریت چې تاسو یې باید وګورئ
د AI فعالیت غوره کولو لپاره د معلوماتو اداره کولو لپاره غوره طریقې.
🔗 د سوداګرۍ ستراتیژۍ لپاره د مصنوعي استخباراتو اغیزې
مصنوعي ذهانت څنګه د سوداګرۍ ستراتیژیو او اوږدمهاله پریکړې کولو باندې اغیزه کوي.
د مصنوعي ذخیرې لپاره د شیانو ذخیره کولو ټیک څه شی جوړوي؟ 🌟
لویه مفکوره: د شیانو ذخیره کول د فولډرونو یا سخت بلاک ترتیبونو سره ستونزه نلري. دا معلومات په "شیانو" ویشي، هر یو د میټاډاټا سره ټګ شوی. دا میټاډاټا د سیسټم کچې توکي (اندازه، د وخت سټمپونه، د ذخیره کولو ټولګي) او د کارونکي لخوا تعریف شوي کیلي: ارزښت ټګونه [1] کیدی شي. د دې په اړه د هر فایل په څیر فکر وکړئ چې د چپچینو نوټونو یوه ډله لري چې تاسو ته په سمه توګه وایی چې دا څه دي، دا څنګه رامینځته شوی، او ستاسو په پایپ لاین کې چیرته فټ کیږي.
د مصنوعي ذهانت ټیمونو لپاره، دا انعطاف د لوبې بدلونکی دی:
-
د میګرین پرته پیمانه - د معلوماتو لیکونه په پیټابایټونو کې غځیدلي، او د شیانو پلورنځي یې په اسانۍ سره اداره کوي. دوی د نږدې لامحدود ودې او څو-AZ پایښت لپاره ډیزاین شوي (ایمیزون S3 د "11 ناینونو" او د ډیفالټ له مخې د کراس زون نقل په اړه ویاړ کوي) [2].
-
د میټاډاټا بډایتوب - ګړندي لټونونه، پاک فلټرونه، او هوښیار پایپ لاینونه ځکه چې شرایط د هر شی سره یوځای سفر کوي [1].
-
کلاوډ-اصلي - معلومات د HTTP(S) له لارې راځي، پدې معنی چې تاسو کولی شئ پلونه موازي کړئ او توزیع شوي روزنه غږول وساتئ.
-
انعطاف منونکی - کله چې تاسو د ورځو لپاره تمرین کوئ، تاسو نشئ کولی د فاسد شارډ د وژلو خطر د epoch 12 په واسطه ولرئ. د شیانو ذخیره کول د ډیزاین له مخې د دې څخه مخنیوی کوي [2].
دا په اصل کې یو بې پایه کڅوړه ده: شاید دننه ګډوډ وي، مګر کله چې تاسو ورته لاس ورکړئ هرڅه لاهم د ترلاسه کولو وړ دي.
د مصنوعي ذخیرې لپاره د چټک پرتله کولو جدول 🗂️
| وسیله / خدمت | د (لیدونکو) لپاره غوره | د نرخ حد | ولې دا کار کوي (په حاشیو کې یادښتونه) |
|---|---|---|---|
| ایمیزون S3 | شرکتونه + کلاوډ-لومړی ټیمونه | د تګ په وخت کې پیسې ورکړئ | ډېر دوامدار، په سیمه ییزه کچه مقاومت لرونکی [2] |
| د ګوګل کلاوډ ذخیره | د معلوماتو ساینس پوهان او د ML پراختیا کونکي | انعطاف منونکي پوړونه | قوي ML ادغامونه، په بشپړ ډول کلاوډ-اصلي |
| د ازور بلاب ذخیره | د مایکروسافټ درانه دوکانونه | طبقه بندي (ګرم/سړه) | د Azure معلوماتو + ML وسیلو سره بې ساري |
| منیو | خلاصې سرچینې / DIY تنظیمات | وړیا/ځان کوربه | د S3 سره مطابقت لرونکی، سپک، هرچیرې ځای پر ځای کول 🚀 |
| د واسابي ګرم ورېځ | د لګښت حساس سازمانونه | د فلیټ نرخ ټیټ ډالر | د وتلو یا API غوښتنې فیس نشته (په هر پالیسۍ کې) [3] |
| د IBM کلاوډ آبجیکټ ذخیره | لوی شرکتونه | توپیر لري | د قوي تشبثي امنیتي انتخابونو سره بالغ سټیک |
تل د خپل حقیقي کارونې په پرتله د قیمتونو هوښیارتیا وګورئ - په ځانګړي توګه د وتلو، غوښتنې حجم، او د ذخیره کولو ټولګي مخلوط.
ولې د مصنوعي ذخیرې روزنه د شیانو ذخیره کول خوښوي 🧠
روزنه "یو څو فایلونه" نه دي. دا په ملیونونو او ملیونونو ریکارډونه دي چې په موازي ډول مات شوي دي. د هیرارکیکل فایل سیسټمونه د سخت همغږۍ لاندې بند پاتې کیږي. د شیانو ذخیره کول د فلیټ نوم ځایونو او پاک APIs سره دا له مینځه وړي. هر شی یو ځانګړی کیلي لري؛ کارګران په موازي ډول فین کوي او راوړي. لنډ شوي ډیټاسیټونه + موازي I/O = GPUs د انتظار کولو پرځای بوخت پاتې کیږي.
د خندقونو څخه لارښوونه: ګرمې ټوټې د کمپیوټ کلستر (ورته سیمه یا زون) ته نږدې وساتئ، او په SSD کې په شدت سره کیش کړئ. که تاسو GPUs ته نږدې مستقیم فیډونو ته اړتیا لرئ، نو د NVIDIA GPUDirect ذخیره د لیدلو وړ ده - دا د CPU باونس بفرونه کموي، ځنډ کموي، او بینډ ویت مستقیم سرعت کونکو ته پورته کوي [4].
میټاډاټا: کم ارزښته سوپر پاور 🪄
دلته هغه ځای دی چې د شیانو ذخیره په لږو څرګندو لارو کې ځلیږي. په اپلوډ کې، تاسو کولی شئ دودیز میټاډاټا (لکه x-amz-meta-… ). د مثال په توګه، د لید ډیټاسیټ کولی شي انځورونه د رڼا = ټیټ یا تور = لوړ چې د خامو فایلونو بیا سکین کولو پرته فلټر، توازن، یا سټراټیفی کړي [1].
نسخه ورکول هم شته . ډیری د شیانو پلورنځي د یو شی ډیری نسخې څنګ په څنګ ساتي - د بیا تولید وړ تجربو یا د حکومتدارۍ پالیسیو لپاره مناسب چې بیرته راستنیدو ته اړتیا لري [5].
د شیانو او بلاکونو ترمنځ د فایلونو ذخیره کول ⚔️
-
د بلاک ذخیره : د راکړې ورکړې ډیټابیسونو لپاره عالي - ګړندی او دقیق - مګر د پیټابایټ پیمانه غیر منظم معلوماتو لپاره خورا ګران دی.
-
د فایلونو ذخیره : پیژندل شوی، د POSIX سره دوستانه، مګر لارښودونه د لوی موازي بارونو لاندې بندیږي.
-
د شیانو ذخیره کول : د پیمانه، موازي کولو، او میټاډاټا پرمخ وړل شوي لاسرسي لپاره له پیل څخه ډیزاین شوی [1].
که تاسو یو بې خونده استعاره غواړئ: د بلاک ذخیره د فایل کولو کابینه ده، د فایل ذخیره د ډیسټاپ فولډر ده، او د شیانو ذخیره ... د چپچینې نوټونو سره یو بې پایه کنده ده چې په یو ډول یې د کارولو وړ ګرځوي.
د هایبرډ مصنوعي ذهانت کاري جریان 🔀
دا تل یوازې ورېځ نه وي. یو عام مخلوط داسې ښکاري:
-
د حساسو یا تنظیم شویو معلوماتو لپاره د پریم شیانو ذخیره
-
د برسټ کاري بارونو، تجربو، یا همکارۍ لپاره په کلاوډ کې د شیانو ذخیره کول
دا توازن لګښت، اطاعت او چټکتیا ته زیان رسوي. ما لیدلي چې ټیمونه په لفظي ډول د شپې لخوا ټیرابایټونه په S3 بالټ کې اچوي ترڅو د لنډمهاله GPU کلستر روښانه کړي - بیا دا ټول اټومي کړي کله چې سپرینټ پای ته ورسیږي. د سختو بودیجې لپاره، د واسابي فلیټ-ریټ/نه-اګریس ماډل [3] د ژوند وړاندوینې اسانه کوي.
هغه برخه چې هیڅوک پرې فخر نه کوي 😅
د واقعیت کتنه: دا بې عیبه نه ده.
-
ځنډ - کمپیوټر او ذخیره ډیر لرې کړئ او ستاسو GPUs کرول شي. GDS مرسته کوي، مګر معمارۍ لاهم مهمه ده [4].
-
د لګښت حیرانتیا - د وتلو او API غوښتنې لګښتونه په خلکو باندې پټ راځي. ځینې چمتو کونکي یې معاف کوي (واسابي کوي؛ نور یې نه کوي) [3].
-
په پیمانه د میټاډاټا ګډوډي - څوک په ټګونو او نسخو کې "حقیقت" تعریفوي؟ تاسو به قراردادونو، پالیسیو، او ځینې حکومتدارۍ عضلاتو ته اړتیا ولرئ [5].
د شیانو ذخیره کول د زیربناوو نلدوانۍ ده: مهمه ده، مګر زړه راښکونکې نه ده.
چیرته روان دی 🚀
-
هوښیار، د مصنوعي ذخیرې څخه خبر چې د SQL په څیر د پوښتنې پرتونو له لارې معلومات په اتوماتيک ډول ټګ کوي او افشا کوي [1].
-
د هارډویر نږدې ادغام (د DMA لارې، د NIC آفلوډونه) نو GPUs د I/O لوږې سره مخ نه دي [4].
-
شفاف، د وړاندوینې وړ نرخونه (ساده شوي ماډلونه، د وتلو فیسونه معاف شوي) [3].
خلک د مصنوعي ذهانت د راتلونکي په توګه د کمپیوټر په اړه خبرې کوي. خو په حقیقت کې؟ ستونزه دا ده چې د بودیجې له ضایع کیدو پرته په چټکۍ سره ماډلونو ته معلومات ورکړل شي . له همدې امله د شیانو د ذخیره کولو رول یوازې وده کوي.
لنډیز 📝
د شیانو ذخیره کول ځلیدونکي نه دي، مګر دا بنسټیز دي. د پیمانه وړ، میټاډاټا-پوهیدونکي، انعطاف منونکي ذخیره پرته، د لویو ماډلونو روزنه د سینڈلونو سره د میراتھن چلولو په څیر احساس کوي.
نو هو - GPUs مهم دي، چوکاټونه مهم دي. مګر که تاسو د AI په اړه جدي یاست، نو له پامه مه غورځوئ چې ستاسو معلومات چیرته ژوند کوي . احتمال شته چې د شیانو ذخیره کول دمخه په خاموشۍ سره ټول عملیات پرمخ وړي.
ماخذونه
[1] AWS S3 – د شیانو میټاډاټا - سیسټم او دودیز میټاډاټا
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html
[2] AWS S3 – د ذخیره کولو ټولګي - پایښت ("11 نو") + انعطاف
https://aws.amazon.com/s3/storage-classes/
[3] واسابي هاټ کلاوډ - نرخ - فلیټ نرخ، د وتلو/API فیس نشته
https://wasabi.com/pricing
[4] د NVIDIA GPUDirect ذخیره - Docs - GPUs ته د DMA لارې
https://docs.nvidia.com/gpudirect-storage/
[5] AWS S3 – نسخه کول - د حکومتدارۍ/تولید وړتیا لپاره څو نسخې
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html