د مصنوعي ذخیرې لپاره د شیانو ذخیره کول: انتخابونه، انتخابونه، انتخابونه

د مصنوعي ذخیرې لپاره د شیانو ذخیره کول: انتخابونه، انتخابونه، انتخابونه

کله چې ډیری خلک "مصنوعي استخبارات" اوري، دوی د عصبي جالونو، خیالي الګوریتمونو، یا شاید هغه یو څه عجیب انسان نما روبوټونو تصور کوي. هغه څه چې په ندرت سره مخکې یادونه کیږي دا دي: AI ذخیره تقریبا په دومره لیوالتیا سره خوري لکه څنګه چې دا محاسبه کوي . او نه یوازې د ذخیره کولو شیانو ذخیره په خاموشۍ سره په شالید کې ناست دی، د هغه بې شرمه مګر په بشپړ ډول اړین کار کوي چې ماډلونو ته هغه معلومات ورکوي چې دوی ورته اړتیا لري.

راځئ چې هغه څه چې د مصنوعي ذخیرې لپاره د شیانو ذخیره کول خورا مهم کوي، دا څنګه د ذخیره کولو سیسټمونو "زاړه ساتونکي" څخه توپیر لري، او ولې دا د توزیع کولو او فعالیت لپاره یو له مهمو لیورونو څخه دی.

هغه مقالې چې تاسو یې له دې وروسته لوستل خوښولی شئ:

🔗 د سوداګرۍ لپاره د لوی پیمانه تولیدي AI کارولو لپاره باید کومې ټیکنالوژي شتون ولري؟
هغه کلیدي ټیکنالوژیو ته سوداګرۍ اړتیا لري ترڅو د تولیدي مصنوعي ذهانت په مؤثره توګه اندازه کړي.

🔗 د AI وسیلو لپاره د معلوماتو مدیریت چې تاسو یې باید وګورئ
د AI فعالیت غوره کولو لپاره د معلوماتو اداره کولو لپاره غوره طریقې.

🔗 د سوداګرۍ ستراتیژۍ لپاره د مصنوعي استخباراتو اغیزې
مصنوعي ذهانت څنګه د سوداګرۍ ستراتیژیو او اوږدمهاله پریکړې کولو باندې اغیزه کوي.


د مصنوعي ذخیرې لپاره د شیانو ذخیره کولو ټیک څه شی جوړوي؟ 🌟

لویه مفکوره: د شیانو ذخیره کول د فولډرونو یا سخت بلاک ترتیبونو سره ستونزه نلري. دا معلومات په "شیانو" ویشي، هر یو د میټاډاټا سره ټګ شوی. دا میټاډاټا د سیسټم کچې توکي (اندازه، د وخت سټمپونه، د ذخیره کولو ټولګي) او د کارونکي لخوا تعریف شوي کیلي: ارزښت ټګونه [1] کیدی شي. د دې په اړه د هر فایل په څیر فکر وکړئ چې د چپچینو نوټونو یوه ډله لري چې تاسو ته په سمه توګه وایی چې دا څه دي، دا څنګه رامینځته شوی، او ستاسو په پایپ لاین کې چیرته فټ کیږي.

د مصنوعي ذهانت ټیمونو لپاره، دا انعطاف د لوبې بدلونکی دی:

  • د میګرین پرته پیمانه - د معلوماتو لیکونه په پیټابایټونو کې غځیدلي، او د شیانو پلورنځي یې په اسانۍ سره اداره کوي. دوی د نږدې لامحدود ودې او څو-AZ پایښت لپاره ډیزاین شوي (ایمیزون S3 د "11 ناینونو" او د ډیفالټ له مخې د کراس زون نقل په اړه ویاړ کوي) [2].

  • د میټاډاټا بډایتوب - ګړندي لټونونه، پاک فلټرونه، او هوښیار پایپ لاینونه ځکه چې شرایط د هر شی سره یوځای سفر کوي [1].

  • کلاوډ-اصلي - معلومات د HTTP(S) له لارې راځي، پدې معنی چې تاسو کولی شئ پلونه موازي کړئ او توزیع شوي روزنه غږول وساتئ.

  • انعطاف منونکی - کله چې تاسو د ورځو لپاره تمرین کوئ، تاسو نشئ کولی د فاسد شارډ د وژلو خطر د epoch 12 په واسطه ولرئ. د شیانو ذخیره کول د ډیزاین له مخې د دې څخه مخنیوی کوي [2].

دا په اصل کې یو بې پایه کڅوړه ده: شاید دننه ګډوډ وي، مګر کله چې تاسو ورته لاس ورکړئ هرڅه لاهم د ترلاسه کولو وړ دي.


د مصنوعي ذخیرې لپاره د چټک پرتله کولو جدول 🗂️

وسیله / خدمت د (لیدونکو) لپاره غوره د نرخ حد ولې دا کار کوي (په حاشیو کې یادښتونه)
ایمیزون S3 شرکتونه + کلاوډ-لومړی ټیمونه د تګ په وخت کې پیسې ورکړئ ډېر دوامدار، په سیمه ییزه کچه مقاومت لرونکی [2]
د ګوګل کلاوډ ذخیره د معلوماتو ساینس پوهان او د ML پراختیا کونکي انعطاف منونکي پوړونه قوي ML ادغامونه، په بشپړ ډول کلاوډ-اصلي
د ازور بلاب ذخیره د مایکروسافټ درانه دوکانونه طبقه بندي (ګرم/سړه) د Azure معلوماتو + ML وسیلو سره بې ساري
منیو خلاصې سرچینې / DIY تنظیمات وړیا/ځان کوربه د S3 سره مطابقت لرونکی، سپک، هرچیرې ځای پر ځای کول 🚀
د واسابي ګرم ورېځ د لګښت حساس سازمانونه د فلیټ نرخ ټیټ ډالر د وتلو یا API غوښتنې فیس نشته (په هر پالیسۍ کې) [3]
د IBM کلاوډ آبجیکټ ذخیره لوی شرکتونه توپیر لري د قوي تشبثي امنیتي انتخابونو سره بالغ سټیک

تل د خپل حقیقي کارونې په پرتله د قیمتونو هوښیارتیا وګورئ - په ځانګړي توګه د وتلو، غوښتنې حجم، او د ذخیره کولو ټولګي مخلوط.


ولې د مصنوعي ذخیرې روزنه د شیانو ذخیره کول خوښوي 🧠

روزنه "یو څو فایلونه" نه دي. دا په ملیونونو او ملیونونو ریکارډونه دي چې په موازي ډول مات شوي دي. د هیرارکیکل فایل سیسټمونه د سخت همغږۍ لاندې بند پاتې کیږي. د شیانو ذخیره کول د فلیټ نوم ځایونو او پاک APIs سره دا له مینځه وړي. هر شی یو ځانګړی کیلي لري؛ کارګران په موازي ډول فین کوي ​​او راوړي. لنډ شوي ډیټاسیټونه + موازي I/O = GPUs د انتظار کولو پرځای بوخت پاتې کیږي.

د خندقونو څخه لارښوونه: ګرمې ټوټې د کمپیوټ کلستر (ورته سیمه یا زون) ته نږدې وساتئ، او په SSD کې په شدت سره کیش کړئ. که تاسو GPUs ته نږدې مستقیم فیډونو ته اړتیا لرئ، نو د NVIDIA GPUDirect ذخیره د لیدلو وړ ده - دا د CPU باونس بفرونه کموي، ځنډ کموي، او بینډ ویت مستقیم سرعت کونکو ته پورته کوي [4].


میټاډاټا: کم ارزښته سوپر پاور 🪄

دلته هغه ځای دی چې د شیانو ذخیره په لږو څرګندو لارو کې ځلیږي. په اپلوډ کې، تاسو کولی شئ دودیز میټاډاټا (لکه x-amz-meta-… ). د مثال په توګه، د لید ډیټاسیټ کولی شي انځورونه د رڼا = ټیټ یا تور = لوړ چې د خامو فایلونو بیا سکین کولو پرته فلټر، توازن، یا سټراټیفی کړي [1].

نسخه ورکول هم شته . ډیری د شیانو پلورنځي د یو شی ډیری نسخې څنګ په څنګ ساتي - د بیا تولید وړ تجربو یا د حکومتدارۍ پالیسیو لپاره مناسب چې بیرته راستنیدو ته اړتیا لري [5].


د شیانو او بلاکونو ترمنځ د فایلونو ذخیره کول ⚔️

  • د بلاک ذخیره : د راکړې ورکړې ډیټابیسونو لپاره عالي - ګړندی او دقیق - مګر د پیټابایټ پیمانه غیر منظم معلوماتو لپاره خورا ګران دی.

  • د فایلونو ذخیره : پیژندل شوی، د POSIX سره دوستانه، مګر لارښودونه د لوی موازي بارونو لاندې بندیږي.

  • د شیانو ذخیره کول : د پیمانه، موازي کولو، او میټاډاټا پرمخ وړل شوي لاسرسي لپاره له پیل څخه ډیزاین شوی [1].

که تاسو یو بې خونده استعاره غواړئ: د بلاک ذخیره د فایل کولو کابینه ده، د فایل ذخیره د ډیسټاپ فولډر ده، او د شیانو ذخیره ... د چپچینې نوټونو سره یو بې پایه کنده ده چې په یو ډول یې د کارولو وړ ګرځوي.


د هایبرډ مصنوعي ذهانت کاري جریان 🔀

دا تل یوازې ورېځ نه وي. یو عام مخلوط داسې ښکاري:

  • د حساسو یا تنظیم شویو معلوماتو لپاره د پریم شیانو ذخیره

  • د برسټ کاري بارونو، تجربو، یا همکارۍ لپاره په کلاوډ کې د شیانو ذخیره کول

دا توازن لګښت، اطاعت او چټکتیا ته زیان رسوي. ما لیدلي چې ټیمونه په لفظي ډول د شپې لخوا ټیرابایټونه په S3 بالټ کې اچوي ترڅو د لنډمهاله GPU کلستر روښانه کړي - بیا دا ټول اټومي کړي کله چې سپرینټ پای ته ورسیږي. د سختو بودیجې لپاره، د واسابي فلیټ-ریټ/نه-اګریس ماډل [3] د ژوند وړاندوینې اسانه کوي.


هغه برخه چې هیڅوک پرې فخر نه کوي 😅

د واقعیت کتنه: دا بې عیبه نه ده.

  • ځنډ - کمپیوټر او ذخیره ډیر لرې کړئ او ستاسو GPUs کرول شي. GDS مرسته کوي، مګر معمارۍ لاهم مهمه ده [4].

  • د لګښت حیرانتیا - د وتلو او API غوښتنې لګښتونه په خلکو باندې پټ راځي. ځینې چمتو کونکي یې معاف کوي (واسابي کوي؛ نور یې نه کوي) [3].

  • په پیمانه د میټاډاټا ګډوډي - څوک په ټګونو او نسخو کې "حقیقت" تعریفوي؟ تاسو به قراردادونو، پالیسیو، او ځینې حکومتدارۍ عضلاتو ته اړتیا ولرئ [5].

د شیانو ذخیره کول د زیربناوو نلدوانۍ ده: مهمه ده، مګر زړه راښکونکې نه ده.


چیرته روان دی 🚀

  • هوښیار، د مصنوعي ذخیرې څخه خبر چې د SQL په څیر د پوښتنې پرتونو له لارې معلومات په اتوماتيک ډول ټګ کوي او افشا کوي [1].

  • د هارډویر نږدې ادغام (د DMA لارې، د NIC آفلوډونه) نو GPUs د I/O لوږې سره مخ نه دي [4].

  • شفاف، د وړاندوینې وړ نرخونه (ساده شوي ماډلونه، د وتلو فیسونه معاف شوي) [3].

خلک د مصنوعي ذهانت د راتلونکي په توګه د کمپیوټر په اړه خبرې کوي. خو په حقیقت کې؟ ستونزه دا ده چې د بودیجې له ضایع کیدو پرته په چټکۍ سره ماډلونو ته معلومات ورکړل شي . له همدې امله د شیانو د ذخیره کولو رول یوازې وده کوي.


لنډیز 📝

د شیانو ذخیره کول ځلیدونکي نه دي، مګر دا بنسټیز دي. د پیمانه وړ، میټاډاټا-پوهیدونکي، انعطاف منونکي ذخیره پرته، د لویو ماډلونو روزنه د سینڈلونو سره د میراتھن چلولو په څیر احساس کوي.

نو هو - GPUs مهم دي، چوکاټونه مهم دي. مګر که تاسو د AI په اړه جدي یاست، نو له پامه مه غورځوئ چې ستاسو معلومات چیرته ژوند کوي . احتمال شته چې د شیانو ذخیره کول دمخه په خاموشۍ سره ټول عملیات پرمخ وړي.


ماخذونه

[1] AWS S3 – د شیانو میټاډاټا - سیسټم او دودیز میټاډاټا
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html

[2] AWS S3 – د ذخیره کولو ټولګي - پایښت ("11 نو") + انعطاف
https://aws.amazon.com/s3/storage-classes/

[3] واسابي هاټ کلاوډ - نرخ - فلیټ نرخ، د وتلو/API فیس نشته
https://wasabi.com/pricing

[4] د NVIDIA GPUDirect ذخیره - Docs - GPUs ته د DMA لارې
https://docs.nvidia.com/gpudirect-storage/

[5] AWS S3 – نسخه کول - د حکومتدارۍ/تولید وړتیا لپاره څو نسخې
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html


په رسمي AI اسسټنټ پلورنځي کې وروستي AI ومومئ

زموږ په اړه

بیرته بلاګ ته