ایا تاسو غواړئ یو کوچنی غږیز مرستیال ولرئ چې په حقیقت کې ستاسو لارښوونه تعقیب کړي، ستاسو په خپل هارډویر چلیږي، او په ناڅاپي ډول به دولس اناناس امر نه کړي ځکه چې دا تاسو غلط اوریدلي دي؟ د راسبیري پای سره د DIY AI مرستیال په حیرانتیا سره د لاسته راوړلو وړ، ساتیري، او انعطاف منونکی دی. تاسو به د ویښ کلمه، د وینا پیژندنه (ASR = د وینا اتوماتیک پیژندنه)، د طبیعي ژبې لپاره دماغ (قواعد یا LLM)، او د متن څخه وینا (TTS) سره وصل کړئ. یو څو سکریپټونه، یو یا دوه خدمات، او ځینې محتاط آډیو بدلونونه اضافه کړئ، او تاسو یو جیب لرونکی سمارټ سپیکر لرئ چې ستاسو قواعد اطاعت کوي.
راځئ چې تاسو له صفر څخه ستاسو د پای سره خبرې کولو ته د عادي ویښتو ایستلو پرته راوړو. موږ به برخې، تنظیم، کوډ، پرتله کول، ګوتچا ... ټول بوریټو پوښو. 🌯
هغه مقالې چې تاسو یې له دې وروسته لوستل خوښولی شئ:
🔗 څنګه په مؤثره توګه مصنوعي ذهانت مطالعه کړو
د مطالعې نقشه جوړه کړئ، پروژې تمرین کړئ، او پرمختګ تعقیب کړئ.
🔗 د مصنوعي ذهانت شرکت څنګه پیل کړو
ستونزه تایید کړئ، MVP جوړ کړئ، ټیم راټول کړئ، لومړني پیرودونکي خوندي کړئ.
🔗 د ډیر تولیدي کیدو لپاره د مصنوعي ذهانت کارولو څرنګوالی
د ورځنيو کارونو اتومات کول، د کار جریان ساده کول، او تخلیقي محصول زیاتول.
🔗 څنګه په خپل کاروبار کې مصنوعي ذهانت شامل کړئ
د لوړ اغیز لرونکو پروسو پیژندل، د ازمایښتي عایداتو پلي کول، د عاید بیرته ترلاسه کولو عاید اندازه کول، او اندازه کول.
د راسبیري پای سره د DIY AI ښه مرستیال څه شی جوړوي ✅
-
په ډیفالټ ډول شخصي - چیرې چې امکان ولري آډیو محلي وساتئ. تاسو پریکړه کوئ چې وسیله څه پریږدي.
-
ماډلر - د اجزاو تبادله لکه لیګو: د وییک ورډ انجن، ASR، LLM، TTS.
-
ارزانه - ډیری یې خلاص سرچینه، د توکو مایکونه، سپیکرې، او یو پای.
-
د هیک کولو وړ - د کور اتوماتیک، ډشبورډونه، معمولات، دودیز مهارتونه غواړئ؟ اسانه.
-
د باور وړ - د خدماتو لخوا اداره کیږي، بوټ کوي او په اتوماتيک ډول اوریدل پیل کوي.
-
تفریح - تاسو به د آډیو، پروسو، او پیښو پر بنسټ ډیزاین په اړه ډیر څه زده کړئ.
کوچنۍ لارښوونه: که تاسو د راسبیري پای ۵ کاروئ او د درنو محلي ماډلونو چلولو پلان لرئ، نو کلپ آن کولر د دوامداره بار لاندې مرسته کوي. (کله چې شک وي، د پای ۵ لپاره ډیزاین شوی رسمي فعال کولر غوره کړئ.) [1]
هغه پرزې او وسایل چې تاسو ورته اړتیا لرئ 🧰
-
راسبیري پای : د سر خونې لپاره پای ۴ یا پای ۵ سپارښتنه کیږي.
-
د مایکرو ایس ډی کارت : ۳۲ جی بی+ سپارښتنه شوې.
-
USB مایکروفون : یو ساده USB کنفرانس مایک ډېر ښه دی.
-
سپیکر : USB یا 3.5 ملي میتر سپیکر، یا د I2S امپ HAT.
-
شبکه : ایترنیټ یا وای فای.
-
اختیاري ښېګڼې: قضیه، فعال کولر ، د خبرو اترو لپاره د فشار تڼۍ، د LED حلقه. [1]
د OS او بنسټیز تنظیم
-
د راسبیري پای عملیاتي سیسټم د راسبیري پای امیجر سره فلش کړئ. دا د بوټ وړ مایکرو ایس ډی ترلاسه کولو لپاره یوه ساده لاره ده چې د هغه پریسیټونو سره چې تاسو یې غواړئ. [1]
-
بوټ کړئ، له شبکې سره وصل شئ، بیا پیکجونه تازه کړئ:
sudo apt تازه کول او sudo apt لوړول -y
-
د آډیو اساسات
raspi-configله لارې ډیفالټ آوټ پټ، کچې او وسایل تنظیم کړئ . د USB او HDMI آډیو په ټولو ماډلونو کې ملاتړ کیږي؛ د بلوتوث آوټ پټ په هغو ماډلونو کې شتون لري چې بلوتوث لري. [1] -
وسایل تایید کړئ:
اریکورډ -l اپل -l
بیا د نیول او پلې بیک ازموینه وکړئ. که چیرې کچه عجیبه ښکاري، نو مایک ملامتولو دمخه مکسرونه او ډیفالټونه وګورئ.

معمارۍ ته په یوه کتنه 🗺️
یو معقول DIY AI معاون داسې ښکاري:
د وییک کلمه → ژوندۍ آډیو نیول → ASR ټرانسکرپشن → د ارادې اداره کول یا LLM → د ځواب متن → TTS → آډیو پلے بیک → د MQTT یا HTTP له لارې اختیاري کړنې.
-
د وییک کلمه : د پورکوپین کوچنی، دقیق دی، او په محلي ډول د هر کلیدي کلمې حساسیت کنټرول سره چلیږي. [2]
-
ASR : ویسپر یو څو ژبنیز، عمومي هدف لرونکی ASR ماډل دی چې په ~680k ساعتونو کې روزل شوی؛ دا د تلفظونو/شالید شور لپاره قوي دی. د وسیلې په کارولو لپاره،
whisper.cppیو کم C/C++ استنباط لاره چمتو کوي. [3][4] -
دماغ : ستاسو انتخاب - د API له لارې کلاوډ LLM، د قواعدو انجن، یا د هارس پاور پورې اړه لري محلي استنباط.
-
TTS : پایپر په محلي کچه طبیعي وینا تولیدوي، په معمولي هارډویر کې د چټکو ځوابونو لپاره کافي ګړندی. [5]
د چټک پرتله کولو جدول 🔎
| وسیله | غوره لپاره | قیمتي | ولې دا کار کوي |
|---|---|---|---|
| د خنزیر ویښته کلمه | تل اوریدونکی محرک | وړیا کچه + | ټیټ CPU، دقیق، اسانه تړل [2] |
| ویسپر.سي پي پي | په پای کې محلي ASR | خلاص سرچینه | ښه دقت، د CPU دوستانه [4] |
| ګړندی - په چغو وهل | په CPU/GPU کې ګړندی ASR | خلاص سرچینه | د CTranslate2 اصلاح کول |
| پایپر TTS | د سیمه ییزې وینا محصول | خلاص سرچینه | چټک غږونه، ډېرې ژبې [5] |
| کلاوډ LLM API | بډایه استدلال | د کارولو پر بنسټ | درانه کمپیوټ آفلوډ کوي |
| نوډ-سور | د کړنو تنظیمول | خلاص سرچینه | بصري جریان، د MQTT دوستانه |
ګام په ګام جوړول: ستاسو لومړی غږیز لوپ 🧩
موږ به د وییک کلمې لپاره پورکوپین، د نقل لپاره ویسپر، د ځواب لپاره د سپک وزن "دماغ" فعالیت (د خپلې خوښې LLM سره بدل کړئ)، او د وینا لپاره پایپر وکاروو. دا لږترلږه وساتئ، بیا تکرار کړئ.
۱) انحصارونه نصب کړئ
sudo apt install -y python3-pip portaudio19-dev sox ffmpeg pip3 install sound device numpy
-
خنزیر: د خپلې ژبې لپاره SDK/بانډینګونه واخلئ او د چټک پیل تعقیب کړئ (د لاسرسي کیلي + د کلیدي کلمو لیست + آډیو چوکاټونه →
.process). [2] -
ویسپر (د CPU دوستانه): whisper.cpp :
د ګیټ کلون https://github.com/ggml-org/whisper.cpp سي ډي whisper.cpp && cmake -B جوړول && cmake --جوړول جوړول -j ./models/download-ggml-model.sh base.en ./build/bin/whisper-cli -m ./models/ggml-base.en.bin -f ستاسو.wav -otxt
پورته د پروژې د چټک پیل منعکس کوي. [4]
ایا پایتون غوره ګڼئ؟
faster-whisper(CTranslate2) اکثرا په معمولي CPUs کې د وینیلا پایتون په پرتله چټک وي؟
۲) د پایپر TTS تنظیم کړئ
ګیټ کلون https://github.com/rhasspy/piper سي ډي پایپر میک # د غږ ماډل ډاونلوډ کړئ چې تاسو یې خوښوئ، د بیلګې په توګه، en_US-amy "سلام هلته." echo | ./piper --model voices/en/en_US-amy-medium.onnx --output_file hello.wav aplay hello.wav
پایپر د وسیلې دننه TTS لپاره ډیزاین شوی چې ډیری غږ/ژبې انتخابونه لري. [5]
۳) په پایتون کې یو لږترلږه مرستیال لوپ
په قصدي ډول کمپیکٹ: د وییک جملې (سټب) ته انتظار باسي، ثبتوي، د whisper.cpp ، ځواب (ځای لرونکی) تولیدوي، بیا د پایپر له لارې خبرې کوي. ځای لرونکی د خپلې خوښې LLM یا قاعدې منطق سره بدلوي.
د OS، فرعي پروسس، څپې واردولو غږ وسیله د sd په توګه WAKE_WORD = "هی کمپیوټر" # په تولید کې د سوري لپاره تبادله [2] RECORD_SECONDS = 6 SAMPLE_RATE = 16000 چینلونه = 1 WORKDIR = "/home/pi/assistant" ASR_BIN = "/home/pi/whisper.cpp/build/bin/whisper-cli" # [4] ASR_MODEL = "/home/pi/whisper.cpp/models/ggml-base.en.bin" PIPER_BIN = "/home/pi/piper/build/piper" # [5] PIPER_VOICE = "/home/pi/piper/voices/en/en_US-amy-medium.onnx" os.makedirs(WORKDIR, exist_ok=True) def record_wav(path, seconds=RECORD_SECONDS): audio = sd.rec(int(seconds * SAMPLE_RATE), samplerate=SAMPLE_RATE, channels=CHANNELS, dtype='int16') sd.wait() د wave.open(path, 'wb') سره لکه w: w.setnchannels(CHANNELS); w.setsampwidth(2); w.setframerate(SAMPLE_RATE) w.writeframes(audio.tobytes()) def transcribe(path): cmd = [ASR_BIN, "-m", ASR_MODEL, "-f", path, "-otxt"] subprocess.run(cmd, check=True, cwd=WORKDIR) د open(path.replace(".wav", ".txt"), "r", encoding="utf-8") سره د f په توګه: f.read().strip() بیرته راګرځوئ def generate_reply(prompt): که "weather" په prompt.lower() کې وي: بیرته راګرځئ "زه ورېځې نه شم لیدلی، مګر دا ممکن ښه وي. یوازې په صورت کې جاکټ راوړئ." "تاسو وویل: " + پرامپټ def speak(text): proc = subprocess.Popen([PIPER_BIN, "--model", PIPER_VOICE, "--output_file", f"{WORKDIR}/reply.wav"], stdin=subprocess.PIPE) proc.stdin.write(text.encode("utf-8")); proc.stdin.close(); proc.wait() subprocess.run(["aplay", f"{WORKDIR}/reply.wav"], check=True) print("مرستندویه چمتو ده. د ازموینې لپاره د وییک جمله ولیکئ.") پداسې حال کې چې ریښتیا: typed = input("> ").strip().lower() که ټایپ شوی وي == WAKE_WORD: wav_path = f"{WORKDIR}/input.wav" record_wav(wav_path) text = transcribe(wav_path) reply = generate_reply(text) print("User:", text); print("مرستندویه:", reply) speak(reply) else: print("د لوپ ازموینې لپاره د وییک جمله ولیکئ.")
د ریښتیني ویښونکي کلمې کشف لپاره، د پورکوپین سټریمینګ کشف کونکی مدغم کړئ (ټيټ CPU، د هر کلیدي کلمې حساسیت). [2]
د آډیو ټونینګ چې واقعیا مهم دی 🎚️
یو څو کوچني اصلاحات ستاسو مرستیال ۱۰× هوښیار کوي:
-
د مایک فاصله : د ډیری USB مایکونو لپاره 30-60 سانتي متره یو ښه ځای دی.
-
کچې : د ان پټ په اړه د کلپ کولو څخه ډډه وکړئ او پلې بیک سالم وساتئ؛ د کوډ شیطانانو تعقیبولو دمخه روټینګ سم کړئ. په راسبیري پای OS کې، تاسو کولی شئ د سیسټم وسیلو یا
raspi-config. [1] -
د خونې غږیز : سخت دیوالونه د غږونو لامل کیږي؛ د مایک لاندې نرم چټۍ مرسته کوي.
-
د ویښولو کلمې حد : ډیر حساس → د روح محرکات؛ ډیر سخت → تاسو به په پلاستیک چیغې وهئ. سور تاسو ته اجازه درکوي چې د هر کلیمې حساسیت بدل کړئ. [2]
-
حرارتي : په پای ۵ کې اوږده لیکنې د دوامداره فعالیت لپاره د رسمي فعال کولر څخه ګټه پورته کوي. [1]
له لوبو څخه وسایلو ته تلل: خدمات، اتومات پیل، روغتیایی معاینات 🧯
انسانان د سکرېپټونو چلول هېروي. کمپیوټرونه د ښه کېدو هېروي. خپل لوپ په یوه منظم خدمت بدل کړئ:
-
د سیسټم واحد جوړ کړئ:
[یونټ] توضیحات = د DIY غږ معاون وروسته = network.target sound.target [خدمت] کارن = pi WorkingDirectory = /home/pi/assistant ExecStart = /usr/bin/python3 /home/pi/assistant/assistant.py بیا پیل کول = تل بیا پیل کول = 3 [نصب کول] WantedBy = multi-user.target
-
فعال یې کړئ:
sudo cp assistant.service /etc/systemd/system/ sudo systemctl daemon-reload sudo systemctl فعال کړئ --اوس assistant.service
-
د لرګیو لکۍ:
journalctl -u مرستیال -f
اوس دا په بوټ کې پیل کیږي، په کریش کې بیا پیل کیږي، او عموما د یوې وسیلې په څیر چلند کوي. یو څه ستړي کوونکی، ډیر ښه.
د مهارتونو سیسټم: دا په کور کې په حقیقت کې ګټور کړئ 🏠✨
کله چې غږ دننه کول او غږ بهر کول قوي شي، نو عملونه اضافه کړئ:
-
د ارادې روټر : د عامو دندو لپاره ساده کلیدي لارې.
-
سمارټ کور : پیښې MQTT ته خپرې کړئ یا د کور معاون HTTP پای ټکو ته زنګ ووهئ.
-
پلگ انونه : د پایتون چټک فعالیتونه لکه
set_timer،what_is_the_time،play_radio،run_scene.
حتی د کلاوډ LLM په لوپ کې سره، د سرعت او اعتبار لپاره لومړی څرګند محلي قوماندې واستوئ.
یوازې محلي د کلاوډ مرستې په وړاندې: هغه تبادله چې تاسو به یې احساس کړئ 🌓
یوازې محلي
ګټې: شخصي، آفلاین، د وړاندوینې وړ لګښتونه.
زیانونه: درانه ماډلونه ممکن په کوچنیو بورډونو کې ورو وي. د ویسپر څو ژبې روزنه د قوي کیدو سره مرسته کوي که تاسو دا په وسیله یا نږدې سرور کې وساتئ. [3]
د کلاوډ مرسته
ګټې: قوي استدلال، لویې سیاق کړکۍ.
زیانونه: د معلوماتو له لارې وسیله، د شبکې پورې تړلتیا، متغیر لګښتونه.
یو هایبرډ ډیری وخت ګټي: د وییک کلمه + ASR سیمه ایز → د استدلال لپاره API ته زنګ ووهئ → TTS سیمه ایز. [2][3][5]
د ستونزو حل کول: عجیب ګریملینز او چټکې حل لارې 👾
-
د وییک کلمې غلط محرکونه : حساسیتونه کم کړئ یا بل مایک هڅه وکړئ. [2]
-
د ASR ځنډ : د ویسپر یو کوچنی ماډل وکاروئ یا د خوشې کولو بیرغونو سره
whisper.cpp-j --config Release). [4] -
چوپ TTS : عام عبارتونه مخکې له مخکې تولید کړئ؛ خپل آډیو وسیله او د نمونې نرخونه تایید کړئ.
-
مایک ونه موندل شو
arecord -lاو مکسرونه وګورئ -
د تودوخې تروټټلینګ : د دوامداره فعالیت لپاره په پای ۵ کې رسمي فعال کولر وکاروئ. [1]
د امنیت او محرمیت یادښتونه چې تاسو یې باید په حقیقت کې ولولئ 🔒
-
خپل پای د APT سره تازه وساتئ.
-
که تاسو کوم کلاوډ API کاروئ، نو هغه څه ثبت کړئ چې تاسو یې لیږئ او لومړی په محلي ډول د شخصي بټونو بیاکتنه په پام کې ونیسئ.
-
د لږ امتیاز سره خدمات پرمخ وړئ؛ په ExecStart کې
د sudo څخه -
د میلمنو یا خاموش ساعتونو لپاره یوازې محلي حالت چمتو کړئ
ډولونه جوړ کړئ: د سینڈوچ په څیر مخلوط او میچ کړئ 🥪
-
الټرا-محلي : د خنزیر + whisper.cpp + پایپر + ساده قواعد. شخصي او قوي. [2][4][5]
-
د کلاوډ چټک مرسته : پورکوپین + (کوچنی سیمه ایز ویسپر یا کلاوډ ASR) + TTS سیمه ایز + کلاوډ LLM.
-
د کور اتومات مرکزي : د معمولونو، صحنو او سینسرونو لپاره نوډ-ریډ یا د کور معاون جریان اضافه کړئ.
د مهارت بېلګه: د MQTT له لارې رڼا اچول 💡
د paho.mqtt.client وارد کړئ لکه mqtt MQTT_HOST = "192.168.1.10" TOPIC = "کور/د ناستې خونه/رڼا/سیټ" def set_light(state: str): client = mqtt.Client() client.connect(MQTT_HOST, 1883, 60) payload = "ON" که state.lower().startswith("on") بل "OFF" client.publish(TOPIC, payload, qos=1, retain=False) client.disconnect() # که چیرې "څراغونه چالان کړئ" په متن کې: set_light("on")
د غږ یوه کرښه اضافه کړئ لکه: "د خونې څراغ روښانه کړئ"، او تاسو به د جادوګر په څیر احساس وکړئ.
ولې دا سټېک په عمل کې کار کوي 🧪
-
په کوچنیو تختو کې د ویښیدو کلمې کشفولو کې شکی مؤثر او دقیق دی، کوم چې تل اوریدل ممکن کوي. [2]
-
د ویسپر لویه، څو ژبنۍ روزنه دا د مختلفو چاپیریالونو او لهجو سره قوي کوي. [3]
-
whisper.cppدا بریښنا یوازې د CPU وسیلو لکه Pi کې د کارولو وړ ساتي. [4] -
پایپر ځوابونه ګړندي ساتي پرته له دې چې غږ کلاوډ TTS ته ولیږدوي. [5]
ډېر اوږد دی، ما نه دی لوستلی
یو ماډلر، شخصي DIY AI مرستیال چې د وییک کلمې لپاره پورکوپین، د ASR لپاره ویسپر ( د whisper.cpp )، د ځوابونو لپاره ستاسو د دماغ انتخاب، او د محلي TTS لپاره پایپر سره یوځای کړئ. دا د سیسټم شوي خدمت په توګه وتړئ، آډیو ټون کړئ، او په MQTT یا HTTP کړنو کې تار. دا ستاسو د فکر څخه ارزانه دی، او په عجیب ډول د ژوند کولو لپاره خوندور دی. [1][2][3][4][5]
ماخذونه
-
د راسبیري پای سافټویر او کولنګ - د راسبیري پای امیجر (ډاونلوډ او کارول) او د پای ۵ فعال کولر محصول معلومات
-
د پورکوپین وییک کلمه - SDK او چټک پیل (کلیدي کلمې، حساسیت، سیمه ایز استنباط)
-
ویسپر (ASR ماډل) – څو ژبني، قوي ASR په ~680,000 ساعتونو کې روزل شوی
-
راډفورډ او نور، د لویې کچې کمزورې څارنې له لارې د قوي وینا پیژندنه (وسپر): نور ولولئ
-
-
whisper.cpp - د CLI او د جوړولو مرحلو سره د CPU دوستانه ویسپر انفرنس
-
پایپر TTS - ګړندی، محلي عصبي TTS د څو غږونو/ژبو سره