Episode 80: Optimiere dein Leben mit Health Connect und Zigbee
Die Crunchtime · 24.05.2026
0:00
0:00
Ladevorgang …
Begrüßung & Folge 80
Google Health Connect: Einführung
Wielands Gesundheitssystem mit Health Connect
ESPHome, Zigbee & DIY-Smart-Home
Google I/O, Gemini & Smart Glasses
Finanzdaten, Bank-APIs & Automatisierung
Linux-Kernel-Lücken durch KI gefunden
KI, Bezahlmodelle & Kapitalismus
Plex-Preise, Abo-Kritik & Outro
Was ist Google Health Connect eigentlich?
Wie viel Gesundheit Google Health Connect wirklich trackt
Vom Gadget-Salat zum eigenen Gesundheitssystem
Datengetriebene Ernährungspläne
ESPHome: Plug-and-Play-Smart-Home nur mit YAML
Google I/O: Alles wird agentisch
Dystopische Smart Glasses, die dir Kaffee & McDonald's bestellen
Wenn KI‑Brillen dein Liebesleben per Amazon managen
Mit Bank-APIs Sparen und Gesundheitsziele automatisieren
Wenn eine KI plötzlich 1500 Zero-Day-Exploits findet
Hot Take: Kein kostenloses ChatGPT
Wie die Gratis‑Version unser Bild von KI verzerrt
Die Müllermilch‑Analogie: Free vs. Pro‑KI
Lea Warda
Coverdesigner
Bereich: Visuals
Zuletzt aktualisiert am 1
হ্যালো এবং আন্তরিক স্বাগতম, প্রিয় যারা বাইরে আপনার ডিভাইসে বসে শুনছেন। ক্রাঞ্চ টাইমে আপনাদের সবাইকে উষ্ণ আমন্ত্রণ। এটি আমাদের প্রযুক্তি-ভিত্তিক পডকাস্টের ৮০তম পর্ব, এবং এই বিশেষ পর্বে আপনাদের সামনে উপস্থিত আছি আমি, উইল্যান্ড।
আর আমি, জোনা এখানে।
প্রতি মাসের চতুর্থ রবিবার আমরা আপনাদের জানাই প্রযুক্তি জগতের সর্বশেষ খবর এবং আমাদের নিজস্ব DIY ও বানানোর কাজের আপডেট। এইবারও আমরা বেশ কিছু চমৎকার বিষয় প্রস্তুত করেছি, এবং তা বলে খাপ খায় এই ৮০ নম্বর পর্বের সঙ্গে। সাধারণত গোল বা অদ্ভুত সংখ্যাগুলোতে আমরা বড় কোনো থিম বা আখেরবাজি ভাবি, কিন্তু আমার মনে হয় এবার সবকিছু অনেক বেশি সোজা এবং সত্যিই কুল। আমাদের ৮০তম পর্ব হবে একধরনের ক্লাসিক পর্ব—টেক সম্পর্কিত নানা বিষয় উঠবে, আর, উহ্, আমাদের ব্যক্তিগত DIY প্রজেক্টগুলোর কথাও থাকবে, যেগুলো আমরা বাড়িতে নিজেরাই করি।
রেডিও UNiCC উপস্থাপন
[সঙ্গীত] দ্য ক্রাঞ্চ টাইম
[সঙ্গীত] জোনা ও উইল্যান্ডের সঙ্গে।
তাই আমি ঠিক এখান থেকেই শুরু করব—একটি বিষয় নিয়ে যা আমি গত পর্বে ঘোষণা করেছিলাম; সেই নিয়ে আমি পরে একটু বেশি কাজ করেছি, এবং এখন আপনাদের জানাতে পারি যে আমি Google Health Connect কে কতটা দারুণ মনে করি, কারণ এটি সত্যিই ব্যবহারযোগ্যতা, ডেটা শেয়ারিং এবং অ্যাপগুলোর মধ্যে সমন্বয় অনেক সহজ করে দেয়, এবং ব্যক্তিগতভাবে আমি এটি খুব পছন্দ করি।
[হাসে]
এটা সত্যিই দুর্দান্ত। জোনা, আমি এতে প্রচুর পরিশ্রম করে বহু কিছু করেছি। এটা একদম ভালো। প্রথমেই আপনাদের সবাইকে ধরিয়ে দিতে হবে—Google Health Connect কী, আমি কেন এটাকে এত প্রশংসা করছি, এবং কেন আপনাদের সবাইকে এটা ব্যবহার করা উচিত?
ঠিক।
একেবারে অস্বাভাবিকভাবে বড় টেক কোম্পানির স্টাইলে বললে, Google Health Connect হলো আন্ড্রয়েড ফোনে একটি ইন্টারফেস যা বিভিন্ন স্বাস্থ্য-অ্যাপগুলোকে একে অপরের সঙ্গে যোগাযোগ করতে দেয়। এটাকে সহজভাবে নিয়ন্ত্রিত করা হয়েছে—মূলত এটি কেবল একটি লোকাল ডেটাবেস যা প্রতিটি ফোনে থাকে, এবং অ্যাপগুলো প্রয়োজনমত ডেটা লিখতে ও পড়তে পারে। এছাড়া সেখানে একটা সাব-অনুমতির স্তর আছে, যাতে নির্দিষ্ট অ্যাপগুলো শুধু নির্দিষ্ট ধরনের ডেটা পড়তে বা লিখতে পারে। হয়তো আগে বলা উচিত, Android 14-এর আগে এটা একটি আলাদা অ্যাপ ছিল যা আপনাকে ইনস্টল করতে হতো; Android 14 থেকে এটা অপারেটিং সিস্টেমের অংশ হিসেবে অন্তর্ভুক্ত করা হয়েছে।
আর যেভাবে আমি এটা বুঝেছি, এটার মানে হলো ফোনে যা পদক্ষেপের হিসাব নেয়া হয়, সেই সংখ্যা সহজেই সরাসরি স্বাস্থ্যবীমা সংস্থার অ্যাপগুলোতে পাঠানো যেতে পারে। বাজারে এমন কয়েকটি পরিচিত অ্যাপ আছে যারা এই ধরনের ডেটা নিয়ে কাজ করে—
হুম।
উহ্, ধরো সেই অ্যাপগুলো যারা নির্দিষ্ট দিনে যদি তুমি তোমার ফোন দিয়ে ১০,০০০ ধাপ পূরণ করো তো কয়েকটা সেন্ট বা নগদ পুরস্কার দেয়। এই ধরনের তথ্য কি Health Connect-এর API দিয়ে দেখা-শোনা করা যাবে?
আমি মনে করি—
এটা কি আসলে পুরোপুরি আলাদা কোনো ব্যাপার?
ঠিক আছে, আমি মনে করি এটা সেইভাবে কাজ করতেই পারে। ব্যক্তিগতভাবে আমি এটা উদ্দেশ্যভিত্তিকভাবে ব্যবহার করিনি, কিন্তু তাত্ত্বিকভাবে সবকিছু সম্ভব। আর এ ক্ষেত্রে আমি জোর দিয়েই বলতে চাই যে এটি কোনো Google Play সার্ভিসের অংশ নয় এবং এটি গুগল অ্যাকাউন্টের সঙ্গে স্বয়ংক্রিয়ভাবে সিঙ্ক হয় না—কারণ অনেকেই সম্ভবত সেটাকে উদ্বেগের কারণ হিসেবে দেখবে। তাই পরিষ্কারভাবে বলছি, তুমি এটিকে গুগল অ্যাকাউন্টের সঙ্গে সিঙ্ক করতে পারো না। সবচেয়ে 'চরম' কাজটি যা করা যায়, তা হলো তুমি সেটিংসে বলতে পারো যে ডেটাগুলো একটি জিপ ফাইলে এক্সপোর্ট করে স্বয়ংক্রিয়ভাবে কোনো ক্লাউড অ্যাপে পাঠানো হোক; আর সেই ক্লাউড অ্যাপটা যেকোনোই হতে পারে যা তোমার ফোনে ইনস্টল আছে—উদাহরণস্বরূপ Google Drive-ও নিতে পারো। কিন্তু তা ছাড়া সবকিছু লোকালি ফোনে থাকে। বাহিরেও গেলেও সেটা তোমার নিয়ন্ত্রণেই থাকে।
কেবল ওই এক্সপোর্টটা বাদে। সেটি কি পুরোপুরি লোকালি করা যায়, অর্থাৎ কি আপনি চাইলে সরাসরি ফোনেই একটা জিপ-ফাইল তৈরি করে সেটা কোথাও আপলোড না করেই নিজে রাখতে পারেন? কারণ দৃষ্টিকোণটা হলো—আপনার তো অ্যাক্সেস আছে দেখতে কি কি ডেটা সংরক্ষিত আছে ইত্যাদি। যদি সেই সমস্ত ডেটা পরে অটোমেটিকভাবে কোনো ক্লাউড-প্রোভাইডারে চলে যায়, তাহলে পুরো সুন্দর ইকোসিস্টেমটা একটু ভেঙে পড়ে। এই ব্যাপারে তোমার কি ধারণা আছে?
বস্তুটা হলো আমি মনে করি তুমি ফোনে সরাসরি কোনো ফাইল তৈরি করতে পারবে না। তবে তুমি ডেটা এক্সপোর্টের জন্য যেকোনো ক্লাউড অ্যাপ বেছে নিতে পারো—উদাহরণস্বরূপ Nextcloud বা Google Drive, যা তোমার ফোনে ইনস্টল করা আছে; এটি কেবল একটি স্বয়ংক্রিয় এক্সপোর্ট। এবং সাধারণত ডেটা লোকালি থাকে যতক্ষণ না তুমি এক্সপোর্ট সক্রিয় করো। এটাই মূল কথা।
আচ্ছা, ঠিক আছে, তাহলে সেটা বেশ স্বস্তিদায়ক। তবে শুধুমাত্র এই কাজের জন্য Nextcloud সেটআপ করবে সম্ভবত কেউ।
হ্যাঁ।
কিন্তু এর মূল অর্থ হলো—নীতিগতভাবে এটা সম্ভব।
ঠিক আছে, কিন্তু আমার পছন্দের বড় কারণ হলো এটা কেবল তোমার ফোনে থাকা একটি ডাটাবেস—তা থেকেই ডেভেলপাররা সহজেই ছোট অ্যাপ বানিয়ে সরাসরি সেই ডাটার সঙ্গে কাজ করতে পারে; আর সেখানে যেকোনো জটিল ক্লাউড সেটআপের দরকার পড়ে না। এটা অন্য গুগল সার্ভিসগুলোর মতো নয়। ধরো, তুমি যদি কিছু করতে চাও যা YouTube-এর সঙ্গে ইন্টার্যাক্ট করে, তখন তোমাকে Google Cloud কনসোলে একটি প্রকল্প তৈরি করে একটি অ্যাপ রেজিস্টার করতে হয় এবং একটি অ্যাপ সিক্রেট পেতে হয়; এরপর গুগলকে সেই অ্যাপটি যাচাই করে দিতে হয়, তারা চেক করে তা ঠিক আছে কি না। এই প্রক্রিয়ায় অনেক সময় ব্যয় এবং প্রাতিষ্ঠানিক বাধা থাকে, আর তাতে অনেক ফিচার-অ্যাক্সেস কাটা পড়ে। Health Connect–এ তা নেই: তুমি লোকালি ডাটাবেসে পড়া ও লেখার অনুমতি চাইলে সহজেই সেটি করতে পারো।
আর তখন সবচেয়ে খারাপ ক্ষেত্রে তোমার কাছে মোট ডকুমেন্টেশনের মাত্র বিশ শতাংশের ওপরই অ্যাক্সেস থাকে।
এটাই আবার পরের সমস্যা।
এবং তারপরও অসংখ্য ফিচার আছে—
হ্যাঁ।
—এসব ফিচারগুলোতে তুমি সরাসরি অ্যাক্সেসই পাবে না, বা কিছুতে অ্যাক্সেস করা সম্ভব হলেও তুমি তা জানো না, কারণ এগুলো কোথাও সঠিকভাবে বাইরের দিকে ডকুমেন্ট করা নেই।
হ্যাঁ।
হ্যাঁ, পুরো ব্যাপারটাই ঠিক।
এবং মূলত এটি তোমার ফোনে থাকা একটি ডাটাবেস সিস্টেম, যেখানে কোনো অ্যাপ অনুরোধ করতে পারে—‘আমি এখন এসব ডেটাটাইপ পড়তে চাই’ অথবা ‘আমি এসব ডেটাটাইপ লিখতে চাই’। এবং ইউজারের অনুমতি লাগে।
চমৎকার।
এখানে একটি গুরুত্বপূর্ণ শ্রেণিবিভাগ আছে। মূলত দুইটা বড় ধরনের ডেটা আছে। আর হ্যাঁ, জার্মানিতে তুমি যা দেখতে পাও সেইগুলোই বেশি দেখা যায়, কারণ আমার ধারণা EU-এর নিয়ম-বিধি আর মেডিকেল ডিভাইস সম্পর্কিত আইনগুলোর কারণে কিছু ফিচার এখনও সেখানে চালু নাও হতে পারে। অথবা হতে পারে আমি সাধারণত এমন কোনো অ্যাপ ব্যবহারই করি না যা সেগুলো ব্যবহার করে।
প্রথম বড় শ্রেণিটা—এটা নামেই একটু বিভ্রান্তিকর, 'Health Data'—এটা মূলত সবই সেই ডেটাগুলো যেগুলো তুমি ট্র্যাক করতে পারো। যখনই আমি সেই অনুমতিপ্রদর্শন স্ক্রীন দেখি, আমি বারবার বিস্মিত হই যে কোন কোন জিনিসগুলো ট্র্যাক করা যায়। আর তোমার যে স্বচ্ছতার কথা ছিল—কে কবে কি অ্যাক্সেস করেছে—তা দেখতে পাওয়া যায়: বা তো Health Connect অ্যাপেই, বা তোমার সিস্টেম সেটিংসে Health Connect অংশে তুমি একেবারে দেখেছো কোন কোন অ্যাপগুলো সম্প্রতি অ্যাক্সেস করেছে এবং তারা কোন ধরনের ডেটা পড়তে বা লিখতে পারছে ইত্যাদি।
এই 'Health Data' সাধারণত সেইসব জিনিস—পদক্ষেপ, হার্ট রেট, ওজন ইত্যাদি—যেগুলো আমরা সাধারণতই বোঝি। আমি এ নিয়ে বেশ গভীরভাবে জড়িয়েছি এবং একটা টুল আছে—যেটা প্লে স্টোরে নেই, বরং Google Developer সাইট থেকে APK হিসেবে ডাউনলোড করতে হয়—এর নাম Health Connect Toolbox। সেটার মাধ্যমে তুমি ডাটাবেসে কাঁচা-অ্যাক্সেস পেয়ে সেটার কন্টেন্ট ভ্যারিফাই করতে পারো: কোন কী আছে, কীভাবে স্টোর করা হচ্ছে ইত্যাদি। তাই আমার জানা হলো ঠিক কী কী ডেটা টাইপ এখানে রাখা যায়।
শুরু হয় সহজ জিনিসগুলো দিয়ে—ধাপের সংখ্যা। তবে একই সঙ্গে হার্ট রেটও আছে। তুমি ওজন লিখতে পারো, হাড়ের ভর (bone mass) লেখা যায়, আর আমি প্রথমে ভেবেছিলাম যে মাংসপেশীর ভর (muscle mass)ও থাকবে—কিন্তু বিস্ময়করভাবে তা নেই। এটা আমার একটা একমাত্র বড় সমালোচনা: মাংসপেশীর ভর একটি সাধারণ ডেটা পয়েন্ট হিসেবে অনেক ডিভাইসে পাওয়া যায়, কিন্তু এখানে সরাসরি সেটি ইনপুট করার অপশন নেই। তাই আমাকে ওটাকে পাশপাশি হিসাব করে বের করতে হয়। Health Connect একদিকে করে হাড়ের মোট ভর সংরক্ষণ করে, অন্যদিকে কিছু এমন ক্যাটেগরিও রাখে যা 'হাড় নয় এবং মাংসপেশী নয়'—এরকম ক্যাটেগরি থেকে তুমি শেষমেষ ক্যালকুলেট করে মাংসপেশীর ভর বের করে নিতে পারো।
এভাবে আমি ক্যালকুলেট করছি: প্রথমে মোট ওজন নাও, তারপর তাতে থেকে হাড়ের মোট ভর বিয়োগ করো এবং এরপর সেই 'হাড় নয় এবং মাংসপেশী নয়' ক্যাটেগরির ভর বিয়োগ করলে বাকিটাই প্রায় মাংসপেশীর ভর হিসেবে ধরা যায়। এটা অবশ্য সম্পূর্ণ নিখুঁত পদ্ধতি নাও হতে পারে, কিন্তু একটি ব্যবহারযোগ্য আনুমানিক পন্থা। Health Connect Toolbox ব্যবহার করে আমি কাঁচা ডেটা চেক করে দেখতে পেয়েছি ডেটাগুলো কোন কী-নেমে স্টোর হচ্ছে, এবং সেই তথ্যের উপর ভর করে তুমি নিজের ক্যালকুলেশন তৈরি করতে পারো।
আরেকটি জিনিস—System settings-এ যে তুমি দেখতে পাবে কোন অ্যাপ কবে শেষবার ডেটা পড়েছে বা লিখেছে, আর সে কোন টাইপ পড়েছে বা লিখেছে—এটা কনফরমিটি বাড়ায়। এই স্বচ্ছতা এবং লোকাল-ফার্স্ট ডিজাইনই এই সার্ভিসকে আমি এতটা পছন্দ করায়।
আহ, সেটা করলে আসলে কী লাভ হবে?
তুমি অবশ্যই পুষ্টি ট্র্যাক করতে পারো—খাবারের ধরন, ক্যালোরি, তরল সেবন—এবং ওজনও ট্র্যাক করা যায়। সংক্ষেপে এগুলো সবই ডেটা পয়েন্ট। এছাড়া নারী-স্বাস্থ্যের বিষয়গুলোও সেখানে ট্র্যাক করা যায়: মাসিক রক্তক্ষরণ, সার্ভিক্যাল স্লাইম ইত্যাদি। যা আমাকে মজার মনে হয়েছে—আমি জানি মন্তব্য আসবে—এখানে 'Sexual Activity' টাইপের একটি Health Data রেকর্ড আছে, যা নারী-স্বাস্থ্যের একটি উপশ্রেণী হিসেবে দেখানো হয়েছে; এটা পুরুষ হিসেবে আমি সাধারণত ট্র্যাক করতে চাইবো না, কিন্তু একজন নারী হয়তো করবে।
হ্যাঁ।
এই 'Sexual Activity'–এর একটি মাত্র প্যারামিটার আছে—'Protection Used'; অর্থাৎ নিরাপত্তা ব্যবহার করা হয়েছে কি না, হ্যাঁ বা না।
ইহা, এটা ডাটাবেসে কেবলই স্বাভাবিকভাবেই সেখানে রয়েছে—কাজেই অদ্ভুতভাবে লেখা আছে। বাস্তবে এর যৌক্তিকতা আছে, কারণ এসব ডেটা পয়েন্টগুলো, যখন তোমার শরীরের তাপমাত্রা পরিমাপসহ একত্রে দেখা হয়, তখন এগুলো দিয়ে মাসিক চক্রের পূর্বাভাস, উর্বরতার সময় নির্ণয় ইত্যাদি করা যায়। এজন্যই কিছু অ্যাপ প্রতিদিন এমন কার্যকলাপ বা সার্ভিক্যাল স্লাইমের কনসিস্টেন্সি রেকর্ড করতে চায়। এটি শুরুতে কিছুটা অদ্ভুত মনে হতে পারে—বিশেষত যদি কেউ প্রতিদিন তার যৌনক্রিয়াকলাপ বা স্লাইম নোট করে—কিন্তু গবেষণা ও prediction‑algorithm‑কে ট্রেন করার জন্য এটা কার্যকর। আমি কেবল কনটেক্সট দিচ্ছি, যারা এটা странге মনে করবে তাদের জন্য।
গল্পটা হলো এমন একটি অ্যাপ আছে যা নারী-স্বাস্থ্য ট্র্যাক করে এবং সেখানে তুমি Sexual Activity–ও ট্র্যাক করতে পারো। আমি জানি না সেটা Google Health Connect–এর সঙ্গে কম্প্যাটিবল কি না এবং সেটা কি সিঙ্ক করে কি না।
হয়তো এটা সম্ভব।
হয়তো হতে পারে—অ্যাপে তুমি দেখতে পাবে সেই দিনটিতে একটা ছোট হার্ট; ধরো তুমি সেক্স করেছো, তাহলে সেই দিনের পাশে একটি হার্ট চিহ্ন থাকে। যাই হোক। সংক্ষেপে, এই ধরণের অনেক ডেটা সেখানে রয়েছে এবং এগুলো একত্র করে অ্যাপগুলো বিভিন্ন ধরনের বিশ্লেষণ ও পূর্বাভাসে ব্যবহার করে।
'আমি এটা কখনই Google‑এর সঙ্গে সিঙ্ক করবো না।' না, সেটা তো ফোনেই আছে। এমনভাবে তুমি এটাকে Google‑এর সঙ্গে সিঙ্কই করতে পারো না। কেউ বলে 'আমি এটা কখনই করব না, সেটা আমার কাছে অনেক বেশি অনিরাপদ'—ওটা ঠিক নয়, এখানে কিছুই অনিরাপদ নেই, কারণ সবকিছু তোমার ফোনে থাকে।
আর যে চমৎকার জিনিসটি এই ডাটাবেস দেয়—যা আমি বড় এক টেক-কোম্পানির কাছ থেকে প্রত্যাশা করতাম না—সে হলো সবরকম অ্যাপের মধ্যে আন্তঃপরিচলন বা interoperability নিশ্চিত করা; অ্যাপগুলো সহজেই একে অপরের সঙ্গে ডেটা শেয়ার ও ব্যবহার করতে পারে।
এটা সত্যিই অস্বাভাবিক। এটাকে আবার জোর দিয়ে বলা উচিত—এটাই গুরুত্বপূর্ণ।
হ্যাঁ, এটা আমাকে খুব চমকে দিয়েছে।
হ্যাঁ।
জোনা, আমি Health Connect Toolbox থেকে দ্রুত দেখে নিছি—ওটা সবকিছু পড়তে পারে—আর এখানে যে Health Data গুলো আছে সেগুলো বেশ বিস্তৃত: সক্রিয়ভাবে পোড়ানো ক্যালোরি, অভিযাত্রায় ওঠা উচ্চতা (bewältigte Steigung), উঠানামা বা তলা (bewältigte Stockwerke), কার্যকলাপের তীব্রতার ডেটা, গতি, মোট পোড়ানো ক্যালোরি, শক্তি বা পারফরম্যান্স, সর্বোচ্চ অক্সিজেন গ্রহণ ক্ষমতা (VO2 max), রোলচেয়ার ঠেলার ধাক্কা, পদক্ষেপ, স্পোর্ট কার্যকলাপ, ট্রেনিং প্ল্যান, দূরত্ব। এছাড়া রয়েছে বিশ্রামকালীন হার্ট রেট, অক্সিজেন স্যাচুরেশন, ত্বকের তাপমাত্রা, ব্লাড গ্লুকোজ বা শর্করা, ঘুমের ডেটা এবং নানা শরীরিক পরিমাপ ও ভিটাল প্যারামিটার। তুমি এমনকি মাইন্ডফুলনেস বা ধ্যান অনুশীলনও ট্র্যাক করতে পারো।
হ্যাঁ, বাহ।
এটা আমি সত্যিই অবাক করছে। এবং ঠিক এখানেই আমার যুক্তিটা মনে পড়ে: আমি জানি, মহিলা-স্বাস্থ্য বা যৌনক্রিয়া ট্র্যাকিং কিছু লোককে অস্বস্তি করতে পারে। তবু একজন পুরুষ হিসেবেও আমি এটাকে ট্র্যাক করতে চাইতে পারি, কারণ এতে বিভিন্ন উপসর্গ ও ঘটনার মধ্যে সম্পর্ক দেখা যায়—উদাহরণস্বরূপ যৌনক্রিয়া, ঘুমের গুণমান, হার্ট রেট, ওজন ও খাদ্যাভ্যাস মিলিয়ে দেখা যায় কোনো প্যাটার্ন আছে কি নেই, এবং তা অনেক ক্ষেত্রে সহায়ক।
হ্যাঁ।
আরও একটা ব্যাপার—Protection Used প্যারামিটারটি কেন আছে এবং তুমি এটি সংরক্ষণ করতে পারো, তারও একটি যৌক্তিক কারণ আছে। আমি আশেপাশের মহিলাদের জিজ্ঞেস করেছিলাম, 'এটার কী ব্যবহার?' তখন একজন বললেন, 'ধরা যাক মাসিক বিলম্ব হয়েছে, তখন তুমি দ্রুত দেখে নিতে পারো শেষবার কখন আমি অরক্ষিত যৌনসম্পর্ক করেছিলাম; তাহলে তুমি নিজের সম্ভাব্যতা যাচাই করতে পারো—আমি গর্ভবতী হতে পারি?' এবং—এবং এই ধরনের নোট রাখা থাকলে সহজেই সম্ভাব্যতা নিরূপণ করা যায় এবং প্রয়োজন হলে চিকিৎসকের কাছে তথ্য দেখানো যায়।
হ্যাঁ, এবং তারপর নিজে প্রায় কতটা সম্ভবনাময় তা অনুমান—
হ্যাঁ।
—কতটা সম্ভাব্য হতে পারে তা আন্দাজ করা, ঠিক?
আমি ভাবি: ঠিক আছে, সম্ভবত আমারও আগ্রহ আছে এটা নোট করে রাখতে এবং পরে দেখে নিতে কখন শেষবার আমি অরক্ষিত যৌনসম্পর্ক করেছিলাম।
ঠিক আছে, একটি প্রশ্ন: এটা কি আসলে কেবল নিজের কাছে ফ্লেক্স করার অর্থে, নিজেরটা দেখানোর জন্য? না কেন? [হাসি]
আচ্ছা, না, আমি মনে করি—আসলে আমরা এখন একটু বিষয় থেকে সরে যাচ্ছি, চিন্তা করো না—কিন্তু মূলত এর মানে হচ্ছে যে মানুষের স্বাস্থ্যের উপর করা এই ধরনের মৌলিক বিশ্লেষণগুলো আমরা প্রায় স্বয়ংক্রিয়ভাবে করে ফেলতে পারব। এটা অবশ্যই মানে নয় যে সব ফ্যামিলি‑ডাক্তার বা হাউসআর্টস আর লাগবে না; সে বিষয়ে কোনো দ্বিধা নেই। বরং সুবিধাটা হলো, অনেক জিনিস আমরা অনেক আগেই শনাক্ত করতে পারব, কারণ সাধারণত কেউ বলে না 'আহ, আগে তিন‑চারটা আলাদা ডেটাসেট একত্র করে দেখি, তারপর নিশ্চিত হই যে আমার কোনো অদ্ভুত রোগ নেই' — তুমি বুঝছো তো কি বলতে চাইছি? যেসব লক্ষণ প্যারামিটারগুলোতে প্রকাশ পায়, সেগুলোকে আলাদা করে খোঁজার বদলে সিস্টেমটা সরাসরি ধরতে পারবে, যতক্ষণ পর্যাপ্ত ডেটা ওই সিস্টেমে ফিড করা আছে এবং একটি অ্যাপ আছে যাকে সবকিছু বিশ্লেষণ করার অনুমতি দেওয়া হয়েছে—
হ্যাঁ।
—তাহলে এটাকে এমনভাবে সাজানো যায় যে মানবজাতি মোটেইভাবে আরও স্বাস্থ্যবান হয়ে উঠবে। এটা আমার একটা লক্ষ্যও, এবং এই কথাটা আমার কাজের সঙ্গে সুন্দরভাবে মিলছে—আমি এটাকে প্রায় 'স্বাস্থ্য ব্যবস্থা' বলি। এটা এমন একটি ধারণা যা আমি নিজে বাস্তবায়ন করার চেষ্টা করছি।
আহ, ওটা খুব সুন্দর।
আমি যা আমার 'স্বাস্থ্য ব্যবস্থা' দিয়ে অর্জন করতে চাই তা একটু বোঝাতে চাই। গুগল হেলথ কানেক্ট এখানে একেবারে কী, কারণ আমি কখনোই চাইব না যে সিস্টেমের সব অংশ একই নির্মাতার দখলে থাকে—এতে লক‑ইন সমস্যা খুব বড় হয়ে যাবে। উদাহরণস্বরূপ, আমার আছে একটি ফিটনেস‑ট্র্যাকার ঘড়ি যার নিজস্ব একটি অ্যাপ আছে; আর আমার আছে একটি স্মার্ট স্কেল—অর্থাৎ একটা স্কেল যা শুধু কানেক্টেড নয়, এটি শরীরের নানা পরামিতাও মাপে, যেমন চর্বির শতাংশ, পেশীর ভর ইত্যাদি।
এটি আমার সব ডেটা বিশ্লেষণ করে এমনকি আমার বেসাল ক্যালরি‑ব্যয়ও হিসেব করে দিতে পারে। এবং আমার আছে একটি স্মার্ট রক্তচাপ পরিমাপকও, যা এই ডেটা সংগ্রহ করতে পারে। কিন্তু দুর্ভাগ্যবশত এই সব অ্যাপগুলো একে অন্যের সাথে সামঞ্জস্যপূর্ণ নয়।
হ্যাঁ।
না, নিজে থেকে নয়। আর আমার আছে একটি অ্যাপ যে দিয়ে আমি আমার খাদ্যাভাস ট্র্যাক করি—এটি ওপেন‑সোর্স, Open Nutri Tracker‑এর ওপর ভিত্তি করে এবং আমি এটাকে ব্যাপকভাবে কাস্টমাইজ করেছি। মূলত এটি নিজে Health Connect‑এ যুক্ত নয়; এটা মূলত একটি ডাটাবেস: সঠিক মডিউল ইমপোর্ট করলে সবকিছু কাজ শুরু করে।
হ্যাঁ, খুব ভালো।
উম, আর যদি এগুলো পারস্পরিকভাবে কাজ না করত, আমি নিজে কখনই সেটা গোছাতে পারতাম না। তাই আমি নিজের জন্য একটি ট্রেনিং‑অ্যাপও প্রোগ্রাম করেছি, যা আমাকে নির্দিষ্ট ধরনের শক্তি‑প্রশিক্ষণ করায়— এবং সেটাও Google Health Connect‑এর মাধ্যমে ডেটা দেয়। সব ডেটা Google Health Connect‑এ মিলিত হয়, এবং আমি একটি ড্যাশবোর্ড‑অ্যাপ বানিয়েছি যা Health Connect থেকে সব ডেটা পড়ে সম্পর্ক খুঁজে বের করে এবং বলে, উদাহরণস্বরূপ: 'ঠিক আছে, সব প্যারামিটার দেখা যাচ্ছে তোমার চর্বি কমানো উচিত।'
হ্যাঁ।
এটা কি সত্যিই ঘটেছে? যদি হ্যাঁ, ভালো। যদি না, তাহলে এখানে কিছু প্যারামিটার আছে যেগুলো তুমি টুইক করতে পারো। উদাহরণস্বরূপ বলি: 'ঠিক আছে, তাহলে হয়তো হিসাবটাই সঠিক নয়—কত ক্যালরি আমি দৌড়ালে পুড়ে ফেলি সেটা হয়তো ঠিক নেই; তাহলে আমরা সেটাকে সামান্য পরিবর্তন করব।'
হ্যাঁ।
আর সবটাই কেবল গুগল হেলথ কানেক্টের কারণে সম্ভব হচ্ছে।
দারুণ।
আরেকটি দিক হলো—গুগল হেলথ কনেক্ট‑ডেটার একটি দ্বিতীয় বড় ভাগ আছে। এটা একটু অদ্ভুতভাবে সাজানো: একটাকে তারা 'Health Data' বলছে এবং আরেকটাকে এখন 'Medical Resource' বলেছেন। এটা একটু আলাদা ধরনের কারণ প্রথমটি মূলত ফিটনেস ও ওয়েলনেস‑ধর্মী ডেটা ধারণ করে—যেমন ট্র্যাকার থেকে আসা—আর দ্বিতীয়টি প্রকৃত চিকিৎসাসংক্রান্ত বিষয় নিয়ে কাজ করে।
অর্থাৎ মূলত ল্যাবফলাফল এবং ডাক্তারি বিষয়াদি, ঠিক।
এখানে অনুমতিপ্রণালীটাও আলাদা। ধরুন, যদি কোনো অ্যাপকে লেখার অনুমতি থাকে, সে সমস্ত মেডিক্যাল ডেটাতে লিখতে পারে; কিন্তু পড়ার জন্য তুমি নির্দিষ্ট ক্যাটাগরির উপর আলাদা করে অনুমতি দিতে পারো। এবং সেখানে কিছু জিনিস মজারভাবে সংরক্ষিত আছে: অ্যালার্জি, ডাক্তারি ভিজিট, ডাক্তারদের তথ্য, রোগাবস্থা, টিকা, ল্যাব ফলাফল, ওষুধ, চিকিৎসা পদ্ধতি, ব্যক্তিগত ডেটা, গর্ভাবস্থা, ভায়টাল প্যারামিটার ইত্যাদি। এছাড়া একটি ক্যাটাগরি আছে, 'Sozialanamnese'—অর্থাৎ Social History বা সামাজিক অনামনেস। আমি Health Connect Toolbox‑এ ওই Social History‑এর JSON‑উদাহরণগুলো দেখেছিলাম; আমার বন্ধু যারা দেখেছে তারা হেসে বলেছিল: 'কি বোকামি—Sozialanamnese' [হাসি]। উদাহরণস্বরূপ একটি Social History‑এ থাকতে পারে: 'শৈশবে প্যাসিভ সিগারেট‑ধোঁয়ায় সংবেদনশীল ছিল।'
ঠিক আছে, এক মুহূর্ত।
হ্যাঁ।
এই উক্তিটি আমার কাছে আবারও বেশ জোরালোভাবে Watch Dogs‑স্টাইলের মনে হলো, যেভাবে তুমি এটি উপস্থাপন করেছিলে। তাই এতে একটু নাটকীয়তা ছিল... [হাসি]
এটা এমন একটা দৃশ্য, যা তুমি সহজেই Watch Dogs‑এ দেখতে পাবে।
হ্যাঁ, ঠিক। তারপর এমন: 'ওহ হ্যাঁ, এখানে, আপনার ভাই—'
'এখন সে XY নিয়ে জড়িত আছে', বা এমন কিছু। হ্যাঁ।
আর ঠিক এ কারণেই এটা আলাদা একটি বিষয় এবং আমি এ পর্যন্ত এমন কোনো অ্যাপ দেখিনি যা এটিকে ব্যবহার করে—ছাড়া আমার নিজের বানানো অ্যাপগুলো—কারণ এটাই মূলত শুধু একটি ডাটাবেস। এটা প্রকৃতপক্ষে ইলেকট্রনিক পেশেন্ট রেকর্ডের মতো, যেটা আমেরিকায় আছে এবং আমাদের দেশের বৈশিষ্ট্যের অনুরূপ। আমি বাস্তবে আমার সিস্টেমে এর একটি অংশ ব্যবহার করি—ওষুধ গ্রহণ রেকর্ড। কিন্তু এখানে কিছু জটিলতা আছে: এটা মূলত ডাক্তারি উদ্দেশ্যে তৈরি, আত্ম‑পরিমাপের ধরন হিসেবে নয়। তাই সেখানে এমন কোনো রেকর্ড টাইপই নেই যা বলে: 'আমি ওষুধ নিয়েছি।'
আছে 'মেডিকেশন প্রেসক্রাইব করা হয়েছে' এবং 'নির্দিষ্টভাবে নেওয়ার কথা'—আরেকটা ডাটাটাইপ আছে যা বলছে নার্স আমাকে ওষুধটা দিয়েছেন যাতে আমি তা গ্রহণ করি। কিন্তু ডকুমেন্টেশনে তারা জোর দিয়ে বলে যে, মেডিক্যাল‑তত্ত্বগত দৃষ্টিকোণ থেকে 'আমাকে ওষুধ দেওয়া হয়েছে' এবং 'আমি নিজে ওষুধ নিয়েছি'—এই দুইটির মধ্যে একটি মৌলিক পার্থক্য রয়েছে।
হ্যাঁ।
কিন্তু আমার সেটা নিয়ে কোনো সমস্যা নেই। [হাসি]
হ্যাঁ।
আমি সেই Medication Administration Record সোজাসুজি লিখে দিই এবং আমার অ্যাপে সেটা থাকে 'আমি নিয়েছি'—না 'কাউকে দিয়ে আমাকে দেয়া হয়েছে'—
কারো কেউ তোমার বাড়িতে এসে সেটা তোমাকে দিয়েছে।
হ্যাঁ, ঠিক তাই। এবং এটা সত্যিই বেশ দুর্দান্ত। এই সব সুযোগ-সুবিধার কারণে আমি একটু ছোট্ট ধারণা দিতে চেয়েছি। আমি এমন ডিভাইস দিয়েছি—যার সাহায্যে দেখা যায় আমি কি আসলেই ওজন কমাচ্ছি না। তাছাড়া আছে কিছু কনভিনিয়েন্স‑ফিচার: উদাহরণস্বরূপ, যদি আমার অ্যাপ জিজ্ঞেস করে 'হেই, তুমি কি আজ তোমার ওষুধগুলো নিয়েছো?', আমি সাধারণত সেগুলো সকালে ওঠার পরেই নিই—যদি প্রয়োজন হয় না তবু প্রায়ই উঠার পরই নিই। এবং যদি আমি দিনের কোনো সময়ে অ্যাপটা খুলে ফেলি এবং সেটি জিজ্ঞেস করে 'আজ তুমি কি তোমার ওষুধ নিয়েছো?',
হ্যাঁ।
আর আমি যদি 'হ্যাঁ' চাপি, তখন অপশন আসে: তুমি কি একটি নির্দিষ্ট সময় লিখে দিবে নাকি এটা ছিল 'জাগার পরেই'?
হ্যাঁ।
যদি আমি 'জাগার পরেই' বেছে নিই, অ্যাপটি Google Health Connect‑এর ডেটা দেখে আমার ট্র্যাকার কীভাবে ঘুম ট্র্যাক করেছে, আমি কখন জাগিয়েছি ইত্যাদি পড়ে এবং সেই অনুযায়ী আন্দাজ করে কখন আমি ওষুধ নিয়েছি—এমনকি আমি নিজে যদি সময়টা মনে না রাখি, কারণ আমি তো একসময় ঘুম থেকে উঠেছি। এবং আমি জানি—
ওটা বেশ দারুণ। আর একটা ছোট ট্যাংজেন্ট—আমি আসলে ফোনের যে 'ঘুম‑সম্ভাব্যতা' প্রেডিকশনটি পাওয়া যায়, সেটাকেও Home Assistant‑এ ট্রিগার হিসেবে ব্যবহার করি যাতে দিনের শেষে বিভিন্ন কাজগুলো অটোমেটিকালি করা হয়। যেমন সব লাইট পাকা করা, অন্যান্য মেইনটেন্যান্স‑টাস্ক চালানো, কিছু বুলিয়ান হেল্পার অন বা অফ করা—
যেমন বলেছি, তাই—
এইটা, এটা খুবই কার্যকরী।
এটা অত্যন্ত ব্যবহারযোগ্য, আর এজন্যই আমার ড্যাশবোর্ড‑অ্যাপে এমন ব্যবস্থা আছে যে আমি যখন এটি ওপেন করি—কারণ সরাসরি ফাইল‑এক্সপোর্ট করার সুযোগ নেই—তখনই ড্যাশবোর্ডটি সবকিছু বলে দেয় যা তার কাছে আছে এবং আমি যদি আমার লোকাল নেটওয়ার্কে, আমার সার্ভারে থাকি তবে সার্ভার তা নিয়ে নানা মজার কাজ করে—যেগুলো নিয়ে আমি এখনও কাজ করছি। একটু ফোরশ্যাডো করে বলি: ভবিষ্যতে এটি শুধু আমার খাবার ট্র্যাকিং না করে, সুপারিশকৃত ডায়েট প্ল্যানও তৈরি করবে।
ওয়াও।
এগুলো সবকিছুই ডায়নামিকভাবে বদলে যাবে—তুমি আজ কি করেছো, কত ক্যালরি ব্যয় করেছো, কতটা পানি খেয়েছ—এসবের ওপর ভিত্তি করে।
ঠিক। আর এটা সত্যিই ক্রেজি, কারণ এখানে অনেক দূর পর্যন্ত ভেবে দেখা যায়। ধরো, তোমার যা কিছু তুমি কিনেছ তা তো ইনক্লুড করা যায়; বা তোমার ক্যালেন্ডার কেমন আছে তা দেখলে—তুমি আগেভাগেই আন্দাজ করতে পারো কতটা সম্ভাবনা আছে যে তুমি বাড়ি এসে বড়সড় কিছু রান্না করার মুডে থাকবে না—
হ্যাঁ।
—তুমি বাড়ি ফেরার পরে? এটা তো—
ঠিক।
এটা পুরোপুরি মানবিক এবং স্বাভাবিক যে কেউ ভাববে: 'ঠিক আছে, এমন পরিস্থিতির জন্য আগে থেকেই কিছু তৈরি করে রেখেছি'। এবং এখানে এমন দিকগুলোও বিবেচনায় নেওয়া যায় যে তুমি হয়তো লক্ষ্য করছো না—'আহা, এখন তো আটটা বাজে আর অ্যাপটি তোমার কাছে সবচেয়ে বড় খাবার সাজেস্ট করছে'—আর তখন তুমি বলতে পারো, না, আজ আমার মুড নেই। এই ধরনের অনেক ফিচার আছে যেগুলোকে পূর্বাভাসে যোগ করা যায়।
ঠিক।
এটা অবশ্যই মজার। এখন শুধু সেই অতিরিক্ত দামী স্মার্ট ফ্রিজটিই বাকি আছে, যা ভেতরের জিনিসও ট্র্যাক করে।
ওটা করে আমি করতে চাইনি। আমি এ নিয়ে অনেক বছর ধরে ভেবেছি—কিভাবে একটা স্মার্ট ফ্রিজ বানাবো যা নিজেই জানতে পারে ভেতরে কি আছে, এবং সেটা পরিচালনা করাটা অর্গানাইজেশনের ঝামেলা ছাড়া সম্ভব হবে? কিন্তু আমি সফল হইনি; শেষমেশ আমি চেষ্টা বন্ধ করে দিয়েছি। আমি 'ফ্রিজে কি আছে?'ভাবে কাজ করব না; বরং আমি হঠাৎ করে একটা লিমো কিনে ফেললেই সেটা ট্র্যাক করি—আমি এটা খেয়েছি বলে লগ করি, এবং সেই অনুযায়ী আজকের প্ল্যান ডাইনামিকভাবে সামঞ্জস্য হয়।
হ্যাঁ, ঠিক। এবং তুমি অন্তত তোমার সব ক্রয়ের রশিদগুলো ট্র্যাক করে সিস্টেমে যোগ করতে পারো।
যেমন বলেছি, Open Food Facts‑এর সাথেও আমার অ্যাপগুলো খুব মিলেই কাজ করে। আমি Open Nutri Tracker‑এ এমন ফাংশন যোগ করেছি যাতে সরাসরি Open Nutri Tracker থেকে Open Food Facts এবং Open Prices‑এ কন্ট্রিবিউট করা যায়। নাহলে আমি সেটা করতাম না; আমি দুইটা অ্যাপ খুলে এভাবেই ম্যানুয়ালি টাইপ করব না—আমি জিনিসটা স্ক্যান করি, এবং তখন অ্যাপ বলে: 'স্টপ, Wieland, এখানে কিছু তথ্য নেই—তুমি কি এটা আগে যোগ করে পাঠাবে?' আর আমি ঠিক সেইভাবে করে দেই, তারপর সাবমিট করি—আমি এটা খেয়েছি।
হ্যাঁ, বেশ ভালো।
এভাবেই সব কাজ করে। এবং আরও একটা তৃতীয় ছোট বিষয় আছে Health Connect‑এ যা আলাদা পারমিশন চায়; এটাও অ্যাক্সেসের দিক থেকে খুব ইন্টারেস্টিং। মানে, যদি কোনো অ্যাপকে পড়ার অনুমতি দেওয়া থাকে, তবে সেটা অন্য সব অ্যাপের লেখা ডেটাও পড়তে পারে। প্রতিটি এন্ট্রিতে সবসময় দেখা যায় কোন অ্যাপ সেটা লিখেছে—এটা একটি স্ট্যান্ডার্ড মেটাট্যাগ। ডিভাইস‑নেমও লিপিবদ্ধ থাকতে পারে এবং এন্ট্রির ধরনও থাকে: manually recorded, automatically recorded, inferred। আর আমি এই ধারনাটা মজার মনে করি: তত্ত্বত এমন একটি এন্ট্রি থাকতে পারে যা আবার ওয়াচ‑ডগসের মতো—যেমন Device Type: Amazon Echo, Recording Type: manually recorded, Activity Type: sexual activity। [হাসি]
এরকম একধাঁচের বোকামি‑পর্ব তো আগে থেকেই ছিল।
ডেটা মডেল অনুযায়ী এটা সম্ভব যে এমন একটি এন্ট্রি উঠে আসতে পারে।
হ্যাঁ।
আরেকভাবে বললে—যদি কোনো অ্যাপকে পড়ার অনুমতি থাকে, তা সবগুলো অন্য অ্যাপের ডেটাও পড়তে পারে। লেখার ও মুছার ব্যাপারে নিয়ম আছে: একটি অ্যাপ কেবল নিজের জন্যই লিখতে ও নিজে যে ডেটা লিখেছে তা মুছতে পারে; অন্য অ্যাপের এন্ট্রি মুছার কোনো ব্যবস্থাই নেই। Health Connect‑এর মজার অংশ হলো তুমি Aggregate Data চাইতে পারো এবং সিস্টেম বিভিন্ন অ্যাপ থেকে স্মার্টভাবে ডেটা নিয়ে মোট হিসাব করে দেবে। কিন্তু, যেমন তুমি আগেই ছোঁয়াস করেছিলেন, সেটা সব সময় ততটা ভাল করে কাজ করে না—বিশেষ করে স্টেপস‑এর ক্ষেত্রে। অনেক দিন আমার ড্যাশবোর্ড বলত: 'Wieland, তুমি অসাধারণ—তুমি প্রতিদিন এত স্টেপস করো, এটা ট্রেনিং হিসাব হচ্ছে; আজতোমাকে কোনো মাসল‑ট্রেনিংই করতে হবে না।' আমি তখন ভাবতাম, 'আমি কি সত্যিই এতটা দুর্দান্ত?' [হাসি] পরে দেখা গেল যে সমস্যা ছিল—আমি আমার ফোনকে স্টেপস লিখতে অনুমতি দিয়েছি আর একই সময়ে আমার ট্র্যাকার অ্যাপও স্টেপস লিখছে। তত্ত্বগতভাবে এই সিস্টেমটি দুটো সূত্র থেকে আসা ডেটা মিলিয়ে বুঝে ফেলতে পারবে যাতে একসঙ্গে যোগ না করে, কিন্তু বাস্তবে সেটা সবসময় ঠিকমতো হচ্ছে না।
হ্যাঁ, হ্যাঁ।
তাই আমি শেষপর্যন্ত আমার ফোনকে স্টেপস লেখার অনুমতি বন্ধ করে দিয়েছি; এখন শুধু আমার ফিটনেস‑ট্র্যাকার অ্যাপটাই স্টেপস লেখে।
হ্যাঁ, কারণ আসলে ধারণাটা তো হলো তুমি ডেটাগুলো ফিউশন করে নিতে পারবে—কারণ কেহ কেউ ট্র্যাকার পায়ে বা হাতে বা ভিন্ন স্থানে পড়ে রাখে, এবং সেই ডেটা অনেক সময় আরো নির্ভরযোগ্য হয়। যদি তোমার ফোন, স্মার্টওয়াচ আর কোনো পায়ে লাগানো ডিভাইস থাকে, তাহলে বোধত সেই পায়ে লাগানো ডিভাইসের ডেটা সবচেয়ে নির্ভরযোগ্য। তাতে সিস্টেমটাকে মিলিয়ে ফেলা উচিত; বাস্তবে কখনো কখনো সেটা ঠিক কাজ করে না।
যাই হোক, এটা করা যায় এবং সত্যিই ফিচারগুলো দারুণ। API‑তে একটি ফাংশন আছে যেখানে তুমি অনুরোধ করতে পারো: 'এই সময় থেকে ওই সময় পর্যন্ত অ্যাগ্রিগেটেড স্টেপস পাঠাও, সবকিছু মিলিয়ে'—এটা কীভাবে বিভিন্ন অ্যাপ থেকে স্মার্টভাবে ডেটা নিয়ে গণনা করে। আর একটি জিনিস হলো, ডিফল্টভাবে অ্যাপগুলো শুধু ৩০ দিনের ব্যাকগ্রাউন্ড ডেটা দেখতে পারে; তুমি চাইলে একটি অতিরিক্ত পারমিশন দিয়ে তাদের চিরকাল পিছনে যেতে দেওয়া যায়। তৃতীয় বিশেষ ক্যাটাগরির মধ্যে GPX‑ট্র্যাকসও আছে — এটা আমি খুবই পছন্দ করেছি, কারণ আগে থেকে আমি বিরক্ত হতাম যে আমার হাঁটার/ট্রেকিং রুটগুলো ঠিকভাবে রপ্তানি হয় না এবং আমি রুটের সাথে হার্টরেটের মতো ডেটাও ওভারলে ও অ্যাগ্রিগেট করতে চাই—
হ্যাঁ।
আমার ফিটনেস‑ট্র্যাকার অ্যাপে সেটা ঠিকমতো কাজ করত না; যদি ভাগ্য ভালো থাকত, একটা খারাপ GPX‑ট্র্যাক এক্সপোর্ট পেতাম, এবং সেটাও কেবল তখনই সম্ভব যখন আমি ক্লাউড‑সিন্ক করতাম—অর্থাৎ আমার পুরো রুট ক্লাউডে উঠত। এটা আমার কাছে খুবই বিরক্তিকর ছিল। কিন্তু ট্রেনিং‑ট্র্যাকগুলো Health Connect‑এ একটি ডাটাটাইপ হিসেবে লেখা যায় এবং সেটি আলাদা পারমিশন থেকে লেখা হলে যেই কেউ পড়ার অনুমতি পায় তারা সেগুলো পড়তে পারে। তাই আমি নিজেই একটি ছোট‑খাটো এক্সপোর্টার বানিয়ে ফেলেছি।
খুব দারুণ।
আর সেখানে আমি এখন অনেক মজার পরিকল্পনা রাখছি। সংক্ষেপে বলতে হলে—বন্ধুগণ, গুগল হেলথ কানেক্ট একদম অসাধারণ।
ওয়াইল্যান্ড, তুমি কল্পনা করতে পারবে না আমি আসলে কতটা উত্তেজিত ছিলাম, যখন আমি সম্প্রতি, উম, রিলিজ নোটগুলো — ওই চেঞ্জলগগুলো — পড়ছিলাম। হয়তো এটা কিছুটা অদ্ভুত একটি কাজ, এগুলো পড়ে নিজেরাই এতটা আনন্দিত হওয়া, তবে আমি সত্যিই খুব উচ্ছ্বাসিত ছিলাম।
আমি ও করি।
ওকে।
কিন্তু প্রশ্নটা হলো, ঠিক কোন সফটওয়্যারের ব্যাপারে তুমি বলছ?
সত্যিই, বিষয়টা আসলে ESPHome নিয়েই ছিল।
ঠিক।
কারণ সেটা আমি ওই ভার্সনে দেখেছিলাম — উম, মিথ্যা বলছি কি, 2026.5.0b1, মানে একটা বেটা ভার্সন—
ওকে।
আমি সরাসরি পড়ে দেখলাম: ওহ হ্যাঁ, সেখানে একজন নির্দিষ্ট ডেভেলপার আছেন — যাকে আমি, হ্য, যাকে আমি তো গিটহাবের শর্টনেম থেকেই আগেই চিনতাম—
হুম।
বলতেই হয়, অবশেষে তিনি তার কোড মেন ব্রাঞ্চে মার্জ করতে পেরেছেন। বাস্তবে এখন এটি মূল ভার্সনে যুক্ত হয়েছে — অর্থাৎ Zigbee সাপোর্ট।
ওকে।
ESPHome-এ। এখন এটা সোজা করে কাজ করে।
ওকে।
আগে সেটা খুবই সীমাবদ্ধ ছিল — কেবলমাত্র একটি চিপে কাজ করত, যেটি অনেকেই ব্যবহার করে না, ওই NRF চিপে। কিন্তু এখন এটা আরও বিস্তৃত হয়েছে; এখন এটি কাজ করে আরও প্রচলিত হার্ডওয়্যারের সঙ্গে, যেমন ESP32-C6 এবং H2, যা অনেক বেশি ব্যবহৃত। এগুলো স্ট্যান্ডার্ডভাবেই আসে এবং এদের মধ্যে ডিফল্টভাবেই Zigbee সাপোর্ট আছে।
হুম।
এটার মানে হচ্ছে তুমি এখন সরাসরি তোমার প্রকল্পগুলোতেও Zigbee যোগ করতে পারো। এটা বেশ ভালো, কারণ তুমি সরাসরি সেন্সরগুলো এবং বাইনারি ইনপুটগুলো ইত্যাদি Zigbee মারফত ম্যাপ করে নিতে পারবে। তাছাড়া বাইরের সব লাইব্রেরির ফাংশনালিটি তখনও থাকেই, এবং তুমি পরিচিত সেন্সর মডিউলগুলোও সহজে ইন্টিগ্রেট করতে পারবে, যেমন আমরা আগে করতাম। আমি এখন আমার সফটওয়্যারটা একটু করে রিরাইট করে পরীক্ষা করছি। প্রথম প্রচেষ্টা যেখানে আমি এক্সটার্নাল কম্পোনেন্ট ব্যবহার করে অন্য ফর্কগুলোকে কম্পোনেন্ট হিসেবে অ্যাড করার চেষ্টা করি, সেটা আমার ক্ষেত্রে অনেকখানি ব্যর্থ হয়েছিল। প্রযুক্তিগতভাবে এটা আগেও সম্ভব ছিল, কিন্তু কেবল একটি এক্সটার্নাল কম্পোনেন্ট হিসেবে, এবং সেটা আমার ক্ষেত্রে কখনোই সঠিকভাবে কাজ করেনি — আমি ঠিক করে খুঁজে পাইনি কোথায় ব্যর্থতা ছিল। কিন্তু এখন এটা, বলি, চূড়ান্ত: মেন ব্রাঞ্চেও মার্জ করা হয়েছে। এটি আর শুধু বিটা ব্রাঞ্চে নেই, আর এজন্য আমি অনেকটাই উত্তেজিত। কারণ আগ পর্যন্ত সাধারণত কেবল Wi‑Fi দিয়েই কাজ করাই যেত। সহজভাবে বললে, আগে তুমি শুধু Wi‑Fi ব্যবহার করেই সব ডিভাইস গুলো চালাতে, এবং ESPHome‑কম্প্যাটিবল ডিভাইসের মধ্যেও Ethernet থাকতে পারে এমনটি খুব কমই ছিল — মনে হয় কেবল WaveShare কিংবা আরেকটু কিছু নির্মাতারই সেগুলো আছে যেগুলো ESP32‑জাতীয় ডিভাইসকে ইথারনেটেও জুড়ে দেয়া যায়। তাতেও তাত্ত্বিকভাবে সম্ভব হলেও বাস্তবে বেশিরভাগ ক্ষেত্রে মানুষ ওয়াই‑ফাই দিয়েই সংযোগ করত। আমি নিজে একটি প্রেজেন্স ডিটেক্টর বানিয়ে প্রোগ্রাম করে ফেলেছি; সেটা দারুণভাবে কাজ করছে।
ওহ, দারুণ।
আমার মনে হয় এটা একেবারে প্লাগ-এন্ড-প্লে অভিজ্ঞতা। আরডুইনো IDE খুলে লুপে কোড লিখে সব কমান্ড বসাতে হবে না; এটা একেবারে সোজা। তুমি শুধু YAML ফাইল লিখবে, সেটা ESP32-তে আপলোড করবে আর শেষ — কাজটাই চলছে। এটা এমনকি টেকনো-অপটু মানুষের জন্যও খুব সহায়ক।
চমৎকার। [হাসি] আমাদের সব দর্শকরা এখনই এটি ইনস্টল করছে।
একদম এখনি ডাউনলোড। [হাসি]
দারুণ। হ্যাঁ, এটা তো প্রথমে খানিকটা আপত্তিকর শোনাচ্ছে।
না, না, না।
দারুণ।
এটি সত্যিই নতুনদের জন্য অত্যন্ত উপযোগী। তুমি আসলে টেক্সট এডিটরে কয়েক লাইন লিখে তা আপলোড করলেই হবে — C বা অন্য লো‑লেভেল কোড লেখার দরকার নেই; তুমি কেবল ডিক্লারেটিভ কনফিগারেশন লিখবে আর সব ঠিক হয়ে যাবে। ফলে সাধারনভাবে খুব কম কিছুই বসে বা ভুল হয়।
হুম।
এটা সত্যিই বেশ চমৎকার।
এটা দারুণ।
আর এতে তুমি প্রচুর টাকা বাঁচাতে পারো — নিজের উপস্থিতি-ডিটেক্টর বা অন্যান্য সেন্সরগুলো নিজে বানিয়ে; বিশেষ করে যদি তুমি কোনো নির্দিষ্ট প্রকারের পরিমাপ করতে চাও।
যখন তুমি বিশেষ মানগুলো ট্র্যাক করতে চাও, উদাহরণস্বরূপ বাতাসের CO₂ পরিমাণ, সেটি জটিল বিষয়। কারণ এখানে দাম আর মানের মধ্যে সরাসরি সম্পর্ক আছে; যত বেশি দাও ততই ভালো ফল পাবে, কোনো সহজ ট্রিক নেই।
হ্যাঁ।
কোনো শর্টকাট নেই — অর্থাৎ দুই বা তিন ইউরোর সেন্সর করে যদি তুমি দারুণ ফল আশা করো, তা হবে না। সবকিছুই লিনিয়ারভাবে স্কেল করে। দুই ইউরোর ডিভাইসগুলো অনেক সময়ই কেবল অন্য কিছু মাপে এবং সেখান থেকে CO₂ অনুমান করে, তাই মানগুলো অনিশ্চিত। যেখানে তিরিশ ইউরো পরিসরে তুলনামূলকভাবে ব্যবহার যোগ্য সেন্সর পাওয়া যায়। উদাহরণস্বরূপ প্রচুর সময় SCD40 রিকমেন্ড করা হয়। আবার তুমি CO₂ পরিমাপের জন্য দশ হাজার ইউরোও খরচ করতে পারো; সুশৃঙ্খলভাবে তখন ফলাফল অবশ্য সবচেয়ে ভালো হবে — কিন্তু সস্তায় কোনো জাদুকরী সমাধান নেই।
ওকে।
আর এগুলো দিয়ে তুমি দারুণ সেন্সরগুলোকে সহজেই Home Assistant বা যেকোনো সিস্টেমে যোগ করতে পারো; এটা সত্যিই চমৎকার। আমি নিজে উদাহরণস্বরূপ একটা কেবলযুক্ত ওয়াটার-লিক সেন্সর বানিয়েছি ও প্রোগ্রাম করে ফেলেছি।
ওকে।
Shelly-এর ওয়াটার-লিক সেটআপ থেকে তুমি একটা রকমের অডিও-কেবলের মতো জিনিস কিনতে পারো, যেখানে বাইরের আবরণ আংশিকভাবে বৈদ্যুতিক পরিবাহী। এটা বেশই ইন্টারেস্টিং প্রোডাক্ট। মূলত এটা প্রতিরোধ পরিমাপের জন্য একটি এক্সটেনশন হিসেবে কাজ করে।
ওয়াটার-ডিটেক্টরটি কাজ করে এমনভাবে যে তুমি দুইটি ধাতব কন্টাক্টের মধ্যে প্রতিরোধটাই মাপো।
হ্যাঁ।
আর যদি তোমাকে খুব নিখুঁত পরিমাপের প্রয়োজন না হয় — যেমন এখানে কেবল জানতে হবে পানি আছে কি না — তাহলে এটা পুরোটাই সহজ প্রতিরোধ ভিত্তিকভাবে করা যায়। তুমি ওই কেবলটিকে আর ESP32-এর ভোল্টেজ লাইনকে ব্যবহার করে একটি ভোল্টেজ ডিভাইড বানাবে, ডিভাইডারের মধ্যবর্তী নোডটি ADC দিয়ে মাপবে, এবং ADC থেকে পাওয়া ভোল্টেজকে ভোল্টেজ-ডিভাইড সূত্রে বসিয়ে প্রতিরোধ নির্ণয় করবে। সেই প্রতিরোধের মান দেখে তুমি সহজে সিদ্ধান্ত নিতে পারবে যে কেবলে পানি লাগেছে কি না।
আহা।
তাহলে তুমি রেজিস্ট্যান্স মাপতে পারো।
ওকে, হ্যাঁ।
তাহলে।
হ্যাঁ, আমি ছিলাম, আমি ছিলাম।
তুমি সহজেই ইলেকট্রনিক্সের কাজগুলো করতে পারো এবং আনুমানিকভাবে জানতে পারো কত রেজিস্ট্যান্স আছে। ওই সেন্সর কেবলটি বেশ মজার; আমি দেখেছি প্রাক্কলিতভাবে ১ মেগাওহম একটি ভাল থ্রেশহোল্ড। উপরের দিকে থাকলে সাধারণত নরমালি পানি নেই, আর নিচে এলে কেবলটিতে পানি আছে বোঝা যায়। এবং এটা একটা অডিও কেবল — এটা বলাই ভালো ছিল, কারণ এটি ৩.৫ মিমি জ্যাক ব্যবহার করে।
ঠিক আছে।
এটি Tip এবং Sleeve ব্যবহার করে কাজ করে; তুমি পছন্দমত সেটা ব্যবহার করে নিতে পারো। রিংয়ের ব্যাপারে আমি পুরোপুরি নিশ্চিত না — সেটা কি সংযুক্ত নাকি অন্য কোনো পিনের সঙ্গে যুক্ত, সেটা আমি ঠিক জানিনা। যাই হোক, কেবলটিকে Zweckentfremden করে নিজে পরিমাপ করলাম। কেবলটির বড় সুবিধা হলো তুমি শুধু এক পয়েন্টে পানি মাপছ না, বরং দুই মিটার বা আড়াই মিটার জুড়ে সম্পূর্ণ কেবল বরাবর পানি আছে কি না সেটা দেখাতে পারো। তুমি চাইলে দরজার কন্টাক্টও এইভাবে যুক্ত করতে পারো, যা আলাদা ব্যাটারি ছাড়াই কাজ করবে — স্মার্ট হোমে বারবার ব্যাটারি বদলানোর ঝামেলা থেকেই মুক্তি পাওয়া যায়, যেমন ‘এই সপ্তাহে কোন ব্যাটারি বদলাতে হবে’—এই ধরনের সমস্যা কমে যায়। (এটা একটু অতিরঞ্জিত ভাবে বলা হলো।)
হ্যাঁ, হ্যাঁ।
অতএব আর কোনো বিশেষ ডিভাইসের জঞ্জাল লাগে না — খারাপ পরিস্থিতিতেও তুমি এটা বেশ সহজে এড়াতে পারো যদি তুমি কেন্দ্রীকভবে একটা ESP32 বসিয়ে সেই রুমের সব সেন্সর সেখানে যোগ করে রাখো। সবকিছু সেখানে জমা হলে ব্যবস্থাপনা অনেক সহজ হয় এবং এটা মোটেও ঝামেলায় ভরা থাকে না।
হ্যাঁ, জোনা, আমরা কেবল 'we have been cooking'—তরুণদের ভাষায় যেটা বলেন লজইনিং আর কুকিং—এটাই ছিল না; বরং সম্প্রতি Google I/O হয়েছে, গুগলের সেই কনফারেন্স যেখানে তারা নিজেরাই গর্ব করে বলে কী কী তারা এখন বা ভবিষ্যতে আনছে। এবং সৎভাবে বলি—Holy Moly—এবারটা সত্যিই একেবারেই Google AIO লাগছিল।
[হাসে] হ্যাঁ।
এটা পুরোটা কৃত্রিম বুদ্ধিমত্তা নিয়েই ছিল।
তাহলে—
শুধুই।
হ্যাঁ।
আচ্ছা, মানে—
এটা আমি যা শুনেছি ওই ব্যাপারটিই যে, গুগল সার্চ বারের কাজকেই তারা প্রায় একটি ইউনিভার্সাল টুলে পরিণত করতে চাইছে। আর আশ্চর্যজনকভাবে তারা কিছু—যেমন Google Books—কেমন যেন আলাদা ইভেন্টে রিলিজ করেছে; টেকনিক্যালভাবে সেটা অন্য রিলিজ সাইকলের মতো ছিল, যেন রিলিজের ঠিক আগে কিছু অদ্ভুত ঘটেছে এবং তারা হঠাৎ ভিন্ন কিছু ঘোষণা করছে।
বর্ণনা করেছে।
ঠিক তাই, এইটাই এক বড় সবকথার সারমর্ম যেটা আমরা নিয়ে কথা বলছি। এতগুলো ফিচার ছিল, সবই সবকিছুতে কুল এবং চমকপ্রদ—কিন্তু এটা ধীরে ধীরে ক্লান্তিকরও হয়ে উঠছে, কারণ সারাংশটা হলো: প্রায় প্রত্যেকটা Google‑প্রোডাক্ট বা তো সবার জন্য নয়, বেশিরভাগ ক্ষেত্রেই Google‑এর সাবস্ক্রাইবারদের জন্য একটা 'আমার সব তথ্য বলো' টাইপ ফিচার পাচ্ছে, অথবা প্রতিটি সার্চ বক্সই ধীরে ধীরে একটা এজেন্টিক ব্যার হয়ে উঠছে। তুমি ঠিকই বলেছ—তারা গর্ববোধ করছে, বিশ বছর পর সার্চ বক্সের কার্যক্রম বদলালো। আমার মনে হয় Google বাজার দখল করার চেষ্টা করছে, কারণ তারা একটু ভয়ে পড়ছে—মানুষ এখন گوগল করার বদলে ChatGPT‑তে সেই একই জিনিসটা লিখে ফেলছে।
হ্যাঁ।
আর তাই তারা এখন সেই অংশটাও নিজেরাই পেতে চাইছে, বলেই দিচ্ছে, ‘অবশ্যই আমাদের সার্চবারও একই রকম’। এটা শুধু AI মোডের বাইরে যাবে না, তুমি সার্চ বারে কিছু লিখলেই সেটা হবে Gemini‑এর সঙ্গে কথোপকথনের শুরু। সত্যিই—Gemini Omni শুনলে প্রভাবিত হওয়া স্বাভাবিক, এটা এমন একটি মডেল যা সবকিছুই করতে পারে; প্রায় সেই প্রতিশ্রুতি যা আমরা GPT‑4.0‑এর সময় শুনেছিলাম—'O' মানে ছিল Omni।
হ্যাঁ।
এটি সত্যিই সবকিছুকে কভার করে—ভিডিও জেনারেট করা পর্যন্ত, এমন কিছু ভিডিওও বানাতে পারে যা ফিজিক্যালি গ্রাউন্ডেড বলে দাবি করা হচ্ছে। সেটি যথেষ্ট আশ্চর্যজনক, কিন্তু বাকি সবকিছুও ধীরে ধীরে এজেন্টিক হয়ে যাচ্ছে। ইউটিউবে এক ফিচার দেখানো হচ্ছিল—তুমি সার্চ বারে কেবল কী খুঁজবে তা না লিখে, যেমন বলো: 'আমাকে ব্যাটসাইকেল চালানো শেখাও'—তারপর সার্চ YouTube‑কে ব্যবহার করে প্রাসঙ্গিক ভিডিওগুলোর সংক্ষেপ দেখাবে, বা বলে দেবে ‘এখানে ক্লিক করো’ এবং ভিডিও অটোমেটিক সেই সেকেন্ডে চলবে যেখানে তোমাকে দেখানো প্রয়োজনীয় অংশটা আছে।
ওহ, বাহ,
আর দ্বিতীয়টা হলো—সবকিছুই এজেন্টিক হবে। Google এখন এমন কিছু চালু করতে চাইছে যা তোমার পেছনে ব্যাকগ্রাউন্ডে কাজ করবে। এটা খুবই এজেন্টিক, মূলত ফোকাস—'Google‑কে কিছু বলো, এবং এটি তোমার জন্য সেটা করে দেবে'।
আহ, হ্যাঁ।
তবে আমাকে বিরক্ত করে যে Smart Glasses‑এর মার্কেটিং‑ও কেমন অদ্ভুত ছিল। এই স্মার্ট গ্লাসগুলো আবার ঘোষণা করা হল—去年 ইও তে তারা প্রথম বলেছিল—আমরা তখন এটা নিয়েও কথা বলেছিলাম।
হ্যাঁ।
ঠিক আছে, বলা হচ্ছে Google Glasses ফের ফিরছে। আর এই Google I/O‑তে বললো: 'ওহ হ্যাঁ, স্মার্ট গ্লাসগুলো আসছে, তবে কিছু পরে; কিন্তু আমরা এখন এক ডেরিভেটিভ রিলিজ করছি—এটি আসবে এই শরতে, এবং সেটা হলো Audio‑only Glasses।' এটি কিন্তু ঠিক অন্য গ্লাসগুলোর মতোই—মাইক্রোফোন আছে, ক্যামেরাও আছে; এটা অনেক সময় পরিষ্কার হয়নি—তাদের ক্যানন বলে ছিল, 'তাদের মধ্যে ক্যামেরা আছে'। আর হ্যাঁ, বাকিটা অন্যান্য স্মার্ট গ্লাসগুলোর মতোই কিন্তু কাঁচে কোনো ডিসপ্লে নেই।
হ্যাঁ, হ্যাঁ।
আর সেখানে একটা ডেমো দেখানো হয়—মঞ্চে একজন মহিলা এসে বলল: 'হেই Gemini, আমি যেতে চাই, ওই জায়গায় যেখানে আমি গতবার হাইক করেছিলাম...' তিনি শুধু বললেন: 'আমি যেতে চাই যেখানে আমি আমার বান্ধবীর সঙ্গে গতবার হাইক করেছিলাম।' এরপর Gemini—দুঃখিত জোনা, সবাই এটা বেশ ভালোভাবে নিয়েছে—কিন্তু আমি তা খুবই ডিস্টোপিয়ান মনে করেছি। দয়া করে এটা করো না।
হ্যাঁ।
তারপর গ্লাসগুলো নিজেদের থেকেই বলত—
হ্যাঁ।
—যা Google দেখাতে চায় যে এটা কতটা দারুণ এবং তুমি একে বাধ্যতামূলকভাবে চাইবে। গ্লাসগুলো বলে: 'অবশ্যই, আমি তোমাকে সেই বেইস‑পিকের কাছে নেভিগেট করব, যেখানে তুমি সারাহ‑এর সঙ্গে গিয়েছিলে। সাধারণত তুমি এই সময়ে তোমার প্রিয় দোকান থেকে কফি নাও—আমি কি এখনই ওই কফিটা অর্ডার করে রেখে দেব এবং তোমাকে পথে ওজন করে নেভিগেট করব যাতে তুমি আনন্দে পৌঁছে যাও?'
না!
আর ওই নারী বলে: 'হ্যাঁ।' তারপর: 'ঠিক আছে, আমি DoorDash‑এ পিক‑আপ অর্ডার প্লেস করেছি এবং এখন তোমাকে এমনভাবে নেভিগেট করব যাতে তুমি পৌঁছে যাও যখন সেটা প্রস্তুত হবে।'
ব্রো।
আমি চাই না আমার গ্লাসগুলো এসে বলুক: 'ওহ, তুমি সাধারণত এই সময়ে ম্যাকডোনাল্ডসে খাও। আমি কি তোমার রুটিন অনুযায়ী সেখানে তোমার স্বাভাবিক মিল অর্ডার করে দিই?'
[হাসে]
আর এই ধরনের ফুড‑ডেলিভারি‑থিম দেখে আমি সবসময় টারগেট হয়ে যাই—আমি মনে করি, 'এটা কেউই বহন করতে পারবে না' [হাসি]—আমি নিজের জীবনেই কখনও Lieferando‑ধারণা করে অর্ডার দেব না।
কারণ এটা খরচ করে, কারণ এটা মোটা দামে যায়—
আমি কেবল সোজাভাবে বলছি।
হ্যাঁ, এটা প্রচণ্ডভাবেই বেশি খরচবহুল, দোকানে সরাসরি দিলে যেখানে ভাড়া বা সার্ভিস‑ফি থাকে না—এখানে সবসময় ফি, সার্ভিস‑ফি, সার্ভিস‑চার্জ ইত্যাদি যোগ হয়।
এবং তারপর আমার গ্লাসগুলো জিজ্ঞেস করবে: 'ওকে, সে কফি চাইছে? ঠিক আছে, আমি বারো ইউরোতে তোমার জন্য কফি অর্ডার করে দিয়েছি—তুমি এখন সেটি তুলে নাও।'
হ্যাঁ।
না—এটা ঠিক লাফানো হলেও, এটা এখন স্যুট কেনার মত নয়—তুমি $3,500‑এর একটা স্যুট কিনলে সেটা আলাদা কথা—কিন্তু আমি ওইটার জন্য কিন্তু মোটেই আগ্রহী নই।
হ্যাঁ, কিন্তু এটা তো প্রকৃতপক্ষে ব্যক্তিগত অ্যাসিস্ট্যান্টের বদলি—এক ধরনের পার্সোনাল অ্যাসিস্ট্যান্ট। তবে এটিই বাধ্যতামূলকভাবে কিন্ত ব্যবহার করতে হবে এমন কোনো ব্যাপার নয়—তুমি যদি বলো 'এটা আমার বাজেট অতিক্রম করে', তাহলে সেটি ওই কাজ করবে না। উদাহরণসরূপ, যদি তুমি কেবল অনায়াসভাবে একটি স্যুট অর্ডার করতে চাও, সেই এজেন্ট তোমার শরীরের মেপ নিয়ে তোমার জন্য সঠিক সাইজ নির্বাচন করে অর্ডার করে দেবে; অথবা ভ্রমণ‑সংক্রান্ত কালের ব্যবস্থা হলে—'আমার স্বাভাবিক থাকার ধরন অনুযায়ী কোন হোটেলগুলো আমার স্টাইল‑এ মানায়'—এমনভাবে সে খুঁজে দেবে। তারপর সিস্টেমটা শিখে নেবে তোমার পছন্দ, এবং এমন কোনো ব্যাপার থাকবে না যেখানে 'ওহ, এখন আমাকে বসে ইন্টারনেটে ঘন্টা অতিবাহিত করে খুঁজতে হবে'—বরং তুমি তাকে ইচ্ছা করলেই সে তোমার জন্য সব করে দেবে।
হ্যাঁ।
আর এইভাবে দিনে তুমি অনেক সময় জিতো।
অবশ্যই—একই সাথে আমার মধ্যে একটা দ্বন্দ্ব থাকে: আমি এই সব কৃত্রিম বুদ্ধিমত্তা‑কথাগুলো বেশ পছন্দ করি, কিন্তু পাশাপাশি এই প্রচন্ড কনজিউমারিজম‑ট্রেন্ডটা আমি মোটেই পছন্দ করি।
হ্যাঁ, আমিও তাই ভাবি, কিন্তু এটাকে এতোটা বাড়িয়ে তোলা দরকার নেই—ইচ্ছে করলে অনেকটা সীমিতভাবেই ব্যবহার করা যায়।
হ্যাঁ।
কিন্তু সমস্যাটা হলো, তুমি এক ধরণের আক্রমণের পথ খুলে দিলে—তুমি কেবল বেশি ডেটা শেয়ার কোরো না, তুমি বিজ্ঞাপনের জন্য আরও সংবেদনশীল হয়ে উঠো।
হ্যাঁ।
কারণ সন্দেহপ্রাপ্ত ক্ষেত্রে কোম্পানিগুলো যে তোমার স্মার্ট গ্লাস বা AI পণ্য বানিয়েছে তাদের সঙ্গে সহযোগিতা করে, তখন তুমি সরাসরি টার্গেটেড হও।
হ্যাঁ।
আর তারপর তো সবকিছুই আবার শেষ হয়ে যেতে পারে।
ঠিকই, এটাই আমি বলতে চাইছিলাম—ডেমোতে দেখানো ওই 'শপিংকে আরও মজাদার করে তোলা, যাতে তোমাকে নিজে সার্চ করতে না হয়' বলার মুহূর্তটা দেখে আমি ঘ্রাণ পেলাম। ওই ডেমোতে এজেন্ট বলল—'আমি তোমার সব চাহিদা বুঝে নিচ্ছি' এবং পরে বলে, 'এই প্রোডাক্টটা সবকিছুর মান মেটায়'—আর আমি ভাবি, 'ঠিক আছে, কিন্তু আমি কিভাবে জানবো যে সেখানে আরও সস্তা কোনো জিনিস নেই যা তোমার চাহিদা মেটাতে পারে?'—সেই দিকটা আমার জন্য মোটেই শান্তিদায়ক ছিল না।
না, বোধহয় এটা আসতেই হবে—কারণ Google‑এর ব্যবসার মূল ভিত্তি বিজ্ঞাপন। এটা স্পষ্ট।
হ্যাঁ।
আরো একটা ঘোষণাও ছিল যা আমি মজার মনে করেছি এবং মনে হয় ভবিষ্যতটা কোন দিকে যাচ্ছে—খুবই ফিউচারিস্টিক হবে। সার্চ‑এ তারা এখন লাইভ‑এক্সপ্লেইনার UI বা সিম্যুলেশন বানানোর ফিচার আনছে; সেটা কিউল। আমি সম্প্রতি OpenUI.com দেখেছি—এটা ভেবে গুণগুণের মতো ব্যাপার। ধারণাটা হলো একটা স্ট্যান্ডার্ড যাকে তুমি যে কোনো LLM‑এর সঙ্গে ব্যবহার করতে পারো: এটা একধরনের UI‑বর্ণনামূলক প্রোগ্রামিং ভাষা, যা সিনট্যাক্সের মাধ্যমে নির্দিষ্ট করে দেয় কোন টোকেনগুলো পরের কাড়ে পেতে পারবে। LLM সেই UI‑বর্ণনা আউটপুট দেবে এবং একটি বিশেষ রেন্ডারার সেটা রেন্ডার করবে। এখন ধারণাটা হচ্ছে—একটা Open‑Agent ভিত্তিক অপারেটিং সিস্টেম এমনভাবে আউটপুট দেবে না যে টেক্সট বের হবে, বরং সবসময় UI‑এর বর্ণনা বের করবে।
হ্যাঁ, এবং গুগলও তাদের নিজস্বভাবে সেটা তৈরির চেষ্টা চালাচ্ছে।
ঠিকই—এখানেই Open Claw বা Open UI‑র মতো পরিস্থিতি কার্যকর হয়। ভাবো এটা কেমন: Open UI কেবল একটি স্ট্যান্ডার্ড, যেটা যেকোনো LLM‑এর সঙ্গে কাজ করে; এটা একটি বর্ণনামূলক ভাষা যা UI‑কে ব্যাখ্যা করে, এবং LLMকে সেটা আউটপুট করতে বলা হয়। তারপর সেই আউটপুট একটি রেন্ডারার রেন্ডার করে। এখন যদি তুমি একটি Open‑Agent ভিত্তিক OS বানাও, তাহলে টুল কলিং বা টেক্সট আউটপুটের পাশাপাশি প্রতিটা স্টেপে সে UI‑বর্ণনা হিসেবে আউটপুট দেবে—মানে, ব্যবহারকারী কোনো বাটন চাপলে, পরবর্তী রেসপন্সে বলা হবে UI এখন কেমন দেখাচ্ছে। এটি কনসেপ্ট হিসেবে অনেকটা জেনেরেটিভ স্টেট মেশিন।
ওহ, এটা কার্যত একটা বিশাল অটোমেটনের মতো।
ঠিকই—বলবে ব্যবহারকারী এখানে বাটন চাপেছে, এবং পরের আউটপুটে বলা হবে UI এখন কেমন।
হ্যাঁ‑হ্যাঁ, এটি এক ধরনের স্টেট মেশিন; তারপর আসে পরবর্তী ধাপ।
হ্যাঁ।
এটা যা ঘটেছে সব মাইন্ড‑ম্যাপ করে রাখে। কিন্তু আমি মনে করি এটা ইতিহাসে এখন পর্যন্ত সবচাইতে অতিরিক্ত পদ্ধতিতে 'ক্যানন দিয়ে স্পারজ আঘাত'—অর্থাৎ ছুঁই‑ছুঁই কাজের জন্য অত্যধিক জটিলতা—এর একটা উদাহরণ।
হ্যাঁ।
এটাই আমি বলব। মানে...
আর সেটা কেবল একটা অ্যাপ নয়—এটা একটি অপারেটিং সিস্টেমের মতো চিন্তা করা হচ্ছে।
হ্যাঁ‑হ্যাঁ, এটা সত্যিই একরকম—লল।
অপারেটিং সিস্টেম হিসেবে—তুমি ধরো তুমি মেনু থেকে ক্যালকুলেটর খুলছো; এতে কোন কনভেনশনাল অ্যাপ পেছনে রান হবে না, বরং LLM‑কে বলা হবে 'ব্যবহারকারী ক্যালকুলেটর খুলতে ক্লিক করেছে—এখন UI কেমন হওয়া উচিত?' এবং সে অন‑দ্য‑ফ্লাই UI জেনারেট করবে।
হ্যাঁ।
এর ফলে প্রতিটি ডেটা‑প্রেজেন্টেশনের জন্য অনুপযুক্ত UI তৎক্ষণাৎ পাওয়া যায়; উদাহরণস্বরূপ ডেটা‑সায়েন্স এজেন্ট থাকলে, তুমি বলতে পারো 'আমার ক্লিক‑ডেটা বিশ্লেষণ কর', এবং সে দেখে নেবে কীভাবে সেগুলো ভালোভাবে দেখানো যায় এবং উপযুক্ত UI জেনারেট করবে—এটা অনেক কাজে লাগে।
ঠিক আছে, ঠিক আছে।
তবে সার্বিকভাবে এমন OS‑এর ব্যাপারে আমি নিশ্চিত নই। আরেকটা জিনিস যা Google I/O‑তে আমাকে সত্যিই আকৃষ্ট করেছে হলো Audio‑Only Glasses—বিশেষত ডেভেলপারদের জন্য তাদের I/O for Developers সেশনে দেখানো সহজ এক-ইন্টিগ্রেশন। আমি নিজেরাই এসব গ্লাস পেতে চাইবো, কারণ আমি চাই সেখানে নিজে অ্যাপ বানাতে—উদাহরণস্বরূপ OpenStreetMap‑এর জন্য অ্যাপ: তুমি কোনো বস্তু কেবল তাকিয়েই সেটার তথ্য ইনপুট করতে পারবে। মোবাইল ফোন বুঝে নেবে 'এইটা একটা বেঞ্চ, এখানে একটা মিসিং ফিল্ড আছে'—গ্লাস বলবে 'এই বেঞ্চে কি ব্যাকরেস্ট আছে?' তুমি বলবে 'হ্যাঁ'—এবং সেটা রেন্ডার হয়ে OSM‑এ ট্যাগ করা যাবে। বাসিন্দা বাড়িটা দেখলে গ্লাস প্রশ্ন করবে 'এই বাড়ির কয়তলা?' তুমি বলবে 'চার'—এবং ডেটা আপডেট হবে। আমি এটা বেশ কুল মনে করি।
সেটা সত্যিই কুল—কিন্তু আমার দুটো সংশয় আছে।
ঠিক আছে।
প্রথমত, সম্ভবত তোমাকে ইন্টিগ্রেটেড স্ক্রিন থাকা গ্লাসই লাগবে। না হলে এটা অনেকটা সীমিত থাকবে; ডিসপ্লে থাকলে সেটা অসীমভাবে বেশি কাজে দেবে।
হ্যাঁ।
কোন প্রশ্ন নেই।
কে জানে কখন সেগুলো পাওয়া যাবে।
কিন্তু—হ্যাঁ, কে জানে কখন আসবে। এবং দ্বিতীয়ত, হয়ত এক ধাপ এগিয়ে ভাবতে হবে।
এখন,
তোমার কাছে তো ক্যামেরা আছে।
হ্যাঁ, আমি—
এটাই মূল পয়েন্ট: তোমার যেখানে ক্যামেরা আছে, সেই এজেন্টিক সিস্টেমটি বলতে পারবে 'ওকে, আমরা জানি যে OpenStreetMap‑এ কিছু ডেটা ট্যাগ করা হয়নি'—
জানি।
আর সেটা বলতে পারবে 'তুমি এখন এগুলোর নিকটে আছো'—এবং এগুলোকে ভৌগোলিকভাবে ক্রল করেই দেখবে কোন জিনিসগুলো নিকটেই আছে—
হ্যাঁ।
তবে এরপর যদি তুমি হেঁটে ঘুরো, সিস্টেমটা ওই ক্যামেরা‑ইমেজ ব্যবহার করে অটোমেটিক ইউজার‑অ্যাকাউন্ট থেকে চেঞ্জগুলো কমিট করে দিতে পারে—অর্থাৎ, এটা ক্যামেরা‑ইমেজ নিয়ে ঠিক করতে পারলে নিজেরাই আপডেট করে দেবে, আর যেখানে সহজে বোঝা যাবে না (যেমন নাপা‑মাপ ইত্যাদি), সেখানে গ্লাস ইউজারকে জিজ্ঞেস করে 'এখানে কিছু মিস করছে, চাইলে তুমি এটা পুরন করো'—এভাবে ফ্লোটা র্যাপ করা যায়।
ঠিকই—বিলকুল। বলছি, ওটাই প্রথম ধারণাটাই ছিল যা আমার মাথায় এসেছে, কিন্তু পরে আমি একটু বাস্তবসম্মতভাবে সেটা সাজিয়ে দেখেছি।
হ্যাঁ, সেটাই বেশ বাস্তবসম্মত।
কারণ আমার করা কয়েকটি পরীক্ষায় এসব শনাক্তকরণ টুল historically বেশ বাজে ফল দেখিয়েছে, সেটা বলতে হয়।
বুঝলাম।
তবে এটা আবার আমাদের নিয়ে যায় আরেকটি বিষয়ের দিকে, যা Google I/O‑তে দেখানো হয়েছিল—এটা ছিল Gemini 4, গুগলের ওপেন‑সোর্স মডেলগুলির ঘোষণা। সেখানে এমন ভ্যারিয়েন্ট আছে যা এতই ছোট যে স্মার্টফোনেই চলতে পারে।
মহ।
Gemma—রে‑ডিজাইন নম্বরগুলোর কথা বলা হচ্ছিল: যেমন 4e2‑bit বা e4‑bit টাইপস—আর হ্যাঁ, Play Store‑এ গুগলের একটা অ্যাপ আছে, AI Edge Gallery নামে, যেখানে তুমি সরাসরি এগুলো ট্রাই করতে পারো। এগুলো অত্যন্ত এজেন্টিক কাজ, ফাংশন‑কলিং ও টুল‑কলিং‑এর জন্য ট্রেইন করা; মাল্টিমোডাল, ছবি বুঝতে পারে। উল্টোদিকে—তুমি যদি নিজের ফোনেই একটি চার গিগাবাইট মডেল রান করাও, তা ততটাই জোরালো নয়, কিন্তু তা নির্দিষ্ট অ্যাপ্লিকেশনের জন্য ফাইন‑টিউন করা যায় এবং আপাতত রিলেটিভ সহজে। একবার তুমি সামান্য GPU ভাড়া করে ফাইন‑টিউন করলে তুমি মডেলটা এক্সপোর্ট করে নিতে পারো—এতে আমার দৃষ্টিতে অনেক পটেনশিয়াল আছে: হয়ত আমার ফোনেই একটা কাস্টম মডেল থাকবে যা আমি ট্রেইন করেছি, যাতে সেটা বুঝবে বেঞ্চে ব্যাকরেস্ট আছে কি না ইত্যাদি—অর্থাৎ স্পেশালাইজড টাস্কে এগুলো বেশ কার্যকর হবে।
হ্যাঁ।
আর একটা কথা—OpenStreetMap‑এ সবসময়ই একটি মানুষের চেক‑স্টেপ থাকা উচিত। তবুও যদি তুমি পুরো ফ্লোটা এভাবে সংকুচিত করতে চাও, তুমি বলতে পারো 'আমি শুধু বস্তুগুলো দেখছি এবং আমি শুধু ফিডব্যাক পাচ্ছি:
হ্যাঁ।
'চিহ্নিত—এই বেঞ্চে ব্যাকরেস্ট আছে'—আর যদি আমি বিরতি না দিই, তাহলে সেটা ঠিক আছে এবং সিস্টেমটা চলবে।
হ্যাঁ।
আচ্ছা, হুম, এটাও করা যাবে। হ্যাঁ।
এটা তো সত্যিই চমকপ্রদ হবে যদি তুমি লাইভ‑অ্যানোটেট করে সেটি ফিজিক্যাল লোকেশনের সাথে যুক্ত করতে পারো—যদি গ্লাসগুলো তা অনুমোদন করে এবং তুমি সেই তথ্য বস্তুতে ট্যাগ হিসেবে সংযুক্ত করতে পারো; এবং এটি এমনভাবে প্রদর্শিত হয় যে একটি পপ‑আপ তোমার মাথার সাথে মুভ করে বলে 'ঠিক আছে, তুমি এখন এটাকে অ্যানোটেট করেছ'—এমনটা হলে কিন্তু একেবারে অসাধারণ হবে।
উহুম।
আর তুমি বলতে পারো 'আমি কিছু করছি না—এটা ঠিক আছে'। আসলে আমি জানি না গ্লাসগুলো কি ইনলিব্রিতে ইনফারশনের জন্য ট্র্যায়িংসেন্সর রাখবে নাকি—ইনার্টিয়া সেন্সর থাকা দরকার? অবশ্যই থাকা উচিত—কম্পাস বা ওরিয়েন্টেশন সেন্সর থাকা উচিত, যাতে গ্লাস বুঝতে পারে তুমি কোন অক্ষাংশে তাকাচ্ছ; এটা খুবই দরকারি। আমি সত্যিই নিশ্চিত নই তারা এটা ইনস্টল করবে কি না—আমি ভেবে পাই তারা বলবে 'আমাদের ওই ফিচারের জন্য এটা জরুরি কি?' এবং হয়ত তারা বলবে 'না, ক্যামেরা, জিওলোকেশন আর ভয়েস‑ইনপুট দিয়েই আমরা প্রায় সব কভার করতে পারি, তাই আমরা অতিরিক্ত সেন্সর যোগবিহীন রাখব'। বিশেষত যদি এতে কোনো ডিসপ্লে না থাকে—AR‑এর জিনিসগুলো করতে হলে তো ট্র্যাকিঙ্গ সেন্সর দরকার হয়, আর যদি তুমি AR অ্যানোটেশন করতে চাও তাহলে ট্র্যাকিৎ দরকার, না হলে তুমি কেবল 2D লিস্ট দেখাবে—কিন্তু AR‑কম্বাইন করা আসল মজার অংশ। (হাস্য) তাহলে, কথাটা যদি একটু জোকারিভাবে বলা হয়—আমাদের EU‑র জন্য সবার ব্যক্তিগত ডেটার একটা ডাটাবেসও লাগবে, আর তারপর? আছা, তারপরই সব শেষ—(হাসি)। তার মানে, সবাই তখন খুব সহজেই একে ব্যবহার করবে। কিন্তু সৎভাবে বলতে, ইভেন্টে যেটা দেখানো হয়েছিল—যে Gemini Keep খোলে এবং কিচ্ছু বলে 'ওকে, না, ওটা না'—এগুলো দারুণ ইমপ্রেসিভ ছিল। তবে ব্যক্তিগতভাবে আমি লোকাল মডেলে খুব বেশি আগ্রহী—অর্থাৎ, আমার ফোনেই এমন মডেল থাকলে আমি খুব খুশি হব; কারণ আমি একজন অ্যাপ‑ডেভেলপার এবং এখনো OpenAI সার্ভিস ব্যবহার করে অ্যাপ বানাই—এবং তা শুধু প্রাইভেসির কারণে নয়, বরং খরচও বড় একটি কারণ: এটি আমাকে টাকা খরচ করায়। ইতিহাসটা দেখতে চাইলে, পুরনো মেইনফ্রেম কিভাবে ছোট একক ডিভাইসে ছড়ানো হয়েছে—তাই একইভাবে জিনিসগুলো ডেসেন্ট্রালাইজড হবে: সার্ভারগুলো নিশ্চয়ই থাকবে, কিন্তু অনেক কাজ এজে‑ডিভাইসেই চলে যাবে। EPUs, AI‑স্পেশালাইজড কার্ড ইত্যাদি আগবোড়াও থাকবে—কিন্তু অনেকটা কাজ এড্জ‑এ চলে আসবে, কারণ স্মার্টফোন ও ঘড়ি আজকাল অনেক শক্তিশালী।
অ্যাপ্লিকেশনগুলো আসলে অনেক দ্রুত বিকশিত হবে, অনেক কাজ যেটা আগে সার্ভারে হতো তা লোকাল মডেলে সম্ভব হবে—যেগুলো কেবল কয়েক বিলিয়ন পরামিতি রাখে।
ঠিকই—উদাহরণস্বরূপ চার গিগাবাইট মডেলগুলো, যেগুলো কয়েক বিলিয়ন প্যারামিটার নিয়ে গঠিত—মডেল অপ্টিমাইজেশনের মাধ্যমে সেগুলো কার্যকরভাবে পরিবেশে চলবে; ডিভাইসগুলোকে অসামান্য দ্রুত করতে হবে এমনটা নয়, বরং মডেলগুলোকে নির্দিষ্ট কাজে কম রিসোর্সে দক্ষ করে গোনা হচ্ছে। সার্ভারগুলো থাকবে, তবে তারা বেশি জটিল কাজ করবে।
আমি লক্ষ্য করছি আমার পূর্বানুমান ধীরে ধীরে সত্যি হচ্ছে—আমি সবসময় ভাবতাম ভবিষ্যতে প্রত্যেক ঘরে একটা 'KI‑বক্স' থাকবে। আমি দেখছি হয়ত ৪৫% মানুষ Google‑এর সিস্টেম ব্যবহার করবে, ৪৫% Apple‑এর, আর ১০% লোক নিজেরাই কিছু বানাবে বা লিনাক্স‑ভিত্তিক সমাধি নেবে। এটাও ঠিক আছে—এভাবে হলে দেখি, কিভাবে এই ডিস্ট্রিবিউশন হয়। পুরনো সময়ের বড়‑ক্যামপিউটার যেভাবে বাড়তি কাজ চালাতো, এখন সেই কাজগুলো ধীরে ধীরে এন্ড‑ডিভাইসে চলে আসবে। এটা মানে সার্ভারগুলো বিলুপ্ত হবে না, বরং তারা আরও বিশেষায়িত হবে—সবকিছুই বদলাবে।
হ্যাঁ।
আর গেমিং‑দিকটা দেখলে আমরা দেখি কেন্দ্রীভূত একটি বড় গেমিং‑PC ধরে একসঙ্গে সবাই স্ট্রিম করে খেলে—এটা বাস্তবে খুব কমই দেখা গেছে; শেষ পর্যন্ত প্রত্যেকেরই নিজস্ব ডিভাইস থাকে। তাই KI‑বক্স‑কল্পনা বিশাল‑স্কেলে যে প্রত্যেকের জন্য বাস্তবসম্মত হবে না, বরং প্রত্যেকের নিজস্ব দক্ষতা থাকা ডিভাইসেই কাজ করবে—এমনটা বেশি যুক্তিযুক্ত মনে হয়।
হ্যাঁ।
কাজের ধরনটা হয়ত Google Health Connect‑এর মত একটা ওপেন পারিভাষার দিকে থাকবে—অর্থাৎ সার্ভার‑ভিত্তিকের বদলে ব্যক্তিগত KI এন্ড‑ডিভাইসে থাকবে। আমি বলছি না যে প্রত্যেকেই তাদের বডি‑কেও KI‑সার্ভার কিনে বসাবে—না। বরং ব্যক্তিগতভাবে লোকাল KI‑র দিকে ঝোঁকটা বেশি সুবিধাজনক মনে হবে।
হ্যাঁ।
সুতরাং আমার মতে এটা আবশ্যক না যে প্রত্যেকের বেসমেন্টে একটা KI‑সার্ভার থাকবে; ব্যক্তিগত এন্ড‑ডিভাইসে KI থাকা ও গ্রহণযোগ্য বিকল্প। প্রথমে এসেছে চ্যাটবট, তারপর এজেন্ট—এখন এজেন্টগুলো mainstream হচ্ছে; Google এখন কৌতুকের মতো সেই সুবিধা গ্রাহকদের দিচ্ছে। যদি আমরা একটু বেশি এগিয়ে ভাবি, Sam Altman‑এর ভিশনও তো ছিল যে তুমি এমন এক এজেন্ট পাবে যাকে বলবে 'এখানে আমার জীবনের সবকিছু তে তোমার অ্যাক্সেস আছে'—তার কথা হচ্ছে এজেন্ট যেন স্বয়ংক্রিয়ভাবে কাজ করে এবং তোমাকে বারবার নির্দেশ দিতে না হয়।
কারো নির্দেশ না নিয়ে এমন কাজ করো যা আমার জীবনকে উন্নত করে—আমি চাই না তোমাকে সবকিছু বলে দিতে; ব্যাকগ্রাউন্ডেই করো।
হ্যাঁ।
কিন্তু সেটি অবশ্যই লোকাল হতে হবে এবং কোনো কোম্পানির অধীনে না থাকা উচিত যার প্রথম চিন্তা হবে 'কিভাবে আমাদের লাভ হবে?' যদি কোন উন্নতি Wieland‑এর জীবনে কোম্পানার জন্য লাভজনক না হয়, তারা সেটি করবে না। না, সেটা উচিত না।
হ্যাঁ।
এটাই যেন না হয়।
উফ।
এটি এমন একটি লোকাল মডেল হতে হবে যা আমার কাছে চলে এবং যার একমাত্র প্রেরণা হচ্ছে আমাকে সাহায্য করা—আর কিছু নয়।
হ্যাঁ।
(হাসি) কিন্তু হ্যাঁ, দেখব কীভাবে বিষয়গুলো গড়ে ওঠে। আর ডেটা‑সুরক্ষার কথা বললেই—আমি চাইনা আমার সব Health‑Connect ডেটা, এমনকি সেক্সুয়াল‑অ্যাক্টিভিটি পর্যন্ত, Google Cloud‑এ জমা থাকুক। আমি চাই সেটা আমার নিজের ডিভাইসে থাকুক, যেন সেটা কোনো জরুরি অবস্থায় আমি আলমারির ভেতর রেখে বেসবল ব্যাট দিয়ে ভাঙতে পারি—অতটা নিরাপত্তার ভাবেই বলছি—তাতে ডেটার গোপনীয়তা রক্ষা পাবে যদি সবকিছু ভুলে যায়।
হ্যাঁ।
—যা ভুল গেলে ডেটার গোপনীয়তা নিশ্চিত করতে পারে।
ঠিক, হ্যাঁ।
ঠিক আছে। তাই—
ভাবো তুমি দিনে বাইরে হাঁটছো, গ্লাসগুলো সেই এজেন্টিক ওয়ার্কফ্লো নিয়ে বলে: 'ওহ, আমি তোমার চ্যাট ও অর্ডার‑হিস্ট্রি দেখে বুঝেছি—তুমি দুদিন পরে একটা ডেটে যাবে এবং তোমার কনডম‑স্টক ফিলুইং‑লেভেলে আছে; তাই আমি তোমার জন্য একটুখানি Amazon‑অর্ডার প্লেস করে দিয়েছি যাতে তুমি ঠিকঠাক প্রস্তুত থাকো।'
আর আমি অবশ্য—
Wieland বলে: 'পারফেক্ট, দারুণ।'
আর আমি ইতিমধ্যেই Google Health Connect‑এ আমার যৌনগত কার্যকলাপ‑ডেটায় Protection Use True হিসেবে সেট করে রেখেছি। যদি Amazon‑ডেলিভারি দেরি করে, আমি সেটা স্বয়ংক্রিয়ভাবে False করে দেব।
দারুণ। [হাসে]
[হাসে]
পারফেক্ট। আমার কোনো মন্তব্য নেই।
ওহ হ্যাঁ।
ঠিক আছে। [গলা পরিষ্কার করে] হ্যাঁ।
ঠিক আছে।
ওকে।
আমার কাছে আসলে সত্যিই আরেকটা মন্তব্য আছে—
ঠিক আছে, বলো, বলো।
এই বিষয়টা নিয়ে… আহাম, আমরা আগেই কথা বলেছিলাম যে, আমেরিকায় OpenAI-র ডেটাসেটে স্বাস্থ্য-সংক্রান্ত তথ্যগুলোও যুক্ত করা হতে পারে। মনে হয় এটা আমরা গত বা আগের ক্রাঞ্চ-টাইম এপিসোডেই আলোচনা করেছি। আর এখন পরের ধাপ শুরু হচ্ছে। তারা 'Plant' নামের একটা সফটওয়্যার ব্যবহার করে ChatGPT-তে সব আর্থিক ডেটাও ইমপোর্টযোগ্য করার পরিকল্পনা করছে, যাতে কার্যত লেখা দেখা যাবে: 'ঠিক আছে, এখন একটা বাজেট-ব্রেকডাউন করি — আমি কোন খাতে কতটা খরচ করছি?'
হুম।
আর আমি এখন ভাবছি, আমার ব্যক্তিগত অর্থনীতি থেকে আর কী অপটিমাইজ করা যায়? মূল আইডিয়া হলো—এখনই কমপক্ষে দুই-লক্ষ ChatGPT ব্যবহারকারী নিয়মিতভাবে ব্যক্তিগত ফাইন্যান্স সম্পর্কিত প্রশ্ন করছে, যা একদম বড় সুযোগ। ভাবো, এতে কী ধরনের প্রেডিকশন আসতে পারে: উদাহরণস্বরূপ, এটা বলতে পারে, 'তুমি হয়তো স্টারবাক্সে এক কাপ কম কফি কিনলে, তুমি অন্যটাকে কিনতে পারতে। আহ, দুর্ভাগ্য।' কিংবা, 'আমি দেখেছি, গত মাসে তুমি ই-স্কুটারে একশ পঞ্চাশ ইউরো খরচ করেছ — চল, অন্য কিছু করি।'
তুমি বুঝছ তো, আমি কী বলতে চাই। হা হা।
হ্যাঁ।
এটা তো বেশই ঝাঁপিয়ে—এটা যদি যুক্ত হয় তাহলে তোমার Schwab/Fidelity অ্যাকাউন্টসহ আমেরিকার নানা অ্যাকাউন্টে সহজে অ্যাক্সেস থাকবে, কারণ এটা একধরনের কেন্দ্রীয় ব্যাঙ্ক-API-এর মত কাজ করে।
হ্যাঁ।
এটা আমার কাছে বেশ অদ্ভুত লাগে যে, এত বড় পরিসরে এটা এখনো এতটাই প্রচলিত নয়।
জোনা।
যতদূর আমি জানি। তুমি কি আমাকে এবার ভুল প্রমাণ করবে?
ওহ, জোনা, আমার কিছু বলার ছিল। আমি আসলে এটার কথা তুলব না, কিন্তু ফাইন্যান্স টুলস আর ব্যাঙ্ক-API-সম্পর্কে—
হ্যাঁ।
আমি বলতে পারি তোমাকে আমি কীভাবে খুঁজছিলাম ও এখনো খুঁজছি। একটু সাবধান থাকতে হবে যেন কোনো মানহানি না হয়, কিন্তু একটি ব্যাঙ্ক আমাকে আকৃষ্ট করার চেষ্টা করেছিল।
হ্যাঁ।
তারা আমাকে অনেকক্ষণ ধরে পরামর্শ দিয়েছে ও চাপে রেখেছে, এবং তারা যা নিয়ে প্রোমো করছিল তা আমার খুব পছন্দ হয়েছে। তারা একটি সিস্টেম নিয়ে বলছিল যা আমার জন্য স্বয়ংক্রিয়ভাবে কাজ করবে। তারা বলছিল, 'ওকে, তোমার খরচের উপর নির্ভর করে স্বয়ংক্রিয়ভাবে একটি নির্দিষ্ট পরিমাণ সঞ্চয় হবে এবং সেই সঞ্চয় যদি ট্যাগেসগেল্ডকোন্টোতে (দিনভিত্তিক সেভিংস অ্যাকাউন্টে) একটি নির্দিষ্ট স্তর ছাড়িয়ে যায়, তাহলে অতিরিক্ত অংশগুলো ডিপোতে রাখা হবে এবং আংশিকভাবে পেনশনে বা অন্যান্য প্ল্যানে যাবে, ইত্যাদি ইত্যাদি।' আমি মনে করি এটা দারুণ। আমি এমনটা ভালোবেসে গ্রহণ করব।
হ্যাঁ, আর যিনি এসব অটোমেশন নিয়ে আগ্রহী, তাদের জন্য এটা সত্যিই দুর্দান্ত—এমন কিছু প্ল্যান করে নেওয়া খুব আকর্ষণীয়।
হ্যাঁ।
কিন্তু
সংক্ষিপ্ত প্রসঙ্গ হিসেবে বলছি: আমি ওয়াইল্যান্ডকে পরামর্শ দিয়েছিলাম যে এই ব্যাঙ্কটা বেশ সম্ভবত একটা স্ক্যাম। স্ক্যামের সংজ্ঞা সবসময় জটিল, কিন্তু আমি ব্যক্তিগতভাবে তাকে এভাবেই বলেছি। এবং—
এটা অনেক সময়ে এমনই হয়, বিশেষত যখন নিজে নিজের অ্যাকাউন্টগুলো—আলোচনা ছিল একটি অ্যাকাউন্ট-মডেল নিয়ে—আর তুমি নিজে সেগুলো নিয়ন্ত্রণ করতে পারো না; বরং সবকিছু কেবল স্ক্রিনে কয়েকটি সংখ্যার মতো দেখায় যে টাকা কোথায় গেছে। সবচেয়ে বাজে ক্ষেত্রে তারা এই অ্যাকাউন্ট-সিস্টেম থেকেই মাসে মাসে তোমার কাছ থেকে উপার্জন করতে চাইবে। এটা মোটেই অপ্রত্যাশিত নয়। আমার ধারনা ছিল যে, শেষপর্যায়ে এটা হয়তো একটি বড় আর্থিক ফাঁদ হয়ে উঠতে পারে, কারণ তারা পরে বলবে, 'দেখ এখানে তুমি যা সই করেছ সেটার পৃষ্ঠা ১২৩-এ লেখা আছে—ওহ না, যদি তুমি এটি বাতিল করতে চাও, তাহলে এখানে বিশটি শর্ত আছে যা আগে পূরণ করতে হবে', ইত্যাদি। সবকিছুই জটিল হয়ে যায়। তাই আমি তাকে বলেছিলাম—অবশ্যই—বিষয়টাকে অপ্রয়োজনে জটিল করবেন না এবং নিজেকে ঠকাতে দেবেন না।
ঠিক। আর যা আমাকে চমকায়, তারা বারবার বলছিল যে এই ব্যাঙ্কটা ওই সিস্টেমটির পেটেন্ট করেছে। তারা দাবি করছিল এটা অন্য কোথাও নেই।
হ্যাঁ, সেটাই তো—এটা মোটেই অনন্য নয়। প্রতিটি ব্যাঙ্কই বলে তারা অন্যদের থেকে আলাদা, কিন্তু বাস্তবে সেসব বক্তব্য সাধারণ।
হ্যাঁ, জোনা, এবং পরে কাণ্ডটা খুললে: আমি নিজের ব্যাঙ্কে গিয়েছিলাম এবং এখন আমার ও একই ধরনের সুবিধা আছে। পুরোটা আমার ব্যাঙ্কের স্ট্যান্ডার্ড টুলস দিয়ে নয়, কিছু করতে হয়, কিন্তু সবচেয়ে বড়টা আমি খুঁজে পেয়েছি হল: একটা ইউনিভার্সাল ব্যাঙ্ক-API আছে, জোনা।
কি?
কিন্তু এখন আসছে মজার টুইস্ট।
হ্যাঁ।
বইথেকে লাইব্রেরি আছে—এমনকি পাইটন লাইব্রেরিও আছে যার মাধ্যমে তুমি এটা করতে পারো।
লোল।
কিন্তু সেক্ষেত্রে তোমাকে জার্মান ক্রেডিট-খাতে একটি প্রোডাক্ট রেজিস্টার করতে হবে।
হ্যাঁ।
আমি এখন তোমাকে জার্মান ক্রেডিটখাতে নিবন্ধিত কিছু ফাইন্যান্স প্রোডাক্টের তালিকা বলছি (উদ্ধৃতি)।
হ্যাঁ।
ট্রেড রিপাবলিক।
হ্যাঁ।
ফাইনান্সগুরু।
ওয়াইল্যান্ডের অটোফাইন্যান্স।
[হাসে]
হুম, দারুণ।
[হাসে]
হ্যাঁ।
না না, তবে এটা দারুণ।
তুমি কি বলতে পারো এই API-টা কী নামে? এর কি কোনো নির্দিষ্ট—
এটি FinTS নামে পরিচিত।
আহ, ঠিক।
আর যদি তুমি—
আমি এটা সত্যিই খুব মজার মনে করব বলতে: 'ওকে, তুমি সরাসরি নিজে আরও কিছু অটোমেট করতে পারো।' তুমি এ বিষয়ে এখনই কথা বলবে।
ঠিক তাই, ধারণাটা হল। আমি এখনও এটা বানাচ্ছি। আমার প্রধান চাহিদা হলো API-এর মাধ্যমে আমার অ্যাকাউন্ট অ্যাক্সেস করা; উদাহরণস্বরূপ দেখা যাবে কতটা টাকা বাকি আছে এবং আমি তারপর বলে দিতে পারব: 'ওকে, এর ২০ শতাংশ ডিপোতে যাবে, বাকিটা অন্য কোথাও যাবে'—এভাবে নিজের নিয়ম করে অটোমেশন চালানো যাবে। আর আমি হয়ত একটু রিওয়ার্ড-স্টাইল ফিচারও যোগ করতে চাইব, যেন বলা হলে যে 'অ্যাকাউন্টে টাকা আছে, আমাকে পুরস্কৃত করা যেতে পারে', তখন আমার স্বাস্থ্য-সিস্টেম জিজ্ঞেস করবে: 'ওয়াইল্যান্ড কি আজ তার সব লক্ষ্য পূরণ করেছে?'
ওয়াইল্যান্ড কি আজ ভালো ছেলে ছিল? হ্যাঁ।
ওয়াইল্যান্ড কি আজ ব্যায়াম করেছে?
ওই, ওই।
ওয়াইল্যান্ড কি বিগ ম্যাক খায়নি? আর যদি না খায়, তাহলে দিনের শেষে আমি আমার ট্যাগেসগেল্ডকোন্টো থেকে আমার কনজাম্পশন-ক্রেডিটকার্ডে পাঁচ ইউরো ট্রান্সফার অনুমোদন করতে পারব।
দারুণ।
তাই, এটাতেই একটাই অসুবিধা আছে। আমি বুঝি কেন তারা এটা করছে, কারণ তোমার অ্যাকাউন্টকে স্বয়ংক্রিয় করা একটু জাঁকজমকপূর্ণ। আর কেবল App-TAN পদ্ধতি দিয়েই এটা করবে না।
হ্যাঁ।
অর্থাৎ, আমি কেবল সেটি ট্রিগার করে ফোনে 'হ্যাঁ/না' বললেই হবে না; সেখানে TAN পদ্ধতিটি চালানো লাগবে। এটা একটু খারাপ। মানে, কেবল আমার ফোনে 'হ্যাঁ' বা 'না' চাপলেই হবে না, কারণ আমার ফোনে একটি TAN দেখানো হবে, যেটা আমাকে নিরাপদভাবে—নয় Telegram—স্ক্রিপ্টটিতে ফেরত পাঠাতে হবে।
হ্যাঁ।
যাতে স্ক্রিপ্টটি তখন TAN ব্যবহার করে অথরাইজ করতে পারে। এটা একটু জটিল, আমাকে এটা নিয়ে আরও চিন্তা করতে হবে। কিন্তু হ্যাঁ, জোনা, এটা সম্ভব। এটাকে অটোমেট করা যায়। এটা কেবল—
এর জন্য একটু বাগিয়ারভাবে প্রোগ্রামিং করতে হয়—
কিছু করতে হবে—
তোমাকে ওই অংশগুলোকে ঠিকভাবে যুক্ত করতে হবে। আর হ্যাঁ, যদি পথে কোনো এক্সপ্লয়িট থাকে অথবা যে মেসেঞ্জার সার্ভিস দিয়ে তুমি পাঠাচ্ছ সেটা শুনে নেয়, তাহলে সেটি খুবই ঝুঁকিপূর্ণ হবে।
হ্যাঁ।
যা সন্দেহ হলে ধরে নেওয়াই ভালো।
হ্যাঁ। এখানে সত্যিই খেয়াল রাখতে হবে, কিন্তু জোনা, এটা কাজ করে। অর্থাৎ, যারা এসব করে তাদের বেশিরভাগ ব্যাঙ্কেই এটা সম্ভব। আমি বলব না আমার ব্যাঙ্কটা খুবই আধুনিক—আমি মনে করি—
ঠিক আছে।
আমি আমার ব্যাঙ্ককে কখনই ভাবি না যে 'ওহ, এটা কোনো নियो-ব্রোকার, Revolut-ধাঁচের ব্যাঙ্ক, যারা বলে: আমাদের কোনো শাখা নেই, সবই অ্যাপ, সব ডিজিটাল, AI'—আমার ব্যাঙ্কটা বেশ ঐতিহ্যগত।
হ্যাঁ।
আরও বলতে গেলে, এমনকি আমার ব্যাঙ্কও এই ফাইন্যান্স-FinTS সিস্টেমে অংশ নেয়। তোমাদের ব্যাঙ্কও নিশ্চিতভাবেই করবে।
ঠিক আছে, ভালো।
ঠিক, এটা শুধু একটা ছোট তন্নতন্ন ছিল। যদি কেউ এটা অটোমেট করতে চায়, সে সেটা করতে পারবে।
মে মাসের শুরু থেকে লিনাক্স কের্নেলে একগুচ্ছ বেশ বড় এবং অত্যন্ত গুরুতর বাগ আবিষ্কৃত হয়েছে। এই ঘটনাগুলো সংবাদে খুব তীব্রভাবে গুরুত্ব পেয়েছে, কারণ বাস্তবে কেবল কয়েকটি নয় বরং প্রায় সব ধরনের সিস্টেম — যেগুলো লিনাক্স চালায় — তুলনামূলকভাবে কম বা বেশি পরিমাণে এদের দ্বারা প্রভাবিত হতে পারে, কারণ এই ত্রুটিগুলো কের্নেলের এমনই মৌলিক স্তরে আছে যা সিস্টেমের মূল কার্যপ্রণালীকে স্পর্শ করে।
হুম।
এখানে বেশ কয়েক ধরনের দুর্বলতা আছে; উদাহরণস্বরূপ Dirty Pipe, Dirty Cow, Dirty Frag এবং Copy Fail। মোটেই এগুলো অনেকই আছে, এবং অনেক ক্ষেত্রেই এদের মধ্যে সাদৃশ্য পাওয়া যায়, বলতেই পারি—
হ্যাঁ।
তারা সাধারণত একই নামে ডাকা হয়, তবে প্রত্যেকটি একটু একটু করে আলাদা কাজ করে। আমি এখানে খুব বিস্তারিত যাই না—ওটা বেশ জটিল হবে—কিন্তু সংক্ষেপে বর্ণনা করছি: এক্সপ্লয়টগুলো সাধারণত কের্নেলের একটি নির্দিষ্ট ইন্টারফেস ব্যবহার করে কাজ করে, যেখানে Page Cache-এ মাত্র চারটি বাইট লিখে দেওয়ার সুযোগ থাকে। এক্সপ্লয়টভেদে সেই ইন্টারফেসটা ভিন্ন হতে পারে—অর্থাৎ আলাদা কল বা রুটিং থাকতে পারে। এখন প্রশ্ন ওঠে: 'ঠিক আছে, কিন্তু চার বাইট লিখে দিয়ে কী হবে? এটা কি বড় কিছু?' কিন্তু যদি সেই চার বাইটটি সিস্টেমে গুরুত্বপূর্ণ কোনো ফাইল বা ডাটার অংশে লেখা হয়, তাহলে তা অত্যন্ত ভয়াবহ পরিণতি ডেকে আনতে পারে।
হ্যাঁ, সেটা হতে পারে, কিন্তু ওই চার বাইটকে আপনি যে কোনো জায়গায় লিখে দিতে পারেন। আর এর মানে হলো—আদর্শ পরিস্থিতিতে—আপনি সহজেই /etc/passwd বা SU-সংক্রান্ত ফাইলগুলোও ওভাররাইট করে দিতে পারেন।
হ্যাঁ।
এভাবে একজন সাধারণ ব্যবহারকারী ওই স্ক্রিপ্টটি চালানোর পরই সরাসরি সিস্টেমে রুট-স্বত্ব পেয়ে যেতে পারে। এবং সেটা সত্যিই বিপজ্জনক, কারণ এর মাধ্যমে কনটেইনার থেকেও বেরিয়ে আসা সম্ভব—অর্থাৎ আপনি কনটেইনার ভেঙে হোস্টে প্রবেশ করতে পারবেন। ডকার কন্টেইনার থাকলেও Page Cache যৌথভাবে শেয়ার করা হয়, তাই সেই ক্যাশ ব্যবহার করে আক্রমণ সফল হতে পারে।
হ্যাঁ।
ঠিক এভাবেই এটা কাজ করে। এখানে প্রতিটি সিস্টেম আলাদা আলাদা নিয়মে কাজ করে এমন নয়, বরং অনেক হোস্টেড সার্ভারেই একই ধরণের ইন্টারফেস থাকার কারণে আপনি ওই দুর্বলতাগুলো কাজে লাগিয়ে কনটেইনার বা হোস্ট উভয় থেকেই বাস্তবে বেরিয়ে আসতে পারবেন। আর তারপর তো পুরো ব্যাপারটা 'রিপ'—অর্থাৎ সিস্টেমের নিরাপত্তা পুরোপুরি ভেঙে যেতে পারে।
Page Cache রাখা হওয়ার মূল কারণটা খুব সোজা: হার্ডড্রাইভে বারবার ডেটা লিখে বা পড়তে গেলে সেটা ভীষণ ধীরগতির হবে। ডিস্কে লেখার সময় হার্ডড্রাইভের রিড/রাইট হেডকে যথার্থ অবস্থানে নিয়ে যেতে হয়, তারপর সংশ্লিষ্ট ব্লকগুলো পড়তে বা লিখতে হয়—এটি অনেক সময়খরচী। তাই অপারেটিং সিস্টেম মেমরিতে ডেটা ধরে রেখে, পেজ-ভিত্তিকভাবে পরে সেগুলোকে ডিস্কে ব্যাক করে দেয়; ফলে পারফরম্যান্স অনেক ভালো থাকে। এটা বিশ্ববিদ্যালয়েও শেখানো হয়—পেজগুলো সাধারণত সাইডে (seitenweise) রূপে ডিস্কে লিখে ফেলা হয় এবং নিয়মিত নির্দিষ্ট ইন্টারভালে ব্যাকফ্লাশ করা হয়।
কিন্তু এই এক্সপ্লয়টগুলোতে একটি অদ্ভুত বিষয় হচ্ছে: সিস্টেম সাধারণত ডিস্কে what's on disk তা দেখে। অনেক সিকিউরিটি চেক বা ভেরিফিকেশন ডিস্ক-ভিত্তিক ডেটার হ্যাশ দেখে সিদ্ধান্ত নেয়—অর্থাৎ তারা দেখছে ডিস্কের ঐ অংশের হ্যাশ কি আমাদের জেনারেট করা হ্যাশের সঙ্গে মেলে কি না। যেহেতু এক্সপ্লয়টাররা কেবল Page Cache-এ ওই চার বাইট পরিবর্তন করেছে এবং ডিস্কের আসল ডেটা বদলায়নি, তাই এই হ্যাশ চেকগুলো প্রায়ই পাস হয়ে যায়। সহজভাবে বললে—সিস্টেম 'চোখে' টের পায় না যে মেমরির ক্যাশে পরিবর্তন হচ্ছে, কারণ যাচাই হচ্ছে ডিস্কের কপি, ক্যাশ নয়।
এই অবস্থা টিকে থাকবে যতক্ষণ না সিস্টেমটি রিবুট করা হয় বা অ্যাডমিন ম্যানুয়ালি সেই Page-Cache পেজটি ইনভ্যালিডেট বা ড্রপ করে দেয়। লিনাক্সে এটার জন্য একটি কমান্ড আছে—কিন্তু অ্যাডমিন সাধারণত সেটি সহজে চালায় না যদি না তাদের বিশেষ কোনো সন্দেহ থাকে; হঠাৎ করে ক্যাশ ড্রপ করলে সেটা সন্দেহজনক মনে হবে।
এটার বাস্তব প্রভাবটি হলো যে এই দুর্বলতাগুলো বেশিরভাগ ডিস্ট্রিবিউশনে ২০১৭ সাল থেকে বিভিন্নভাবে উপস্থিত—অর্থাৎ অনেক সিস্টেমই পুরোনো কের্নেল ভার্সন চলালে ঝুঁকিতে থাকবে। সমাধান স্পষ্ট: কের্নেল আপডেট। আপনাকে নতুন, প্যাচকৃত কের্নেল ভার্সন ডাউনলোড করে সিস্টেম আপগ্রেড করতে হবে—আমি ঠিক জানি না তারা কোন ভার্সনে প্যাচ করেছে (হয়তো ৬.৩.১ বা এর পরের), কিন্তু মূল কথা হচ্ছে আপডেট না করলে সিস্টেম 'খতম'।
এটি এমন কারণেও বিপজ্জনক যে প্রচলিত ইন্টিগ্রিটি-চেকগুলো, যেমন প্যাকেজ ম্যানেজার বা সিস্টেম যে ফাইল-ইন্টিগ্রিটি পরীক্ষা করে, তারা ডিস্কের কপি দেখে; ফলে ইন্টিগ্রিটি স্ক্যানও এই সমস্যা ধরতে পারে না। অনেক অ্যাডমিন সপ্তাহ বা মাস ধরে এই পরিস্থিতি টের পাবে না যতক্ষণ না কোনও রিবুট বা নির্দিষ্ট ইনভ্যালিডেশন করা হয়—এটা একেবারে গুরুতর সিকিউরিটি সমস্যা।
এবং হ্যাঁ—এইসব এক্সপ্লয়টগুলো বাস্তবে কৃত্রিম বুদ্ধিমত্তা (AI) ব্যবহার করে আবিষ্কৃত হয়েছে।
হ্যাঁ।
আসলেই, সেই সিকিউরিটি রিসার্চারটি পুরোপুরি কৃত্রিম বুদ্ধিমত্তাকে গ্রহণ করেছেন এবং তাকে ব্যাপকভাবে খোঁজা-নিরীক্ষায় নিয়োজিত করেছেন। তবে এআই এখনও এমন পর্যায়ে নেই যে সে পুরো প্রক্রিয়াটি শুরু থেকে শেষ পর্যন্ত নিজে থেকে আয়ত্ত করে নিতে পারে। এরকম দক্ষতা এখনও কৌশলগতভাবে সীমিত। অবশ্যই এটি বাজেটের ওপর নির্ভরশীল: যদি আপনি এআইকে বলতেন 'ঠিক আছে, আমি তোমাকে এক হাজার ইউরো বাজেট দিচ্ছি', তাহলে হয়তো খুঁজে বের করা অনেক সহজ হয়ে উঠত; কিন্তু বাস্তবিক আর্থিক সীমাবদ্ধতা নিয়ে কাজ করলে এআই এখনও পুরোপুরি স্বয়ংসম্পূর্ণ নয়।
এআই যা করে তা মানুষের সহায়তার ওপর নির্ভর করে—রিসার্চার সিদ্ধান্ত নেন কোন দিকে আরো গভীরভাবে অনুসন্ধান করা উচিত, কোন বিকল্পগুলো পরীক্ষা করা যেতে পারে, এবং কবে থামতে হবে; এআই সেই নির্দেশনা পেয়ে নমনীয়ভাবে বহু সম্ভাব্য খোঁজ চালায়, কিন্তু শেষ সিদ্ধান্ত এবং বিশ্লেষণ প্রায়ই মানুষের কাঁধেই থাকে। এই ধাঁচেই এই সময়ে কাজটা হয়েছে।
আর এর আরো একটি ফল হলো—আগে করা অনেকগুলো পূর্বাভাস ঠিক ছিল: অনেক নিরাপত্তাহীনতা এখনই এআই দ্বারা খুঁজে পাওয়া যাচ্ছে। বিশেষ করে লিনাক্স-কের্নেলে এটা খুবই বেশি দেখা যায়, যেখানে অসংখ্য ছোটখাটো, অপেক্ষাকৃত কম গুরুত্বপূর্ণ দুর্বলতা রয়েছে, যেগুলো AI দ্রুত শনাক্ত করে।
এখানে আরও সমস্যা হচ্ছে যে লিনাস টরভাল্ডস নিজেই লিখেছেন যে তিনি প্রচুর ইস্যু দেখে ততটাই হতবুদ্ধি; অনেক ইস্যুই একেবারে ডুপ্লিকেট, কিন্তু মানুষগুলো তা চেক করে না—তারা বুঝে না কি সেখানে ঠিক কী বলা আছে, সেটা কি আগেই কারো দ্বারা সমাধান করা হয়েছে কিনা, বা কোনো ফিক্স আগে থেকেই আছে কি না। অনেকে কেবল AI-র আউটপুট ইস্যুতে পেস্ট করে দেয়, বেসিক রিপ্রোডিউসেবল স্টেপ বা পরীক্ষাদি ছাড়াই—ফলত মেইন্টেইনাররা ট্রায়াজ করতে গিয়ে ব্যস্ততার শিকার হন এবং প্রকৃত সমস্যাগুলো আলাদা করা কঠিন হয়ে পড়ে।
আর তিনি এখানে সুনির্দিষ্টভাবে বলেন:
আপনি যেই অধিকাংশ সমস্যা আপনার AI দিয়ে খুঁজে পাবেন, সেগুলো নিশ্চিতভাবেই অন্য কোনও AI-মডেল দ্বারা আগেই খুঁজে নেওয়া হয়েছে এমনটা ধরা উচিত। যদি আপনি সত্যিই প্রচুর টাকা খরচ করেন—খুব বড় বাজেট দেন—তাহলে সেটা আলাদা কথা; কিন্তু বাস্তবে খুবই সম্ভাবনা আছে যে ওই সমস্যা ইতোমধ্যে জানা বা রিপোর্ট করা হয়ে গিয়েছে।
হ্যাঁ।
হ্যাঁ।
আমি তো তোমাকে আগেই জিজ্ঞেস করতে চেয়েছিলাম—এসব কি AI-দ্বারা আবিষ্কৃত দুর্বলতাই ছিল? এটা আমার কাছে খুবই রোমাঞ্চকর লেগেছে। আর একদিকে, এখানে জার্মানিতে এই সংবাদটির ভাঁজটা কতটা ধীরে ধীরে ছড়াচ্ছে—এটা সত্যিই অবাক করার মতো। উদাহরণস্বরূপ, মাত্র দুদিন আগে ZDF-এ একটি প্রতিবেদন চলে—শিরোনামটি ছিল 'Claude Mythos কতটা বিপজ্জনক?'—তখন আমি নিজে ভেবেছিলাম, ওরা অবশেষে এটাকে কভার করছে। আমি নিজে তিন সপ্তাহ আগে এই সম্পর্কে ভাবেছিলাম।
ধন্যবাদ, ZDF। ভালো লাগছে যে অবশেষে জার্মানিতেও আমরা এটি লক্ষ্য করতে পারলাম। আমি নিজে তিন সপ্তাহ আগে থেকেই এই প্রশ্নটা চিহ্নিত করেছিলাম, কিন্তু সেটা এখনই প্রকাশ্যে এলো—কিন্তু চলুন, এ নিয়ে কথা বলা যাক। এটা অনেকের জন্য একধরনের জাগরণ সৃষ্টিকারী মুহূর্ত ছিল; কারণ বাস্তবে যা ঘটছে এবং এমন কিছু মানুষ যারা বলে 'AI তো কোনো বড় ব্যাপার নয়'—এসবের মধ্যে এখন যে টানশক্তি বা উত্তেজনা ক্রমশ বাড়ছে, সেটাই উদ্বেগজনক।
হ্যাঁ।
—আর এমন মানুষ আছেন যারা বলে, 'AI বাস্তব নয়'।
তুমি 'বাস্তব নয়' বলে কী বোঝাচ্ছ?
হ্যাঁ, বলতে গেলে, ইংরেজিতে এমন কিছুকে 'Nothing Burger' বলা হয়।
হুম।
ওহ, পুরো ব্যাপারটা অনেকটাই হাইপ—লোকেরা বলে এটাকে যে ক্ষমতা দেয়া হচ্ছে, সেটা সম্পূর্ণভাবে সম্ভব নয়, ইত্যাদি। কিন্তু আমার মতে, এইটা এমন একটা মুহূর্ত ছিল যখন নিশ্চয়ই বলা যায় যে যদি—আমি জানি না—'Claude Mythos' এক সপ্তাহে কোনোমতে হাজার পাঁচশো জিরো-ডে এক্সপ্লয়ট খুঁজে পায়, যেগুলো বাস্তবে exploit করা যেত, তাহলে সেটা বিরাট ব্যাপার। এটা সত্যিই বড় ব্যাপার।
হ্যাঁ।
আসলে, তাই আমি জানি না। অনেক মানুষ আছে — আমি তাদেরকে বুঝতে পারি যারা বলেছেন এটা শুধু হাইপ, কারণ মজার ব্যাপার হল কিছু লোক উল্টোদিকে বলেছে: “ঠিক আছে, সবাই, আমি এখন আপনাদের জন্য একটা সংবাদ নিবন্ধ পড়ে শোনাচ্ছি,” এবং তারপর তারা বলে: “হ্যাঁ, OpenAI একটি মডেল বানিয়েছে, কিন্তু তারা এটা এখনই ছাড়ছে না কারণ বলে এটা অনেক বেশি বিপজ্জনক। এটা সত্যিই সমাজ বা কম্পিউটার সিস্টেমে বড় ধরনের ক্ষতি করতে পারে, তাই তারা আপাতত GPT‑3.5 মুক্তি দিচ্ছে না।”
ঠিক।
আহা, হুম।
হ্যাঁ, আসলে প্রশ্নটা হচ্ছে, এটা কোন অনুপাতে আছে।
হ্যাঁ।
কিন্তু কেন, কেন এই খালি আবরণগুলো আছে? এটা তো স্পষ্ট। অবশ্যই এগুলো মূলত শেয়ারহোল্ডারদের প্রস্তুত করে আরও টাকা ঢুকাতে বোঝাতে করা হয় — এখানে বিষয়টা পরের বছরের ফলাফল নয়। মেয়াদটা দীর্ঘমেয়াদি; আমি বলব, পরবর্তী দশ বছরে কী অর্জনযোগ্য এবং কোম্পানি কীভাবে আগামী দশ বা বিশ বছরে সেই প্রযুক্তি থেকে আয় করতে পারবে তা বিবেচ্য। এটা শুধু 'ওহ, ঠিক আছে, পরের কোয়ার্টারে কেমন হবে'—এরকম নয়। হ্যাঁ, মাঝে মাঝে কুৎসিত লাফ দেখা যায়, কিন্তু এত গভীরভাবে সেটা বিবেচনা করা হয় না। বরং তারা দেখে ভবিষ্যতে আয় কেমন হবে, আয়ের প্রবণতা কেমন থাকবে—শুধু পরের ত্রৈমাসিক বা বছরে না, বরং বহু বছর পরে কেমন হবে। আর আমি মনে করি সন্দেহাতীতভাবে বেশি প্রতিশ্রুতি দেওয়াটা মোটেই খারাপ নয়, কারণ সাধারণত মানুষ সেই প্রতিশ্রুতিগুলো দ্রুত ভুলে যায়—যখন ক্রমাগত নতুন তথ্যের স্রোত বজায় রাখা হয় যে শীঘ্রই কী সম্ভব হবে, যদি তুমি ওই বলটাকে চালিয়ে রাখো।
হ্যাঁ।
ঠিক আছে, কারণ এটা এক সময় নিশ্চয়ই কাজ করবে। কেবল তারা যে সময়কালটা দেখিয়েছে, সেটা তারা অতিরিক্তভাবে কমই ধরেছে, হয়ত ইচ্ছাকৃতভাবে। তারা বলে: “ওহ হ্যাঁ, এটা এক বছরে কাজ করবে,” কিন্তু বাস্তবে তিন থেকে পাঁচ বছর লাগতে পারে, যখন বাস্তবে একটা কনসেপ্ট বাস্তবায়ন করা সম্ভব হবে।
ওহ, হ্যাঁ।
আর, নিশ্চয়ই বলা যায়: “ঠিক আছে,”
GPT‑3.5 তখনকার সময়ে বেশ দারুণ ছিল, কিন্তু এটা এখন পর্যন্ত সমাজের জন্য এত বড় ধরনের ক্ষতি করেছে না—সবই নির্ভর করে তুমি ‘সমাজের ক্ষতি’ কীভাবে বুঝো।
হ্যাঁ।
তবে ঠিকই, বুঝছিস? এটাই আমি বলতে চেয়েছিলাম। GPT‑3.5 কেবলই ঠিকঠাক একটি kohärenten বাক্য গঠন করতে পারত।
হ্যাঁ।
বোঝো? তখন মানুষরা সমান্তরাল টেনে বলল: “ঠিক আছে, GPT‑3.5 দিয়ে তুমি কিছু হ্যাক করো নি। তো এটা কি নিরাপদ? সবই নকল।” কিন্তু বাস্তবে এর সত্যিকারের প্রভাব আছে এবং মানুষ সেটাকে ঠিকভাবে মোকাবিলা করার চেষ্টা করছে। উদাহরণস্বরূপ বলা হচ্ছে, “ওহ, এই প্রযুক্তি শীঘ্রই ওপেন সোর্সে চলে আসবে।” OpenAI-ও এর কথা বলেছে, গুগলও Google I/O-তে কিছু প্রথম দিকে ঘোষণা করেছে—তবে তাদের উদ্দেশ্য এখন হলো বড় কোম্পানিগুলোর কাছে প্রথমে এই মডেলগুলো নিয়ে গিয়ে সেগুলো নিরাপত্তার দিক থেকে পরীক্ষা করা।
যখন এই প্রযুক্তি অনিবার্যভাবে সবার জন্য উন্মুক্ত হবে, তখন অন্তত এখনই না হয় Google কাল হ্যাক হবে বা Adobe হ্যাক হবে—এটা বিশ্ব অর্থনীতির জন্য বড় ঝামেলা হয়ে দাঁড়াবে।
হ্যাঁ।
তো, কিন্তু—
হ্যাঁ, আমি এটা বেশ ভয়াবহ মনে করেছি। অনেকের জন্য এটা হয়তো একটা ছোট জাগরণের মুহূর্ত ছিল, কারণ তারা তখন বলত: “হ্যাঁ, অনেক GitHub ইস্যু আছে...”
সবকিছু যেন বেহাল আর জঞ্জালে ডুবে আছে—সবাই বলে: “হ্যাঁ, এগুলো সবই তুচ্ছ, অনেক চাপে ছিল কিন্তু শেষমেষ কিছুই না।” এই হল যে ন্যারেটিভ। এবং আমার মতে এটাকে সম্পূর্ণভাবে উপেক্ষা করা কঠিন। তুমি কীভাবে এতটা উদাসীনভাবে বর্তমান পরিস্থিতি উপেক্ষা করতে পারো?
উহ্।
বা বলা উচিত হবে, ভুলভাবে মূল্যায়ন করা। অর্থাৎ—
উহ্, একধরনের চরম স্ট্যাঙ্কোরবিয়াম।
হ্যাঁ। [হাসি]
কিন্তু জোনা, দারুণ—এখানে যেভাবে—
চলছে।
ঠিক। একটি ডিসক্লেইমার হিসেবে আমাকে একথাও বলতেই হবে যে কয়েকজন লোক দাবি করেছেন কয়েক মাসে কিছু মডেল আংশিকভাবে খারাপ নিয়মানুসারে কম কার্যকর হয়েছে, অথবা অন্তত মানুষদের মধ্যে এমন একটি সাবজেক্টিভ ছোঁয়া তৈরি হয়েছে। আর প্রশ্নটা হল: এটা কি কোম্পানিগুলো যা প্রতিশ্রুতি দিয়েছিলো তার সঙ্গে সম্পর্কিত—তারা কি মডেলগুলোর ক্ষমতাকে বাড়িয়ে-বাড়িয়ে দেখিয়েছে, কিন্তু বাস্তবে গুণগত মান একই রেখেছে? নাকি সত্যিই একটা পশ্চাদপদ উন্নতি ঘটেছে? অনেকেই বলছেন যে কিভাবে AI উত্তর দেয় এবং টোকেন আউটপুট কেমন—এগুলো সম্পূর্ণরূপে গুণগত বৈশিষ্ট্য মাপে প্রতিফলিত হয়, কিন্তু টোকেনের উৎপাদন বেশ মনিপুলেট করা হয়েছে। অর্থাৎ আগের তুলনায় আউটপুটে এখন অনেক বেশি ভরা‑বাচ্চা বা ফিলার বসানো হচ্ছে, ফলে আজকাল তোমাকে বলতেই হয় “সংক্ষেপে বলো” যাতে কাঙ্ক্ষিত আউটপুট পাওয়া যায়। আমি এটা ব্যক্তিগতভাবেই কিছুটা অনুভব করি।
হুম।
অনেকেই এভাবেই যুক্তি করছেন, যা আমি নির্দ্বিধায় বুঝতে পারি—কারণ আমারও ব্যক্তিগতভাবে সামান্য সেই একই অনুভব হয়েছে।
জোনা, আমরা এখন এমন এক জায়গায় পৌঁছছি—আমি আসলে এই বিষয়ে কথা বলতে চাইনি, কিন্তু এখনই বলার ইচ্ছে হচ্ছে। দুই পর্ব ধরে আমি একটা ছোট, না র্যান্ট কিন্তু, হট‑টেক বলতে চাই।
কর।
আর সেটা হলো: যারা কোনো পেইড AI‑মডেল ব্যবহার করে না, তারা অনায়াসে আজকের AI‑এর ক্ষমতা সম্পর্কে সঠিক ধারণা পেয়ে উঠতে পারে না।
হ্যাঁ।
এবং আমি এটা বিভিন্ন কারণে দুঃখজনক মনে করি। আমি আগে থেকেই এই হট‑টেকটা বলেছি। এই পয়েন্টে কেউ আমার সঙ্গে একমত নয়। আমি সেই লোকদের একজন যে, একটি উচ্চতর দার্শনিক দৃষ্টিকোণ থেকে বলবে যে বিনামূল্যে ChatGPT থাকা উচিত নয়।
হুম।
আমি মনে করি এটা সমাজ এবং শিল্পের জন্য ক্ষতিকর যে দু’প্রকারের AI ভোক্তাদের কাছে আছে। একটি হলো বিনামূল্যের ভার্সন, যা প্রায় ৯৬% মানুষ ব্যবহার করে এবং এখান থেকেই তারা সিদ্ধান্ত করে—AI আসলে কী পারে।
ঠিক।
আর আরেকটা অংশ আছে যারা টাকা দেয় এবং অনেক উন্নত সেবা পায়, তাই তাদের ধারণা অনেক গভীর। আমি সম্প্রতি রেডিওতে এটা লক্ষ্য করলাম।
হ্যাঁ, এটা ঠিকই বলেছো, কিন্তু আমি মনে করি এটি আমার অনুমানকে বাতিল করে না। অবশ্যই, যদি তুমি টাকার বিনিময়ে—মাসিক বা প্রতি প্রম্পট—সুবিধা নাও, তখন ফলাফল দারুণ হবে; দশ বা একশ ইউরো বা প্রতি প্রম্পটে বেশি খরচ করলে তুমি আজকের AI দিয়ে ভয়ংকরভাবে চমৎকার ফলাফল পেতে পারো। তবুও আমার যুক্তিটা সম্ভবত এখনো মান্য।
হ্যাঁ, আমি মনে করি এটাকে এভাবেও বুঝানো যেতে পারে: শুরুতে হাইপ তৈরি করার জন্য হয়ত ফ্রি ব্যবহারকারীদেরকেও ভালো কিছু দেওয়া হয়েছিল। এখন কোম্পানিগুলো ধীরে ধীরে বুঝছে, 'এটা আসলে অনেক ব্যয়বহুল; এমনকি যারা মাসে ২০০ ডলার দেয় তাদের সাথেও আমরা লোকসান করছি।'
কিন্তু আমরা হয়ত শুরু করতে পারি যে যারা একেবারেই কিছুই দেয় না তাদের একটু কম বুদ্ধিমত্তা দেওয়া হবে, বুঝছো?
আমার মনে হয় এটা এক ধরনের ব্যাখ্যা হতে পারে কেন যে অধিকাংশ মানুষ—বিশেষত ফ্রি ব্যবহারকারীরাই—এটা খেয়াল করে যে তাদের আর ১০০% ক্ষমতা পাওয়া যাচ্ছে না।
হ্যাঁ।
আর তাই তাদের কাছে এটা খারাপ মনে হয়, কারণ সেটা সত্যিই খারাপ।
হ্যাঁ।
ঠিক তাই। আমি এই কনট্রাস্টটি লক্ষ করেছি এবং বুঝতে পেরেছি আমি কী বুবল-এ আছি। জোনা, তোমার জন্য ছোট এক স্বীকারোক্তি: আমি এই মাসে পরীক্ষা-নিরীক্ষার জন্য ১০০‑ইউরো ChatGPT নিয়েছি।
দারুণ।
আমি ২০০ ইউরোর প্ল্যানটা নিইনি। আমি ChatGPT Pro নিয়েছি, যেখানে তুমি বেছে নিতে পারো—১০০ ইউরোতে পাঁচগুণ কোটা, বা ২০০ ইউরোতে বিশগুণ। আমি এটা নিয়েছি কারণ কোডেক্স দিয়ে প্রোগ্রামিং করতে করতে আমি প্রায়ই সীমায় আটকে যেতাম এবং মনে করলাম অধিক কোটা থাকা এখন সত্যিই লাভজনক হবে।
হ্যাঁ।
কিন্তু পাঁচগুণ কোটাই আমার জন্য যথেষ্ট; আমি সীমায় পৌঁছাই না, তাই বিশগুণের প্রয়োজন নেই। আর এই কনট্রাস্ট—আমরা রেডিওতে বসে শুনছিলাম, এক মহিলা বললেন: 'আমি ChatGPT-কে বলেছিলাম একটি উদ্ধৃতি APA ফরম্যাটে রূপান্তর করতে।'
হ্যাঁ।
আর সেটা একেবারেই খারাপভাবে করেছে।
হ্যাঁ।
এটা একটি অত্যন্ত সহজ, স্পষ্ট কাজ ছিল।
হ্যাঁ।
আর আমরা বললাম: 'ঠিক আছে, AI এটা পারে না। এটা কাজ করবে না।' অন্যদিকে Codex প্রতি সপ্তাহে আমার জন্য লাখো লাইনের কোড প্রায় ভুলহীনভাবে লিখে ফেলে।
হ্যাঁ।
এটা এক বিশাল কনট্রাস্ট। গড় মানুষ সঠিকভাবে মনে করে যে তুমি ChatGPT‑কে একটা বাক্য লিখতে দিলে ওটা সম্ভবত ভেবে ভুল করবে—একটাও ঠিকভাবে হবে না।
হ্যাঁ।
কারণ গড় মানুষ তো কেবল ফ্রি ভার্সনটাই জানে, আর সেটা খারাপ।
হ্যাঁ।
এবং আমি এটাকে অনেক দিক থেকে দুঃখজনক মনে করি। সমাজিক দিক থেকে দুঃখ লাগে যে অধিকাংশ মানুষই বুঝে না এখানে কি অসাধারণ প্রযুক্তি আছে এবং এটা কোথায় কাজে লাগবে। একটু ডুমারিস্টিক দৃষ্টিতে বলা যায়, সমাজের বেশির ভাগই বোঝে না আমরা আসলে কতটা ঝুঁকিতে আছি।
হ্যাঁ।
কারণ তারা মনে করে, ‘এটা তো এমনকি একটা বাক্যও ঠিক লিখে না, আমার কাজ কেড়ে নেবে না।’
হ্যাঁ।
তারা বুঝে না যে যদি তুমি টাকা দাও, তাহলে এমন অনেক কিছু আছে যা তোমার চাকরি কেড়ে নিতে পারে। আর ব্যক্তিগতভাবে আমি এটা দারুনভাবে দুঃখজনক মনে করি, কারণ এর ফলে মানুষের কাছে AI নিয়ে আমার কাজের ধারণাই ক্ষতিকরভাবে বিকৃত হয়।
হুম।
যে ঘটনাটি ঘটছে—যখন আমি কাউকে বলি: 'দেখ, আমি এখন AI দিয়ে ক্রাঞ্চ‑টাইম ভিডিও কেটে পরীক্ষা করছি'—
হ্যাঁ।
তাহলে তারা তাদের ফ্রি ChatGPT স্মৃতি ভেবে বলে: 'ওয়েল্যান্ড, এটা করো না। এটা কাজ করবে না। কি? AI তো এটা পারে না—এটা এক বাক্যও ঠিক করে লিখতে পারে না,'—এভাবে তারা প্রতিক্রিয়া করে।
হ্যাঁ।
তাই, [নিঃশ্বাস], আমার বন্ধুদের কাছ থেকেই বিপরীত যুক্তি পেয়েছি। আমি অবশ্যই চাই যে অধিক মানুষ এই টুলে প্রবেশ করে—আমি মনে করি প্রবেশাধিকারের থাকা ভালো।
হ্যাঁ।
আর যে কেউ সেটা নিতে পারে না বা নিতে চায় না—আমি নিজেও বিভক্ত—তাদের অন্তত একটা বিকল্প আছে। অন্যদিকে আমার মূল যুক্তি হলো: সমস্যা AI নয়, বরং পুঁজিবাদ। যদি প্রত্যেকেরই একটি খুব ভালো সিস্টেমে প্রবেশাধিকার থাকত, আমি অবশ্যই সমর্থন করতাম। হ্যাঁ, বলা যায় 'তুমি বিনামূল্যে একটি কম ভাল ভার্সন পাবে, তবে অন্তত কিছু তো পাবে'—কিন্তু আমি মনে করি ইন্টারনেট ও ইন্টারনেট‑পুঁজিবাদ, যা ২০১০-এর প্রথম দিকে গড়ে উঠতে শুরু করেছিল, দুর্ভাগ্যবশত AI-কে নিজের নিয়ন্ত্রণে নিয়ে ফেলেছে। প্রথম দিকে, খুব প্রথম দিকে স্যাম অল্টম্যান বলেছিলেন: 'আমাদের AI—আমি জানি তোমরা ইন্টারনেটে সবকিছুই বিনামূল্যে দেখতে অভ্যস্ত, বিজ্ঞাপনে চলে। কিন্তু AI এতটাই ব্যয়বহুল যে এটি বিজ্ঞাপনে টিকে থাকতে পারবে না। তাই আমরা এটাকে ব্যবসায়িক মডেল হিসাবে নেব; আমরা বিজ্ঞাপন চালাব না এবং বিনামূল্যের ভার্সন রাখব না। আমরা একটি পণ্য তৈরি করছি যার জন্য আপনাকে অবশ্যই অর্থ দিতে হবে'—
হ্যাঁ।
—ঠিক যেভাবে তুমি অন্য যেকোনো পণ্যের জন্যও অর্থ দিয়ে থাকো।
হ্যাঁ।
কারণ সত্যি বলতে আমি সবসময় এটা তুলনা করি—এটা না জানি কতটা খারাপ তুলনা—কিন্তু আমি ChatGPT বা OpenAI API বোঝাতে মিল্কের উদাহরণ দিই, বিশেষ করে ‘Müllermilch’ দিয়ে। আমি বলি: 'ঠিক আছে, Müllermilch-এ ধরে নিচ্ছি অনেক কনজারভেটিভ বা স্বাদকরণকারী আছে—এটা মন্দ কথা নয়—কিন্তু এর মানে এই নয় যে B2B গ্রাহক হিসেবে আমি যখন Wieland‑মিল্ক পাই, সেটা খারাপ হবে।'
হ্যাঁ।
—যদি আমি Molkerei Müller থেকে B2B মিল্ক কিনি, তা কোনো স্বাদকরণ বা কনজারভেটিভ ছাড়া ভালোই থাকবে। সম্ভবত আমি আমার Wieland‑মিল্কে কনজারভেটিভ বা স্বাদকরণ যোগ করবো, বা ChatGPT‑এর ক্ষেত্রে তোমাকে ট্র্যাক করব, বিজ্ঞাপন দেখাবো, তোমার ডেটা বিক্রি করব। কিন্তু শুধু কারণ Müller‑এর অন্য একটি ভার্সন আছে, তাদের B2B এবং B2C পণ্য আলাদা—এটাই ইন্টারনেটে স্বাভাবিক। ভাবো, দোকানে একটি ফ্রি Müller‑Milch এবং আরেকটা যে তুমি কিনে নেবে—মনে করো।
হ্যাঁ।
আর বিনামূল্যেরটা মোটেই ভালো না।
হ্যাঁ।
তাই সেটা স্পষ্টতই অনেক খারাপ।
এটা আসলে পানি, যার মধ্যে একটু দুধের স্বাদ মিশানো—বা কী জানি।
এবং ভাবো কী হবে: ৯৫% মানুষই বিনামূল্যের Müller‑Milch নেবে এবং বলবে: 'ওয়েল্যান্ড, তুমি কি পাগল? কেন তুমি এর জন্য টাকা দাও?' এরপর Müller‑মিল্ক বিক্রি করা প্রতিষ্ঠান নিজেই নিজের দিকে খালি কেগুলো ছুঁড়ে ফেলবে—যদি আমি বলি 'হ্যাঁ, আমি Müller‑Milch পছন্দ করি, আমি এর জন্য টাকা দিচ্ছি', তারা বলবে: 'ওয়েল্যান্ড, আমি সবসময় ফ্রি ভার্সন খাই; এটা এত বাজে যে ফ্রিতেই ধরি; কখনই এর জন্য টাকা দেব না—উভয়টাই তো Müller‑Milch বলা হয়, তুমি কী চাও?'
হ্যাঁ।
অবশ্যই আমি ওটার জন্য টাকা দেব না। এবং আমার বন্ধুরাও একইভাবে বলে: 'ওয়েল্যান্ড, ChatGPT তো এক বাক্যও ঠিক করে লিখে না। আমি কখনোই এর জন্য টাকা দেব না।' কারণ তারা স্পষ্টতই বুঝে না যে ছবিটা যদি আলাদা হতো তাহলে কী হতো... মাফ করো, আমি অনেক র্যান্ট করলাম।
ঠিক। এবং তারা বুঝে না যে যদি একটি কোম্পানি মাসে এক হাজার ইউরো, অর্থাৎ বছরে বারো হাজার ইউরো AI‑এ ব্যয় করত, তাহলে তারা ইতোমধ্যে একটা পদের কাজ বাঁচাতে পারত।
হ্যাঁ।
প্রশ্নটা কেবল কোনটা, সেটা বোঝা জরুরি। [হাসি] কিন্তু যদি তোমার অভিজ্ঞতা হয় মাত্র ফ্রি ChatGPT বা ফ্রি Copilot-এর ওপর, তাহলে তুমি বুঝতে পারবে না এবং বলবে 'না, AI তো চাকরি নিচ্ছে না'—তবে বিকল্প হল কাউকে বছরে তিরিশ থেকে পঞ্চাশ হাজার বা তার বেশি খরচ করে রাখা। এবং সেটাই সেই বাজেট যা তুমি API‑অনুরোধে খরচ করতে পার।
ইত্যাদি খরচ আছে। আমি বলতে চাই যে AI‑এর ক্ষমতা ও অভিযোজন ক্ষমতাকে তুমি কিছু ক্ষেত্রে অনেক সস্তায় প্রতিস্থাপন করতে পারো। অথবা, হ্যাঁ।
কিন্তু ঠিক, জোনা, যেমন তুমি বলছো—চাকরির ব্যাপারে আমরা, আমি মনে করি এটা কেবল—
অবিশ্বাস্য মাত্রার কপিয়াম আছে, যা আমি বুঝতে পারি—মানুষ এমনই। যখন তার কাছে কিছু থাকে যা তাকে আশা দেয়, তখন তিনি তা আঁকড়ে ধরেন। আমি বলি—‘ওহ, ওয়েল্যান্ডের হট‑টেকস, ইউটিউবে কমেন্টস দেখার জন্য উৎসাহিত'—এটা কিছুমাত্র পপুলিস্টিকের মতো: ‘আমার জীবন খারাপ কেন? কারণ আশ্রয়প্রার্থীরা আছে; যদি তারা না থাকত, সব সমস্যা মিটে যেত।’ এটা একটি সহজ কারণ দেয় যার বিরুদ্ধে লড়াই করা যায়, বদলে পৃথিবীকে জটিল ভাবার বদলে।
এবং এটিকে তোমার আগে যা বলেছ তা থেকে পুরোপুরি আলাদা করে নেওয়া যায় না।
[হাসি]
বুঝছো, একইভাবে আমি ভাবি যে যদি কাউকে বারবার বলা হয়: 'হে, AI শীঘ্রই মানবজাতির বেশিরভাগ কাজ করতে পারবে, এবং আমাদের সমাজ হিসেবে ভাবতে হবে কিভাবে আমরা এটা ম্যানেজ করব,' তাহলে সেটা গুরুত্বপূর্ণ।
হ্যাঁ।
এটাই গুরুত্বপূর্ণ। তারপরই বেরিয়ে আসে সেই বিখ্যাত স্টাডি—'কোম্পানির ৯৫% AI‑প্রজেক্ট ব্যর্থ'—মানুষ তা নিয়ে ঝাঁপিয়ে পড়ে এবং বলে: 'দেখো, এটাই প্রমাণ যে কিছুই হবে না, AI কাজ নেবে না'। কিন্তু তোমার যদি পেপারটা পড়ো, তারা ব্যর্থতা মাপছে যেমন: এটা রেভেনিউ বাড়ায়নি বা তারা এটাকে কাজে লাগাতে পারেনি।
আহ, এটাই ব্যর্থতা নির্ধারণের থ্রেশহোল্ড। আচ্ছা, বুঝলাম।
তাই, তারা ব্যর্থতাকে সংজ্ঞায়িত করেছে সেইভাবে যে পরীক্ষার পরে কাজটি চালানো হয়নি। আমি কোম্পানির অভ্যন্তর এতটা জানি না, কিন্তু জোনা, আমার ৯৫% প্রজেক্টও ব্যর্থ হয়। আমি কিছু চেষ্টা করি, দেখি কাঙ্ক্ষিত ফল হয় না, এবং তারপর ছেড়ে দিই।
এগুলো তোমার আয় বাড়াতে হবে। হ্যাঁ, ঠিক।
অথবা আমার আয় বাড়াতে হয়েছে বা আমার জীবনে কোনো সুবিধা এনেছে। না হলে আমরা সেটা নেই। কিন্তু কোম্পানিরা এটা অনেক বার করে—বলেই চেষ্টা করে, এক‑দুই সপ্তাহ টেস্ট করে, না হলে বন্ধ করে দেয়।
হ্যাঁ, ঠিক।
কিন্তু সেই স্টাডিতে এটাকেই AI‑প্রজেক্ট ব্যর্থ বলে গণ্য করা হয়েছে।
না, এটা একটু বেশিই কড়া।
তাদের বিরুদ্ধে ঝাঁপিয়ে পড়া সহজ—আমি বুঝতে পারি কেন, কারণ তুমি বিশ্বাস করতে চাও না যদি কেউ বলে: 'ওহ, তুমি বিশ বছর ধরে কাজ করছো, আর তিন বছরের মধ্যে সব পাল্টে যাবে।'
হ্যাঁ।
তাহলে তুমি সবকিছুকে ধরে নেবে যে 'সে তো শুধু বকবক করছে।'
হ্যাঁ।
যারা AI নিয়ে কথা বলে, তাদের অনেকেই শুধু বকবক করছে বলে মনে হয়।
হ্যাঁ।
মাহার্শী দামের সাবস্ক্রিপশন মডেলগুলোর কথাই চলে যাক—যেখানে তোমাকে নিশ্চিতভাবে তা কেনার প্রয়োজন নেই, তবু দাম বাড়ানো হচ্ছে। Plex সম্প্রতি আবার দাম বাড়িয়েছে এবং আমি এটা মোটেই ঠিকঠাক মনে করি না যে খরচগুলো এতভাবে বেড়ে গেছে। তারা লাইফটাইম এক্সেসের দাম বাড়িয়েছে—মনে হয় আগে এটা প্রায় $২৫০ ছিল, এখন $৭৫০। দাম তিনগুণ বেড়েছে এবং তারা বলছে তারা আর লাইফটাইম বিক্রি চালিয়ে যেতে চান না; মূলত Adobe‑র একই কৌশল—সবকিছু সাবস্ক্রিপশনে নিয়ে আসা যেখানে প্রতি মাসে টাকা লাগে। এটা মোটেই ভাল না, কারণ এই সফটওয়্যারটি মূলত তোমার সার্ভারে থাকা ভিডিওগুলো অন্য ডিভাইসে স্ট্রিম করার জন্য; এর জন্য আলাদাভাবে $৭৫০ জোগাড় করা বা হার্ডওয়্যারের ওপরে অতিরিক্ত খরচ করা ঠিক হবে না। তুমি চাইলে একটা দারুণ ওপেন‑সোর্স সমাধানও বেছে নিতে পারো, যা অনেক ভালো এবং বিনামূল্যে বা সস্তা।
যদি কারো এমন এক ধরনের চাহিদা থাকে — মানে, যদি কারো এমন কিছু দরকার হয়। আর হ্যাঁ, একটা ডিসক্লেইমার: আপনাদের অবশ্যই ওই ভিডিওগুলো আগে থেকেই কিনে রাখা থাকতে হবে। তারপর জার্মানিতে ব্যক্তিগত অনুলিপি (Privatkopien) তৈরি করা আইনীভাবে অনুমোদিত, তাই এখানে যা ঘটছে তা সম্পূর্ণরূপে বৈধ।
হ্যাঁ।
লল। আর এটা তো আবারও আরেকটা উদাহরণ—একটু এমন, যেন আমরা আগে থেকেই জনগণের কাছ থেকে সাবস্ক্রিপশন-মডেলগুলো নিয়ে যথেষ্ট সমালোচনা, বিরক্তি এবং ঘৃণা পাইনি।
হ্যাঁ।
জোনা, আমরা তো আবারও একটা দারুণ কাজ করে ফেলেছি।
ঠিক।
যেমনটা বলা যায়। আমরা একটা দারুণ পর্ব রেকর্ড করেছি, তথ্যে ভরা — অনেকই তীব্র তথ্য, উহুম — আমাদের ব্যক্তিগত প্রকল্পগুলো সম্পর্কে, আমরা এখন কী করছি, আমরা প্রযুক্তি নিয়ে কী করছি এবং অবশ্যই বড় টেক কোম্পানিগুলো প্রযুক্তি নিয়ে এখন কী করছে তা নিয়েও। আর জোনা, আমাদের ছিল কয়েকটা ছোটখাটো রেন্ট লেট-স্টেজ ক্যাপিটালিজম নিয়ে এবং সেই সম্ভাব্য ‘ওয়াচশপস’-ধাঁচের একটি বিশ্বের কথাও, যেখানে আমরা সবাই হয়তো খুব শিগগিরই বসবাস করতে শুরু করতে পারি। এটা ছিল এক ক্লাসিক পর্ব, দুর্দান্ত মুহূর্তে ভরপুর। যদি কেউ এটা পুরোটা না শুনে থাকে কিন্তু ভাবছে—ওইটা তো অসাধারণ ছিল, আমি পুরোটা শুনতে চাই—অথবা আমি তো এখনই শুধু জুম করে ঢুকেছি বা পরে আবার শুনতে চাই—তাহলে সেটা কোথায় পাওয়া যাবে, জোনা?
সেটার জন্য সবচেয়ে ভালো হবে radio-unique.de-এ যাওয়া। সেখানে আমাদের ছাত্র-রেডিও হিসেবে প্রকাশিত সব নিউজ আর্টিকেল পাবেন, আর Crunch Time এপিসোডগুলোর পাতায় ক্লিক করলে প্রতিটি পর্বের শো-নোটস, অডিও ফাইল ও সংযুক্ত লিংকগুলো দেখতে পারবেন। সেখানে যেকোনো সময় আগের সব পর্ব আবার শুনতে বা ডাউনলোড করে রাখতে পারবেন। এছাড়া YouTube বা Spotify-এ 'Die Crunch Time' সার্চ করেও আমাদের খুঁজে পেতে পারেন। আমাদের পডকাস্টটি RSS ফরম্যাটেও পাওয়া যায় — podcast.radio-unique.de-এ গিয়ে প্রতিটি পডকাস্টের RSS লিংক কপি করে আপনার পছন্দের পডকাস্ট রিডারে পেস্ট করে সাবস্ক্রাইব করুন; একই পেজে YouTube ও Spotify-র সরাসরি লিংকগুলোও পাওয়া যাবে।
আর যদি কেউ একেবারে নতুন করে সরাসরি লাইভে যোগ দিতে চায়, বা হয়ত তাঁর কাছে শুধু একটা অ্যানালগ রেডিও আছে যেখানে স্লাইডার দিয়ে নির্দিষ্ট FM-ফ্রিকোয়েন্সি সেট করতে হয়—
আইয়াইয়াই।
তাহলে পরেরবার ক্রাঞ্চ টাইম ঠিক কোথায় এবং কিভাবে শোনা যাবে?
ক্রাঞ্চ টাইমের ৮১তম পর্ব আসবে ঠিক ২৮ জুন। এটা প্রতি মাসের মতোই মাসের চতুর্থ রোববার, তাই আপনাদের ১৮:০০ থেকে ১৯:০০ (সন্ধ্যা ৬টা থেকে ৭টা) সময়ের মধ্যে ইউকে-ডব্লিউ/এফএম-এ ১০২.৭ মেগাহার্টজে টিউন করতে হবে, অথবা DAB+-এ বকেট 5B-এ শুনতে পারবেন। তবে লাইভ শোনার জন্য আপনাকে অবশ্যই কেমনিৎস (Chemnitz) অঞ্চলেই থাকতে হবে। নাহলে radio-unique.de-এ গিয়ে ওয়েবপ্লেয়ার খুলে ২৮ জুন ১৮:০০–১৯:০০ সময়ের মধ্যে ক্রাঞ্চ টাইম লাইভ স্ট্রিমেও শুনতে পারবেন।
তাহলে আপনারা সব রকম উপায়ে — গত, সাম্প্রতিক ও ভবিষ্যৎ Crunch Time — অনুসরণ করতে পারবেন। ততক্ষণ পর্যন্ত সুস্থ ও ভালো থাকুন।
বাই।
[আউট্রো-মিউজিক]
এটাই ছিল
ক্রাঞ্চ টাইম, এটি রেডিও UNiCC-এর একটি প্রযোজনা।
Zuletzt aktualisiert am 1
হ্যালো এবং আন্তরিক স্বাগতম, প্রিয় যারা বাইরে আপনার ডিভাইসে বসে শুনছেন। ক্রাঞ্চ টাইমে আপনাদের সবাইকে উষ্ণ আমন্ত্রণ। এটি আমাদের প্রযুক্তি-ভিত্তিক পডকাস্টের ৮০তম পর্ব, এবং এই বিশেষ পর্বে আপনাদের সামনে উপস্থিত আছি আমি, উইল্যান্ড।
আর আমি, জোনা এখানে।
প্রতি মাসের চতুর্থ রবিবার আমরা আপনাদের জানাই প্রযুক্তি জগতের সর্বশেষ খবর এবং আমাদের নিজস্ব DIY ও বানানোর কাজের আপডেট। এইবারও আমরা বেশ কিছু চমৎকার বিষয় প্রস্তুত করেছি, এবং তা বলে খাপ খায় এই ৮০ নম্বর পর্বের সঙ্গে। সাধারণত গোল বা অদ্ভুত সংখ্যাগুলোতে আমরা বড় কোনো থিম বা আখেরবাজি ভাবি, কিন্তু আমার মনে হয় এবার সবকিছু অনেক বেশি সোজা এবং সত্যিই কুল। আমাদের ৮০তম পর্ব হবে একধরনের ক্লাসিক পর্ব—টেক সম্পর্কিত নানা বিষয় উঠবে, আর, উহ্, আমাদের ব্যক্তিগত DIY প্রজেক্টগুলোর কথাও থাকবে, যেগুলো আমরা বাড়িতে নিজেরাই করি।
রেডিও UNiCC উপস্থাপন
[সঙ্গীত] দ্য ক্রাঞ্চ টাইম
[সঙ্গীত] জোনা ও উইল্যান্ডের সঙ্গে।
তাই আমি ঠিক এখান থেকেই শুরু করব—একটি বিষয় নিয়ে যা আমি গত পর্বে ঘোষণা করেছিলাম; সেই নিয়ে আমি পরে একটু বেশি কাজ করেছি, এবং এখন আপনাদের জানাতে পারি যে আমি Google Health Connect কে কতটা দারুণ মনে করি, কারণ এটি সত্যিই ব্যবহারযোগ্যতা, ডেটা শেয়ারিং এবং অ্যাপগুলোর মধ্যে সমন্বয় অনেক সহজ করে দেয়, এবং ব্যক্তিগতভাবে আমি এটি খুব পছন্দ করি।
[হাসে]
এটা সত্যিই দুর্দান্ত। জোনা, আমি এতে প্রচুর পরিশ্রম করে বহু কিছু করেছি। এটা একদম ভালো। প্রথমেই আপনাদের সবাইকে ধরিয়ে দিতে হবে—Google Health Connect কী, আমি কেন এটাকে এত প্রশংসা করছি, এবং কেন আপনাদের সবাইকে এটা ব্যবহার করা উচিত?
ঠিক।
একেবারে অস্বাভাবিকভাবে বড় টেক কোম্পানির স্টাইলে বললে, Google Health Connect হলো আন্ড্রয়েড ফোনে একটি ইন্টারফেস যা বিভিন্ন স্বাস্থ্য-অ্যাপগুলোকে একে অপরের সঙ্গে যোগাযোগ করতে দেয়। এটাকে সহজভাবে নিয়ন্ত্রিত করা হয়েছে—মূলত এটি কেবল একটি লোকাল ডেটাবেস যা প্রতিটি ফোনে থাকে, এবং অ্যাপগুলো প্রয়োজনমত ডেটা লিখতে ও পড়তে পারে। এছাড়া সেখানে একটা সাব-অনুমতির স্তর আছে, যাতে নির্দিষ্ট অ্যাপগুলো শুধু নির্দিষ্ট ধরনের ডেটা পড়তে বা লিখতে পারে। হয়তো আগে বলা উচিত, Android 14-এর আগে এটা একটি আলাদা অ্যাপ ছিল যা আপনাকে ইনস্টল করতে হতো; Android 14 থেকে এটা অপারেটিং সিস্টেমের অংশ হিসেবে অন্তর্ভুক্ত করা হয়েছে।
আর যেভাবে আমি এটা বুঝেছি, এটার মানে হলো ফোনে যা পদক্ষেপের হিসাব নেয়া হয়, সেই সংখ্যা সহজেই সরাসরি স্বাস্থ্যবীমা সংস্থার অ্যাপগুলোতে পাঠানো যেতে পারে। বাজারে এমন কয়েকটি পরিচিত অ্যাপ আছে যারা এই ধরনের ডেটা নিয়ে কাজ করে—
হুম।
উহ্, ধরো সেই অ্যাপগুলো যারা নির্দিষ্ট দিনে যদি তুমি তোমার ফোন দিয়ে ১০,০০০ ধাপ পূরণ করো তো কয়েকটা সেন্ট বা নগদ পুরস্কার দেয়। এই ধরনের তথ্য কি Health Connect-এর API দিয়ে দেখা-শোনা করা যাবে?
আমি মনে করি—
এটা কি আসলে পুরোপুরি আলাদা কোনো ব্যাপার?
ঠিক আছে, আমি মনে করি এটা সেইভাবে কাজ করতেই পারে। ব্যক্তিগতভাবে আমি এটা উদ্দেশ্যভিত্তিকভাবে ব্যবহার করিনি, কিন্তু তাত্ত্বিকভাবে সবকিছু সম্ভব। আর এ ক্ষেত্রে আমি জোর দিয়েই বলতে চাই যে এটি কোনো Google Play সার্ভিসের অংশ নয় এবং এটি গুগল অ্যাকাউন্টের সঙ্গে স্বয়ংক্রিয়ভাবে সিঙ্ক হয় না—কারণ অনেকেই সম্ভবত সেটাকে উদ্বেগের কারণ হিসেবে দেখবে। তাই পরিষ্কারভাবে বলছি, তুমি এটিকে গুগল অ্যাকাউন্টের সঙ্গে সিঙ্ক করতে পারো না। সবচেয়ে 'চরম' কাজটি যা করা যায়, তা হলো তুমি সেটিংসে বলতে পারো যে ডেটাগুলো একটি জিপ ফাইলে এক্সপোর্ট করে স্বয়ংক্রিয়ভাবে কোনো ক্লাউড অ্যাপে পাঠানো হোক; আর সেই ক্লাউড অ্যাপটা যেকোনোই হতে পারে যা তোমার ফোনে ইনস্টল আছে—উদাহরণস্বরূপ Google Drive-ও নিতে পারো। কিন্তু তা ছাড়া সবকিছু লোকালি ফোনে থাকে। বাহিরেও গেলেও সেটা তোমার নিয়ন্ত্রণেই থাকে।
কেবল ওই এক্সপোর্টটা বাদে। সেটি কি পুরোপুরি লোকালি করা যায়, অর্থাৎ কি আপনি চাইলে সরাসরি ফোনেই একটা জিপ-ফাইল তৈরি করে সেটা কোথাও আপলোড না করেই নিজে রাখতে পারেন? কারণ দৃষ্টিকোণটা হলো—আপনার তো অ্যাক্সেস আছে দেখতে কি কি ডেটা সংরক্ষিত আছে ইত্যাদি। যদি সেই সমস্ত ডেটা পরে অটোমেটিকভাবে কোনো ক্লাউড-প্রোভাইডারে চলে যায়, তাহলে পুরো সুন্দর ইকোসিস্টেমটা একটু ভেঙে পড়ে। এই ব্যাপারে তোমার কি ধারণা আছে?
বস্তুটা হলো আমি মনে করি তুমি ফোনে সরাসরি কোনো ফাইল তৈরি করতে পারবে না। তবে তুমি ডেটা এক্সপোর্টের জন্য যেকোনো ক্লাউড অ্যাপ বেছে নিতে পারো—উদাহরণস্বরূপ Nextcloud বা Google Drive, যা তোমার ফোনে ইনস্টল করা আছে; এটি কেবল একটি স্বয়ংক্রিয় এক্সপোর্ট। এবং সাধারণত ডেটা লোকালি থাকে যতক্ষণ না তুমি এক্সপোর্ট সক্রিয় করো। এটাই মূল কথা।
আচ্ছা, ঠিক আছে, তাহলে সেটা বেশ স্বস্তিদায়ক। তবে শুধুমাত্র এই কাজের জন্য Nextcloud সেটআপ করবে সম্ভবত কেউ।
হ্যাঁ।
কিন্তু এর মূল অর্থ হলো—নীতিগতভাবে এটা সম্ভব।
ঠিক আছে, কিন্তু আমার পছন্দের বড় কারণ হলো এটা কেবল তোমার ফোনে থাকা একটি ডাটাবেস—তা থেকেই ডেভেলপাররা সহজেই ছোট অ্যাপ বানিয়ে সরাসরি সেই ডাটার সঙ্গে কাজ করতে পারে; আর সেখানে যেকোনো জটিল ক্লাউড সেটআপের দরকার পড়ে না। এটা অন্য গুগল সার্ভিসগুলোর মতো নয়। ধরো, তুমি যদি কিছু করতে চাও যা YouTube-এর সঙ্গে ইন্টার্যাক্ট করে, তখন তোমাকে Google Cloud কনসোলে একটি প্রকল্প তৈরি করে একটি অ্যাপ রেজিস্টার করতে হয় এবং একটি অ্যাপ সিক্রেট পেতে হয়; এরপর গুগলকে সেই অ্যাপটি যাচাই করে দিতে হয়, তারা চেক করে তা ঠিক আছে কি না। এই প্রক্রিয়ায় অনেক সময় ব্যয় এবং প্রাতিষ্ঠানিক বাধা থাকে, আর তাতে অনেক ফিচার-অ্যাক্সেস কাটা পড়ে। Health Connect–এ তা নেই: তুমি লোকালি ডাটাবেসে পড়া ও লেখার অনুমতি চাইলে সহজেই সেটি করতে পারো।
আর তখন সবচেয়ে খারাপ ক্ষেত্রে তোমার কাছে মোট ডকুমেন্টেশনের মাত্র বিশ শতাংশের ওপরই অ্যাক্সেস থাকে।
এটাই আবার পরের সমস্যা।
এবং তারপরও অসংখ্য ফিচার আছে—
হ্যাঁ।
—এসব ফিচারগুলোতে তুমি সরাসরি অ্যাক্সেসই পাবে না, বা কিছুতে অ্যাক্সেস করা সম্ভব হলেও তুমি তা জানো না, কারণ এগুলো কোথাও সঠিকভাবে বাইরের দিকে ডকুমেন্ট করা নেই।
হ্যাঁ।
হ্যাঁ, পুরো ব্যাপারটাই ঠিক।
এবং মূলত এটি তোমার ফোনে থাকা একটি ডাটাবেস সিস্টেম, যেখানে কোনো অ্যাপ অনুরোধ করতে পারে—‘আমি এখন এসব ডেটাটাইপ পড়তে চাই’ অথবা ‘আমি এসব ডেটাটাইপ লিখতে চাই’। এবং ইউজারের অনুমতি লাগে।
চমৎকার।
এখানে একটি গুরুত্বপূর্ণ শ্রেণিবিভাগ আছে। মূলত দুইটা বড় ধরনের ডেটা আছে। আর হ্যাঁ, জার্মানিতে তুমি যা দেখতে পাও সেইগুলোই বেশি দেখা যায়, কারণ আমার ধারণা EU-এর নিয়ম-বিধি আর মেডিকেল ডিভাইস সম্পর্কিত আইনগুলোর কারণে কিছু ফিচার এখনও সেখানে চালু নাও হতে পারে। অথবা হতে পারে আমি সাধারণত এমন কোনো অ্যাপ ব্যবহারই করি না যা সেগুলো ব্যবহার করে।
প্রথম বড় শ্রেণিটা—এটা নামেই একটু বিভ্রান্তিকর, 'Health Data'—এটা মূলত সবই সেই ডেটাগুলো যেগুলো তুমি ট্র্যাক করতে পারো। যখনই আমি সেই অনুমতিপ্রদর্শন স্ক্রীন দেখি, আমি বারবার বিস্মিত হই যে কোন কোন জিনিসগুলো ট্র্যাক করা যায়। আর তোমার যে স্বচ্ছতার কথা ছিল—কে কবে কি অ্যাক্সেস করেছে—তা দেখতে পাওয়া যায়: বা তো Health Connect অ্যাপেই, বা তোমার সিস্টেম সেটিংসে Health Connect অংশে তুমি একেবারে দেখেছো কোন কোন অ্যাপগুলো সম্প্রতি অ্যাক্সেস করেছে এবং তারা কোন ধরনের ডেটা পড়তে বা লিখতে পারছে ইত্যাদি।
এই 'Health Data' সাধারণত সেইসব জিনিস—পদক্ষেপ, হার্ট রেট, ওজন ইত্যাদি—যেগুলো আমরা সাধারণতই বোঝি। আমি এ নিয়ে বেশ গভীরভাবে জড়িয়েছি এবং একটা টুল আছে—যেটা প্লে স্টোরে নেই, বরং Google Developer সাইট থেকে APK হিসেবে ডাউনলোড করতে হয়—এর নাম Health Connect Toolbox। সেটার মাধ্যমে তুমি ডাটাবেসে কাঁচা-অ্যাক্সেস পেয়ে সেটার কন্টেন্ট ভ্যারিফাই করতে পারো: কোন কী আছে, কীভাবে স্টোর করা হচ্ছে ইত্যাদি। তাই আমার জানা হলো ঠিক কী কী ডেটা টাইপ এখানে রাখা যায়।
শুরু হয় সহজ জিনিসগুলো দিয়ে—ধাপের সংখ্যা। তবে একই সঙ্গে হার্ট রেটও আছে। তুমি ওজন লিখতে পারো, হাড়ের ভর (bone mass) লেখা যায়, আর আমি প্রথমে ভেবেছিলাম যে মাংসপেশীর ভর (muscle mass)ও থাকবে—কিন্তু বিস্ময়করভাবে তা নেই। এটা আমার একটা একমাত্র বড় সমালোচনা: মাংসপেশীর ভর একটি সাধারণ ডেটা পয়েন্ট হিসেবে অনেক ডিভাইসে পাওয়া যায়, কিন্তু এখানে সরাসরি সেটি ইনপুট করার অপশন নেই। তাই আমাকে ওটাকে পাশপাশি হিসাব করে বের করতে হয়। Health Connect একদিকে করে হাড়ের মোট ভর সংরক্ষণ করে, অন্যদিকে কিছু এমন ক্যাটেগরিও রাখে যা 'হাড় নয় এবং মাংসপেশী নয়'—এরকম ক্যাটেগরি থেকে তুমি শেষমেষ ক্যালকুলেট করে মাংসপেশীর ভর বের করে নিতে পারো।
এভাবে আমি ক্যালকুলেট করছি: প্রথমে মোট ওজন নাও, তারপর তাতে থেকে হাড়ের মোট ভর বিয়োগ করো এবং এরপর সেই 'হাড় নয় এবং মাংসপেশী নয়' ক্যাটেগরির ভর বিয়োগ করলে বাকিটাই প্রায় মাংসপেশীর ভর হিসেবে ধরা যায়। এটা অবশ্য সম্পূর্ণ নিখুঁত পদ্ধতি নাও হতে পারে, কিন্তু একটি ব্যবহারযোগ্য আনুমানিক পন্থা। Health Connect Toolbox ব্যবহার করে আমি কাঁচা ডেটা চেক করে দেখতে পেয়েছি ডেটাগুলো কোন কী-নেমে স্টোর হচ্ছে, এবং সেই তথ্যের উপর ভর করে তুমি নিজের ক্যালকুলেশন তৈরি করতে পারো।
আরেকটি জিনিস—System settings-এ যে তুমি দেখতে পাবে কোন অ্যাপ কবে শেষবার ডেটা পড়েছে বা লিখেছে, আর সে কোন টাইপ পড়েছে বা লিখেছে—এটা কনফরমিটি বাড়ায়। এই স্বচ্ছতা এবং লোকাল-ফার্স্ট ডিজাইনই এই সার্ভিসকে আমি এতটা পছন্দ করায়।
আহ, সেটা করলে আসলে কী লাভ হবে?
তুমি অবশ্যই পুষ্টি ট্র্যাক করতে পারো—খাবারের ধরন, ক্যালোরি, তরল সেবন—এবং ওজনও ট্র্যাক করা যায়। সংক্ষেপে এগুলো সবই ডেটা পয়েন্ট। এছাড়া নারী-স্বাস্থ্যের বিষয়গুলোও সেখানে ট্র্যাক করা যায়: মাসিক রক্তক্ষরণ, সার্ভিক্যাল স্লাইম ইত্যাদি। যা আমাকে মজার মনে হয়েছে—আমি জানি মন্তব্য আসবে—এখানে 'Sexual Activity' টাইপের একটি Health Data রেকর্ড আছে, যা নারী-স্বাস্থ্যের একটি উপশ্রেণী হিসেবে দেখানো হয়েছে; এটা পুরুষ হিসেবে আমি সাধারণত ট্র্যাক করতে চাইবো না, কিন্তু একজন নারী হয়তো করবে।
হ্যাঁ।
এই 'Sexual Activity'–এর একটি মাত্র প্যারামিটার আছে—'Protection Used'; অর্থাৎ নিরাপত্তা ব্যবহার করা হয়েছে কি না, হ্যাঁ বা না।
ইহা, এটা ডাটাবেসে কেবলই স্বাভাবিকভাবেই সেখানে রয়েছে—কাজেই অদ্ভুতভাবে লেখা আছে। বাস্তবে এর যৌক্তিকতা আছে, কারণ এসব ডেটা পয়েন্টগুলো, যখন তোমার শরীরের তাপমাত্রা পরিমাপসহ একত্রে দেখা হয়, তখন এগুলো দিয়ে মাসিক চক্রের পূর্বাভাস, উর্বরতার সময় নির্ণয় ইত্যাদি করা যায়। এজন্যই কিছু অ্যাপ প্রতিদিন এমন কার্যকলাপ বা সার্ভিক্যাল স্লাইমের কনসিস্টেন্সি রেকর্ড করতে চায়। এটি শুরুতে কিছুটা অদ্ভুত মনে হতে পারে—বিশেষত যদি কেউ প্রতিদিন তার যৌনক্রিয়াকলাপ বা স্লাইম নোট করে—কিন্তু গবেষণা ও prediction‑algorithm‑কে ট্রেন করার জন্য এটা কার্যকর। আমি কেবল কনটেক্সট দিচ্ছি, যারা এটা странге মনে করবে তাদের জন্য।
গল্পটা হলো এমন একটি অ্যাপ আছে যা নারী-স্বাস্থ্য ট্র্যাক করে এবং সেখানে তুমি Sexual Activity–ও ট্র্যাক করতে পারো। আমি জানি না সেটা Google Health Connect–এর সঙ্গে কম্প্যাটিবল কি না এবং সেটা কি সিঙ্ক করে কি না।
হয়তো এটা সম্ভব।
হয়তো হতে পারে—অ্যাপে তুমি দেখতে পাবে সেই দিনটিতে একটা ছোট হার্ট; ধরো তুমি সেক্স করেছো, তাহলে সেই দিনের পাশে একটি হার্ট চিহ্ন থাকে। যাই হোক। সংক্ষেপে, এই ধরণের অনেক ডেটা সেখানে রয়েছে এবং এগুলো একত্র করে অ্যাপগুলো বিভিন্ন ধরনের বিশ্লেষণ ও পূর্বাভাসে ব্যবহার করে।
'আমি এটা কখনই Google‑এর সঙ্গে সিঙ্ক করবো না।' না, সেটা তো ফোনেই আছে। এমনভাবে তুমি এটাকে Google‑এর সঙ্গে সিঙ্কই করতে পারো না। কেউ বলে 'আমি এটা কখনই করব না, সেটা আমার কাছে অনেক বেশি অনিরাপদ'—ওটা ঠিক নয়, এখানে কিছুই অনিরাপদ নেই, কারণ সবকিছু তোমার ফোনে থাকে।
আর যে চমৎকার জিনিসটি এই ডাটাবেস দেয়—যা আমি বড় এক টেক-কোম্পানির কাছ থেকে প্রত্যাশা করতাম না—সে হলো সবরকম অ্যাপের মধ্যে আন্তঃপরিচলন বা interoperability নিশ্চিত করা; অ্যাপগুলো সহজেই একে অপরের সঙ্গে ডেটা শেয়ার ও ব্যবহার করতে পারে।
এটা সত্যিই অস্বাভাবিক। এটাকে আবার জোর দিয়ে বলা উচিত—এটাই গুরুত্বপূর্ণ।
হ্যাঁ, এটা আমাকে খুব চমকে দিয়েছে।
হ্যাঁ।
জোনা, আমি Health Connect Toolbox থেকে দ্রুত দেখে নিছি—ওটা সবকিছু পড়তে পারে—আর এখানে যে Health Data গুলো আছে সেগুলো বেশ বিস্তৃত: সক্রিয়ভাবে পোড়ানো ক্যালোরি, অভিযাত্রায় ওঠা উচ্চতা (bewältigte Steigung), উঠানামা বা তলা (bewältigte Stockwerke), কার্যকলাপের তীব্রতার ডেটা, গতি, মোট পোড়ানো ক্যালোরি, শক্তি বা পারফরম্যান্স, সর্বোচ্চ অক্সিজেন গ্রহণ ক্ষমতা (VO2 max), রোলচেয়ার ঠেলার ধাক্কা, পদক্ষেপ, স্পোর্ট কার্যকলাপ, ট্রেনিং প্ল্যান, দূরত্ব। এছাড়া রয়েছে বিশ্রামকালীন হার্ট রেট, অক্সিজেন স্যাচুরেশন, ত্বকের তাপমাত্রা, ব্লাড গ্লুকোজ বা শর্করা, ঘুমের ডেটা এবং নানা শরীরিক পরিমাপ ও ভিটাল প্যারামিটার। তুমি এমনকি মাইন্ডফুলনেস বা ধ্যান অনুশীলনও ট্র্যাক করতে পারো।
হ্যাঁ, বাহ।
এটা আমি সত্যিই অবাক করছে। এবং ঠিক এখানেই আমার যুক্তিটা মনে পড়ে: আমি জানি, মহিলা-স্বাস্থ্য বা যৌনক্রিয়া ট্র্যাকিং কিছু লোককে অস্বস্তি করতে পারে। তবু একজন পুরুষ হিসেবেও আমি এটাকে ট্র্যাক করতে চাইতে পারি, কারণ এতে বিভিন্ন উপসর্গ ও ঘটনার মধ্যে সম্পর্ক দেখা যায়—উদাহরণস্বরূপ যৌনক্রিয়া, ঘুমের গুণমান, হার্ট রেট, ওজন ও খাদ্যাভ্যাস মিলিয়ে দেখা যায় কোনো প্যাটার্ন আছে কি নেই, এবং তা অনেক ক্ষেত্রে সহায়ক।
হ্যাঁ।
আরও একটা ব্যাপার—Protection Used প্যারামিটারটি কেন আছে এবং তুমি এটি সংরক্ষণ করতে পারো, তারও একটি যৌক্তিক কারণ আছে। আমি আশেপাশের মহিলাদের জিজ্ঞেস করেছিলাম, 'এটার কী ব্যবহার?' তখন একজন বললেন, 'ধরা যাক মাসিক বিলম্ব হয়েছে, তখন তুমি দ্রুত দেখে নিতে পারো শেষবার কখন আমি অরক্ষিত যৌনসম্পর্ক করেছিলাম; তাহলে তুমি নিজের সম্ভাব্যতা যাচাই করতে পারো—আমি গর্ভবতী হতে পারি?' এবং—এবং এই ধরনের নোট রাখা থাকলে সহজেই সম্ভাব্যতা নিরূপণ করা যায় এবং প্রয়োজন হলে চিকিৎসকের কাছে তথ্য দেখানো যায়।
হ্যাঁ, এবং তারপর নিজে প্রায় কতটা সম্ভবনাময় তা অনুমান—
হ্যাঁ।
—কতটা সম্ভাব্য হতে পারে তা আন্দাজ করা, ঠিক?
আমি ভাবি: ঠিক আছে, সম্ভবত আমারও আগ্রহ আছে এটা নোট করে রাখতে এবং পরে দেখে নিতে কখন শেষবার আমি অরক্ষিত যৌনসম্পর্ক করেছিলাম।
ঠিক আছে, একটি প্রশ্ন: এটা কি আসলে কেবল নিজের কাছে ফ্লেক্স করার অর্থে, নিজেরটা দেখানোর জন্য? না কেন? [হাসি]
আচ্ছা, না, আমি মনে করি—আসলে আমরা এখন একটু বিষয় থেকে সরে যাচ্ছি, চিন্তা করো না—কিন্তু মূলত এর মানে হচ্ছে যে মানুষের স্বাস্থ্যের উপর করা এই ধরনের মৌলিক বিশ্লেষণগুলো আমরা প্রায় স্বয়ংক্রিয়ভাবে করে ফেলতে পারব। এটা অবশ্যই মানে নয় যে সব ফ্যামিলি‑ডাক্তার বা হাউসআর্টস আর লাগবে না; সে বিষয়ে কোনো দ্বিধা নেই। বরং সুবিধাটা হলো, অনেক জিনিস আমরা অনেক আগেই শনাক্ত করতে পারব, কারণ সাধারণত কেউ বলে না 'আহ, আগে তিন‑চারটা আলাদা ডেটাসেট একত্র করে দেখি, তারপর নিশ্চিত হই যে আমার কোনো অদ্ভুত রোগ নেই' — তুমি বুঝছো তো কি বলতে চাইছি? যেসব লক্ষণ প্যারামিটারগুলোতে প্রকাশ পায়, সেগুলোকে আলাদা করে খোঁজার বদলে সিস্টেমটা সরাসরি ধরতে পারবে, যতক্ষণ পর্যাপ্ত ডেটা ওই সিস্টেমে ফিড করা আছে এবং একটি অ্যাপ আছে যাকে সবকিছু বিশ্লেষণ করার অনুমতি দেওয়া হয়েছে—
হ্যাঁ।
—তাহলে এটাকে এমনভাবে সাজানো যায় যে মানবজাতি মোটেইভাবে আরও স্বাস্থ্যবান হয়ে উঠবে। এটা আমার একটা লক্ষ্যও, এবং এই কথাটা আমার কাজের সঙ্গে সুন্দরভাবে মিলছে—আমি এটাকে প্রায় 'স্বাস্থ্য ব্যবস্থা' বলি। এটা এমন একটি ধারণা যা আমি নিজে বাস্তবায়ন করার চেষ্টা করছি।
আহ, ওটা খুব সুন্দর।
আমি যা আমার 'স্বাস্থ্য ব্যবস্থা' দিয়ে অর্জন করতে চাই তা একটু বোঝাতে চাই। গুগল হেলথ কানেক্ট এখানে একেবারে কী, কারণ আমি কখনোই চাইব না যে সিস্টেমের সব অংশ একই নির্মাতার দখলে থাকে—এতে লক‑ইন সমস্যা খুব বড় হয়ে যাবে। উদাহরণস্বরূপ, আমার আছে একটি ফিটনেস‑ট্র্যাকার ঘড়ি যার নিজস্ব একটি অ্যাপ আছে; আর আমার আছে একটি স্মার্ট স্কেল—অর্থাৎ একটা স্কেল যা শুধু কানেক্টেড নয়, এটি শরীরের নানা পরামিতাও মাপে, যেমন চর্বির শতাংশ, পেশীর ভর ইত্যাদি।
এটি আমার সব ডেটা বিশ্লেষণ করে এমনকি আমার বেসাল ক্যালরি‑ব্যয়ও হিসেব করে দিতে পারে। এবং আমার আছে একটি স্মার্ট রক্তচাপ পরিমাপকও, যা এই ডেটা সংগ্রহ করতে পারে। কিন্তু দুর্ভাগ্যবশত এই সব অ্যাপগুলো একে অন্যের সাথে সামঞ্জস্যপূর্ণ নয়।
হ্যাঁ।
না, নিজে থেকে নয়। আর আমার আছে একটি অ্যাপ যে দিয়ে আমি আমার খাদ্যাভাস ট্র্যাক করি—এটি ওপেন‑সোর্স, Open Nutri Tracker‑এর ওপর ভিত্তি করে এবং আমি এটাকে ব্যাপকভাবে কাস্টমাইজ করেছি। মূলত এটি নিজে Health Connect‑এ যুক্ত নয়; এটা মূলত একটি ডাটাবেস: সঠিক মডিউল ইমপোর্ট করলে সবকিছু কাজ শুরু করে।
হ্যাঁ, খুব ভালো।
উম, আর যদি এগুলো পারস্পরিকভাবে কাজ না করত, আমি নিজে কখনই সেটা গোছাতে পারতাম না। তাই আমি নিজের জন্য একটি ট্রেনিং‑অ্যাপও প্রোগ্রাম করেছি, যা আমাকে নির্দিষ্ট ধরনের শক্তি‑প্রশিক্ষণ করায়— এবং সেটাও Google Health Connect‑এর মাধ্যমে ডেটা দেয়। সব ডেটা Google Health Connect‑এ মিলিত হয়, এবং আমি একটি ড্যাশবোর্ড‑অ্যাপ বানিয়েছি যা Health Connect থেকে সব ডেটা পড়ে সম্পর্ক খুঁজে বের করে এবং বলে, উদাহরণস্বরূপ: 'ঠিক আছে, সব প্যারামিটার দেখা যাচ্ছে তোমার চর্বি কমানো উচিত।'
হ্যাঁ।
এটা কি সত্যিই ঘটেছে? যদি হ্যাঁ, ভালো। যদি না, তাহলে এখানে কিছু প্যারামিটার আছে যেগুলো তুমি টুইক করতে পারো। উদাহরণস্বরূপ বলি: 'ঠিক আছে, তাহলে হয়তো হিসাবটাই সঠিক নয়—কত ক্যালরি আমি দৌড়ালে পুড়ে ফেলি সেটা হয়তো ঠিক নেই; তাহলে আমরা সেটাকে সামান্য পরিবর্তন করব।'
হ্যাঁ।
আর সবটাই কেবল গুগল হেলথ কানেক্টের কারণে সম্ভব হচ্ছে।
দারুণ।
আরেকটি দিক হলো—গুগল হেলথ কনেক্ট‑ডেটার একটি দ্বিতীয় বড় ভাগ আছে। এটা একটু অদ্ভুতভাবে সাজানো: একটাকে তারা 'Health Data' বলছে এবং আরেকটাকে এখন 'Medical Resource' বলেছেন। এটা একটু আলাদা ধরনের কারণ প্রথমটি মূলত ফিটনেস ও ওয়েলনেস‑ধর্মী ডেটা ধারণ করে—যেমন ট্র্যাকার থেকে আসা—আর দ্বিতীয়টি প্রকৃত চিকিৎসাসংক্রান্ত বিষয় নিয়ে কাজ করে।
অর্থাৎ মূলত ল্যাবফলাফল এবং ডাক্তারি বিষয়াদি, ঠিক।
এখানে অনুমতিপ্রণালীটাও আলাদা। ধরুন, যদি কোনো অ্যাপকে লেখার অনুমতি থাকে, সে সমস্ত মেডিক্যাল ডেটাতে লিখতে পারে; কিন্তু পড়ার জন্য তুমি নির্দিষ্ট ক্যাটাগরির উপর আলাদা করে অনুমতি দিতে পারো। এবং সেখানে কিছু জিনিস মজারভাবে সংরক্ষিত আছে: অ্যালার্জি, ডাক্তারি ভিজিট, ডাক্তারদের তথ্য, রোগাবস্থা, টিকা, ল্যাব ফলাফল, ওষুধ, চিকিৎসা পদ্ধতি, ব্যক্তিগত ডেটা, গর্ভাবস্থা, ভায়টাল প্যারামিটার ইত্যাদি। এছাড়া একটি ক্যাটাগরি আছে, 'Sozialanamnese'—অর্থাৎ Social History বা সামাজিক অনামনেস। আমি Health Connect Toolbox‑এ ওই Social History‑এর JSON‑উদাহরণগুলো দেখেছিলাম; আমার বন্ধু যারা দেখেছে তারা হেসে বলেছিল: 'কি বোকামি—Sozialanamnese' [হাসি]। উদাহরণস্বরূপ একটি Social History‑এ থাকতে পারে: 'শৈশবে প্যাসিভ সিগারেট‑ধোঁয়ায় সংবেদনশীল ছিল।'
ঠিক আছে, এক মুহূর্ত।
হ্যাঁ।
এই উক্তিটি আমার কাছে আবারও বেশ জোরালোভাবে Watch Dogs‑স্টাইলের মনে হলো, যেভাবে তুমি এটি উপস্থাপন করেছিলে। তাই এতে একটু নাটকীয়তা ছিল... [হাসি]
এটা এমন একটা দৃশ্য, যা তুমি সহজেই Watch Dogs‑এ দেখতে পাবে।
হ্যাঁ, ঠিক। তারপর এমন: 'ওহ হ্যাঁ, এখানে, আপনার ভাই—'
'এখন সে XY নিয়ে জড়িত আছে', বা এমন কিছু। হ্যাঁ।
আর ঠিক এ কারণেই এটা আলাদা একটি বিষয় এবং আমি এ পর্যন্ত এমন কোনো অ্যাপ দেখিনি যা এটিকে ব্যবহার করে—ছাড়া আমার নিজের বানানো অ্যাপগুলো—কারণ এটাই মূলত শুধু একটি ডাটাবেস। এটা প্রকৃতপক্ষে ইলেকট্রনিক পেশেন্ট রেকর্ডের মতো, যেটা আমেরিকায় আছে এবং আমাদের দেশের বৈশিষ্ট্যের অনুরূপ। আমি বাস্তবে আমার সিস্টেমে এর একটি অংশ ব্যবহার করি—ওষুধ গ্রহণ রেকর্ড। কিন্তু এখানে কিছু জটিলতা আছে: এটা মূলত ডাক্তারি উদ্দেশ্যে তৈরি, আত্ম‑পরিমাপের ধরন হিসেবে নয়। তাই সেখানে এমন কোনো রেকর্ড টাইপই নেই যা বলে: 'আমি ওষুধ নিয়েছি।'
আছে 'মেডিকেশন প্রেসক্রাইব করা হয়েছে' এবং 'নির্দিষ্টভাবে নেওয়ার কথা'—আরেকটা ডাটাটাইপ আছে যা বলছে নার্স আমাকে ওষুধটা দিয়েছেন যাতে আমি তা গ্রহণ করি। কিন্তু ডকুমেন্টেশনে তারা জোর দিয়ে বলে যে, মেডিক্যাল‑তত্ত্বগত দৃষ্টিকোণ থেকে 'আমাকে ওষুধ দেওয়া হয়েছে' এবং 'আমি নিজে ওষুধ নিয়েছি'—এই দুইটির মধ্যে একটি মৌলিক পার্থক্য রয়েছে।
হ্যাঁ।
কিন্তু আমার সেটা নিয়ে কোনো সমস্যা নেই। [হাসি]
হ্যাঁ।
আমি সেই Medication Administration Record সোজাসুজি লিখে দিই এবং আমার অ্যাপে সেটা থাকে 'আমি নিয়েছি'—না 'কাউকে দিয়ে আমাকে দেয়া হয়েছে'—
কারো কেউ তোমার বাড়িতে এসে সেটা তোমাকে দিয়েছে।
হ্যাঁ, ঠিক তাই। এবং এটা সত্যিই বেশ দুর্দান্ত। এই সব সুযোগ-সুবিধার কারণে আমি একটু ছোট্ট ধারণা দিতে চেয়েছি। আমি এমন ডিভাইস দিয়েছি—যার সাহায্যে দেখা যায় আমি কি আসলেই ওজন কমাচ্ছি না। তাছাড়া আছে কিছু কনভিনিয়েন্স‑ফিচার: উদাহরণস্বরূপ, যদি আমার অ্যাপ জিজ্ঞেস করে 'হেই, তুমি কি আজ তোমার ওষুধগুলো নিয়েছো?', আমি সাধারণত সেগুলো সকালে ওঠার পরেই নিই—যদি প্রয়োজন হয় না তবু প্রায়ই উঠার পরই নিই। এবং যদি আমি দিনের কোনো সময়ে অ্যাপটা খুলে ফেলি এবং সেটি জিজ্ঞেস করে 'আজ তুমি কি তোমার ওষুধ নিয়েছো?',
হ্যাঁ।
আর আমি যদি 'হ্যাঁ' চাপি, তখন অপশন আসে: তুমি কি একটি নির্দিষ্ট সময় লিখে দিবে নাকি এটা ছিল 'জাগার পরেই'?
হ্যাঁ।
যদি আমি 'জাগার পরেই' বেছে নিই, অ্যাপটি Google Health Connect‑এর ডেটা দেখে আমার ট্র্যাকার কীভাবে ঘুম ট্র্যাক করেছে, আমি কখন জাগিয়েছি ইত্যাদি পড়ে এবং সেই অনুযায়ী আন্দাজ করে কখন আমি ওষুধ নিয়েছি—এমনকি আমি নিজে যদি সময়টা মনে না রাখি, কারণ আমি তো একসময় ঘুম থেকে উঠেছি। এবং আমি জানি—
ওটা বেশ দারুণ। আর একটা ছোট ট্যাংজেন্ট—আমি আসলে ফোনের যে 'ঘুম‑সম্ভাব্যতা' প্রেডিকশনটি পাওয়া যায়, সেটাকেও Home Assistant‑এ ট্রিগার হিসেবে ব্যবহার করি যাতে দিনের শেষে বিভিন্ন কাজগুলো অটোমেটিকালি করা হয়। যেমন সব লাইট পাকা করা, অন্যান্য মেইনটেন্যান্স‑টাস্ক চালানো, কিছু বুলিয়ান হেল্পার অন বা অফ করা—
যেমন বলেছি, তাই—
এইটা, এটা খুবই কার্যকরী।
এটা অত্যন্ত ব্যবহারযোগ্য, আর এজন্যই আমার ড্যাশবোর্ড‑অ্যাপে এমন ব্যবস্থা আছে যে আমি যখন এটি ওপেন করি—কারণ সরাসরি ফাইল‑এক্সপোর্ট করার সুযোগ নেই—তখনই ড্যাশবোর্ডটি সবকিছু বলে দেয় যা তার কাছে আছে এবং আমি যদি আমার লোকাল নেটওয়ার্কে, আমার সার্ভারে থাকি তবে সার্ভার তা নিয়ে নানা মজার কাজ করে—যেগুলো নিয়ে আমি এখনও কাজ করছি। একটু ফোরশ্যাডো করে বলি: ভবিষ্যতে এটি শুধু আমার খাবার ট্র্যাকিং না করে, সুপারিশকৃত ডায়েট প্ল্যানও তৈরি করবে।
ওয়াও।
এগুলো সবকিছুই ডায়নামিকভাবে বদলে যাবে—তুমি আজ কি করেছো, কত ক্যালরি ব্যয় করেছো, কতটা পানি খেয়েছ—এসবের ওপর ভিত্তি করে।
ঠিক। আর এটা সত্যিই ক্রেজি, কারণ এখানে অনেক দূর পর্যন্ত ভেবে দেখা যায়। ধরো, তোমার যা কিছু তুমি কিনেছ তা তো ইনক্লুড করা যায়; বা তোমার ক্যালেন্ডার কেমন আছে তা দেখলে—তুমি আগেভাগেই আন্দাজ করতে পারো কতটা সম্ভাবনা আছে যে তুমি বাড়ি এসে বড়সড় কিছু রান্না করার মুডে থাকবে না—
হ্যাঁ।
—তুমি বাড়ি ফেরার পরে? এটা তো—
ঠিক।
এটা পুরোপুরি মানবিক এবং স্বাভাবিক যে কেউ ভাববে: 'ঠিক আছে, এমন পরিস্থিতির জন্য আগে থেকেই কিছু তৈরি করে রেখেছি'। এবং এখানে এমন দিকগুলোও বিবেচনায় নেওয়া যায় যে তুমি হয়তো লক্ষ্য করছো না—'আহা, এখন তো আটটা বাজে আর অ্যাপটি তোমার কাছে সবচেয়ে বড় খাবার সাজেস্ট করছে'—আর তখন তুমি বলতে পারো, না, আজ আমার মুড নেই। এই ধরনের অনেক ফিচার আছে যেগুলোকে পূর্বাভাসে যোগ করা যায়।
ঠিক।
এটা অবশ্যই মজার। এখন শুধু সেই অতিরিক্ত দামী স্মার্ট ফ্রিজটিই বাকি আছে, যা ভেতরের জিনিসও ট্র্যাক করে।
ওটা করে আমি করতে চাইনি। আমি এ নিয়ে অনেক বছর ধরে ভেবেছি—কিভাবে একটা স্মার্ট ফ্রিজ বানাবো যা নিজেই জানতে পারে ভেতরে কি আছে, এবং সেটা পরিচালনা করাটা অর্গানাইজেশনের ঝামেলা ছাড়া সম্ভব হবে? কিন্তু আমি সফল হইনি; শেষমেশ আমি চেষ্টা বন্ধ করে দিয়েছি। আমি 'ফ্রিজে কি আছে?'ভাবে কাজ করব না; বরং আমি হঠাৎ করে একটা লিমো কিনে ফেললেই সেটা ট্র্যাক করি—আমি এটা খেয়েছি বলে লগ করি, এবং সেই অনুযায়ী আজকের প্ল্যান ডাইনামিকভাবে সামঞ্জস্য হয়।
হ্যাঁ, ঠিক। এবং তুমি অন্তত তোমার সব ক্রয়ের রশিদগুলো ট্র্যাক করে সিস্টেমে যোগ করতে পারো।
যেমন বলেছি, Open Food Facts‑এর সাথেও আমার অ্যাপগুলো খুব মিলেই কাজ করে। আমি Open Nutri Tracker‑এ এমন ফাংশন যোগ করেছি যাতে সরাসরি Open Nutri Tracker থেকে Open Food Facts এবং Open Prices‑এ কন্ট্রিবিউট করা যায়। নাহলে আমি সেটা করতাম না; আমি দুইটা অ্যাপ খুলে এভাবেই ম্যানুয়ালি টাইপ করব না—আমি জিনিসটা স্ক্যান করি, এবং তখন অ্যাপ বলে: 'স্টপ, Wieland, এখানে কিছু তথ্য নেই—তুমি কি এটা আগে যোগ করে পাঠাবে?' আর আমি ঠিক সেইভাবে করে দেই, তারপর সাবমিট করি—আমি এটা খেয়েছি।
হ্যাঁ, বেশ ভালো।
এভাবেই সব কাজ করে। এবং আরও একটা তৃতীয় ছোট বিষয় আছে Health Connect‑এ যা আলাদা পারমিশন চায়; এটাও অ্যাক্সেসের দিক থেকে খুব ইন্টারেস্টিং। মানে, যদি কোনো অ্যাপকে পড়ার অনুমতি দেওয়া থাকে, তবে সেটা অন্য সব অ্যাপের লেখা ডেটাও পড়তে পারে। প্রতিটি এন্ট্রিতে সবসময় দেখা যায় কোন অ্যাপ সেটা লিখেছে—এটা একটি স্ট্যান্ডার্ড মেটাট্যাগ। ডিভাইস‑নেমও লিপিবদ্ধ থাকতে পারে এবং এন্ট্রির ধরনও থাকে: manually recorded, automatically recorded, inferred। আর আমি এই ধারনাটা মজার মনে করি: তত্ত্বত এমন একটি এন্ট্রি থাকতে পারে যা আবার ওয়াচ‑ডগসের মতো—যেমন Device Type: Amazon Echo, Recording Type: manually recorded, Activity Type: sexual activity। [হাসি]
এরকম একধাঁচের বোকামি‑পর্ব তো আগে থেকেই ছিল।
ডেটা মডেল অনুযায়ী এটা সম্ভব যে এমন একটি এন্ট্রি উঠে আসতে পারে।
হ্যাঁ।
আরেকভাবে বললে—যদি কোনো অ্যাপকে পড়ার অনুমতি থাকে, তা সবগুলো অন্য অ্যাপের ডেটাও পড়তে পারে। লেখার ও মুছার ব্যাপারে নিয়ম আছে: একটি অ্যাপ কেবল নিজের জন্যই লিখতে ও নিজে যে ডেটা লিখেছে তা মুছতে পারে; অন্য অ্যাপের এন্ট্রি মুছার কোনো ব্যবস্থাই নেই। Health Connect‑এর মজার অংশ হলো তুমি Aggregate Data চাইতে পারো এবং সিস্টেম বিভিন্ন অ্যাপ থেকে স্মার্টভাবে ডেটা নিয়ে মোট হিসাব করে দেবে। কিন্তু, যেমন তুমি আগেই ছোঁয়াস করেছিলেন, সেটা সব সময় ততটা ভাল করে কাজ করে না—বিশেষ করে স্টেপস‑এর ক্ষেত্রে। অনেক দিন আমার ড্যাশবোর্ড বলত: 'Wieland, তুমি অসাধারণ—তুমি প্রতিদিন এত স্টেপস করো, এটা ট্রেনিং হিসাব হচ্ছে; আজতোমাকে কোনো মাসল‑ট্রেনিংই করতে হবে না।' আমি তখন ভাবতাম, 'আমি কি সত্যিই এতটা দুর্দান্ত?' [হাসি] পরে দেখা গেল যে সমস্যা ছিল—আমি আমার ফোনকে স্টেপস লিখতে অনুমতি দিয়েছি আর একই সময়ে আমার ট্র্যাকার অ্যাপও স্টেপস লিখছে। তত্ত্বগতভাবে এই সিস্টেমটি দুটো সূত্র থেকে আসা ডেটা মিলিয়ে বুঝে ফেলতে পারবে যাতে একসঙ্গে যোগ না করে, কিন্তু বাস্তবে সেটা সবসময় ঠিকমতো হচ্ছে না।
হ্যাঁ, হ্যাঁ।
তাই আমি শেষপর্যন্ত আমার ফোনকে স্টেপস লেখার অনুমতি বন্ধ করে দিয়েছি; এখন শুধু আমার ফিটনেস‑ট্র্যাকার অ্যাপটাই স্টেপস লেখে।
হ্যাঁ, কারণ আসলে ধারণাটা তো হলো তুমি ডেটাগুলো ফিউশন করে নিতে পারবে—কারণ কেহ কেউ ট্র্যাকার পায়ে বা হাতে বা ভিন্ন স্থানে পড়ে রাখে, এবং সেই ডেটা অনেক সময় আরো নির্ভরযোগ্য হয়। যদি তোমার ফোন, স্মার্টওয়াচ আর কোনো পায়ে লাগানো ডিভাইস থাকে, তাহলে বোধত সেই পায়ে লাগানো ডিভাইসের ডেটা সবচেয়ে নির্ভরযোগ্য। তাতে সিস্টেমটাকে মিলিয়ে ফেলা উচিত; বাস্তবে কখনো কখনো সেটা ঠিক কাজ করে না।
যাই হোক, এটা করা যায় এবং সত্যিই ফিচারগুলো দারুণ। API‑তে একটি ফাংশন আছে যেখানে তুমি অনুরোধ করতে পারো: 'এই সময় থেকে ওই সময় পর্যন্ত অ্যাগ্রিগেটেড স্টেপস পাঠাও, সবকিছু মিলিয়ে'—এটা কীভাবে বিভিন্ন অ্যাপ থেকে স্মার্টভাবে ডেটা নিয়ে গণনা করে। আর একটি জিনিস হলো, ডিফল্টভাবে অ্যাপগুলো শুধু ৩০ দিনের ব্যাকগ্রাউন্ড ডেটা দেখতে পারে; তুমি চাইলে একটি অতিরিক্ত পারমিশন দিয়ে তাদের চিরকাল পিছনে যেতে দেওয়া যায়। তৃতীয় বিশেষ ক্যাটাগরির মধ্যে GPX‑ট্র্যাকসও আছে — এটা আমি খুবই পছন্দ করেছি, কারণ আগে থেকে আমি বিরক্ত হতাম যে আমার হাঁটার/ট্রেকিং রুটগুলো ঠিকভাবে রপ্তানি হয় না এবং আমি রুটের সাথে হার্টরেটের মতো ডেটাও ওভারলে ও অ্যাগ্রিগেট করতে চাই—
হ্যাঁ।
আমার ফিটনেস‑ট্র্যাকার অ্যাপে সেটা ঠিকমতো কাজ করত না; যদি ভাগ্য ভালো থাকত, একটা খারাপ GPX‑ট্র্যাক এক্সপোর্ট পেতাম, এবং সেটাও কেবল তখনই সম্ভব যখন আমি ক্লাউড‑সিন্ক করতাম—অর্থাৎ আমার পুরো রুট ক্লাউডে উঠত। এটা আমার কাছে খুবই বিরক্তিকর ছিল। কিন্তু ট্রেনিং‑ট্র্যাকগুলো Health Connect‑এ একটি ডাটাটাইপ হিসেবে লেখা যায় এবং সেটি আলাদা পারমিশন থেকে লেখা হলে যেই কেউ পড়ার অনুমতি পায় তারা সেগুলো পড়তে পারে। তাই আমি নিজেই একটি ছোট‑খাটো এক্সপোর্টার বানিয়ে ফেলেছি।
খুব দারুণ।
আর সেখানে আমি এখন অনেক মজার পরিকল্পনা রাখছি। সংক্ষেপে বলতে হলে—বন্ধুগণ, গুগল হেলথ কানেক্ট একদম অসাধারণ।
ওয়াইল্যান্ড, তুমি কল্পনা করতে পারবে না আমি আসলে কতটা উত্তেজিত ছিলাম, যখন আমি সম্প্রতি, উম, রিলিজ নোটগুলো — ওই চেঞ্জলগগুলো — পড়ছিলাম। হয়তো এটা কিছুটা অদ্ভুত একটি কাজ, এগুলো পড়ে নিজেরাই এতটা আনন্দিত হওয়া, তবে আমি সত্যিই খুব উচ্ছ্বাসিত ছিলাম।
আমি ও করি।
ওকে।
কিন্তু প্রশ্নটা হলো, ঠিক কোন সফটওয়্যারের ব্যাপারে তুমি বলছ?
সত্যিই, বিষয়টা আসলে ESPHome নিয়েই ছিল।
ঠিক।
কারণ সেটা আমি ওই ভার্সনে দেখেছিলাম — উম, মিথ্যা বলছি কি, 2026.5.0b1, মানে একটা বেটা ভার্সন—
ওকে।
আমি সরাসরি পড়ে দেখলাম: ওহ হ্যাঁ, সেখানে একজন নির্দিষ্ট ডেভেলপার আছেন — যাকে আমি, হ্য, যাকে আমি তো গিটহাবের শর্টনেম থেকেই আগেই চিনতাম—
হুম।
বলতেই হয়, অবশেষে তিনি তার কোড মেন ব্রাঞ্চে মার্জ করতে পেরেছেন। বাস্তবে এখন এটি মূল ভার্সনে যুক্ত হয়েছে — অর্থাৎ Zigbee সাপোর্ট।
ওকে।
ESPHome-এ। এখন এটা সোজা করে কাজ করে।
ওকে।
আগে সেটা খুবই সীমাবদ্ধ ছিল — কেবলমাত্র একটি চিপে কাজ করত, যেটি অনেকেই ব্যবহার করে না, ওই NRF চিপে। কিন্তু এখন এটা আরও বিস্তৃত হয়েছে; এখন এটি কাজ করে আরও প্রচলিত হার্ডওয়্যারের সঙ্গে, যেমন ESP32-C6 এবং H2, যা অনেক বেশি ব্যবহৃত। এগুলো স্ট্যান্ডার্ডভাবেই আসে এবং এদের মধ্যে ডিফল্টভাবেই Zigbee সাপোর্ট আছে।
হুম।
এটার মানে হচ্ছে তুমি এখন সরাসরি তোমার প্রকল্পগুলোতেও Zigbee যোগ করতে পারো। এটা বেশ ভালো, কারণ তুমি সরাসরি সেন্সরগুলো এবং বাইনারি ইনপুটগুলো ইত্যাদি Zigbee মারফত ম্যাপ করে নিতে পারবে। তাছাড়া বাইরের সব লাইব্রেরির ফাংশনালিটি তখনও থাকেই, এবং তুমি পরিচিত সেন্সর মডিউলগুলোও সহজে ইন্টিগ্রেট করতে পারবে, যেমন আমরা আগে করতাম। আমি এখন আমার সফটওয়্যারটা একটু করে রিরাইট করে পরীক্ষা করছি। প্রথম প্রচেষ্টা যেখানে আমি এক্সটার্নাল কম্পোনেন্ট ব্যবহার করে অন্য ফর্কগুলোকে কম্পোনেন্ট হিসেবে অ্যাড করার চেষ্টা করি, সেটা আমার ক্ষেত্রে অনেকখানি ব্যর্থ হয়েছিল। প্রযুক্তিগতভাবে এটা আগেও সম্ভব ছিল, কিন্তু কেবল একটি এক্সটার্নাল কম্পোনেন্ট হিসেবে, এবং সেটা আমার ক্ষেত্রে কখনোই সঠিকভাবে কাজ করেনি — আমি ঠিক করে খুঁজে পাইনি কোথায় ব্যর্থতা ছিল। কিন্তু এখন এটা, বলি, চূড়ান্ত: মেন ব্রাঞ্চেও মার্জ করা হয়েছে। এটি আর শুধু বিটা ব্রাঞ্চে নেই, আর এজন্য আমি অনেকটাই উত্তেজিত। কারণ আগ পর্যন্ত সাধারণত কেবল Wi‑Fi দিয়েই কাজ করাই যেত। সহজভাবে বললে, আগে তুমি শুধু Wi‑Fi ব্যবহার করেই সব ডিভাইস গুলো চালাতে, এবং ESPHome‑কম্প্যাটিবল ডিভাইসের মধ্যেও Ethernet থাকতে পারে এমনটি খুব কমই ছিল — মনে হয় কেবল WaveShare কিংবা আরেকটু কিছু নির্মাতারই সেগুলো আছে যেগুলো ESP32‑জাতীয় ডিভাইসকে ইথারনেটেও জুড়ে দেয়া যায়। তাতেও তাত্ত্বিকভাবে সম্ভব হলেও বাস্তবে বেশিরভাগ ক্ষেত্রে মানুষ ওয়াই‑ফাই দিয়েই সংযোগ করত। আমি নিজে একটি প্রেজেন্স ডিটেক্টর বানিয়ে প্রোগ্রাম করে ফেলেছি; সেটা দারুণভাবে কাজ করছে।
ওহ, দারুণ।
আমার মনে হয় এটা একেবারে প্লাগ-এন্ড-প্লে অভিজ্ঞতা। আরডুইনো IDE খুলে লুপে কোড লিখে সব কমান্ড বসাতে হবে না; এটা একেবারে সোজা। তুমি শুধু YAML ফাইল লিখবে, সেটা ESP32-তে আপলোড করবে আর শেষ — কাজটাই চলছে। এটা এমনকি টেকনো-অপটু মানুষের জন্যও খুব সহায়ক।
চমৎকার। [হাসি] আমাদের সব দর্শকরা এখনই এটি ইনস্টল করছে।
একদম এখনি ডাউনলোড। [হাসি]
দারুণ। হ্যাঁ, এটা তো প্রথমে খানিকটা আপত্তিকর শোনাচ্ছে।
না, না, না।
দারুণ।
এটি সত্যিই নতুনদের জন্য অত্যন্ত উপযোগী। তুমি আসলে টেক্সট এডিটরে কয়েক লাইন লিখে তা আপলোড করলেই হবে — C বা অন্য লো‑লেভেল কোড লেখার দরকার নেই; তুমি কেবল ডিক্লারেটিভ কনফিগারেশন লিখবে আর সব ঠিক হয়ে যাবে। ফলে সাধারনভাবে খুব কম কিছুই বসে বা ভুল হয়।
হুম।
এটা সত্যিই বেশ চমৎকার।
এটা দারুণ।
আর এতে তুমি প্রচুর টাকা বাঁচাতে পারো — নিজের উপস্থিতি-ডিটেক্টর বা অন্যান্য সেন্সরগুলো নিজে বানিয়ে; বিশেষ করে যদি তুমি কোনো নির্দিষ্ট প্রকারের পরিমাপ করতে চাও।
যখন তুমি বিশেষ মানগুলো ট্র্যাক করতে চাও, উদাহরণস্বরূপ বাতাসের CO₂ পরিমাণ, সেটি জটিল বিষয়। কারণ এখানে দাম আর মানের মধ্যে সরাসরি সম্পর্ক আছে; যত বেশি দাও ততই ভালো ফল পাবে, কোনো সহজ ট্রিক নেই।
হ্যাঁ।
কোনো শর্টকাট নেই — অর্থাৎ দুই বা তিন ইউরোর সেন্সর করে যদি তুমি দারুণ ফল আশা করো, তা হবে না। সবকিছুই লিনিয়ারভাবে স্কেল করে। দুই ইউরোর ডিভাইসগুলো অনেক সময়ই কেবল অন্য কিছু মাপে এবং সেখান থেকে CO₂ অনুমান করে, তাই মানগুলো অনিশ্চিত। যেখানে তিরিশ ইউরো পরিসরে তুলনামূলকভাবে ব্যবহার যোগ্য সেন্সর পাওয়া যায়। উদাহরণস্বরূপ প্রচুর সময় SCD40 রিকমেন্ড করা হয়। আবার তুমি CO₂ পরিমাপের জন্য দশ হাজার ইউরোও খরচ করতে পারো; সুশৃঙ্খলভাবে তখন ফলাফল অবশ্য সবচেয়ে ভালো হবে — কিন্তু সস্তায় কোনো জাদুকরী সমাধান নেই।
ওকে।
আর এগুলো দিয়ে তুমি দারুণ সেন্সরগুলোকে সহজেই Home Assistant বা যেকোনো সিস্টেমে যোগ করতে পারো; এটা সত্যিই চমৎকার। আমি নিজে উদাহরণস্বরূপ একটা কেবলযুক্ত ওয়াটার-লিক সেন্সর বানিয়েছি ও প্রোগ্রাম করে ফেলেছি।
ওকে।
Shelly-এর ওয়াটার-লিক সেটআপ থেকে তুমি একটা রকমের অডিও-কেবলের মতো জিনিস কিনতে পারো, যেখানে বাইরের আবরণ আংশিকভাবে বৈদ্যুতিক পরিবাহী। এটা বেশই ইন্টারেস্টিং প্রোডাক্ট। মূলত এটা প্রতিরোধ পরিমাপের জন্য একটি এক্সটেনশন হিসেবে কাজ করে।
ওয়াটার-ডিটেক্টরটি কাজ করে এমনভাবে যে তুমি দুইটি ধাতব কন্টাক্টের মধ্যে প্রতিরোধটাই মাপো।
হ্যাঁ।
আর যদি তোমাকে খুব নিখুঁত পরিমাপের প্রয়োজন না হয় — যেমন এখানে কেবল জানতে হবে পানি আছে কি না — তাহলে এটা পুরোটাই সহজ প্রতিরোধ ভিত্তিকভাবে করা যায়। তুমি ওই কেবলটিকে আর ESP32-এর ভোল্টেজ লাইনকে ব্যবহার করে একটি ভোল্টেজ ডিভাইড বানাবে, ডিভাইডারের মধ্যবর্তী নোডটি ADC দিয়ে মাপবে, এবং ADC থেকে পাওয়া ভোল্টেজকে ভোল্টেজ-ডিভাইড সূত্রে বসিয়ে প্রতিরোধ নির্ণয় করবে। সেই প্রতিরোধের মান দেখে তুমি সহজে সিদ্ধান্ত নিতে পারবে যে কেবলে পানি লাগেছে কি না।
আহা।
তাহলে তুমি রেজিস্ট্যান্স মাপতে পারো।
ওকে, হ্যাঁ।
তাহলে।
হ্যাঁ, আমি ছিলাম, আমি ছিলাম।
তুমি সহজেই ইলেকট্রনিক্সের কাজগুলো করতে পারো এবং আনুমানিকভাবে জানতে পারো কত রেজিস্ট্যান্স আছে। ওই সেন্সর কেবলটি বেশ মজার; আমি দেখেছি প্রাক্কলিতভাবে ১ মেগাওহম একটি ভাল থ্রেশহোল্ড। উপরের দিকে থাকলে সাধারণত নরমালি পানি নেই, আর নিচে এলে কেবলটিতে পানি আছে বোঝা যায়। এবং এটা একটা অডিও কেবল — এটা বলাই ভালো ছিল, কারণ এটি ৩.৫ মিমি জ্যাক ব্যবহার করে।
ঠিক আছে।
এটি Tip এবং Sleeve ব্যবহার করে কাজ করে; তুমি পছন্দমত সেটা ব্যবহার করে নিতে পারো। রিংয়ের ব্যাপারে আমি পুরোপুরি নিশ্চিত না — সেটা কি সংযুক্ত নাকি অন্য কোনো পিনের সঙ্গে যুক্ত, সেটা আমি ঠিক জানিনা। যাই হোক, কেবলটিকে Zweckentfremden করে নিজে পরিমাপ করলাম। কেবলটির বড় সুবিধা হলো তুমি শুধু এক পয়েন্টে পানি মাপছ না, বরং দুই মিটার বা আড়াই মিটার জুড়ে সম্পূর্ণ কেবল বরাবর পানি আছে কি না সেটা দেখাতে পারো। তুমি চাইলে দরজার কন্টাক্টও এইভাবে যুক্ত করতে পারো, যা আলাদা ব্যাটারি ছাড়াই কাজ করবে — স্মার্ট হোমে বারবার ব্যাটারি বদলানোর ঝামেলা থেকেই মুক্তি পাওয়া যায়, যেমন ‘এই সপ্তাহে কোন ব্যাটারি বদলাতে হবে’—এই ধরনের সমস্যা কমে যায়। (এটা একটু অতিরঞ্জিত ভাবে বলা হলো।)
হ্যাঁ, হ্যাঁ।
অতএব আর কোনো বিশেষ ডিভাইসের জঞ্জাল লাগে না — খারাপ পরিস্থিতিতেও তুমি এটা বেশ সহজে এড়াতে পারো যদি তুমি কেন্দ্রীকভবে একটা ESP32 বসিয়ে সেই রুমের সব সেন্সর সেখানে যোগ করে রাখো। সবকিছু সেখানে জমা হলে ব্যবস্থাপনা অনেক সহজ হয় এবং এটা মোটেও ঝামেলায় ভরা থাকে না।
হ্যাঁ, জোনা, আমরা কেবল 'we have been cooking'—তরুণদের ভাষায় যেটা বলেন লজইনিং আর কুকিং—এটাই ছিল না; বরং সম্প্রতি Google I/O হয়েছে, গুগলের সেই কনফারেন্স যেখানে তারা নিজেরাই গর্ব করে বলে কী কী তারা এখন বা ভবিষ্যতে আনছে। এবং সৎভাবে বলি—Holy Moly—এবারটা সত্যিই একেবারেই Google AIO লাগছিল।
[হাসে] হ্যাঁ।
এটা পুরোটা কৃত্রিম বুদ্ধিমত্তা নিয়েই ছিল।
তাহলে—
শুধুই।
হ্যাঁ।
আচ্ছা, মানে—
এটা আমি যা শুনেছি ওই ব্যাপারটিই যে, গুগল সার্চ বারের কাজকেই তারা প্রায় একটি ইউনিভার্সাল টুলে পরিণত করতে চাইছে। আর আশ্চর্যজনকভাবে তারা কিছু—যেমন Google Books—কেমন যেন আলাদা ইভেন্টে রিলিজ করেছে; টেকনিক্যালভাবে সেটা অন্য রিলিজ সাইকলের মতো ছিল, যেন রিলিজের ঠিক আগে কিছু অদ্ভুত ঘটেছে এবং তারা হঠাৎ ভিন্ন কিছু ঘোষণা করছে।
বর্ণনা করেছে।
ঠিক তাই, এইটাই এক বড় সবকথার সারমর্ম যেটা আমরা নিয়ে কথা বলছি। এতগুলো ফিচার ছিল, সবই সবকিছুতে কুল এবং চমকপ্রদ—কিন্তু এটা ধীরে ধীরে ক্লান্তিকরও হয়ে উঠছে, কারণ সারাংশটা হলো: প্রায় প্রত্যেকটা Google‑প্রোডাক্ট বা তো সবার জন্য নয়, বেশিরভাগ ক্ষেত্রেই Google‑এর সাবস্ক্রাইবারদের জন্য একটা 'আমার সব তথ্য বলো' টাইপ ফিচার পাচ্ছে, অথবা প্রতিটি সার্চ বক্সই ধীরে ধীরে একটা এজেন্টিক ব্যার হয়ে উঠছে। তুমি ঠিকই বলেছ—তারা গর্ববোধ করছে, বিশ বছর পর সার্চ বক্সের কার্যক্রম বদলালো। আমার মনে হয় Google বাজার দখল করার চেষ্টা করছে, কারণ তারা একটু ভয়ে পড়ছে—মানুষ এখন گوগল করার বদলে ChatGPT‑তে সেই একই জিনিসটা লিখে ফেলছে।
হ্যাঁ।
আর তাই তারা এখন সেই অংশটাও নিজেরাই পেতে চাইছে, বলেই দিচ্ছে, ‘অবশ্যই আমাদের সার্চবারও একই রকম’। এটা শুধু AI মোডের বাইরে যাবে না, তুমি সার্চ বারে কিছু লিখলেই সেটা হবে Gemini‑এর সঙ্গে কথোপকথনের শুরু। সত্যিই—Gemini Omni শুনলে প্রভাবিত হওয়া স্বাভাবিক, এটা এমন একটি মডেল যা সবকিছুই করতে পারে; প্রায় সেই প্রতিশ্রুতি যা আমরা GPT‑4.0‑এর সময় শুনেছিলাম—'O' মানে ছিল Omni।
হ্যাঁ।
এটি সত্যিই সবকিছুকে কভার করে—ভিডিও জেনারেট করা পর্যন্ত, এমন কিছু ভিডিওও বানাতে পারে যা ফিজিক্যালি গ্রাউন্ডেড বলে দাবি করা হচ্ছে। সেটি যথেষ্ট আশ্চর্যজনক, কিন্তু বাকি সবকিছুও ধীরে ধীরে এজেন্টিক হয়ে যাচ্ছে। ইউটিউবে এক ফিচার দেখানো হচ্ছিল—তুমি সার্চ বারে কেবল কী খুঁজবে তা না লিখে, যেমন বলো: 'আমাকে ব্যাটসাইকেল চালানো শেখাও'—তারপর সার্চ YouTube‑কে ব্যবহার করে প্রাসঙ্গিক ভিডিওগুলোর সংক্ষেপ দেখাবে, বা বলে দেবে ‘এখানে ক্লিক করো’ এবং ভিডিও অটোমেটিক সেই সেকেন্ডে চলবে যেখানে তোমাকে দেখানো প্রয়োজনীয় অংশটা আছে।
ওহ, বাহ,
আর দ্বিতীয়টা হলো—সবকিছুই এজেন্টিক হবে। Google এখন এমন কিছু চালু করতে চাইছে যা তোমার পেছনে ব্যাকগ্রাউন্ডে কাজ করবে। এটা খুবই এজেন্টিক, মূলত ফোকাস—'Google‑কে কিছু বলো, এবং এটি তোমার জন্য সেটা করে দেবে'।
আহ, হ্যাঁ।
তবে আমাকে বিরক্ত করে যে Smart Glasses‑এর মার্কেটিং‑ও কেমন অদ্ভুত ছিল। এই স্মার্ট গ্লাসগুলো আবার ঘোষণা করা হল—去年 ইও তে তারা প্রথম বলেছিল—আমরা তখন এটা নিয়েও কথা বলেছিলাম।
হ্যাঁ।
ঠিক আছে, বলা হচ্ছে Google Glasses ফের ফিরছে। আর এই Google I/O‑তে বললো: 'ওহ হ্যাঁ, স্মার্ট গ্লাসগুলো আসছে, তবে কিছু পরে; কিন্তু আমরা এখন এক ডেরিভেটিভ রিলিজ করছি—এটি আসবে এই শরতে, এবং সেটা হলো Audio‑only Glasses।' এটি কিন্তু ঠিক অন্য গ্লাসগুলোর মতোই—মাইক্রোফোন আছে, ক্যামেরাও আছে; এটা অনেক সময় পরিষ্কার হয়নি—তাদের ক্যানন বলে ছিল, 'তাদের মধ্যে ক্যামেরা আছে'। আর হ্যাঁ, বাকিটা অন্যান্য স্মার্ট গ্লাসগুলোর মতোই কিন্তু কাঁচে কোনো ডিসপ্লে নেই।
হ্যাঁ, হ্যাঁ।
আর সেখানে একটা ডেমো দেখানো হয়—মঞ্চে একজন মহিলা এসে বলল: 'হেই Gemini, আমি যেতে চাই, ওই জায়গায় যেখানে আমি গতবার হাইক করেছিলাম...' তিনি শুধু বললেন: 'আমি যেতে চাই যেখানে আমি আমার বান্ধবীর সঙ্গে গতবার হাইক করেছিলাম।' এরপর Gemini—দুঃখিত জোনা, সবাই এটা বেশ ভালোভাবে নিয়েছে—কিন্তু আমি তা খুবই ডিস্টোপিয়ান মনে করেছি। দয়া করে এটা করো না।
হ্যাঁ।
তারপর গ্লাসগুলো নিজেদের থেকেই বলত—
হ্যাঁ।
—যা Google দেখাতে চায় যে এটা কতটা দারুণ এবং তুমি একে বাধ্যতামূলকভাবে চাইবে। গ্লাসগুলো বলে: 'অবশ্যই, আমি তোমাকে সেই বেইস‑পিকের কাছে নেভিগেট করব, যেখানে তুমি সারাহ‑এর সঙ্গে গিয়েছিলে। সাধারণত তুমি এই সময়ে তোমার প্রিয় দোকান থেকে কফি নাও—আমি কি এখনই ওই কফিটা অর্ডার করে রেখে দেব এবং তোমাকে পথে ওজন করে নেভিগেট করব যাতে তুমি আনন্দে পৌঁছে যাও?'
না!
আর ওই নারী বলে: 'হ্যাঁ।' তারপর: 'ঠিক আছে, আমি DoorDash‑এ পিক‑আপ অর্ডার প্লেস করেছি এবং এখন তোমাকে এমনভাবে নেভিগেট করব যাতে তুমি পৌঁছে যাও যখন সেটা প্রস্তুত হবে।'
ব্রো।
আমি চাই না আমার গ্লাসগুলো এসে বলুক: 'ওহ, তুমি সাধারণত এই সময়ে ম্যাকডোনাল্ডসে খাও। আমি কি তোমার রুটিন অনুযায়ী সেখানে তোমার স্বাভাবিক মিল অর্ডার করে দিই?'
[হাসে]
আর এই ধরনের ফুড‑ডেলিভারি‑থিম দেখে আমি সবসময় টারগেট হয়ে যাই—আমি মনে করি, 'এটা কেউই বহন করতে পারবে না' [হাসি]—আমি নিজের জীবনেই কখনও Lieferando‑ধারণা করে অর্ডার দেব না।
কারণ এটা খরচ করে, কারণ এটা মোটা দামে যায়—
আমি কেবল সোজাভাবে বলছি।
হ্যাঁ, এটা প্রচণ্ডভাবেই বেশি খরচবহুল, দোকানে সরাসরি দিলে যেখানে ভাড়া বা সার্ভিস‑ফি থাকে না—এখানে সবসময় ফি, সার্ভিস‑ফি, সার্ভিস‑চার্জ ইত্যাদি যোগ হয়।
এবং তারপর আমার গ্লাসগুলো জিজ্ঞেস করবে: 'ওকে, সে কফি চাইছে? ঠিক আছে, আমি বারো ইউরোতে তোমার জন্য কফি অর্ডার করে দিয়েছি—তুমি এখন সেটি তুলে নাও।'
হ্যাঁ।
না—এটা ঠিক লাফানো হলেও, এটা এখন স্যুট কেনার মত নয়—তুমি $3,500‑এর একটা স্যুট কিনলে সেটা আলাদা কথা—কিন্তু আমি ওইটার জন্য কিন্তু মোটেই আগ্রহী নই।
হ্যাঁ, কিন্তু এটা তো প্রকৃতপক্ষে ব্যক্তিগত অ্যাসিস্ট্যান্টের বদলি—এক ধরনের পার্সোনাল অ্যাসিস্ট্যান্ট। তবে এটিই বাধ্যতামূলকভাবে কিন্ত ব্যবহার করতে হবে এমন কোনো ব্যাপার নয়—তুমি যদি বলো 'এটা আমার বাজেট অতিক্রম করে', তাহলে সেটি ওই কাজ করবে না। উদাহরণসরূপ, যদি তুমি কেবল অনায়াসভাবে একটি স্যুট অর্ডার করতে চাও, সেই এজেন্ট তোমার শরীরের মেপ নিয়ে তোমার জন্য সঠিক সাইজ নির্বাচন করে অর্ডার করে দেবে; অথবা ভ্রমণ‑সংক্রান্ত কালের ব্যবস্থা হলে—'আমার স্বাভাবিক থাকার ধরন অনুযায়ী কোন হোটেলগুলো আমার স্টাইল‑এ মানায়'—এমনভাবে সে খুঁজে দেবে। তারপর সিস্টেমটা শিখে নেবে তোমার পছন্দ, এবং এমন কোনো ব্যাপার থাকবে না যেখানে 'ওহ, এখন আমাকে বসে ইন্টারনেটে ঘন্টা অতিবাহিত করে খুঁজতে হবে'—বরং তুমি তাকে ইচ্ছা করলেই সে তোমার জন্য সব করে দেবে।
হ্যাঁ।
আর এইভাবে দিনে তুমি অনেক সময় জিতো।
অবশ্যই—একই সাথে আমার মধ্যে একটা দ্বন্দ্ব থাকে: আমি এই সব কৃত্রিম বুদ্ধিমত্তা‑কথাগুলো বেশ পছন্দ করি, কিন্তু পাশাপাশি এই প্রচন্ড কনজিউমারিজম‑ট্রেন্ডটা আমি মোটেই পছন্দ করি।
হ্যাঁ, আমিও তাই ভাবি, কিন্তু এটাকে এতোটা বাড়িয়ে তোলা দরকার নেই—ইচ্ছে করলে অনেকটা সীমিতভাবেই ব্যবহার করা যায়।
হ্যাঁ।
কিন্তু সমস্যাটা হলো, তুমি এক ধরণের আক্রমণের পথ খুলে দিলে—তুমি কেবল বেশি ডেটা শেয়ার কোরো না, তুমি বিজ্ঞাপনের জন্য আরও সংবেদনশীল হয়ে উঠো।
হ্যাঁ।
কারণ সন্দেহপ্রাপ্ত ক্ষেত্রে কোম্পানিগুলো যে তোমার স্মার্ট গ্লাস বা AI পণ্য বানিয়েছে তাদের সঙ্গে সহযোগিতা করে, তখন তুমি সরাসরি টার্গেটেড হও।
হ্যাঁ।
আর তারপর তো সবকিছুই আবার শেষ হয়ে যেতে পারে।
ঠিকই, এটাই আমি বলতে চাইছিলাম—ডেমোতে দেখানো ওই 'শপিংকে আরও মজাদার করে তোলা, যাতে তোমাকে নিজে সার্চ করতে না হয়' বলার মুহূর্তটা দেখে আমি ঘ্রাণ পেলাম। ওই ডেমোতে এজেন্ট বলল—'আমি তোমার সব চাহিদা বুঝে নিচ্ছি' এবং পরে বলে, 'এই প্রোডাক্টটা সবকিছুর মান মেটায়'—আর আমি ভাবি, 'ঠিক আছে, কিন্তু আমি কিভাবে জানবো যে সেখানে আরও সস্তা কোনো জিনিস নেই যা তোমার চাহিদা মেটাতে পারে?'—সেই দিকটা আমার জন্য মোটেই শান্তিদায়ক ছিল না।
না, বোধহয় এটা আসতেই হবে—কারণ Google‑এর ব্যবসার মূল ভিত্তি বিজ্ঞাপন। এটা স্পষ্ট।
হ্যাঁ।
আরো একটা ঘোষণাও ছিল যা আমি মজার মনে করেছি এবং মনে হয় ভবিষ্যতটা কোন দিকে যাচ্ছে—খুবই ফিউচারিস্টিক হবে। সার্চ‑এ তারা এখন লাইভ‑এক্সপ্লেইনার UI বা সিম্যুলেশন বানানোর ফিচার আনছে; সেটা কিউল। আমি সম্প্রতি OpenUI.com দেখেছি—এটা ভেবে গুণগুণের মতো ব্যাপার। ধারণাটা হলো একটা স্ট্যান্ডার্ড যাকে তুমি যে কোনো LLM‑এর সঙ্গে ব্যবহার করতে পারো: এটা একধরনের UI‑বর্ণনামূলক প্রোগ্রামিং ভাষা, যা সিনট্যাক্সের মাধ্যমে নির্দিষ্ট করে দেয় কোন টোকেনগুলো পরের কাড়ে পেতে পারবে। LLM সেই UI‑বর্ণনা আউটপুট দেবে এবং একটি বিশেষ রেন্ডারার সেটা রেন্ডার করবে। এখন ধারণাটা হচ্ছে—একটা Open‑Agent ভিত্তিক অপারেটিং সিস্টেম এমনভাবে আউটপুট দেবে না যে টেক্সট বের হবে, বরং সবসময় UI‑এর বর্ণনা বের করবে।
হ্যাঁ, এবং গুগলও তাদের নিজস্বভাবে সেটা তৈরির চেষ্টা চালাচ্ছে।
ঠিকই—এখানেই Open Claw বা Open UI‑র মতো পরিস্থিতি কার্যকর হয়। ভাবো এটা কেমন: Open UI কেবল একটি স্ট্যান্ডার্ড, যেটা যেকোনো LLM‑এর সঙ্গে কাজ করে; এটা একটি বর্ণনামূলক ভাষা যা UI‑কে ব্যাখ্যা করে, এবং LLMকে সেটা আউটপুট করতে বলা হয়। তারপর সেই আউটপুট একটি রেন্ডারার রেন্ডার করে। এখন যদি তুমি একটি Open‑Agent ভিত্তিক OS বানাও, তাহলে টুল কলিং বা টেক্সট আউটপুটের পাশাপাশি প্রতিটা স্টেপে সে UI‑বর্ণনা হিসেবে আউটপুট দেবে—মানে, ব্যবহারকারী কোনো বাটন চাপলে, পরবর্তী রেসপন্সে বলা হবে UI এখন কেমন দেখাচ্ছে। এটি কনসেপ্ট হিসেবে অনেকটা জেনেরেটিভ স্টেট মেশিন।
ওহ, এটা কার্যত একটা বিশাল অটোমেটনের মতো।
ঠিকই—বলবে ব্যবহারকারী এখানে বাটন চাপেছে, এবং পরের আউটপুটে বলা হবে UI এখন কেমন।
হ্যাঁ‑হ্যাঁ, এটি এক ধরনের স্টেট মেশিন; তারপর আসে পরবর্তী ধাপ।
হ্যাঁ।
এটা যা ঘটেছে সব মাইন্ড‑ম্যাপ করে রাখে। কিন্তু আমি মনে করি এটা ইতিহাসে এখন পর্যন্ত সবচাইতে অতিরিক্ত পদ্ধতিতে 'ক্যানন দিয়ে স্পারজ আঘাত'—অর্থাৎ ছুঁই‑ছুঁই কাজের জন্য অত্যধিক জটিলতা—এর একটা উদাহরণ।
হ্যাঁ।
এটাই আমি বলব। মানে...
আর সেটা কেবল একটা অ্যাপ নয়—এটা একটি অপারেটিং সিস্টেমের মতো চিন্তা করা হচ্ছে।
হ্যাঁ‑হ্যাঁ, এটা সত্যিই একরকম—লল।
অপারেটিং সিস্টেম হিসেবে—তুমি ধরো তুমি মেনু থেকে ক্যালকুলেটর খুলছো; এতে কোন কনভেনশনাল অ্যাপ পেছনে রান হবে না, বরং LLM‑কে বলা হবে 'ব্যবহারকারী ক্যালকুলেটর খুলতে ক্লিক করেছে—এখন UI কেমন হওয়া উচিত?' এবং সে অন‑দ্য‑ফ্লাই UI জেনারেট করবে।
হ্যাঁ।
এর ফলে প্রতিটি ডেটা‑প্রেজেন্টেশনের জন্য অনুপযুক্ত UI তৎক্ষণাৎ পাওয়া যায়; উদাহরণস্বরূপ ডেটা‑সায়েন্স এজেন্ট থাকলে, তুমি বলতে পারো 'আমার ক্লিক‑ডেটা বিশ্লেষণ কর', এবং সে দেখে নেবে কীভাবে সেগুলো ভালোভাবে দেখানো যায় এবং উপযুক্ত UI জেনারেট করবে—এটা অনেক কাজে লাগে।
ঠিক আছে, ঠিক আছে।
তবে সার্বিকভাবে এমন OS‑এর ব্যাপারে আমি নিশ্চিত নই। আরেকটা জিনিস যা Google I/O‑তে আমাকে সত্যিই আকৃষ্ট করেছে হলো Audio‑Only Glasses—বিশেষত ডেভেলপারদের জন্য তাদের I/O for Developers সেশনে দেখানো সহজ এক-ইন্টিগ্রেশন। আমি নিজেরাই এসব গ্লাস পেতে চাইবো, কারণ আমি চাই সেখানে নিজে অ্যাপ বানাতে—উদাহরণস্বরূপ OpenStreetMap‑এর জন্য অ্যাপ: তুমি কোনো বস্তু কেবল তাকিয়েই সেটার তথ্য ইনপুট করতে পারবে। মোবাইল ফোন বুঝে নেবে 'এইটা একটা বেঞ্চ, এখানে একটা মিসিং ফিল্ড আছে'—গ্লাস বলবে 'এই বেঞ্চে কি ব্যাকরেস্ট আছে?' তুমি বলবে 'হ্যাঁ'—এবং সেটা রেন্ডার হয়ে OSM‑এ ট্যাগ করা যাবে। বাসিন্দা বাড়িটা দেখলে গ্লাস প্রশ্ন করবে 'এই বাড়ির কয়তলা?' তুমি বলবে 'চার'—এবং ডেটা আপডেট হবে। আমি এটা বেশ কুল মনে করি।
সেটা সত্যিই কুল—কিন্তু আমার দুটো সংশয় আছে।
ঠিক আছে।
প্রথমত, সম্ভবত তোমাকে ইন্টিগ্রেটেড স্ক্রিন থাকা গ্লাসই লাগবে। না হলে এটা অনেকটা সীমিত থাকবে; ডিসপ্লে থাকলে সেটা অসীমভাবে বেশি কাজে দেবে।
হ্যাঁ।
কোন প্রশ্ন নেই।
কে জানে কখন সেগুলো পাওয়া যাবে।
কিন্তু—হ্যাঁ, কে জানে কখন আসবে। এবং দ্বিতীয়ত, হয়ত এক ধাপ এগিয়ে ভাবতে হবে।
এখন,
তোমার কাছে তো ক্যামেরা আছে।
হ্যাঁ, আমি—
এটাই মূল পয়েন্ট: তোমার যেখানে ক্যামেরা আছে, সেই এজেন্টিক সিস্টেমটি বলতে পারবে 'ওকে, আমরা জানি যে OpenStreetMap‑এ কিছু ডেটা ট্যাগ করা হয়নি'—
জানি।
আর সেটা বলতে পারবে 'তুমি এখন এগুলোর নিকটে আছো'—এবং এগুলোকে ভৌগোলিকভাবে ক্রল করেই দেখবে কোন জিনিসগুলো নিকটেই আছে—
হ্যাঁ।
তবে এরপর যদি তুমি হেঁটে ঘুরো, সিস্টেমটা ওই ক্যামেরা‑ইমেজ ব্যবহার করে অটোমেটিক ইউজার‑অ্যাকাউন্ট থেকে চেঞ্জগুলো কমিট করে দিতে পারে—অর্থাৎ, এটা ক্যামেরা‑ইমেজ নিয়ে ঠিক করতে পারলে নিজেরাই আপডেট করে দেবে, আর যেখানে সহজে বোঝা যাবে না (যেমন নাপা‑মাপ ইত্যাদি), সেখানে গ্লাস ইউজারকে জিজ্ঞেস করে 'এখানে কিছু মিস করছে, চাইলে তুমি এটা পুরন করো'—এভাবে ফ্লোটা র্যাপ করা যায়।
ঠিকই—বিলকুল। বলছি, ওটাই প্রথম ধারণাটাই ছিল যা আমার মাথায় এসেছে, কিন্তু পরে আমি একটু বাস্তবসম্মতভাবে সেটা সাজিয়ে দেখেছি।
হ্যাঁ, সেটাই বেশ বাস্তবসম্মত।
কারণ আমার করা কয়েকটি পরীক্ষায় এসব শনাক্তকরণ টুল historically বেশ বাজে ফল দেখিয়েছে, সেটা বলতে হয়।
বুঝলাম।
তবে এটা আবার আমাদের নিয়ে যায় আরেকটি বিষয়ের দিকে, যা Google I/O‑তে দেখানো হয়েছিল—এটা ছিল Gemini 4, গুগলের ওপেন‑সোর্স মডেলগুলির ঘোষণা। সেখানে এমন ভ্যারিয়েন্ট আছে যা এতই ছোট যে স্মার্টফোনেই চলতে পারে।
মহ।
Gemma—রে‑ডিজাইন নম্বরগুলোর কথা বলা হচ্ছিল: যেমন 4e2‑bit বা e4‑bit টাইপস—আর হ্যাঁ, Play Store‑এ গুগলের একটা অ্যাপ আছে, AI Edge Gallery নামে, যেখানে তুমি সরাসরি এগুলো ট্রাই করতে পারো। এগুলো অত্যন্ত এজেন্টিক কাজ, ফাংশন‑কলিং ও টুল‑কলিং‑এর জন্য ট্রেইন করা; মাল্টিমোডাল, ছবি বুঝতে পারে। উল্টোদিকে—তুমি যদি নিজের ফোনেই একটি চার গিগাবাইট মডেল রান করাও, তা ততটাই জোরালো নয়, কিন্তু তা নির্দিষ্ট অ্যাপ্লিকেশনের জন্য ফাইন‑টিউন করা যায় এবং আপাতত রিলেটিভ সহজে। একবার তুমি সামান্য GPU ভাড়া করে ফাইন‑টিউন করলে তুমি মডেলটা এক্সপোর্ট করে নিতে পারো—এতে আমার দৃষ্টিতে অনেক পটেনশিয়াল আছে: হয়ত আমার ফোনেই একটা কাস্টম মডেল থাকবে যা আমি ট্রেইন করেছি, যাতে সেটা বুঝবে বেঞ্চে ব্যাকরেস্ট আছে কি না ইত্যাদি—অর্থাৎ স্পেশালাইজড টাস্কে এগুলো বেশ কার্যকর হবে।
হ্যাঁ।
আর একটা কথা—OpenStreetMap‑এ সবসময়ই একটি মানুষের চেক‑স্টেপ থাকা উচিত। তবুও যদি তুমি পুরো ফ্লোটা এভাবে সংকুচিত করতে চাও, তুমি বলতে পারো 'আমি শুধু বস্তুগুলো দেখছি এবং আমি শুধু ফিডব্যাক পাচ্ছি:
হ্যাঁ।
'চিহ্নিত—এই বেঞ্চে ব্যাকরেস্ট আছে'—আর যদি আমি বিরতি না দিই, তাহলে সেটা ঠিক আছে এবং সিস্টেমটা চলবে।
হ্যাঁ।
আচ্ছা, হুম, এটাও করা যাবে। হ্যাঁ।
এটা তো সত্যিই চমকপ্রদ হবে যদি তুমি লাইভ‑অ্যানোটেট করে সেটি ফিজিক্যাল লোকেশনের সাথে যুক্ত করতে পারো—যদি গ্লাসগুলো তা অনুমোদন করে এবং তুমি সেই তথ্য বস্তুতে ট্যাগ হিসেবে সংযুক্ত করতে পারো; এবং এটি এমনভাবে প্রদর্শিত হয় যে একটি পপ‑আপ তোমার মাথার সাথে মুভ করে বলে 'ঠিক আছে, তুমি এখন এটাকে অ্যানোটেট করেছ'—এমনটা হলে কিন্তু একেবারে অসাধারণ হবে।
উহুম।
আর তুমি বলতে পারো 'আমি কিছু করছি না—এটা ঠিক আছে'। আসলে আমি জানি না গ্লাসগুলো কি ইনলিব্রিতে ইনফারশনের জন্য ট্র্যায়িংসেন্সর রাখবে নাকি—ইনার্টিয়া সেন্সর থাকা দরকার? অবশ্যই থাকা উচিত—কম্পাস বা ওরিয়েন্টেশন সেন্সর থাকা উচিত, যাতে গ্লাস বুঝতে পারে তুমি কোন অক্ষাংশে তাকাচ্ছ; এটা খুবই দরকারি। আমি সত্যিই নিশ্চিত নই তারা এটা ইনস্টল করবে কি না—আমি ভেবে পাই তারা বলবে 'আমাদের ওই ফিচারের জন্য এটা জরুরি কি?' এবং হয়ত তারা বলবে 'না, ক্যামেরা, জিওলোকেশন আর ভয়েস‑ইনপুট দিয়েই আমরা প্রায় সব কভার করতে পারি, তাই আমরা অতিরিক্ত সেন্সর যোগবিহীন রাখব'। বিশেষত যদি এতে কোনো ডিসপ্লে না থাকে—AR‑এর জিনিসগুলো করতে হলে তো ট্র্যাকিঙ্গ সেন্সর দরকার হয়, আর যদি তুমি AR অ্যানোটেশন করতে চাও তাহলে ট্র্যাকিৎ দরকার, না হলে তুমি কেবল 2D লিস্ট দেখাবে—কিন্তু AR‑কম্বাইন করা আসল মজার অংশ। (হাস্য) তাহলে, কথাটা যদি একটু জোকারিভাবে বলা হয়—আমাদের EU‑র জন্য সবার ব্যক্তিগত ডেটার একটা ডাটাবেসও লাগবে, আর তারপর? আছা, তারপরই সব শেষ—(হাসি)। তার মানে, সবাই তখন খুব সহজেই একে ব্যবহার করবে। কিন্তু সৎভাবে বলতে, ইভেন্টে যেটা দেখানো হয়েছিল—যে Gemini Keep খোলে এবং কিচ্ছু বলে 'ওকে, না, ওটা না'—এগুলো দারুণ ইমপ্রেসিভ ছিল। তবে ব্যক্তিগতভাবে আমি লোকাল মডেলে খুব বেশি আগ্রহী—অর্থাৎ, আমার ফোনেই এমন মডেল থাকলে আমি খুব খুশি হব; কারণ আমি একজন অ্যাপ‑ডেভেলপার এবং এখনো OpenAI সার্ভিস ব্যবহার করে অ্যাপ বানাই—এবং তা শুধু প্রাইভেসির কারণে নয়, বরং খরচও বড় একটি কারণ: এটি আমাকে টাকা খরচ করায়। ইতিহাসটা দেখতে চাইলে, পুরনো মেইনফ্রেম কিভাবে ছোট একক ডিভাইসে ছড়ানো হয়েছে—তাই একইভাবে জিনিসগুলো ডেসেন্ট্রালাইজড হবে: সার্ভারগুলো নিশ্চয়ই থাকবে, কিন্তু অনেক কাজ এজে‑ডিভাইসেই চলে যাবে। EPUs, AI‑স্পেশালাইজড কার্ড ইত্যাদি আগবোড়াও থাকবে—কিন্তু অনেকটা কাজ এড্জ‑এ চলে আসবে, কারণ স্মার্টফোন ও ঘড়ি আজকাল অনেক শক্তিশালী।
অ্যাপ্লিকেশনগুলো আসলে অনেক দ্রুত বিকশিত হবে, অনেক কাজ যেটা আগে সার্ভারে হতো তা লোকাল মডেলে সম্ভব হবে—যেগুলো কেবল কয়েক বিলিয়ন পরামিতি রাখে।
ঠিকই—উদাহরণস্বরূপ চার গিগাবাইট মডেলগুলো, যেগুলো কয়েক বিলিয়ন প্যারামিটার নিয়ে গঠিত—মডেল অপ্টিমাইজেশনের মাধ্যমে সেগুলো কার্যকরভাবে পরিবেশে চলবে; ডিভাইসগুলোকে অসামান্য দ্রুত করতে হবে এমনটা নয়, বরং মডেলগুলোকে নির্দিষ্ট কাজে কম রিসোর্সে দক্ষ করে গোনা হচ্ছে। সার্ভারগুলো থাকবে, তবে তারা বেশি জটিল কাজ করবে।
আমি লক্ষ্য করছি আমার পূর্বানুমান ধীরে ধীরে সত্যি হচ্ছে—আমি সবসময় ভাবতাম ভবিষ্যতে প্রত্যেক ঘরে একটা 'KI‑বক্স' থাকবে। আমি দেখছি হয়ত ৪৫% মানুষ Google‑এর সিস্টেম ব্যবহার করবে, ৪৫% Apple‑এর, আর ১০% লোক নিজেরাই কিছু বানাবে বা লিনাক্স‑ভিত্তিক সমাধি নেবে। এটাও ঠিক আছে—এভাবে হলে দেখি, কিভাবে এই ডিস্ট্রিবিউশন হয়। পুরনো সময়ের বড়‑ক্যামপিউটার যেভাবে বাড়তি কাজ চালাতো, এখন সেই কাজগুলো ধীরে ধীরে এন্ড‑ডিভাইসে চলে আসবে। এটা মানে সার্ভারগুলো বিলুপ্ত হবে না, বরং তারা আরও বিশেষায়িত হবে—সবকিছুই বদলাবে।
হ্যাঁ।
আর গেমিং‑দিকটা দেখলে আমরা দেখি কেন্দ্রীভূত একটি বড় গেমিং‑PC ধরে একসঙ্গে সবাই স্ট্রিম করে খেলে—এটা বাস্তবে খুব কমই দেখা গেছে; শেষ পর্যন্ত প্রত্যেকেরই নিজস্ব ডিভাইস থাকে। তাই KI‑বক্স‑কল্পনা বিশাল‑স্কেলে যে প্রত্যেকের জন্য বাস্তবসম্মত হবে না, বরং প্রত্যেকের নিজস্ব দক্ষতা থাকা ডিভাইসেই কাজ করবে—এমনটা বেশি যুক্তিযুক্ত মনে হয়।
হ্যাঁ।
কাজের ধরনটা হয়ত Google Health Connect‑এর মত একটা ওপেন পারিভাষার দিকে থাকবে—অর্থাৎ সার্ভার‑ভিত্তিকের বদলে ব্যক্তিগত KI এন্ড‑ডিভাইসে থাকবে। আমি বলছি না যে প্রত্যেকেই তাদের বডি‑কেও KI‑সার্ভার কিনে বসাবে—না। বরং ব্যক্তিগতভাবে লোকাল KI‑র দিকে ঝোঁকটা বেশি সুবিধাজনক মনে হবে।
হ্যাঁ।
সুতরাং আমার মতে এটা আবশ্যক না যে প্রত্যেকের বেসমেন্টে একটা KI‑সার্ভার থাকবে; ব্যক্তিগত এন্ড‑ডিভাইসে KI থাকা ও গ্রহণযোগ্য বিকল্প। প্রথমে এসেছে চ্যাটবট, তারপর এজেন্ট—এখন এজেন্টগুলো mainstream হচ্ছে; Google এখন কৌতুকের মতো সেই সুবিধা গ্রাহকদের দিচ্ছে। যদি আমরা একটু বেশি এগিয়ে ভাবি, Sam Altman‑এর ভিশনও তো ছিল যে তুমি এমন এক এজেন্ট পাবে যাকে বলবে 'এখানে আমার জীবনের সবকিছু তে তোমার অ্যাক্সেস আছে'—তার কথা হচ্ছে এজেন্ট যেন স্বয়ংক্রিয়ভাবে কাজ করে এবং তোমাকে বারবার নির্দেশ দিতে না হয়।
কারো নির্দেশ না নিয়ে এমন কাজ করো যা আমার জীবনকে উন্নত করে—আমি চাই না তোমাকে সবকিছু বলে দিতে; ব্যাকগ্রাউন্ডেই করো।
হ্যাঁ।
কিন্তু সেটি অবশ্যই লোকাল হতে হবে এবং কোনো কোম্পানির অধীনে না থাকা উচিত যার প্রথম চিন্তা হবে 'কিভাবে আমাদের লাভ হবে?' যদি কোন উন্নতি Wieland‑এর জীবনে কোম্পানার জন্য লাভজনক না হয়, তারা সেটি করবে না। না, সেটা উচিত না।
হ্যাঁ।
এটাই যেন না হয়।
উফ।
এটি এমন একটি লোকাল মডেল হতে হবে যা আমার কাছে চলে এবং যার একমাত্র প্রেরণা হচ্ছে আমাকে সাহায্য করা—আর কিছু নয়।
হ্যাঁ।
(হাসি) কিন্তু হ্যাঁ, দেখব কীভাবে বিষয়গুলো গড়ে ওঠে। আর ডেটা‑সুরক্ষার কথা বললেই—আমি চাইনা আমার সব Health‑Connect ডেটা, এমনকি সেক্সুয়াল‑অ্যাক্টিভিটি পর্যন্ত, Google Cloud‑এ জমা থাকুক। আমি চাই সেটা আমার নিজের ডিভাইসে থাকুক, যেন সেটা কোনো জরুরি অবস্থায় আমি আলমারির ভেতর রেখে বেসবল ব্যাট দিয়ে ভাঙতে পারি—অতটা নিরাপত্তার ভাবেই বলছি—তাতে ডেটার গোপনীয়তা রক্ষা পাবে যদি সবকিছু ভুলে যায়।
হ্যাঁ।
—যা ভুল গেলে ডেটার গোপনীয়তা নিশ্চিত করতে পারে।
ঠিক, হ্যাঁ।
ঠিক আছে। তাই—
ভাবো তুমি দিনে বাইরে হাঁটছো, গ্লাসগুলো সেই এজেন্টিক ওয়ার্কফ্লো নিয়ে বলে: 'ওহ, আমি তোমার চ্যাট ও অর্ডার‑হিস্ট্রি দেখে বুঝেছি—তুমি দুদিন পরে একটা ডেটে যাবে এবং তোমার কনডম‑স্টক ফিলুইং‑লেভেলে আছে; তাই আমি তোমার জন্য একটুখানি Amazon‑অর্ডার প্লেস করে দিয়েছি যাতে তুমি ঠিকঠাক প্রস্তুত থাকো।'
আর আমি অবশ্য—
Wieland বলে: 'পারফেক্ট, দারুণ।'
আর আমি ইতিমধ্যেই Google Health Connect‑এ আমার যৌনগত কার্যকলাপ‑ডেটায় Protection Use True হিসেবে সেট করে রেখেছি। যদি Amazon‑ডেলিভারি দেরি করে, আমি সেটা স্বয়ংক্রিয়ভাবে False করে দেব।
দারুণ। [হাসে]
[হাসে]
পারফেক্ট। আমার কোনো মন্তব্য নেই।
ওহ হ্যাঁ।
ঠিক আছে। [গলা পরিষ্কার করে] হ্যাঁ।
ঠিক আছে।
ওকে।
আমার কাছে আসলে সত্যিই আরেকটা মন্তব্য আছে—
ঠিক আছে, বলো, বলো।
এই বিষয়টা নিয়ে… আহাম, আমরা আগেই কথা বলেছিলাম যে, আমেরিকায় OpenAI-র ডেটাসেটে স্বাস্থ্য-সংক্রান্ত তথ্যগুলোও যুক্ত করা হতে পারে। মনে হয় এটা আমরা গত বা আগের ক্রাঞ্চ-টাইম এপিসোডেই আলোচনা করেছি। আর এখন পরের ধাপ শুরু হচ্ছে। তারা 'Plant' নামের একটা সফটওয়্যার ব্যবহার করে ChatGPT-তে সব আর্থিক ডেটাও ইমপোর্টযোগ্য করার পরিকল্পনা করছে, যাতে কার্যত লেখা দেখা যাবে: 'ঠিক আছে, এখন একটা বাজেট-ব্রেকডাউন করি — আমি কোন খাতে কতটা খরচ করছি?'
হুম।
আর আমি এখন ভাবছি, আমার ব্যক্তিগত অর্থনীতি থেকে আর কী অপটিমাইজ করা যায়? মূল আইডিয়া হলো—এখনই কমপক্ষে দুই-লক্ষ ChatGPT ব্যবহারকারী নিয়মিতভাবে ব্যক্তিগত ফাইন্যান্স সম্পর্কিত প্রশ্ন করছে, যা একদম বড় সুযোগ। ভাবো, এতে কী ধরনের প্রেডিকশন আসতে পারে: উদাহরণস্বরূপ, এটা বলতে পারে, 'তুমি হয়তো স্টারবাক্সে এক কাপ কম কফি কিনলে, তুমি অন্যটাকে কিনতে পারতে। আহ, দুর্ভাগ্য।' কিংবা, 'আমি দেখেছি, গত মাসে তুমি ই-স্কুটারে একশ পঞ্চাশ ইউরো খরচ করেছ — চল, অন্য কিছু করি।'
তুমি বুঝছ তো, আমি কী বলতে চাই। হা হা।
হ্যাঁ।
এটা তো বেশই ঝাঁপিয়ে—এটা যদি যুক্ত হয় তাহলে তোমার Schwab/Fidelity অ্যাকাউন্টসহ আমেরিকার নানা অ্যাকাউন্টে সহজে অ্যাক্সেস থাকবে, কারণ এটা একধরনের কেন্দ্রীয় ব্যাঙ্ক-API-এর মত কাজ করে।
হ্যাঁ।
এটা আমার কাছে বেশ অদ্ভুত লাগে যে, এত বড় পরিসরে এটা এখনো এতটাই প্রচলিত নয়।
জোনা।
যতদূর আমি জানি। তুমি কি আমাকে এবার ভুল প্রমাণ করবে?
ওহ, জোনা, আমার কিছু বলার ছিল। আমি আসলে এটার কথা তুলব না, কিন্তু ফাইন্যান্স টুলস আর ব্যাঙ্ক-API-সম্পর্কে—
হ্যাঁ।
আমি বলতে পারি তোমাকে আমি কীভাবে খুঁজছিলাম ও এখনো খুঁজছি। একটু সাবধান থাকতে হবে যেন কোনো মানহানি না হয়, কিন্তু একটি ব্যাঙ্ক আমাকে আকৃষ্ট করার চেষ্টা করেছিল।
হ্যাঁ।
তারা আমাকে অনেকক্ষণ ধরে পরামর্শ দিয়েছে ও চাপে রেখেছে, এবং তারা যা নিয়ে প্রোমো করছিল তা আমার খুব পছন্দ হয়েছে। তারা একটি সিস্টেম নিয়ে বলছিল যা আমার জন্য স্বয়ংক্রিয়ভাবে কাজ করবে। তারা বলছিল, 'ওকে, তোমার খরচের উপর নির্ভর করে স্বয়ংক্রিয়ভাবে একটি নির্দিষ্ট পরিমাণ সঞ্চয় হবে এবং সেই সঞ্চয় যদি ট্যাগেসগেল্ডকোন্টোতে (দিনভিত্তিক সেভিংস অ্যাকাউন্টে) একটি নির্দিষ্ট স্তর ছাড়িয়ে যায়, তাহলে অতিরিক্ত অংশগুলো ডিপোতে রাখা হবে এবং আংশিকভাবে পেনশনে বা অন্যান্য প্ল্যানে যাবে, ইত্যাদি ইত্যাদি।' আমি মনে করি এটা দারুণ। আমি এমনটা ভালোবেসে গ্রহণ করব।
হ্যাঁ, আর যিনি এসব অটোমেশন নিয়ে আগ্রহী, তাদের জন্য এটা সত্যিই দুর্দান্ত—এমন কিছু প্ল্যান করে নেওয়া খুব আকর্ষণীয়।
হ্যাঁ।
কিন্তু
সংক্ষিপ্ত প্রসঙ্গ হিসেবে বলছি: আমি ওয়াইল্যান্ডকে পরামর্শ দিয়েছিলাম যে এই ব্যাঙ্কটা বেশ সম্ভবত একটা স্ক্যাম। স্ক্যামের সংজ্ঞা সবসময় জটিল, কিন্তু আমি ব্যক্তিগতভাবে তাকে এভাবেই বলেছি। এবং—
এটা অনেক সময়ে এমনই হয়, বিশেষত যখন নিজে নিজের অ্যাকাউন্টগুলো—আলোচনা ছিল একটি অ্যাকাউন্ট-মডেল নিয়ে—আর তুমি নিজে সেগুলো নিয়ন্ত্রণ করতে পারো না; বরং সবকিছু কেবল স্ক্রিনে কয়েকটি সংখ্যার মতো দেখায় যে টাকা কোথায় গেছে। সবচেয়ে বাজে ক্ষেত্রে তারা এই অ্যাকাউন্ট-সিস্টেম থেকেই মাসে মাসে তোমার কাছ থেকে উপার্জন করতে চাইবে। এটা মোটেই অপ্রত্যাশিত নয়। আমার ধারনা ছিল যে, শেষপর্যায়ে এটা হয়তো একটি বড় আর্থিক ফাঁদ হয়ে উঠতে পারে, কারণ তারা পরে বলবে, 'দেখ এখানে তুমি যা সই করেছ সেটার পৃষ্ঠা ১২৩-এ লেখা আছে—ওহ না, যদি তুমি এটি বাতিল করতে চাও, তাহলে এখানে বিশটি শর্ত আছে যা আগে পূরণ করতে হবে', ইত্যাদি। সবকিছুই জটিল হয়ে যায়। তাই আমি তাকে বলেছিলাম—অবশ্যই—বিষয়টাকে অপ্রয়োজনে জটিল করবেন না এবং নিজেকে ঠকাতে দেবেন না।
ঠিক। আর যা আমাকে চমকায়, তারা বারবার বলছিল যে এই ব্যাঙ্কটা ওই সিস্টেমটির পেটেন্ট করেছে। তারা দাবি করছিল এটা অন্য কোথাও নেই।
হ্যাঁ, সেটাই তো—এটা মোটেই অনন্য নয়। প্রতিটি ব্যাঙ্কই বলে তারা অন্যদের থেকে আলাদা, কিন্তু বাস্তবে সেসব বক্তব্য সাধারণ।
হ্যাঁ, জোনা, এবং পরে কাণ্ডটা খুললে: আমি নিজের ব্যাঙ্কে গিয়েছিলাম এবং এখন আমার ও একই ধরনের সুবিধা আছে। পুরোটা আমার ব্যাঙ্কের স্ট্যান্ডার্ড টুলস দিয়ে নয়, কিছু করতে হয়, কিন্তু সবচেয়ে বড়টা আমি খুঁজে পেয়েছি হল: একটা ইউনিভার্সাল ব্যাঙ্ক-API আছে, জোনা।
কি?
কিন্তু এখন আসছে মজার টুইস্ট।
হ্যাঁ।
বইথেকে লাইব্রেরি আছে—এমনকি পাইটন লাইব্রেরিও আছে যার মাধ্যমে তুমি এটা করতে পারো।
লোল।
কিন্তু সেক্ষেত্রে তোমাকে জার্মান ক্রেডিট-খাতে একটি প্রোডাক্ট রেজিস্টার করতে হবে।
হ্যাঁ।
আমি এখন তোমাকে জার্মান ক্রেডিটখাতে নিবন্ধিত কিছু ফাইন্যান্স প্রোডাক্টের তালিকা বলছি (উদ্ধৃতি)।
হ্যাঁ।
ট্রেড রিপাবলিক।
হ্যাঁ।
ফাইনান্সগুরু।
ওয়াইল্যান্ডের অটোফাইন্যান্স।
[হাসে]
হুম, দারুণ।
[হাসে]
হ্যাঁ।
না না, তবে এটা দারুণ।
তুমি কি বলতে পারো এই API-টা কী নামে? এর কি কোনো নির্দিষ্ট—
এটি FinTS নামে পরিচিত।
আহ, ঠিক।
আর যদি তুমি—
আমি এটা সত্যিই খুব মজার মনে করব বলতে: 'ওকে, তুমি সরাসরি নিজে আরও কিছু অটোমেট করতে পারো।' তুমি এ বিষয়ে এখনই কথা বলবে।
ঠিক তাই, ধারণাটা হল। আমি এখনও এটা বানাচ্ছি। আমার প্রধান চাহিদা হলো API-এর মাধ্যমে আমার অ্যাকাউন্ট অ্যাক্সেস করা; উদাহরণস্বরূপ দেখা যাবে কতটা টাকা বাকি আছে এবং আমি তারপর বলে দিতে পারব: 'ওকে, এর ২০ শতাংশ ডিপোতে যাবে, বাকিটা অন্য কোথাও যাবে'—এভাবে নিজের নিয়ম করে অটোমেশন চালানো যাবে। আর আমি হয়ত একটু রিওয়ার্ড-স্টাইল ফিচারও যোগ করতে চাইব, যেন বলা হলে যে 'অ্যাকাউন্টে টাকা আছে, আমাকে পুরস্কৃত করা যেতে পারে', তখন আমার স্বাস্থ্য-সিস্টেম জিজ্ঞেস করবে: 'ওয়াইল্যান্ড কি আজ তার সব লক্ষ্য পূরণ করেছে?'
ওয়াইল্যান্ড কি আজ ভালো ছেলে ছিল? হ্যাঁ।
ওয়াইল্যান্ড কি আজ ব্যায়াম করেছে?
ওই, ওই।
ওয়াইল্যান্ড কি বিগ ম্যাক খায়নি? আর যদি না খায়, তাহলে দিনের শেষে আমি আমার ট্যাগেসগেল্ডকোন্টো থেকে আমার কনজাম্পশন-ক্রেডিটকার্ডে পাঁচ ইউরো ট্রান্সফার অনুমোদন করতে পারব।
দারুণ।
তাই, এটাতেই একটাই অসুবিধা আছে। আমি বুঝি কেন তারা এটা করছে, কারণ তোমার অ্যাকাউন্টকে স্বয়ংক্রিয় করা একটু জাঁকজমকপূর্ণ। আর কেবল App-TAN পদ্ধতি দিয়েই এটা করবে না।
হ্যাঁ।
অর্থাৎ, আমি কেবল সেটি ট্রিগার করে ফোনে 'হ্যাঁ/না' বললেই হবে না; সেখানে TAN পদ্ধতিটি চালানো লাগবে। এটা একটু খারাপ। মানে, কেবল আমার ফোনে 'হ্যাঁ' বা 'না' চাপলেই হবে না, কারণ আমার ফোনে একটি TAN দেখানো হবে, যেটা আমাকে নিরাপদভাবে—নয় Telegram—স্ক্রিপ্টটিতে ফেরত পাঠাতে হবে।
হ্যাঁ।
যাতে স্ক্রিপ্টটি তখন TAN ব্যবহার করে অথরাইজ করতে পারে। এটা একটু জটিল, আমাকে এটা নিয়ে আরও চিন্তা করতে হবে। কিন্তু হ্যাঁ, জোনা, এটা সম্ভব। এটাকে অটোমেট করা যায়। এটা কেবল—
এর জন্য একটু বাগিয়ারভাবে প্রোগ্রামিং করতে হয়—
কিছু করতে হবে—
তোমাকে ওই অংশগুলোকে ঠিকভাবে যুক্ত করতে হবে। আর হ্যাঁ, যদি পথে কোনো এক্সপ্লয়িট থাকে অথবা যে মেসেঞ্জার সার্ভিস দিয়ে তুমি পাঠাচ্ছ সেটা শুনে নেয়, তাহলে সেটি খুবই ঝুঁকিপূর্ণ হবে।
হ্যাঁ।
যা সন্দেহ হলে ধরে নেওয়াই ভালো।
হ্যাঁ। এখানে সত্যিই খেয়াল রাখতে হবে, কিন্তু জোনা, এটা কাজ করে। অর্থাৎ, যারা এসব করে তাদের বেশিরভাগ ব্যাঙ্কেই এটা সম্ভব। আমি বলব না আমার ব্যাঙ্কটা খুবই আধুনিক—আমি মনে করি—
ঠিক আছে।
আমি আমার ব্যাঙ্ককে কখনই ভাবি না যে 'ওহ, এটা কোনো নियो-ব্রোকার, Revolut-ধাঁচের ব্যাঙ্ক, যারা বলে: আমাদের কোনো শাখা নেই, সবই অ্যাপ, সব ডিজিটাল, AI'—আমার ব্যাঙ্কটা বেশ ঐতিহ্যগত।
হ্যাঁ।
আরও বলতে গেলে, এমনকি আমার ব্যাঙ্কও এই ফাইন্যান্স-FinTS সিস্টেমে অংশ নেয়। তোমাদের ব্যাঙ্কও নিশ্চিতভাবেই করবে।
ঠিক আছে, ভালো।
ঠিক, এটা শুধু একটা ছোট তন্নতন্ন ছিল। যদি কেউ এটা অটোমেট করতে চায়, সে সেটা করতে পারবে।
মে মাসের শুরু থেকে লিনাক্স কের্নেলে একগুচ্ছ বেশ বড় এবং অত্যন্ত গুরুতর বাগ আবিষ্কৃত হয়েছে। এই ঘটনাগুলো সংবাদে খুব তীব্রভাবে গুরুত্ব পেয়েছে, কারণ বাস্তবে কেবল কয়েকটি নয় বরং প্রায় সব ধরনের সিস্টেম — যেগুলো লিনাক্স চালায় — তুলনামূলকভাবে কম বা বেশি পরিমাণে এদের দ্বারা প্রভাবিত হতে পারে, কারণ এই ত্রুটিগুলো কের্নেলের এমনই মৌলিক স্তরে আছে যা সিস্টেমের মূল কার্যপ্রণালীকে স্পর্শ করে।
হুম।
এখানে বেশ কয়েক ধরনের দুর্বলতা আছে; উদাহরণস্বরূপ Dirty Pipe, Dirty Cow, Dirty Frag এবং Copy Fail। মোটেই এগুলো অনেকই আছে, এবং অনেক ক্ষেত্রেই এদের মধ্যে সাদৃশ্য পাওয়া যায়, বলতেই পারি—
হ্যাঁ।
তারা সাধারণত একই নামে ডাকা হয়, তবে প্রত্যেকটি একটু একটু করে আলাদা কাজ করে। আমি এখানে খুব বিস্তারিত যাই না—ওটা বেশ জটিল হবে—কিন্তু সংক্ষেপে বর্ণনা করছি: এক্সপ্লয়টগুলো সাধারণত কের্নেলের একটি নির্দিষ্ট ইন্টারফেস ব্যবহার করে কাজ করে, যেখানে Page Cache-এ মাত্র চারটি বাইট লিখে দেওয়ার সুযোগ থাকে। এক্সপ্লয়টভেদে সেই ইন্টারফেসটা ভিন্ন হতে পারে—অর্থাৎ আলাদা কল বা রুটিং থাকতে পারে। এখন প্রশ্ন ওঠে: 'ঠিক আছে, কিন্তু চার বাইট লিখে দিয়ে কী হবে? এটা কি বড় কিছু?' কিন্তু যদি সেই চার বাইটটি সিস্টেমে গুরুত্বপূর্ণ কোনো ফাইল বা ডাটার অংশে লেখা হয়, তাহলে তা অত্যন্ত ভয়াবহ পরিণতি ডেকে আনতে পারে।
হ্যাঁ, সেটা হতে পারে, কিন্তু ওই চার বাইটকে আপনি যে কোনো জায়গায় লিখে দিতে পারেন। আর এর মানে হলো—আদর্শ পরিস্থিতিতে—আপনি সহজেই /etc/passwd বা SU-সংক্রান্ত ফাইলগুলোও ওভাররাইট করে দিতে পারেন।
হ্যাঁ।
এভাবে একজন সাধারণ ব্যবহারকারী ওই স্ক্রিপ্টটি চালানোর পরই সরাসরি সিস্টেমে রুট-স্বত্ব পেয়ে যেতে পারে। এবং সেটা সত্যিই বিপজ্জনক, কারণ এর মাধ্যমে কনটেইনার থেকেও বেরিয়ে আসা সম্ভব—অর্থাৎ আপনি কনটেইনার ভেঙে হোস্টে প্রবেশ করতে পারবেন। ডকার কন্টেইনার থাকলেও Page Cache যৌথভাবে শেয়ার করা হয়, তাই সেই ক্যাশ ব্যবহার করে আক্রমণ সফল হতে পারে।
হ্যাঁ।
ঠিক এভাবেই এটা কাজ করে। এখানে প্রতিটি সিস্টেম আলাদা আলাদা নিয়মে কাজ করে এমন নয়, বরং অনেক হোস্টেড সার্ভারেই একই ধরণের ইন্টারফেস থাকার কারণে আপনি ওই দুর্বলতাগুলো কাজে লাগিয়ে কনটেইনার বা হোস্ট উভয় থেকেই বাস্তবে বেরিয়ে আসতে পারবেন। আর তারপর তো পুরো ব্যাপারটা 'রিপ'—অর্থাৎ সিস্টেমের নিরাপত্তা পুরোপুরি ভেঙে যেতে পারে।
Page Cache রাখা হওয়ার মূল কারণটা খুব সোজা: হার্ডড্রাইভে বারবার ডেটা লিখে বা পড়তে গেলে সেটা ভীষণ ধীরগতির হবে। ডিস্কে লেখার সময় হার্ডড্রাইভের রিড/রাইট হেডকে যথার্থ অবস্থানে নিয়ে যেতে হয়, তারপর সংশ্লিষ্ট ব্লকগুলো পড়তে বা লিখতে হয়—এটি অনেক সময়খরচী। তাই অপারেটিং সিস্টেম মেমরিতে ডেটা ধরে রেখে, পেজ-ভিত্তিকভাবে পরে সেগুলোকে ডিস্কে ব্যাক করে দেয়; ফলে পারফরম্যান্স অনেক ভালো থাকে। এটা বিশ্ববিদ্যালয়েও শেখানো হয়—পেজগুলো সাধারণত সাইডে (seitenweise) রূপে ডিস্কে লিখে ফেলা হয় এবং নিয়মিত নির্দিষ্ট ইন্টারভালে ব্যাকফ্লাশ করা হয়।
কিন্তু এই এক্সপ্লয়টগুলোতে একটি অদ্ভুত বিষয় হচ্ছে: সিস্টেম সাধারণত ডিস্কে what's on disk তা দেখে। অনেক সিকিউরিটি চেক বা ভেরিফিকেশন ডিস্ক-ভিত্তিক ডেটার হ্যাশ দেখে সিদ্ধান্ত নেয়—অর্থাৎ তারা দেখছে ডিস্কের ঐ অংশের হ্যাশ কি আমাদের জেনারেট করা হ্যাশের সঙ্গে মেলে কি না। যেহেতু এক্সপ্লয়টাররা কেবল Page Cache-এ ওই চার বাইট পরিবর্তন করেছে এবং ডিস্কের আসল ডেটা বদলায়নি, তাই এই হ্যাশ চেকগুলো প্রায়ই পাস হয়ে যায়। সহজভাবে বললে—সিস্টেম 'চোখে' টের পায় না যে মেমরির ক্যাশে পরিবর্তন হচ্ছে, কারণ যাচাই হচ্ছে ডিস্কের কপি, ক্যাশ নয়।
এই অবস্থা টিকে থাকবে যতক্ষণ না সিস্টেমটি রিবুট করা হয় বা অ্যাডমিন ম্যানুয়ালি সেই Page-Cache পেজটি ইনভ্যালিডেট বা ড্রপ করে দেয়। লিনাক্সে এটার জন্য একটি কমান্ড আছে—কিন্তু অ্যাডমিন সাধারণত সেটি সহজে চালায় না যদি না তাদের বিশেষ কোনো সন্দেহ থাকে; হঠাৎ করে ক্যাশ ড্রপ করলে সেটা সন্দেহজনক মনে হবে।
এটার বাস্তব প্রভাবটি হলো যে এই দুর্বলতাগুলো বেশিরভাগ ডিস্ট্রিবিউশনে ২০১৭ সাল থেকে বিভিন্নভাবে উপস্থিত—অর্থাৎ অনেক সিস্টেমই পুরোনো কের্নেল ভার্সন চলালে ঝুঁকিতে থাকবে। সমাধান স্পষ্ট: কের্নেল আপডেট। আপনাকে নতুন, প্যাচকৃত কের্নেল ভার্সন ডাউনলোড করে সিস্টেম আপগ্রেড করতে হবে—আমি ঠিক জানি না তারা কোন ভার্সনে প্যাচ করেছে (হয়তো ৬.৩.১ বা এর পরের), কিন্তু মূল কথা হচ্ছে আপডেট না করলে সিস্টেম 'খতম'।
এটি এমন কারণেও বিপজ্জনক যে প্রচলিত ইন্টিগ্রিটি-চেকগুলো, যেমন প্যাকেজ ম্যানেজার বা সিস্টেম যে ফাইল-ইন্টিগ্রিটি পরীক্ষা করে, তারা ডিস্কের কপি দেখে; ফলে ইন্টিগ্রিটি স্ক্যানও এই সমস্যা ধরতে পারে না। অনেক অ্যাডমিন সপ্তাহ বা মাস ধরে এই পরিস্থিতি টের পাবে না যতক্ষণ না কোনও রিবুট বা নির্দিষ্ট ইনভ্যালিডেশন করা হয়—এটা একেবারে গুরুতর সিকিউরিটি সমস্যা।
এবং হ্যাঁ—এইসব এক্সপ্লয়টগুলো বাস্তবে কৃত্রিম বুদ্ধিমত্তা (AI) ব্যবহার করে আবিষ্কৃত হয়েছে।
হ্যাঁ।
আসলেই, সেই সিকিউরিটি রিসার্চারটি পুরোপুরি কৃত্রিম বুদ্ধিমত্তাকে গ্রহণ করেছেন এবং তাকে ব্যাপকভাবে খোঁজা-নিরীক্ষায় নিয়োজিত করেছেন। তবে এআই এখনও এমন পর্যায়ে নেই যে সে পুরো প্রক্রিয়াটি শুরু থেকে শেষ পর্যন্ত নিজে থেকে আয়ত্ত করে নিতে পারে। এরকম দক্ষতা এখনও কৌশলগতভাবে সীমিত। অবশ্যই এটি বাজেটের ওপর নির্ভরশীল: যদি আপনি এআইকে বলতেন 'ঠিক আছে, আমি তোমাকে এক হাজার ইউরো বাজেট দিচ্ছি', তাহলে হয়তো খুঁজে বের করা অনেক সহজ হয়ে উঠত; কিন্তু বাস্তবিক আর্থিক সীমাবদ্ধতা নিয়ে কাজ করলে এআই এখনও পুরোপুরি স্বয়ংসম্পূর্ণ নয়।
এআই যা করে তা মানুষের সহায়তার ওপর নির্ভর করে—রিসার্চার সিদ্ধান্ত নেন কোন দিকে আরো গভীরভাবে অনুসন্ধান করা উচিত, কোন বিকল্পগুলো পরীক্ষা করা যেতে পারে, এবং কবে থামতে হবে; এআই সেই নির্দেশনা পেয়ে নমনীয়ভাবে বহু সম্ভাব্য খোঁজ চালায়, কিন্তু শেষ সিদ্ধান্ত এবং বিশ্লেষণ প্রায়ই মানুষের কাঁধেই থাকে। এই ধাঁচেই এই সময়ে কাজটা হয়েছে।
আর এর আরো একটি ফল হলো—আগে করা অনেকগুলো পূর্বাভাস ঠিক ছিল: অনেক নিরাপত্তাহীনতা এখনই এআই দ্বারা খুঁজে পাওয়া যাচ্ছে। বিশেষ করে লিনাক্স-কের্নেলে এটা খুবই বেশি দেখা যায়, যেখানে অসংখ্য ছোটখাটো, অপেক্ষাকৃত কম গুরুত্বপূর্ণ দুর্বলতা রয়েছে, যেগুলো AI দ্রুত শনাক্ত করে।
এখানে আরও সমস্যা হচ্ছে যে লিনাস টরভাল্ডস নিজেই লিখেছেন যে তিনি প্রচুর ইস্যু দেখে ততটাই হতবুদ্ধি; অনেক ইস্যুই একেবারে ডুপ্লিকেট, কিন্তু মানুষগুলো তা চেক করে না—তারা বুঝে না কি সেখানে ঠিক কী বলা আছে, সেটা কি আগেই কারো দ্বারা সমাধান করা হয়েছে কিনা, বা কোনো ফিক্স আগে থেকেই আছে কি না। অনেকে কেবল AI-র আউটপুট ইস্যুতে পেস্ট করে দেয়, বেসিক রিপ্রোডিউসেবল স্টেপ বা পরীক্ষাদি ছাড়াই—ফলত মেইন্টেইনাররা ট্রায়াজ করতে গিয়ে ব্যস্ততার শিকার হন এবং প্রকৃত সমস্যাগুলো আলাদা করা কঠিন হয়ে পড়ে।
আর তিনি এখানে সুনির্দিষ্টভাবে বলেন:
আপনি যেই অধিকাংশ সমস্যা আপনার AI দিয়ে খুঁজে পাবেন, সেগুলো নিশ্চিতভাবেই অন্য কোনও AI-মডেল দ্বারা আগেই খুঁজে নেওয়া হয়েছে এমনটা ধরা উচিত। যদি আপনি সত্যিই প্রচুর টাকা খরচ করেন—খুব বড় বাজেট দেন—তাহলে সেটা আলাদা কথা; কিন্তু বাস্তবে খুবই সম্ভাবনা আছে যে ওই সমস্যা ইতোমধ্যে জানা বা রিপোর্ট করা হয়ে গিয়েছে।
হ্যাঁ।
হ্যাঁ।
আমি তো তোমাকে আগেই জিজ্ঞেস করতে চেয়েছিলাম—এসব কি AI-দ্বারা আবিষ্কৃত দুর্বলতাই ছিল? এটা আমার কাছে খুবই রোমাঞ্চকর লেগেছে। আর একদিকে, এখানে জার্মানিতে এই সংবাদটির ভাঁজটা কতটা ধীরে ধীরে ছড়াচ্ছে—এটা সত্যিই অবাক করার মতো। উদাহরণস্বরূপ, মাত্র দুদিন আগে ZDF-এ একটি প্রতিবেদন চলে—শিরোনামটি ছিল 'Claude Mythos কতটা বিপজ্জনক?'—তখন আমি নিজে ভেবেছিলাম, ওরা অবশেষে এটাকে কভার করছে। আমি নিজে তিন সপ্তাহ আগে এই সম্পর্কে ভাবেছিলাম।
ধন্যবাদ, ZDF। ভালো লাগছে যে অবশেষে জার্মানিতেও আমরা এটি লক্ষ্য করতে পারলাম। আমি নিজে তিন সপ্তাহ আগে থেকেই এই প্রশ্নটা চিহ্নিত করেছিলাম, কিন্তু সেটা এখনই প্রকাশ্যে এলো—কিন্তু চলুন, এ নিয়ে কথা বলা যাক। এটা অনেকের জন্য একধরনের জাগরণ সৃষ্টিকারী মুহূর্ত ছিল; কারণ বাস্তবে যা ঘটছে এবং এমন কিছু মানুষ যারা বলে 'AI তো কোনো বড় ব্যাপার নয়'—এসবের মধ্যে এখন যে টানশক্তি বা উত্তেজনা ক্রমশ বাড়ছে, সেটাই উদ্বেগজনক।
হ্যাঁ।
—আর এমন মানুষ আছেন যারা বলে, 'AI বাস্তব নয়'।
তুমি 'বাস্তব নয়' বলে কী বোঝাচ্ছ?
হ্যাঁ, বলতে গেলে, ইংরেজিতে এমন কিছুকে 'Nothing Burger' বলা হয়।
হুম।
ওহ, পুরো ব্যাপারটা অনেকটাই হাইপ—লোকেরা বলে এটাকে যে ক্ষমতা দেয়া হচ্ছে, সেটা সম্পূর্ণভাবে সম্ভব নয়, ইত্যাদি। কিন্তু আমার মতে, এইটা এমন একটা মুহূর্ত ছিল যখন নিশ্চয়ই বলা যায় যে যদি—আমি জানি না—'Claude Mythos' এক সপ্তাহে কোনোমতে হাজার পাঁচশো জিরো-ডে এক্সপ্লয়ট খুঁজে পায়, যেগুলো বাস্তবে exploit করা যেত, তাহলে সেটা বিরাট ব্যাপার। এটা সত্যিই বড় ব্যাপার।
হ্যাঁ।
আসলে, তাই আমি জানি না। অনেক মানুষ আছে — আমি তাদেরকে বুঝতে পারি যারা বলেছেন এটা শুধু হাইপ, কারণ মজার ব্যাপার হল কিছু লোক উল্টোদিকে বলেছে: “ঠিক আছে, সবাই, আমি এখন আপনাদের জন্য একটা সংবাদ নিবন্ধ পড়ে শোনাচ্ছি,” এবং তারপর তারা বলে: “হ্যাঁ, OpenAI একটি মডেল বানিয়েছে, কিন্তু তারা এটা এখনই ছাড়ছে না কারণ বলে এটা অনেক বেশি বিপজ্জনক। এটা সত্যিই সমাজ বা কম্পিউটার সিস্টেমে বড় ধরনের ক্ষতি করতে পারে, তাই তারা আপাতত GPT‑3.5 মুক্তি দিচ্ছে না।”
ঠিক।
আহা, হুম।
হ্যাঁ, আসলে প্রশ্নটা হচ্ছে, এটা কোন অনুপাতে আছে।
হ্যাঁ।
কিন্তু কেন, কেন এই খালি আবরণগুলো আছে? এটা তো স্পষ্ট। অবশ্যই এগুলো মূলত শেয়ারহোল্ডারদের প্রস্তুত করে আরও টাকা ঢুকাতে বোঝাতে করা হয় — এখানে বিষয়টা পরের বছরের ফলাফল নয়। মেয়াদটা দীর্ঘমেয়াদি; আমি বলব, পরবর্তী দশ বছরে কী অর্জনযোগ্য এবং কোম্পানি কীভাবে আগামী দশ বা বিশ বছরে সেই প্রযুক্তি থেকে আয় করতে পারবে তা বিবেচ্য। এটা শুধু 'ওহ, ঠিক আছে, পরের কোয়ার্টারে কেমন হবে'—এরকম নয়। হ্যাঁ, মাঝে মাঝে কুৎসিত লাফ দেখা যায়, কিন্তু এত গভীরভাবে সেটা বিবেচনা করা হয় না। বরং তারা দেখে ভবিষ্যতে আয় কেমন হবে, আয়ের প্রবণতা কেমন থাকবে—শুধু পরের ত্রৈমাসিক বা বছরে না, বরং বহু বছর পরে কেমন হবে। আর আমি মনে করি সন্দেহাতীতভাবে বেশি প্রতিশ্রুতি দেওয়াটা মোটেই খারাপ নয়, কারণ সাধারণত মানুষ সেই প্রতিশ্রুতিগুলো দ্রুত ভুলে যায়—যখন ক্রমাগত নতুন তথ্যের স্রোত বজায় রাখা হয় যে শীঘ্রই কী সম্ভব হবে, যদি তুমি ওই বলটাকে চালিয়ে রাখো।
হ্যাঁ।
ঠিক আছে, কারণ এটা এক সময় নিশ্চয়ই কাজ করবে। কেবল তারা যে সময়কালটা দেখিয়েছে, সেটা তারা অতিরিক্তভাবে কমই ধরেছে, হয়ত ইচ্ছাকৃতভাবে। তারা বলে: “ওহ হ্যাঁ, এটা এক বছরে কাজ করবে,” কিন্তু বাস্তবে তিন থেকে পাঁচ বছর লাগতে পারে, যখন বাস্তবে একটা কনসেপ্ট বাস্তবায়ন করা সম্ভব হবে।
ওহ, হ্যাঁ।
আর, নিশ্চয়ই বলা যায়: “ঠিক আছে,”
GPT‑3.5 তখনকার সময়ে বেশ দারুণ ছিল, কিন্তু এটা এখন পর্যন্ত সমাজের জন্য এত বড় ধরনের ক্ষতি করেছে না—সবই নির্ভর করে তুমি ‘সমাজের ক্ষতি’ কীভাবে বুঝো।
হ্যাঁ।
তবে ঠিকই, বুঝছিস? এটাই আমি বলতে চেয়েছিলাম। GPT‑3.5 কেবলই ঠিকঠাক একটি kohärenten বাক্য গঠন করতে পারত।
হ্যাঁ।
বোঝো? তখন মানুষরা সমান্তরাল টেনে বলল: “ঠিক আছে, GPT‑3.5 দিয়ে তুমি কিছু হ্যাক করো নি। তো এটা কি নিরাপদ? সবই নকল।” কিন্তু বাস্তবে এর সত্যিকারের প্রভাব আছে এবং মানুষ সেটাকে ঠিকভাবে মোকাবিলা করার চেষ্টা করছে। উদাহরণস্বরূপ বলা হচ্ছে, “ওহ, এই প্রযুক্তি শীঘ্রই ওপেন সোর্সে চলে আসবে।” OpenAI-ও এর কথা বলেছে, গুগলও Google I/O-তে কিছু প্রথম দিকে ঘোষণা করেছে—তবে তাদের উদ্দেশ্য এখন হলো বড় কোম্পানিগুলোর কাছে প্রথমে এই মডেলগুলো নিয়ে গিয়ে সেগুলো নিরাপত্তার দিক থেকে পরীক্ষা করা।
যখন এই প্রযুক্তি অনিবার্যভাবে সবার জন্য উন্মুক্ত হবে, তখন অন্তত এখনই না হয় Google কাল হ্যাক হবে বা Adobe হ্যাক হবে—এটা বিশ্ব অর্থনীতির জন্য বড় ঝামেলা হয়ে দাঁড়াবে।
হ্যাঁ।
তো, কিন্তু—
হ্যাঁ, আমি এটা বেশ ভয়াবহ মনে করেছি। অনেকের জন্য এটা হয়তো একটা ছোট জাগরণের মুহূর্ত ছিল, কারণ তারা তখন বলত: “হ্যাঁ, অনেক GitHub ইস্যু আছে...”
সবকিছু যেন বেহাল আর জঞ্জালে ডুবে আছে—সবাই বলে: “হ্যাঁ, এগুলো সবই তুচ্ছ, অনেক চাপে ছিল কিন্তু শেষমেষ কিছুই না।” এই হল যে ন্যারেটিভ। এবং আমার মতে এটাকে সম্পূর্ণভাবে উপেক্ষা করা কঠিন। তুমি কীভাবে এতটা উদাসীনভাবে বর্তমান পরিস্থিতি উপেক্ষা করতে পারো?
উহ্।
বা বলা উচিত হবে, ভুলভাবে মূল্যায়ন করা। অর্থাৎ—
উহ্, একধরনের চরম স্ট্যাঙ্কোরবিয়াম।
হ্যাঁ। [হাসি]
কিন্তু জোনা, দারুণ—এখানে যেভাবে—
চলছে।
ঠিক। একটি ডিসক্লেইমার হিসেবে আমাকে একথাও বলতেই হবে যে কয়েকজন লোক দাবি করেছেন কয়েক মাসে কিছু মডেল আংশিকভাবে খারাপ নিয়মানুসারে কম কার্যকর হয়েছে, অথবা অন্তত মানুষদের মধ্যে এমন একটি সাবজেক্টিভ ছোঁয়া তৈরি হয়েছে। আর প্রশ্নটা হল: এটা কি কোম্পানিগুলো যা প্রতিশ্রুতি দিয়েছিলো তার সঙ্গে সম্পর্কিত—তারা কি মডেলগুলোর ক্ষমতাকে বাড়িয়ে-বাড়িয়ে দেখিয়েছে, কিন্তু বাস্তবে গুণগত মান একই রেখেছে? নাকি সত্যিই একটা পশ্চাদপদ উন্নতি ঘটেছে? অনেকেই বলছেন যে কিভাবে AI উত্তর দেয় এবং টোকেন আউটপুট কেমন—এগুলো সম্পূর্ণরূপে গুণগত বৈশিষ্ট্য মাপে প্রতিফলিত হয়, কিন্তু টোকেনের উৎপাদন বেশ মনিপুলেট করা হয়েছে। অর্থাৎ আগের তুলনায় আউটপুটে এখন অনেক বেশি ভরা‑বাচ্চা বা ফিলার বসানো হচ্ছে, ফলে আজকাল তোমাকে বলতেই হয় “সংক্ষেপে বলো” যাতে কাঙ্ক্ষিত আউটপুট পাওয়া যায়। আমি এটা ব্যক্তিগতভাবেই কিছুটা অনুভব করি।
হুম।
অনেকেই এভাবেই যুক্তি করছেন, যা আমি নির্দ্বিধায় বুঝতে পারি—কারণ আমারও ব্যক্তিগতভাবে সামান্য সেই একই অনুভব হয়েছে।
জোনা, আমরা এখন এমন এক জায়গায় পৌঁছছি—আমি আসলে এই বিষয়ে কথা বলতে চাইনি, কিন্তু এখনই বলার ইচ্ছে হচ্ছে। দুই পর্ব ধরে আমি একটা ছোট, না র্যান্ট কিন্তু, হট‑টেক বলতে চাই।
কর।
আর সেটা হলো: যারা কোনো পেইড AI‑মডেল ব্যবহার করে না, তারা অনায়াসে আজকের AI‑এর ক্ষমতা সম্পর্কে সঠিক ধারণা পেয়ে উঠতে পারে না।
হ্যাঁ।
এবং আমি এটা বিভিন্ন কারণে দুঃখজনক মনে করি। আমি আগে থেকেই এই হট‑টেকটা বলেছি। এই পয়েন্টে কেউ আমার সঙ্গে একমত নয়। আমি সেই লোকদের একজন যে, একটি উচ্চতর দার্শনিক দৃষ্টিকোণ থেকে বলবে যে বিনামূল্যে ChatGPT থাকা উচিত নয়।
হুম।
আমি মনে করি এটা সমাজ এবং শিল্পের জন্য ক্ষতিকর যে দু’প্রকারের AI ভোক্তাদের কাছে আছে। একটি হলো বিনামূল্যের ভার্সন, যা প্রায় ৯৬% মানুষ ব্যবহার করে এবং এখান থেকেই তারা সিদ্ধান্ত করে—AI আসলে কী পারে।
ঠিক।
আর আরেকটা অংশ আছে যারা টাকা দেয় এবং অনেক উন্নত সেবা পায়, তাই তাদের ধারণা অনেক গভীর। আমি সম্প্রতি রেডিওতে এটা লক্ষ্য করলাম।
হ্যাঁ, এটা ঠিকই বলেছো, কিন্তু আমি মনে করি এটি আমার অনুমানকে বাতিল করে না। অবশ্যই, যদি তুমি টাকার বিনিময়ে—মাসিক বা প্রতি প্রম্পট—সুবিধা নাও, তখন ফলাফল দারুণ হবে; দশ বা একশ ইউরো বা প্রতি প্রম্পটে বেশি খরচ করলে তুমি আজকের AI দিয়ে ভয়ংকরভাবে চমৎকার ফলাফল পেতে পারো। তবুও আমার যুক্তিটা সম্ভবত এখনো মান্য।
হ্যাঁ, আমি মনে করি এটাকে এভাবেও বুঝানো যেতে পারে: শুরুতে হাইপ তৈরি করার জন্য হয়ত ফ্রি ব্যবহারকারীদেরকেও ভালো কিছু দেওয়া হয়েছিল। এখন কোম্পানিগুলো ধীরে ধীরে বুঝছে, 'এটা আসলে অনেক ব্যয়বহুল; এমনকি যারা মাসে ২০০ ডলার দেয় তাদের সাথেও আমরা লোকসান করছি।'
কিন্তু আমরা হয়ত শুরু করতে পারি যে যারা একেবারেই কিছুই দেয় না তাদের একটু কম বুদ্ধিমত্তা দেওয়া হবে, বুঝছো?
আমার মনে হয় এটা এক ধরনের ব্যাখ্যা হতে পারে কেন যে অধিকাংশ মানুষ—বিশেষত ফ্রি ব্যবহারকারীরাই—এটা খেয়াল করে যে তাদের আর ১০০% ক্ষমতা পাওয়া যাচ্ছে না।
হ্যাঁ।
আর তাই তাদের কাছে এটা খারাপ মনে হয়, কারণ সেটা সত্যিই খারাপ।
হ্যাঁ।
ঠিক তাই। আমি এই কনট্রাস্টটি লক্ষ করেছি এবং বুঝতে পেরেছি আমি কী বুবল-এ আছি। জোনা, তোমার জন্য ছোট এক স্বীকারোক্তি: আমি এই মাসে পরীক্ষা-নিরীক্ষার জন্য ১০০‑ইউরো ChatGPT নিয়েছি।
দারুণ।
আমি ২০০ ইউরোর প্ল্যানটা নিইনি। আমি ChatGPT Pro নিয়েছি, যেখানে তুমি বেছে নিতে পারো—১০০ ইউরোতে পাঁচগুণ কোটা, বা ২০০ ইউরোতে বিশগুণ। আমি এটা নিয়েছি কারণ কোডেক্স দিয়ে প্রোগ্রামিং করতে করতে আমি প্রায়ই সীমায় আটকে যেতাম এবং মনে করলাম অধিক কোটা থাকা এখন সত্যিই লাভজনক হবে।
হ্যাঁ।
কিন্তু পাঁচগুণ কোটাই আমার জন্য যথেষ্ট; আমি সীমায় পৌঁছাই না, তাই বিশগুণের প্রয়োজন নেই। আর এই কনট্রাস্ট—আমরা রেডিওতে বসে শুনছিলাম, এক মহিলা বললেন: 'আমি ChatGPT-কে বলেছিলাম একটি উদ্ধৃতি APA ফরম্যাটে রূপান্তর করতে।'
হ্যাঁ।
আর সেটা একেবারেই খারাপভাবে করেছে।
হ্যাঁ।
এটা একটি অত্যন্ত সহজ, স্পষ্ট কাজ ছিল।
হ্যাঁ।
আর আমরা বললাম: 'ঠিক আছে, AI এটা পারে না। এটা কাজ করবে না।' অন্যদিকে Codex প্রতি সপ্তাহে আমার জন্য লাখো লাইনের কোড প্রায় ভুলহীনভাবে লিখে ফেলে।
হ্যাঁ।
এটা এক বিশাল কনট্রাস্ট। গড় মানুষ সঠিকভাবে মনে করে যে তুমি ChatGPT‑কে একটা বাক্য লিখতে দিলে ওটা সম্ভবত ভেবে ভুল করবে—একটাও ঠিকভাবে হবে না।
হ্যাঁ।
কারণ গড় মানুষ তো কেবল ফ্রি ভার্সনটাই জানে, আর সেটা খারাপ।
হ্যাঁ।
এবং আমি এটাকে অনেক দিক থেকে দুঃখজনক মনে করি। সমাজিক দিক থেকে দুঃখ লাগে যে অধিকাংশ মানুষই বুঝে না এখানে কি অসাধারণ প্রযুক্তি আছে এবং এটা কোথায় কাজে লাগবে। একটু ডুমারিস্টিক দৃষ্টিতে বলা যায়, সমাজের বেশির ভাগই বোঝে না আমরা আসলে কতটা ঝুঁকিতে আছি।
হ্যাঁ।
কারণ তারা মনে করে, ‘এটা তো এমনকি একটা বাক্যও ঠিক লিখে না, আমার কাজ কেড়ে নেবে না।’
হ্যাঁ।
তারা বুঝে না যে যদি তুমি টাকা দাও, তাহলে এমন অনেক কিছু আছে যা তোমার চাকরি কেড়ে নিতে পারে। আর ব্যক্তিগতভাবে আমি এটা দারুনভাবে দুঃখজনক মনে করি, কারণ এর ফলে মানুষের কাছে AI নিয়ে আমার কাজের ধারণাই ক্ষতিকরভাবে বিকৃত হয়।
হুম।
যে ঘটনাটি ঘটছে—যখন আমি কাউকে বলি: 'দেখ, আমি এখন AI দিয়ে ক্রাঞ্চ‑টাইম ভিডিও কেটে পরীক্ষা করছি'—
হ্যাঁ।
তাহলে তারা তাদের ফ্রি ChatGPT স্মৃতি ভেবে বলে: 'ওয়েল্যান্ড, এটা করো না। এটা কাজ করবে না। কি? AI তো এটা পারে না—এটা এক বাক্যও ঠিক করে লিখতে পারে না,'—এভাবে তারা প্রতিক্রিয়া করে।
হ্যাঁ।
তাই, [নিঃশ্বাস], আমার বন্ধুদের কাছ থেকেই বিপরীত যুক্তি পেয়েছি। আমি অবশ্যই চাই যে অধিক মানুষ এই টুলে প্রবেশ করে—আমি মনে করি প্রবেশাধিকারের থাকা ভালো।
হ্যাঁ।
আর যে কেউ সেটা নিতে পারে না বা নিতে চায় না—আমি নিজেও বিভক্ত—তাদের অন্তত একটা বিকল্প আছে। অন্যদিকে আমার মূল যুক্তি হলো: সমস্যা AI নয়, বরং পুঁজিবাদ। যদি প্রত্যেকেরই একটি খুব ভালো সিস্টেমে প্রবেশাধিকার থাকত, আমি অবশ্যই সমর্থন করতাম। হ্যাঁ, বলা যায় 'তুমি বিনামূল্যে একটি কম ভাল ভার্সন পাবে, তবে অন্তত কিছু তো পাবে'—কিন্তু আমি মনে করি ইন্টারনেট ও ইন্টারনেট‑পুঁজিবাদ, যা ২০১০-এর প্রথম দিকে গড়ে উঠতে শুরু করেছিল, দুর্ভাগ্যবশত AI-কে নিজের নিয়ন্ত্রণে নিয়ে ফেলেছে। প্রথম দিকে, খুব প্রথম দিকে স্যাম অল্টম্যান বলেছিলেন: 'আমাদের AI—আমি জানি তোমরা ইন্টারনেটে সবকিছুই বিনামূল্যে দেখতে অভ্যস্ত, বিজ্ঞাপনে চলে। কিন্তু AI এতটাই ব্যয়বহুল যে এটি বিজ্ঞাপনে টিকে থাকতে পারবে না। তাই আমরা এটাকে ব্যবসায়িক মডেল হিসাবে নেব; আমরা বিজ্ঞাপন চালাব না এবং বিনামূল্যের ভার্সন রাখব না। আমরা একটি পণ্য তৈরি করছি যার জন্য আপনাকে অবশ্যই অর্থ দিতে হবে'—
হ্যাঁ।
—ঠিক যেভাবে তুমি অন্য যেকোনো পণ্যের জন্যও অর্থ দিয়ে থাকো।
হ্যাঁ।
কারণ সত্যি বলতে আমি সবসময় এটা তুলনা করি—এটা না জানি কতটা খারাপ তুলনা—কিন্তু আমি ChatGPT বা OpenAI API বোঝাতে মিল্কের উদাহরণ দিই, বিশেষ করে ‘Müllermilch’ দিয়ে। আমি বলি: 'ঠিক আছে, Müllermilch-এ ধরে নিচ্ছি অনেক কনজারভেটিভ বা স্বাদকরণকারী আছে—এটা মন্দ কথা নয়—কিন্তু এর মানে এই নয় যে B2B গ্রাহক হিসেবে আমি যখন Wieland‑মিল্ক পাই, সেটা খারাপ হবে।'
হ্যাঁ।
—যদি আমি Molkerei Müller থেকে B2B মিল্ক কিনি, তা কোনো স্বাদকরণ বা কনজারভেটিভ ছাড়া ভালোই থাকবে। সম্ভবত আমি আমার Wieland‑মিল্কে কনজারভেটিভ বা স্বাদকরণ যোগ করবো, বা ChatGPT‑এর ক্ষেত্রে তোমাকে ট্র্যাক করব, বিজ্ঞাপন দেখাবো, তোমার ডেটা বিক্রি করব। কিন্তু শুধু কারণ Müller‑এর অন্য একটি ভার্সন আছে, তাদের B2B এবং B2C পণ্য আলাদা—এটাই ইন্টারনেটে স্বাভাবিক। ভাবো, দোকানে একটি ফ্রি Müller‑Milch এবং আরেকটা যে তুমি কিনে নেবে—মনে করো।
হ্যাঁ।
আর বিনামূল্যেরটা মোটেই ভালো না।
হ্যাঁ।
তাই সেটা স্পষ্টতই অনেক খারাপ।
এটা আসলে পানি, যার মধ্যে একটু দুধের স্বাদ মিশানো—বা কী জানি।
এবং ভাবো কী হবে: ৯৫% মানুষই বিনামূল্যের Müller‑Milch নেবে এবং বলবে: 'ওয়েল্যান্ড, তুমি কি পাগল? কেন তুমি এর জন্য টাকা দাও?' এরপর Müller‑মিল্ক বিক্রি করা প্রতিষ্ঠান নিজেই নিজের দিকে খালি কেগুলো ছুঁড়ে ফেলবে—যদি আমি বলি 'হ্যাঁ, আমি Müller‑Milch পছন্দ করি, আমি এর জন্য টাকা দিচ্ছি', তারা বলবে: 'ওয়েল্যান্ড, আমি সবসময় ফ্রি ভার্সন খাই; এটা এত বাজে যে ফ্রিতেই ধরি; কখনই এর জন্য টাকা দেব না—উভয়টাই তো Müller‑Milch বলা হয়, তুমি কী চাও?'
হ্যাঁ।
অবশ্যই আমি ওটার জন্য টাকা দেব না। এবং আমার বন্ধুরাও একইভাবে বলে: 'ওয়েল্যান্ড, ChatGPT তো এক বাক্যও ঠিক করে লিখে না। আমি কখনোই এর জন্য টাকা দেব না।' কারণ তারা স্পষ্টতই বুঝে না যে ছবিটা যদি আলাদা হতো তাহলে কী হতো... মাফ করো, আমি অনেক র্যান্ট করলাম।
ঠিক। এবং তারা বুঝে না যে যদি একটি কোম্পানি মাসে এক হাজার ইউরো, অর্থাৎ বছরে বারো হাজার ইউরো AI‑এ ব্যয় করত, তাহলে তারা ইতোমধ্যে একটা পদের কাজ বাঁচাতে পারত।
হ্যাঁ।
প্রশ্নটা কেবল কোনটা, সেটা বোঝা জরুরি। [হাসি] কিন্তু যদি তোমার অভিজ্ঞতা হয় মাত্র ফ্রি ChatGPT বা ফ্রি Copilot-এর ওপর, তাহলে তুমি বুঝতে পারবে না এবং বলবে 'না, AI তো চাকরি নিচ্ছে না'—তবে বিকল্প হল কাউকে বছরে তিরিশ থেকে পঞ্চাশ হাজার বা তার বেশি খরচ করে রাখা। এবং সেটাই সেই বাজেট যা তুমি API‑অনুরোধে খরচ করতে পার।
ইত্যাদি খরচ আছে। আমি বলতে চাই যে AI‑এর ক্ষমতা ও অভিযোজন ক্ষমতাকে তুমি কিছু ক্ষেত্রে অনেক সস্তায় প্রতিস্থাপন করতে পারো। অথবা, হ্যাঁ।
কিন্তু ঠিক, জোনা, যেমন তুমি বলছো—চাকরির ব্যাপারে আমরা, আমি মনে করি এটা কেবল—
অবিশ্বাস্য মাত্রার কপিয়াম আছে, যা আমি বুঝতে পারি—মানুষ এমনই। যখন তার কাছে কিছু থাকে যা তাকে আশা দেয়, তখন তিনি তা আঁকড়ে ধরেন। আমি বলি—‘ওহ, ওয়েল্যান্ডের হট‑টেকস, ইউটিউবে কমেন্টস দেখার জন্য উৎসাহিত'—এটা কিছুমাত্র পপুলিস্টিকের মতো: ‘আমার জীবন খারাপ কেন? কারণ আশ্রয়প্রার্থীরা আছে; যদি তারা না থাকত, সব সমস্যা মিটে যেত।’ এটা একটি সহজ কারণ দেয় যার বিরুদ্ধে লড়াই করা যায়, বদলে পৃথিবীকে জটিল ভাবার বদলে।
এবং এটিকে তোমার আগে যা বলেছ তা থেকে পুরোপুরি আলাদা করে নেওয়া যায় না।
[হাসি]
বুঝছো, একইভাবে আমি ভাবি যে যদি কাউকে বারবার বলা হয়: 'হে, AI শীঘ্রই মানবজাতির বেশিরভাগ কাজ করতে পারবে, এবং আমাদের সমাজ হিসেবে ভাবতে হবে কিভাবে আমরা এটা ম্যানেজ করব,' তাহলে সেটা গুরুত্বপূর্ণ।
হ্যাঁ।
এটাই গুরুত্বপূর্ণ। তারপরই বেরিয়ে আসে সেই বিখ্যাত স্টাডি—'কোম্পানির ৯৫% AI‑প্রজেক্ট ব্যর্থ'—মানুষ তা নিয়ে ঝাঁপিয়ে পড়ে এবং বলে: 'দেখো, এটাই প্রমাণ যে কিছুই হবে না, AI কাজ নেবে না'। কিন্তু তোমার যদি পেপারটা পড়ো, তারা ব্যর্থতা মাপছে যেমন: এটা রেভেনিউ বাড়ায়নি বা তারা এটাকে কাজে লাগাতে পারেনি।
আহ, এটাই ব্যর্থতা নির্ধারণের থ্রেশহোল্ড। আচ্ছা, বুঝলাম।
তাই, তারা ব্যর্থতাকে সংজ্ঞায়িত করেছে সেইভাবে যে পরীক্ষার পরে কাজটি চালানো হয়নি। আমি কোম্পানির অভ্যন্তর এতটা জানি না, কিন্তু জোনা, আমার ৯৫% প্রজেক্টও ব্যর্থ হয়। আমি কিছু চেষ্টা করি, দেখি কাঙ্ক্ষিত ফল হয় না, এবং তারপর ছেড়ে দিই।
এগুলো তোমার আয় বাড়াতে হবে। হ্যাঁ, ঠিক।
অথবা আমার আয় বাড়াতে হয়েছে বা আমার জীবনে কোনো সুবিধা এনেছে। না হলে আমরা সেটা নেই। কিন্তু কোম্পানিরা এটা অনেক বার করে—বলেই চেষ্টা করে, এক‑দুই সপ্তাহ টেস্ট করে, না হলে বন্ধ করে দেয়।
হ্যাঁ, ঠিক।
কিন্তু সেই স্টাডিতে এটাকেই AI‑প্রজেক্ট ব্যর্থ বলে গণ্য করা হয়েছে।
না, এটা একটু বেশিই কড়া।
তাদের বিরুদ্ধে ঝাঁপিয়ে পড়া সহজ—আমি বুঝতে পারি কেন, কারণ তুমি বিশ্বাস করতে চাও না যদি কেউ বলে: 'ওহ, তুমি বিশ বছর ধরে কাজ করছো, আর তিন বছরের মধ্যে সব পাল্টে যাবে।'
হ্যাঁ।
তাহলে তুমি সবকিছুকে ধরে নেবে যে 'সে তো শুধু বকবক করছে।'
হ্যাঁ।
যারা AI নিয়ে কথা বলে, তাদের অনেকেই শুধু বকবক করছে বলে মনে হয়।
হ্যাঁ।
মাহার্শী দামের সাবস্ক্রিপশন মডেলগুলোর কথাই চলে যাক—যেখানে তোমাকে নিশ্চিতভাবে তা কেনার প্রয়োজন নেই, তবু দাম বাড়ানো হচ্ছে। Plex সম্প্রতি আবার দাম বাড়িয়েছে এবং আমি এটা মোটেই ঠিকঠাক মনে করি না যে খরচগুলো এতভাবে বেড়ে গেছে। তারা লাইফটাইম এক্সেসের দাম বাড়িয়েছে—মনে হয় আগে এটা প্রায় $২৫০ ছিল, এখন $৭৫০। দাম তিনগুণ বেড়েছে এবং তারা বলছে তারা আর লাইফটাইম বিক্রি চালিয়ে যেতে চান না; মূলত Adobe‑র একই কৌশল—সবকিছু সাবস্ক্রিপশনে নিয়ে আসা যেখানে প্রতি মাসে টাকা লাগে। এটা মোটেই ভাল না, কারণ এই সফটওয়্যারটি মূলত তোমার সার্ভারে থাকা ভিডিওগুলো অন্য ডিভাইসে স্ট্রিম করার জন্য; এর জন্য আলাদাভাবে $৭৫০ জোগাড় করা বা হার্ডওয়্যারের ওপরে অতিরিক্ত খরচ করা ঠিক হবে না। তুমি চাইলে একটা দারুণ ওপেন‑সোর্স সমাধানও বেছে নিতে পারো, যা অনেক ভালো এবং বিনামূল্যে বা সস্তা।
যদি কারো এমন এক ধরনের চাহিদা থাকে — মানে, যদি কারো এমন কিছু দরকার হয়। আর হ্যাঁ, একটা ডিসক্লেইমার: আপনাদের অবশ্যই ওই ভিডিওগুলো আগে থেকেই কিনে রাখা থাকতে হবে। তারপর জার্মানিতে ব্যক্তিগত অনুলিপি (Privatkopien) তৈরি করা আইনীভাবে অনুমোদিত, তাই এখানে যা ঘটছে তা সম্পূর্ণরূপে বৈধ।
হ্যাঁ।
লল। আর এটা তো আবারও আরেকটা উদাহরণ—একটু এমন, যেন আমরা আগে থেকেই জনগণের কাছ থেকে সাবস্ক্রিপশন-মডেলগুলো নিয়ে যথেষ্ট সমালোচনা, বিরক্তি এবং ঘৃণা পাইনি।
হ্যাঁ।
জোনা, আমরা তো আবারও একটা দারুণ কাজ করে ফেলেছি।
ঠিক।
যেমনটা বলা যায়। আমরা একটা দারুণ পর্ব রেকর্ড করেছি, তথ্যে ভরা — অনেকই তীব্র তথ্য, উহুম — আমাদের ব্যক্তিগত প্রকল্পগুলো সম্পর্কে, আমরা এখন কী করছি, আমরা প্রযুক্তি নিয়ে কী করছি এবং অবশ্যই বড় টেক কোম্পানিগুলো প্রযুক্তি নিয়ে এখন কী করছে তা নিয়েও। আর জোনা, আমাদের ছিল কয়েকটা ছোটখাটো রেন্ট লেট-স্টেজ ক্যাপিটালিজম নিয়ে এবং সেই সম্ভাব্য ‘ওয়াচশপস’-ধাঁচের একটি বিশ্বের কথাও, যেখানে আমরা সবাই হয়তো খুব শিগগিরই বসবাস করতে শুরু করতে পারি। এটা ছিল এক ক্লাসিক পর্ব, দুর্দান্ত মুহূর্তে ভরপুর। যদি কেউ এটা পুরোটা না শুনে থাকে কিন্তু ভাবছে—ওইটা তো অসাধারণ ছিল, আমি পুরোটা শুনতে চাই—অথবা আমি তো এখনই শুধু জুম করে ঢুকেছি বা পরে আবার শুনতে চাই—তাহলে সেটা কোথায় পাওয়া যাবে, জোনা?
সেটার জন্য সবচেয়ে ভালো হবে radio-unique.de-এ যাওয়া। সেখানে আমাদের ছাত্র-রেডিও হিসেবে প্রকাশিত সব নিউজ আর্টিকেল পাবেন, আর Crunch Time এপিসোডগুলোর পাতায় ক্লিক করলে প্রতিটি পর্বের শো-নোটস, অডিও ফাইল ও সংযুক্ত লিংকগুলো দেখতে পারবেন। সেখানে যেকোনো সময় আগের সব পর্ব আবার শুনতে বা ডাউনলোড করে রাখতে পারবেন। এছাড়া YouTube বা Spotify-এ 'Die Crunch Time' সার্চ করেও আমাদের খুঁজে পেতে পারেন। আমাদের পডকাস্টটি RSS ফরম্যাটেও পাওয়া যায় — podcast.radio-unique.de-এ গিয়ে প্রতিটি পডকাস্টের RSS লিংক কপি করে আপনার পছন্দের পডকাস্ট রিডারে পেস্ট করে সাবস্ক্রাইব করুন; একই পেজে YouTube ও Spotify-র সরাসরি লিংকগুলোও পাওয়া যাবে।
আর যদি কেউ একেবারে নতুন করে সরাসরি লাইভে যোগ দিতে চায়, বা হয়ত তাঁর কাছে শুধু একটা অ্যানালগ রেডিও আছে যেখানে স্লাইডার দিয়ে নির্দিষ্ট FM-ফ্রিকোয়েন্সি সেট করতে হয়—
আইয়াইয়াই।
তাহলে পরেরবার ক্রাঞ্চ টাইম ঠিক কোথায় এবং কিভাবে শোনা যাবে?
ক্রাঞ্চ টাইমের ৮১তম পর্ব আসবে ঠিক ২৮ জুন। এটা প্রতি মাসের মতোই মাসের চতুর্থ রোববার, তাই আপনাদের ১৮:০০ থেকে ১৯:০০ (সন্ধ্যা ৬টা থেকে ৭টা) সময়ের মধ্যে ইউকে-ডব্লিউ/এফএম-এ ১০২.৭ মেগাহার্টজে টিউন করতে হবে, অথবা DAB+-এ বকেট 5B-এ শুনতে পারবেন। তবে লাইভ শোনার জন্য আপনাকে অবশ্যই কেমনিৎস (Chemnitz) অঞ্চলেই থাকতে হবে। নাহলে radio-unique.de-এ গিয়ে ওয়েবপ্লেয়ার খুলে ২৮ জুন ১৮:০০–১৯:০০ সময়ের মধ্যে ক্রাঞ্চ টাইম লাইভ স্ট্রিমেও শুনতে পারবেন।
তাহলে আপনারা সব রকম উপায়ে — গত, সাম্প্রতিক ও ভবিষ্যৎ Crunch Time — অনুসরণ করতে পারবেন। ততক্ষণ পর্যন্ত সুস্থ ও ভালো থাকুন।
বাই।
[আউট্রো-মিউজিক]
এটাই ছিল
ক্রাঞ্চ টাইম, এটি রেডিও UNiCC-এর একটি প্রযোজনা।
Zuletzt aktualisiert am 1
Hallo und herzlich willkommen, ihr Lieben da draußen an den Empfangsgeräten. Herzlich willkommen zur Crunch Time. Das hier ist Folge 80 unseres Technik-Podcasts, in dem ich, der Wieland.
Und ich, der Jona.
Euch jeden vierten Sonntag im Monat das Neueste berichten aus der Welt der Technik und aus unserem privaten DIY- und Basteltechnikleben. Wir haben wieder einige schöne Sachen für euch vorbereitet und dieses Mal passend zur Nummer 80. Normalerweise überlegen wir uns ja bei irgendwelchen runden, seltsamen Zahlen immer irgendwelche heftigen Sachen, aber ich finde, dieses Mal ist es einfach sehr cool. Unsere 80. Folge wird eine Classic-Folge mit Themen aus der Welt der Technik und, äh, Themen aus unserem so, was wir so privat DIY machen.
Radio UNiCC präsentiert
[Musik] die Crunch Time
[Musik] mit Jona und Wieland.
Und da würde ich nämlich auch direkt starten mit, äh, ja, einem Thema, was ich ja angekündigt habe, äh, in der letzten Folge, wo ich jetzt auch noch ein bisschen weitergemacht habe und euch deshalb jetzt einfach berichten kann, wie toll ich Google Health Connect finde, weil es ist einfach-
[lacht]
Es ist einfach geil. Jona, I have been cookin' so hard. Es ist richtig gut. Also ich muss euch alle erst mal abholen. Was ist Google Health Connect und warum finde ich das so super und warum solltet ihr das alle nutzen?
Genau.
Also, ähm, in sehr untypischer großer Technikkonzern-Manier ist Google Health Connect eine Schnittstelle auf Android-Handys, die es ermöglicht, dass verschiedene, ähm, Apps aus dem Gesundheitswesen miteinander kommunizieren können. Das Ganze wird einfach nur so geregelt, das ist im Prinzip wie eine Art, ja, es ist einfach nur eine Datenbank, die auf jedem Handy halt lokal ist und Apps können einfach quasi anweisen, in diese Datenbank reinzuschreiben und aus ihr zu lesen. Da gibt es quasi dann noch mal so ein, äh, Subberechtigungssystem. Also vielleicht sollte ich erst mal sagen, ähm, bis Android 14 ist das einfach eine eigene App, die du, äh, installieren musst und ab Android 14 ist das ein, äh, Teil der, des Betriebssystems Android.
Und so wie ich das jetzt verstanden hab, bedeutet das dann ja auch, dass die zum Beispiel jetzt die Schrittzahlen, die jetzt zum Beispiel das Handy gemacht hat, dann auch so zum Beispiel an die Apps der Krankenkassen weitergeleitet werden. Da gibt es ja ein paar bekannte-
Mhm.
Ähm, die da, die einem, sage ich mal, gewisse Centbeträge für die Anzahl an Tage geben, mit, bei denen man zehntausend Schritte mit diesem Handy natürlich gemacht hat. Funktioniert das auch über diese API?
Also ich denke-
ist das eigentlich das ist was ganz anderes?
Also ich denke, dass das auf jeden Fall darüber auch funktionieren könnte. Ähm, ich persönlich habe es jetzt dafür nicht benutzt, aber theoretisch geht das alles. Denn, also mir ist wichtig zu betonen, dass das halt auch kein, sage ich mal, Teil der Google Play-Dienste ist und auch nicht mit dem Google Account synchronisiert wird, weil, also quasi, ich kann mir vorstellen, dass da viele Leute irgendwie so, äh, Bedenken haben. Du kannst, also du kannst es gar nicht irgendwie mit deinem Google Account synchronisieren. Das Heftigste, was du machen kannst, ist, du kannst halt sagen, es soll automatisch in eine beliebige Cloud-App eine ZIP-Datei exportiert werden mit den ganzen Daten und da kannst du aber auch jede Cloud-App nehmen, die auf deinem Handy installiert ist, aber natürlich halt auch Google Drive zum Beispiel. Aber ja, das ist einfach nur so ein automatischer Export. Das ist alles lokal auf dem Telefon und-
Außer natürlich dieser Export. Kann man den auch lokal abwickeln, dass man sich da direkt irgendwo eine ZIP-Datei exportieren soll? Weil wenn man dann, sage ich mal, sagt, okay, man hat ja die Rechte daran einzusehen, welche Daten alle gespeichert sind et cetera. Wenn die dann alle automatisch direkt in einen beliebigen Cloud-Dienstleister kommen, da ist ja, sage ich mal, wieder dieses gesamte schöne Ecosystem ein bisschen ausgehebelt. Funktioniert das auch komplett lokal?
Also, äh, die Sache ist, also ich wei-- Also ich, ich denke nicht. Also ich kann jetzt keine Datei einfach auf meinem Handy erstellen, aber da, es kommt halt dazu. Also erstens, du kannst natürlich einfach zum Beispiel jetzt, äh, auch Nextcloud zum Beispiel da wählen als App, in die das exportiert werden soll.
Ach so, na gut, dann ist das ja mehr oder weniger entspannt. Also Nextcloud einzurichten nur dafür macht wahrscheinlich niemand.
Ja.
Aber das, das bedeutet Prinzip ist es halt möglich.
Genau, aber, ähm, was halt aber wie gesagt auch möglich ist, denn ich finde so gut, dass das einfach nur 'ne Datenbank auf deinem Handy ist, wo du auch einfach, sage ich mal, einfach Apps programmieren kannst, die damit arbeiten und fertig. Das ist halt nichts nach dem Motto wie, was weiß ich, jetzt bei anderen Google Sachen. Wenn ich jetzt, was weiß ich, 'ne Sache haben will, die mit YouTube interagiert, dann muss ich in der, im Google Cloud der Sport eine App anlegen und ein App Secret. Und dann muss jemand bei Google das kontrollieren, ob das auch okay ist, dass ich das mache. Und-
Und dann hat man im schlimmsten Fall nur zu zwanzig Prozent aller Dokumentation überhaupt Zugriffsrechte.
Das ist das nächste.
Und dann gibt's ja noch extrem viele Features-
Ja.
-auf die man gar nicht zugreifen kann oder auf die man zugreifen könnte, aber halt einfach nicht von denen weiß, weil es halt nirgendwo sinnvoll extern dokumentiert ist.
Ja.
Genau den ganzen Spaß.
Und, ähm, das Ganze ist einfach nur ein Datenbanksystem auf deinem Handy, wo du, wo einfach eine App anfragen kann: „Also ich möchte jetzt gerne sozusagen diese Datentypen lesen und diese Datentypen schreiben."
Perfekt.
Und, ähm, da ist eine wichtige Unterscheidung. Es gibt zwei große Arten von diesen Daten. Die-- Nur, nur die einen sind in Deutschland, sage ich mal, das, was man da so sieht, weil ich vermute, dass es da aufgrund von EU- und Medizinprodukt, äh, gesetzen aktuell noch, sage ich mal, Sachen gibt, weswegen das noch nicht so gemacht wird. Oder ich nutze einfach keine der Apps, die das nutzen. Also das erste große Ding, äh, nennt sich, das ist ein bisschen verwirrend genannt, das nennt sich Health Data und das meint wirklich alle Sachen, die du halt so tracken kannst. Und es ist-- Ich finde einfach immer wieder, wenn ich mir diesen Berechtigungsbildschirm ansehe, wild, was man da alles tracken kann. Ähm, du musst auch wissen, also wenn du meintest, diese Transparenz bezüglich, dass du weißt, wer da zugreift und wer nicht. Du kannst in den, wie gesagt, entweder das ist die Health Connect App oder in deinen Systemeinstellungen Health Connect kannst du dir richtig anzeigen lassen, welche Apps haben da jetzt zugegriffen in letzter Zeit und welche Art von Daten können sie lesen oder schreiben et cetera. Ähm-Also diese Health Data, das ist alles das, was man so normalerweise assoziieren würde. Und ich hab mich da wie gesagt sehr intensiv mit beschäftigt. Ähm, es gibt eine App, die kann man nicht im App Store laden, im Play Store, sondern die gibt's auf der Google Developer Site zum Runterladen ins APK. Das ist die Health Connect Toolbox und damit hast du wirklich einfach quasi so 'nen Zugriff raw auf die Datenbank, wo du quasi dir diese Zugriff einfach simulieren kannst und dir angucken kannst, was da so drinne steht. Und dadurch weiß ich halt auch, was man alles eintragen kann. Also es geht jetzt wirklich los mit natürlich simplen Sachen wie Schritte. So, aber halt auch, ähm, Herzfrequenz. Ähm, du kannst eintragen Gewicht, äh, Knochenmasse, Muskelmasse. Ähm, nein, Muskelmasse nämlich nicht. Das ist richtig seltsam. Also das ist der einzige, einzige Kritikpunkt, den ich gefunden habe, dass diese Sache, obwohl's ein-- eigentlich im Verhältnis zu den ganzen anderen Sachen, die es gibt, eigentlich ein sehr common Datenpunkt ist, den kann man nicht eintragen. Ich muss mir das so berechnen übers Eck, weil quasi, äh, man kann, also Health Connect kann zum einen kann die Masse aller Knochen und die Masse von allem, was Knoch-- nicht Knochen und nicht Muskeln sind, speichern und darüber kannst du's dir dann quasi zurückrechnen.
Ah, was denn das für einen Sinn?
du kannst auch natürlich Ernährung. Du kannst E-Ernährung tracken, Flüssigkeitsaufnahme tracken, äh, du kannst dein Gewicht tracken. Also es sind einfach alles Datenpunkte. Natürlich kann man auch, äh, Frauengesundheitsthemen tracken dort. Halt also, also Menstruationsblutung, äh, Zervixschleim kann man alles tracken. Und was ich einfach nur, das ist der Punkt, den ich witzig finde in Anführungszeichen, ich seh, dass wieder die Kommentare kommen, explizit als Unterpunkt von Frauengesundheit, also etwas, was ich als Mann nicht tracken will, aber als Frau vielleicht schon, ist der Health Data Record vom Typ Sexual Activity.
Ja.
Wo als, als Parameter-- Es gibt nur einen Parameter von Sexual Activity, und zwar Protection Used, true oder false.
Hä, aber das steht einfach so casually so in der Datenbank. Also, also ist ja natürlich vollkommen logisch, warum das alles da ist, weil du kannst ja, ich sag mal, anhand von diesen ganzen Datenpunkten zusammen mit ja auch Temperaturmessungen, ja auch den, den Zyklus vorhersagen. Und das find ich aber halt auch ein bisschen komisch, da jetzt zu sagen, okay, man trackt da jetzt zum Beispiel jetzt täglich solche Aktivitäten oder du trackst täglich den, deine Schleimkonsistenz. Also das ist halt schon irgendwie etwas weird, aber das kann man machen und das hilft halt diesem, diesem Prediction-Algorithmus sozusagen. Jetzt einfach nur mal als Kontext für, für alle, denen das vielleicht etwas komisch vorkommt.
Also es gibt da so eine App, die halt Frauengesundheitstracking macht und in der kannst du auch Sexual Activity tracken. Ich weiß nicht, ob das mit Google Health Connect kompatibel ist und ob das das synchronisiert.
Aber es könnte.
Es könnte, da steht an dem, an dem, an dem Tag so ein Herzchen. Also wenn man Sex hat, dann steht da so ein Herzchen an dem Tag. Egal. Jedenfalls, ähm, äh, gibt es da halt all diese Sachen und auch da deswegen,
"Das möchte ich niemals mit Google synchronisieren." Nein, das ist doch auf dem Handy. Also so weit, dass du's wirklich gar nicht synchronisieren kannst mit Google. Also, "Das würde ich niemals machen, das ist mir viel zu unsicher." Da ist nichts unsicher, das ist auf deinem Handy.
Und das Geile, was diese Datenbank halt ermöglicht, was ich so krass finde und so gut und so nützlich, was ich niemals von 'nem großen Tech-Konzern erwarten würde, ist halt, dass es die Interoperabilität zwischen all, allen möglichen Apps ermöglicht.
Also das ist echt atypisch. Also das müsste man jetzt noch mal jetzt direkt so betonen.
Ja, das find ich so krass.
Ja.
Genau. Jona, ich habe ganz kurz mal aus der Health Connect Toolbox, die ja alles lesen kann, kurz diese Health Data, was es da alles gibt. Also wir haben aktiv verbrannte Kalorien, bewältigte Steigung, bewältigte Stockwerke, Daten zur Intensität von Aktivitäten, Geschwindigkeit, insgesamt verbrannte Kalorien, Leistung, maximale Sauerstoffaufnahme, Rollstuhlanschübe, Schritte, Sport, Trainingspläne, Strecke. Und dann haben wir aber hier halt auch andere Sachen wie Ruheherzfrequenz, Sauerstoffsättigung, Hauttemperatur, Blutzucker und, ähm, ja, es, geht, es wird irgendwo-- Schlaf, diverse Körperwerte, Vitalparameter. Du kannst sogar Achtsamkeitsübungen tracken.
Ja, wow.
Das find ich richtig krass. Und was ich nämlich, also insofern find ich das interessant. Ich, also jetzt kommt's, jetzt kommt mir langsam wieder meine Argumentation halt in den, in den Kopf, weil ich finde so, ja, like, mir ist bewusst, like, Frauengesundheit, Sexual Activity tracken, okay. Aber, like, ich möchte das als Mann vielleicht auch machen, um Zusammenhänge aufzuzeigen.
Ja.
So und auch, ich meine, es gibt einen Grund, warum du da den Parameter Protection Used, äh, angeben kannst und halt speichern kannst. Also da hab ich, ich habe dann Frauen gefragt in meinem Umkreis so, like, welchen Sinn hat das? Da hat sie gesagt so: "Na, wenn dann halt die, die Periode überfällig ist, kann man halt kurz gucken, wann hatte ich denn das letzte Mal ungeschützten Sex? Könnte ich schwanger sein?" Und-
Ja, und sich dann, sag ich mal, einschätzen-
Ja.
-wie wahrscheinlich es, sag ich mal, sein könnte, richtig.
denk ich mir so: Okay, aber vielleicht habe ich auch ein Interesse daran, mir aufzuschreiben und nachsehen zu können, wann ich das letzte Mal ungeschützten Sex hatte.
Okay, aber Frage: Ist das, ist das dann einfach nur, um vor sich selbst zu flexen? Oder warum [lacht]
Also, hä, nein, ich denke, dass das eine-- eigentlich kann man ja über-- jetzt ich-- wir, kommen jetzt ein bisschen von diesem Thema weg. Keine Sorge, aber prinzipiell würde das ja bedeuten, dass man solche fundamentalen Analysen über die Gesundheit des Menschen halt auch direkt, will ich sagen, mehr oder weniger automatisiert machen kann. Das heißt jetzt natürlich nicht, dass alle Hausärzte wegfallen. Das ist jetzt natürlich keine, keine Frage, aber dass man halt, sag ich mal, dann schon das schon direkt erkennen kann auch schon vielleicht sehr viel früher erkennen kann, weil man ja ansonsten nicht sagt: „Oh ja, lass mich erst mal diese vier verschiedenen Data Sets miteinander kombinieren, um zu validieren, dass ich nicht diese eine seltsame Krankheit habe." Also du verstehst, was ich meine. Die jetzt sich jetzt in solchen Parametern jetzt konkret äußert, sondern das könnte man halt direkt, so lange genügend Daten mit in dieses System gefüttert werden, solange es da eine App gibt, die halt das dann alles auswerten darf-
Ja.
-könnte man das halt so richtig geil auslegen, sodass einfach die Menschheit insgesamt gesünder wird. Also das ist so ein bisschen das, was ich und das ist eine super Überleitung mit meinem-- ich hab-- ich nenne das das Gesundheitssystem quasi.
Ach so, sehr schön.
Was ich mit meinem Gesundheitssystem, was ich jetzt entwickelt habe, so ein bisschen erreichen will. Und dafür ist Google Health Connect einfach Key, weil ich könnte niemals und würde auch nicht wollen, alle Teile dieses Systems von einem Hersteller haben wollen, weil mir das einfach viel zu krasser Lock-in ist. Also Jona, ich habe, ich habe 'ne Fitness-Tracker-Uhr. So, die hat eine App. Ich habe eine smarte Waage, also eine Waage, die nicht nur smart ist, weil sie ist verbunden, sondern das ist eine Waage und die misst aber auch Körperwerte und alles Mögliche, äh, halt Fettanteil, Muskelanteil.
Sie kann aus meinen ganzen Daten dann sogar berechnen, was mein Grundumsatz an Kalorien ist. Und, äh, so, dann hab ich, ich habe ein smartes Blutdruckmessgerät, was diese Daten erfassen kann. Und diese Apps sind alle nicht miteinander kompatibel.
Ja.
Von sich aus. Und ich habe, ähm, eine, eine App, die, mit der ich halt meine Ernährung tracke, die ich auch-- Also Jona, ich habe alleine diese App, das ist eine Open-Source-App, also es basiert auf Open Nutri Tracker, aber ich habe diese App so massiv ausgebaut. Also sie hat von sich aus keine Health-Connect-Verbindung, aber das ist einfach eine Datenbank. Du importierst das richtige Modul und dann geht's los.
Ja, sehr schön.
Ähm, und das alles wäre nicht miteinander kompatibel und ich würde das niemals hinkriegen. Und dann hab ich nämlich noch programmiert, ähm, eine Trainings-App, die quasi ein gewisses Krafttraining halt, äh, mich machen lässt, auch was halt Google Health Connect hat. Und das fließt alles in Google Health Connect zusammen. Und dann habe ich mir eine Dashboard-App programmiert, die all diese Daten ausliest aus Google Health Connect und dann quasi halt Zusammenhänge zieht und halt quasi so was sagt wie like: „Okay, alle möglichen Parameter sind so, dass ich Fett verlieren müsste."
Ja.
Ist das auch passiert? Wenn ja, gut. Wenn nein, hier ist eine Reihe von Parametern, die man tweaken kann. Zum Beispiel sagen wir: „Okay, dann stimmt, dann stimmt die Berechnung, wie viele Kalorien ich beim Laufen verbrenne, wahrscheinlich nicht. Dann tweaken wir das ein bisschen."
Ja.
Und all das funktioniert nur wegen Google Health Connect.
Geil.
Und was es nämlich auch noch gibt, das ist der zweite große Teil der Google-Health-Connect-Daten. Das nennt sich halt, das, wie gesagt, ist ein bisschen seltsam gemacht. Also das eine nennt sich Health Data und das ne, jetzt nennt sich Medical Resource. Und das ist wirklich ein bisschen, sag ich mal, ein bisschen krasser, weil da geht's wirklich um-- Also auf Deutsch heißt das eine Fitness und Wellness, das wo wir ja schon Fitness-Tracker und von. Und das andere, da geht's wirklich um, da geht's um ärztliche Sachen.
Also eigentlich Laborbefunde und ärztliche, genau.
Da haben wir hier zum Beispiel, ähm, da ist auch das Berechtigungssystem anders. Da hast eine App, wenn sie Schreibzugriff hat, hat sie Schreibzugriff auf alle medizinischen Daten und du kannst einer App aber Lesezugriff auf bestimmte Kategorien geben. Aber auch da gibt's einige interessante Sachen. Und zwar da haben wir Allergien, Arztbesuche, Daten zu Ärzten, Erkrankungen, Impfungen, Laborergebnisse, Medikamente, medizinische Verfahren, personenbezogene Daten, Schwangerschaft, Vitalparameter und dann gibt's noch eine Kategorie namens Sozialanamnese. Und da hab ich dann natürlich in der Health Connect Toolbox halt mal geguckt: Okay, warte mal, was könnte ich denn als, ähm, da gab's da als Sozialanamnese, als Beispiel, als so 'ne Jason. Da gibt's halt so Jason-Beispiele und dann ist es quasi, was ist-- Also im Englischen heißt das Social History, Sozialanamnese. Dann haben alle, also alle meine Freunde, die das gesehen haben, gesagt: [lacht] „Ist ein Vollidiot. Sozialanamnese." [lacht] Nee, und zwar zum Beispiel ist ein Beispiel für Sozialanamnese: War als Kind, äh, Passivzigarettenrauch ausgesetzt.
Okay, warte mal kurz.
Ja.
Das-- Diese, diese Aussage war für mich jetzt auch wieder so extrem, so Watch Dogs codet, so wie du das jetzt natürlich so präsentiert hast. Also das hat jetzt auch schon wieder... [lacht]
Das ist so eine geile, die man so sehen würde bei Watch Dogs.
Ja, richtig. Dann so: „Oh ja, hier, Ihr Bruder
dealt gerade mit XY", oder so etwas. Ja.
Und aber das, wie gesagt, deswegen ist das halt auch noch mal eine andere Sache und ich hab noch nie eine App gesehen, die so was benutzt, außer natürlich meine selbst programmierten Apps, weil das ist nur eine Datenbank. Aber das ist wirklich so, das ist so ein bisschen das Äquivalent zu der elektronischen Patientenakte quasi, was du in den USA halt quasi hast, was bei uns die elektronische Patientenakte ist. Ähm, und tatsächlich benutze ich eines dieser Sachen auch für mich, äh, in meinem System, und zwar Medikamenteneinnahme. Da ist es ein bisschen schwierig. Du kannst, weil das, wie gesagt, das ist eigentlich für ärztliche Sachen. Das ist nicht: Ich messe mich selbst. Deswegen gibt es dort keinen Record Type, der sagt: „Ich habe Medikament eingenommen."
Es gibt Medikament ist verschrieben, so und so genommen zu werden und es gibt einen Datentyp, der quasi sagt, die Schwester hat mir jetzt dieses Medikament gegeben, damit ich es nehme. Aber sie betonen in der Dokumentation, das ist aus 'nem medi-- also aus einer medizinfilosophischen Sicht gibt es einen Unterschied zwischen mir wurde das Medikament gegeben, um es jetzt zu nehmen und ich habe es jetzt genommen.
Ja.
Aber mir ist das egal. [lacht]
Ja.
Ich schreibe diesen, äh, ähm, Medication Administration Record einfach rein und ich weiß, dass es in meiner App heißt, ich habe genommen. Nicht mir-- jemand-
Jemand war bei dir zu Hause und hat sie dir gegeben.
Ja, so genau. Und das ist halt richtig, richtig cool. Und durch diese ganzen Sachen hab ich da so-- Ich, ich will da nur so 'n ganz kleinen Einblick geben. Ich hab schon über das Gerät, mit dem, äh, nehme ich wirklich ab, wenn ich sollte. Aber zum Beispiel auch so was wie so Convenience-Sachen. Zum Beispiel, wenn mich meine App halt fragt: „Hey, hast du deine Medikamente genommen?" Und ich nehm die meistens, äh, nach dem Aufstehen, aber muss ich theoretisch nicht, aber meistens nehm ich sie nach dem Aufstehen. Und wenn mich dann meine App, wenn ich sie dann irgendwann am Tag aufmache, fragt die mich: „Hey, hast du deine Medikamente heute genommen?"
Ja.
Und wenn ich dann Ja drücke, dann kriege ich die Auswahl: Möchtest du eine Uhrzeit eingeben oder war's nach dem Aufwachen?
Ja.
Wenn ich nach dem Aufwachen drücke, liest er aus den Google Health Connect Daten, wie mein Tracker getrackt hat, wie ich schlaf, wie ich geschlafen habe. Und dadurch ist berechenbar, wann ich die Medikamente genommen habe, auch wenn ich mich nicht erinnere, wann das war, weil ich halt irgendwann aufgewacht bin. Und ich weiß halt-
Das sehr, geil. Als, als kleine Tangente dazu: Ich benutze tatsächlich auch die, ähm, die, Schlafwahrscheinlichkeit, die ja auch jedes Handy, sag ich mal, so als Prediction mit rausgibt, die benutze ich tatsächlich auch als, ähm, Trigger in Home Assistant, um einfach mal am Ende des Tages alle möglichen Dinge aufzuräumen. Also natürlich, um zu gucken, alle Lichter sind aus et cetera. Einfach mal so die ganzen, dass da auch die ganzen anderen Maintenance-Sachen durchlaufen, dass man irgendwelche boolesche Helfer dann noch aktiviert oder deaktiviert.
Wie gesagt, also das ist-
Das, das ist sehr, sehr praktisch.
Das ist extrem praktisch und deswegen ist quasi in meine Dashboard-App auch integriert, dass die Dashboard-App, sobald ich's aufmache, weil's halt eben keine Möglichkeit gibt, einfach zu sagen, exportieren wir's mal in eine Datei. Meine Dashboard-App erzählt einfach alles, was sie hat, sobald sie aufgemacht wird und ich in meinem lokalen Netzwerk bin, meinem, 'nem Server. Und der macht dann damit lustige Sachen, bei denen ich aber noch am Arbeiten bin. Also ich kann ein bisschen foreshadowen. Ähm, in Zukunft soll es mir nicht nur mehr ermöglichen, mein, mein Essen zu tracken, es soll mir sogar empfohlene Ernährungspläne zusammenstellen.
Wow.
Basierend auf quasi, die sich dynamisch ändern, je nachdem, wie, was ich gemacht habe heute, wie viele Kalorien ich verbraucht habe, wie viel Wasser ich verbraucht habe.
Richtig. Und das ist ja find ich richtig crazy, weil da kann man ja so richtig weit denken. Da könnte man ja sagen: Oh, okay, welche Sachen hat man denn eingekauft, was man einbinden könnte? Oder wie sieht denn der aktuelle Kalender aus? Und du kan-- könntest dann schon vorhersagen, okay, wie wahrscheinlich ist es denn, dass du jetzt keinen Bock hast, jetzt irgendwas Großes zu kochen-
Ja.
-nachdem du nach Hause gekommen bist? Das ist ja-
Genau.
-vollkommen menschlich und, äh, normal, dass man dann sagt: „Ja, okay, dann hat man halt schon irgendwas vorbereitet für diesen Fall." Oder dass, dass, dass, sage ich mal, auch mit einberechnet wird dass es, dass man nicht hinschaut: Ah ja, okay, es ist jetzt schon um acht und die App schlägt dir jetzt halt das größte Festmahl überhaupt vor. Und dann sagt man dann vielleicht, okay, hat man keinen Bock vielleicht drauf. Da gibt es ja extrem viele solche Features, die man ja auch mit in solche Vorhersagen mit einbinden kann.
Genau.
Das natürlich wild. Da fehlt jetzt nur noch der überteuerte smarte Kühlschrank, der den Inhalt noch trackt.
Da hab ich-- Da hab ich, da hab ich kein Bock drauf. Also das hab ich schon überlegt. Ich hab schon, ich hab sehr, sehr viele Jahre immer mal wieder nachgedacht: Wie könnte ich, ohne zu sterben an Organisatorischem, 'nen smarten Kühlschrank bauen, der weiß, was er in sich hat? Ich hab's nie geschafft. Ich hab's aufgegeben. Ich mache das nicht mit „Was hab ich im Kühlschrank?" Sondern ich würd halt eher sagen, ich hab jetzt, ich hab jetzt spontan diese Limo hier gekauft. Ich hab die, ich, ich tracke einfach, ich hab die jetzt getrunken und dadurch passt sich dynamisch der Plan an, was ich demzufolge heute noch essen oder nicht essen sollte.
Ja, richtig. Und du kannst ja zumindest all deine, deine Belege natürlich mit tracken und auch mit in das System mit reinführen. Ja.
Wie gesagt, auch da Open Food Facts, damit arbeiten meine Apps auch sehr zusammen. Ich hab die auch Open Nutri Tracker mit Funktionen ausgestattet, dass ich direkt aus Open Nutri Tracker zu Open Food Facts beitragen kann und zu Open Prices. Ähm, weil sonst, sonst mach ich das nicht. Ich mache nicht zwei Apps auf und fummel mich da durch irgendein Interface. Ich scanne das Ding und es sagt mir: „Stopp, Wieland, da fehlt noch diese Daten. Willst du die kurz eingeben, bevor du's abschickst?" Ja, und dann schick ich ab, ich hab's getrunken.
Ja, sehr schön.
Und damit geht das halt alles. Und dann gibt's noch eine dritte kleine Sache, die in Health Connect gespeichert ist. Das sind so, also das sind diese drei Punkte, diese kleinen Daten, ähm, wo quasi auch noch mal wirklich 'ne extra Permission Art gebraucht wird. Und zwar ist das, ähm, sehr interessant bezüglich des Zugriffs. Also Apps dürfen, wenn sie den Zugriff haben, aus allen anderen Apps lesen. Also es ist immer auch verzeichnet, wer, also welche App das geschrieben hat. Das ist quasi immer ein Standard-Metatag. Es ist immer verzeichnet, ähm, Device Name kann verzeichnet sein und was für eine Art von Eintrag ist es, also manually recorded, automatically recorded, inferred. Und da fand ich einfach die Idee so lustig, dass es quasi theoretisch möglich wäre, dass es einen Eintrag geben könnte, wo wir jetzt wieder bei Watchdogs sind, nach dem Motto, ähm, Device Type Amazon Echo, Recording Type manually recorded, Activity Type sexual activity. [lacht]
Da gab es ja schon mal so eine Quatschfolge mit einem ähnlichem Titel.
Das ist, es ist, es ist vom Datenmodell ermöglicht, dass so ein Eintrag auftauchen könnte.
Yes.
Ähm, und also jede App darf, wenn sie lesen darf, von allen anderen Apps lesen. Sie darf für sich selbst schreiben und löschen, aber nur für sich selbst. Also eine App darf nie, das kannst du gar nicht erlauben, von anderen Apps Einträge löschen. Und das Coole bei den Health Connect Daten ist auch, du kannst Aggregate Data quasi anfragen und damit, ähm, bezieht er das Smart aus verschiedenen Apps mit ein. Wo ich aber sagen muss, weil du hast das schon so ein bisschen angerissen vorhin, es funktioniert nicht so gut, vor allem bei den Schritten. Ich hatte lange Zeit, mein, mein Dashboard hat mir gesagt: „Wieland, du bist so geil. Du machst so viele Schritte jeden Tag. Es ist so nice, das zählt als Training, so viel bist du gelaufen. Musst gar kein Muskeltraining machen heute." Ich so: „Bin ich so geil?" [lacht] Äh, und dann stellt sich halt einfach heraus, ich habe meinem Handy erlaubt, Schritte zu schreiben und meine App von meinem Fitness-Tracker schreibt auch Schritte. Und eigentlich ist dieses System voll geil und kann das quasi rausrechnen und kann quasi verstehen, dass jetzt hier, wenn zwei Apps sagen, dass ich im selben Zeitraum Schritte gemacht habe, dann sind die nicht zu addieren.
Ja, ja.
Sondern so, aber das funktioniert nicht richtig und deswegen habe ich meinem Handy einfach verboten, in die Schritte reinzuschreiben, sondern das macht nur die App von meinem Fitness-Tracker.
Ja, weil sonst war das ja auch, ist das ja auch eigentlich so gedacht, dass du dann diese, die Daten dann eben gerade so fusionieren kannst, weil es gibt ja auch manche Leute, die dann auch richtig für, tatsächlich für Fitnessgründe auch tatsächlich ja dann auch den, den Tracker meinetwegen am Bein haben oder so. Du hast halt literally halt einfach die viel geileren und sichereren, sage ich mal, Datenpunkte einfach. Wenn du sagst, okay, du hast jetzt dein Handy und du hast jetzt noch deine Smartwatch und es gibt ja auch manche, die das halt eben wie gesagt wie so eine Art Fußfessel mehr oder weniger am Bein tragen. Also das, das müsste es ja eigentlich schaffen, aber gut.
Deswegen, aber das geht. Ansonsten ist wirklich richtig geil. Da gibt es halt auch diese Funktion, halt in dieser API zu sagen, einfach also: „Lese bitte aggregierte Schritte von dem Zeitpunkt bis dem Zeitpunkt. Insgesamt mit rausgerechnet und allem." Richtig geil. Und da, und also und das Nächste ist, Apps können standardmäßig nur dreißig Tage in die Vergangenheit gucken bei allem. Du kannst eine Zusatzberechtigung geben, um für immer in die Vergangenheit gucken zu können. Und was auch zu dieser dritten speziellen Kategorie gehört, sind GPX-Tracks. Was ich so, so geil fand, weil ich fand immer so scheiße, weil ich hätte gerne für ein anderes Projekt hätte ich halt gerne immer meine Wanderungen vom, äh, von der Strecke, also von, von der Route her aufgezeichnet und dann quasi gerne mit Daten wie Herzfrequenz und so überlagert und aggregiert.
Ja.
Und in der App von meinem Fitness-Tracker ging das halt nicht. Da konnte ich, wenn ich Glück hatte, halt so einen fucking GPX-Track, aber auch richtig schlecht, weil den konnte ich nur exportieren, wenn ich mit der Cloud synchronisiere, wo ich langgelaufen bin. Also fand ich richtig kacke. Und aber die Tracks deines Trainings sind einfach auch ein Datentyp in Health Connect, den du auch halt einfach schreiben kannst einer separaten Berechtigung aus dieser dritten Kategorie. Und dann kann die halt jede App lesen, die darauf Lesezugriff hat. Also habe ich mir dann einfach einen eigenen kleinen Exporter gebaut.
Sehr geil.
So und da habe ich geile Sachen mit vor. Also ja, das, also oh Leute, Google Health Connect, fucking geil.
Wieland, du kannst dir nicht vorstellen, wie gehypt ich tatsächlich war, als ich letztens, ähm, die Veröffentlichungshinweise, die Änderungsnotizen gelesen habe. Also vielleicht ist ein bisschen eine weirde Aktivität, das zu machen und sich währenddessen so heftig zu freuen.
Mache ich auch.
Okay.
Aber die Frage ist, von welcher Software denn?
Da ging es mir tatsächlich ESP Home.
Okay.
Da habe ich nämlich, ähm, bei der Version, lass mich jetzt lügen, 2026.5.0b1, also einer Beta-Version-
Okay
direkt gelesen: Oh ja, da hat ein gewisser Dude, den ich halt, den ich halt einfach schon von, von GitHub-Kürzel her kenne-
Mhm
sage ich mal, jetzt endlich mal das geschafft, seinen Code mit zu mergen. Tatsächlich halt in die aktuelle Version, nämlich halt Zigbee Support.
Okay.
In ESP Home. Geht jetzt halt einfach.
Okay.
Vorher war das halt einfach nur extrem limitiert auf nur einen Chip, den halt gar nicht so viele benutzen, halt diesen NRF-Chip. Aber jetzt geht das halt auch für, was ja sehr viel mehr verbreitet ist, jetzt natürlich der, der ESP 32C6 und auch H2. Die haben ja standardmäßig direkt Zigbee Support.
Mhm.
Und das heißt, dann kannst du jetzt halt auch direkt deine, deine Projekte dann auch direkt damit ausstatten. Und das ist halt geil, weil du kannst einfach direkt dann die, die, äh, Sensoren und die binären Inputs et cetera einfach damit über Zigbee mappen. Und du hast natürlich trotzdem noch die ganzen Funktionalitäten aller externen Bibliotheken da noch mit drin und du kannst natürlich deine ganzen Sensormodule, so wie man es halt kennt, auch einfach einbinden. Und ja, da bin ich gerade noch dabei, tatsächlich meine, meine, meine Software gerade noch ein bisschen umzuschreiben, da mal zu gucken. Weil die ersten, der erste Versuch mit, mit der externen Komponente, wo man ja auch schon andere Forks direkt mit als Komponente einbinden kann, war nämlich nicht so erfolgreich. Weil das technisch gesehen war das prinzipiell auch schon bis jetzt möglich, aber nur mit so einer externen Komponente, aber hat halt einfach bei mir nie funktioniert. Ich habe halt nie herausgefunden, woran das jetzt konkret gescheitert ist. Aber jetztIst das, sage ich mal, final. Jetzt wurde es auch, sage ich mal, in den Main Branch auch gemercht. Jetzt ist es nicht mehr nur im, im Beta Branch und da bin ich halt extrem gehypt, weil bisher konntest du einfach immer nur Wi-Fi benutzen. Also jetzt mal so ganz einfach gesagt, du konntest nur Wi-Fi benutzen und es gibt ja nur zwei ESP-Home-kompatible Geräte, die ja Ethernet sozusagen haben können. Also weil da gibt es, ja glaube ich, nur von, von WaveShare und noch irgendeinem anderen Hersteller halt richtig ESP 32 Dinger, die du halt wirklich auch per Ethernet anschließen kannst. Das geht theoretisch auch, aber ansonsten war das eigentlich immer, oh ja, du hast das immer per, per Wi-Fi, sage ich mal, angesteckt und ich habe jetzt natürlich mir einen eigenen Präsenzmelder schon mal zusammengesteckt und programmiert. Es funktioniert super.
Oh, geil.
Also ich sage mal, es ist, es ist wirklich heftig Plug and Play. Du musst jetzt nicht die Arduino ID aufmachen und jetzt sagen: „Okay, hier, ich mache jetzt das in der Loop, hier die Befehle musst du alle benutzen, damit ich das zum Laufen bekomme", sondern das ist halt absolut simpel. Du schreibst einfach nur deine YAML-Datei zusammen, lädst die auf dein ESP32 und fertig. Es funktioniert halt einfach. Es ist halt auch für dumme Menschen geil. Das war jetzt so ganz einfach gesagt.
Sehr gut. [lacht] All unsere Zuschauer installieren es.
Direkt herunter. [lacht]
Geil. Ja, also erst mal jetzt so beleidigend.
Nein, nein, nein.
Geil.
Also es ist extrem anfängertauglich. Also du schreibst halt wirklich nur ein paar Zeilen in deinem Texteditor, kannst das hochladen und du musst halt nichts in C oder so etwas tun, sondern du benutzt einfach nur deine deklarative Sprache und fertig und da kann nicht wirklich etwas schiefgehen, sage ich mal.
Mhm.
Und das ist halt heftig.
Das ist geil.
Und da kann man halt auch extrem viel Geld natürlich sparen, indem man sich dann seinen eigenen Präsenzmelder oder andere Sensoren halt zusammenbaut, insbesondere jetzt, ähm, wenn man jetzt zum Beispiel speziellere
Werte tracken möchte. Jetzt zum Beispiel, ähm, CO₂-Gehalt der Luft ist ja zum Beispiel auch ein, ein schwieriges Thema, weil da gibt es halt einfach eine direkte Korrelation zwischen Preis und wie geil deine Werte sind. Das ist halt ganz schlimm, weil gibt es halt keinen, keinen Trick.
Ja.
Kein Trick, also keinen, oh ja, da gibt es jetzt einen Sensor für zwei Euro oder drei Euro, der jetzt halt einfach geil ist, sondern das skaliert halt einfach linear. Die mit-- Die für zwei Euro erfinden im Zweifelsfall Werte, weil sie einfach nur etwas anderes messen und CO₂-Werte daraus nur inferieren und halt einfach nur so Pi mal Daumen schätzen. Während für dreißig Euro gibt es da einen verhältnismäßig sinnvollen Sensor. Jetzt zum Beispiel, ähm, was ja sehr häufig empfohlen wird, ist der SCD40. Und da gibt es aber natürlich alles bis man kann zehntausende Euro für CO₂-Messungen ausgeben. Und natürlich sind da die Ergebnisse extremst geil, aber da gibt es halt keinen Shortcut sozusagen zu geilen Ergebnissen.
Okay.
Und da kann man halt richtig geile Sensoren einfach damit halt an seinen Home Assistant oder anderes beliebiges System natürlich mit anbinden und das ist schon heftig geil, weil ich hab da jetzt mir zum Beispiel auch noch einen eigenen, ähm, einen eigenen Wasserlecksensor tatsächlich mit Kabel gebastelt.
Okay.
Da kann man nämlich sich von Shelly, tatsächlich von deren Wasserlecksensor tatsächlich so ein, also eigentlich eine Art Audiokabel kaufen, wo die Außenhülle teilweise Strom leiten kann. Das ist halt ein sehr, sehr interessantes Produkt. Das ist halt eigentlich eine Verlängerung, um Widerstände zu messen. Also die, die, [räuspert sich]
der Wassermelder funktioniert so, dass du halt einfach nur den Widerstand zwischen zwei Metallkontakten misst.
Ja.
Und das kann man auch, wenn man es nicht so präzise braucht, was man in dem Fall, was in dem Fall ja nicht so ist, weil man sagt nur, ist Wasser da oder nicht. Das reicht ja für die, für die Fälle total aus. Kann man das halt mit einem simplen Widerstand natürlich auch umsetzen, dass man sagt, okay, man baut sich, sage ich mal, einen Spannungsteiler zwischen diesem Kabel und halt der Spannungsversorgung deines, deines ESP32 und nimmst diesen, diesen Spannungsteilerpunkt und misst halt einfach mit deinem ADC, welchen Spannungswert du dann hast. Damit dann kannst du ja deine Spannungsteilerformel ja entsprechend umstellen und weiß dann-
Aha.
-kannst du halt ja Widerstände messen.
Okay. Ja.
Also.
Ja, ich war, ich war
Du kannst halt einfach Elektrotechnikdinge halt tun und kannst dann halt Pi mal Daumen wissen, okay, wie viel Widerstand hast du denn da jetzt? Und bei dem Sensorkabel ist das recht spannend. Ich habe da eben herausgefunden, dass da eben ein Megaohm eine sehr gute Grenze ist. Also das sage ich mal, da drüber, es ist kein Wasser und da drunter, es ist Wasser am Kabel, sage ich mal, bedeutet. Und es ist ein Audiokabel, das hätte ich vielleicht noch mal sagen sollen, weil es tatsächlich so die 3,5-Millimeter-Klinke halt embraced.
Okay.
Und es benutzt die, die, die Tip und die Sleeve davon einfach nur. Und das, das kannst du halt einfach so benutzen, wie du möchtest. Und ich weiß, ich, ich weiß nicht genau, was, was mit dem Ring passiert. Ich weiß nicht, ob das, ob das nicht verbunden ist oder ob das auf eine der anderen, ähm, mit angebunden ist. Das weiß ich nicht so genau, was da passiert. [räuspert sich] Aber man kann das halt einfach zweckentfremden und halt einfach selbst messen. Und der Vorteil an diesem Kabel ist, dass man das halt nicht nur punktuell Wasser messen kann, sondern halt über diese gesamten zwei Meter oder anderthalb Meter, wie lang dieses Kabel halt ist. Und man kann meinetwegen auch noch Türkontakte anschließen, die dann jetzt natürlich auch alle keine separate Batterie brauchen, weil das ja im Smart Home ein häufiges Problem ist, so: Okay, welche Batterie darf ich denn diese Woche wechseln? Das ist jetzt mal so übertrieben gesprochen.
Ja, ja.
Also dann braucht das halt jetzt hier irgend so ein spezifisches Ding, jetzt mal so im schlimmsten Fall gesprochen. Das kann man damit natürlich auch etwas abwenden, indem man einfach irgendwo mal zentral sich so ein ESP32 hingeklemmt hat und dann alle Sensoren, die man halt haben möchte in diesem Raum, da einfach zusammenlaufen lässt, sozusagen. Das ist ja auch recht, dann recht entspannt.
Ja Jona, nicht nur we have been cooking. Nicht nur wir waren am Loginnen, wie die jungen Leute sagen und am Kochen, wie die jungen Leute sagen, sondern es war ja vor Kurzem die Google IO, Googles, äh, Konferenz, wo sie einfach sagen, wie toll sie sind und was sie jetzt alles demnächst rausgebracht haben und rausbringen werden. Und ich muss ganz ehrlich sagen: Holy Moly, es war dieses Mal echt eine Google AIO. Also-
[lacht] Ja.
Es ging nur um KI.
Also-
halt nur.
Ja.
Also halt, w-- also-
Also das, also das, was ich jetzt zum Beispiel gehört hatte, dass sie einfach nur die, die Google-Suche Leiste halt mehr oder weniger jetzt einfach zu so einem eigentlich eine Art Universaltool mehr oder weniger werden soll. Und dass es auch richtig weird war, wie sie jetzt so ihre, wie hießen die denn, glaube ich, Google Books oder so, ähm, veröffentlicht hatten, dass das irgendwie bei so einem separaten Event technisch gesehen war, was halt irgendwie so kurz davor irgendwie, irgendwie ist da was Komisches passiert bei dem, bei dem Release Cycle, dass die da kurz davor noch was anderes
erklärt haben.
Genau, ja also das war auch so die eine große Sache, über die wir reden. Es gab so, es gab so viele Sachen, das ist alles so cool und so krass. Es ist ganz schön ermüdend, muss ich sagen mittlerweile, weil ja natürlich im Prinzip, man kann's zusammenfassen mit jede Sache, die irgendwie, äh, ein Google-Produkt ist, bekommt mehr oder weniger entweder für die Google Ultra Subscriber irgendeine „Erzähl dem halt einfach all dein Zeug-Funktion" oder es gibt halt, oder jede Suchbox wird zu einer agentischen Leiste. Also du hast schon richtig gesagt, sie haben, sie sind voll stolz drauf, seit über zwanzig Jahren, jetzt nach zwanzig Jahren ändert sich die Funktion der Suchbox auf Google. Das quasi im Prinzip auf diese Weise will Google so ein bisschen den Markt cornern, denke ich mal, weil quasi, ähm, Google hat so ein bisschen angefangen, glaube ich, Angst zu haben, weil Leute sind dazu übergegangen, statt Dinge zu googeln, einfach das, was sie googeln würden, bei ChatGPT einzugeben.
Ja.
Und so, da wollte Google jetzt sozusagen auch, jetzt auch einen Teil davon haben, quasi indem sie einfach sagen: „Ja und unsere Suchleiste ist dasselbe quasi." Dass es hinausgeht über diesen AI Mode, sondern dass du auch einfach sagen kannst, du gibst was ein in die Suchleiste und das ist halt der Start einer Konversation mit Gemini. Natürlich, ähm, sehr beeindruckend, Gemini Omni, das Modell, was von allem zu allem kann. Also was uns versprochen wurde damals mit GPT 4.0. Man erinnert sich, das O stand für Omni.
Ja.
Ähm, und es kann von allem zu allem. Es kann Videos generieren, die sehr gut, äh, physikalisch gegroundet sein sollen. Also das ist richtig krass, aber ansonsten wird alles irgendwie so ein bisschen agentisch. Auch in YouTube gibt's dann die Funktion, dass du in der Suchleiste halt nicht was suchst, sondern du gibst halt ein: „Erkläre mir, wie ich Fahrrad fahre." Und dann nutzt die Suche einfach nur YouTube, um dir einen Zusammenschnitt aus relevanten Videos zu zeigen oder so was. Oder zu sagen: „Ja hier, klick mal hier," und dann geht automatisch das Video an der richtigen Sekunde auf, wo du das und das siehst und dann klick mal hier, um dir das anzusehen. Also ja.
Oh wow,
Und das Zweite ist halt quasi, alles wird agentisch. Google, äh, möchte jetzt auch so was ausrollen, was quasi für dich im Hintergrund arbeitet. Es ist sehr, äh, sehr krass, sehr agentisch, sehr viel fokussiert auf: „Erzähle Google irgendwas und es macht es schon irgendwie für dich."
Ah, ja.
Aber es war schon so, es wurden auch, ähm, diese, das fand ich, also das Wording, das Marketing fand ich sehr weird, diese Smart Glasses, die noch mal angekündigt wurden. Also sie haben ja letztes Jahr auf der Google IO wurden ja schon die Smart Glasses angekündigt. Wir erinnern uns, wir haben darüber geredet.
Ja.
Ja, dass Google Glasses ist zurückkommen. Und jetzt haben sie auf dieser Google IO gesagt: „Ja übrigens, also die Smart Glasses, die, die kommen immer noch später, ähm, aber wir, wir werden jetzt ein, ein Derivat davon veröffentlichen, was, das kommt actually schon jetzt im Herbst, und zwar Audio-only Glasses. Die, also sie sind genau wie die Anzeigeglass, sie haben ein Mikrofon, sie haben eine Kamera. Das ist ganz oft nicht klar geworden. Sie haben eine Kamera. Ähm, und, aber sie haben quasi das Selbe wie die anderen Smart Glasses, nur sie haben kein Display im Glas.
Ja, ja.
Und da, da gab's dann die Demo, dass halt, ne, so die, die Frau, die stand da auf dem, auf der Bühne und hat dann gesagt so: „Hey Gemini, ich möchte bitte, äh, dahin, wo ich letztens wandern war, aber, äh, also ich möchte..." Genau, sie hat nur gesagt: „Ich möchte dahin, wo ich letztens mit meiner Freundin wandern war." Und sie so, und dann hat Gemini gesagt-- das, es tut mir leid, Jona, alle fanden das geil. Den Punkt fand ich mega dystopisch. Lass das mal nicht machen.
Ja.
Dann sagt, dann, dann sagen die Glasses von sich aus-
Ja.
-womit Google zeigen will, wie geil das ist und dass du das unbedingt brauchst. Die Glasses sagen: „Natürlich, ich werde dich zu, äh, blablabla Peak navigieren, wo du letztens mit Sarah wandern warst. Normalerweise trinkst du um diese Zeit immer einen Kaffee von deinem Lieblingsshop. Soll ich direkt diesen Kaffee bestellen und dich auf dem Weg dort vorbei navigieren?"
Na!
Und dann sagt die Frau so: „Ja." Und dann so: „Alles klar, ich habe einen Door-Dash-Order für Pick-up, äh, geplaced und navigiere dich jetzt so dahin, dass du ankommst, wenn das fertig ist."
Bro.
Ich will nicht, dass mir meine Glasses sagen so: „Apropos, wie da normalerweise frisst du ja bei McDonald's um diese Tageszeit. Soll ich direkt mal dein übliches Meal dort bestellen?"
[lacht]
So, und dann auch wie gesagt, keine Ahnung, diese ganze, dieses, dieses Ganze, ich keine Ahnung, ich bin da, was so Essenslieferdienste angeht, immer so mega, da bin ich immer so mega triggered, weil ich denke: „Das kann sich kein Schwein leisten." [lacht] So, das ist so, ich würde nie im Leben eine, bei uns wäre das halt Lieferando-Bestellung aufgeben,
äh, weil das kost, weil, weil das kostet-
Ich sag mal so casually.
Ja, das, das kostet ja übelst Ge-- halt viel mehr Geld, als wenn du es einfach im Laden bezahlst. Da gibt's immer die Fee und die Fee und die Fee-Fee und die Service-Fee und die Service-Charge. So,
dann fragen dich meine Glasses einfach: „Ja, wie, der will 'n Kaffee? Ja, okay, ich hab dir für zwölf Euro den Kaffee bestellt. Hol mal ab."
Ja.
Keine A-- Habe ich irgendwie, ist jetzt nicht so schlimm, wie kaufe mir für dreitausenfünfhundert Dollar einen Anzug, aber ich hab da so keinen Bock drauf.
Ja, aber es ist halt, ich sag mal, der Ersatz des, des persönlichen Assistenten sozusagen. Also auf eine gewisse Weise ist es das ja dann schon, aber man muss es ja auch nicht mal unbedingt so weit treiben, halt auch so mit kostenpflichtigen Dingen, wenn man sagt: „Ja, okay, das ist jetzt halt nicht in meiner, in meinem Preisbereich drin", einfach mal so casually sich da einen Anzug zu bestellen und das fragt halt direkt dann deine Maße aus deiner Körperdaten-API direkt mit ab und ich kann dann sagen: „Ja, okay, dann weiß ich ja jetzt, wie, in welchen Maßen ich dir jetzt was zu bestellen habe." Und dann bekommst du halt deinen Anzug dann so und dann ist halt geil. Klar, das ist natürlich noch mal etwas anderes, aber halt einfach nur, ich sag mal, so fundamental damit umgehen zu können: „Okay, suche mir doch mal heraus, welche Unterkünfte oder so jetzt, jetzt sage ich mal zu meinem Stil, wie ich sonst immer übernachte, passen", dass es wieder sagt: „Okay, hier sind jetzt einfach mal drei, vier Optionen" und du sagst: „Ja, okay, das sieht vom Aussehen und vom Preis her jetzt auch wieder geil aus." Und dann kann halt das System direkt damit lernen und du hast halt nie das: „Oh, jetzt muss ich mich erst mal hinsetzen und Zeit da reininvestieren, irgendetwas im Internet herauszufinden", sondern du lässt es einfach für dich machen.
Ja.
Und somit gewinnt man halt auch wieder Zeit am Tag.
Natürlich, natürlich. Also wie gesagt, nur das mit diesem, also nur das mit diesem, mit diesem Ramp-- Ich weiß, es ist, es ist sehr widersprüchlich bei mir, dass ich die ganzen KI-Sachen so geil finde, aber dann diesen rampant consumerism so, consumerism so affig finde. Also-
Ja, ich auch, aber man muss es ja gar nicht mal überhaupt so weit treiben. Man muss es ja nicht in diesem Ausmaß benutzen.
Ja.
Aber das Problem ist nur wieder, da hat man wieder einen, ich sag mal, Angriffsvektor auf sich eröffnet, indem man dann nicht nur mehr Daten natürlich teilt, sondern dass man dann halt auch viel anfälliger wieder für Werbung ist.
Ja.
Weil im Zweifelsfall gibt es dann ja eine Kooperation zwischen gewissen Unternehmen und dem Unternehmen, die halt deine Smart Glasses oder die KI dafür herausgebracht haben.
Ja.
Und dann ist halt direkt wieder rip.
Das ist genau das, was ich meine. Vor allem, was ich gezeigt habe mit diesem, so: „Oh, you can make shopping more fun by not having to, äh, such aus yourself." So. Als ich das gesehen habe, diese Demo, dachte ich mir so: „Oh mein Gott, und ich möchte gerne so einen Strohhut und der soll genau das und das und das haben und der Agent ist intelligent und kann herausfinden, dass dieses Produkt alle deine Anforderungen erfüllt." Ich so: „Okay, aber woher weiß ich, dass es nicht ein günstigeres Produkt gäbe, was auch meine Anforderungen erfüllt?" So... [stöhnt]
Na ja. Das ist jedenfalls das-- Das fand ich so ein bisschen abfucken, aber war schon klar, das muss natürlich kommen, weil Google ist ein Unternehmen, was fundamental auf Werbung basiert. Schon klar.
Ja.
Es gab, ähm, auch noch eine Ankündigung, die ich interessant finde und glaube ich auch so ein bisschen zeigt, wo es hingeht. Da wird's sehr futuristisch jetzt. Also in der Google-Suche wird's demnächst die Möglichkeit geben, dass Google, wenn nach irgendwas fragst, halt live, wie soll ich sagen, wie Explainer UI oder Simulationen programmieren kann. Und das ist cool. Und ich finde interessant, wo das hingeht. Ich habe nämlich vor Kurzem etwas entdeckt, äh, namens OpenUI.com. Und das ist, das ist wild, wenn du darüber nachdenkst. Und zwar ist da die Idee, da gibt es mittlerweile auch schon, das, äh, die haben da auch quasi ein Network gebaut. Du weißt ja, ne, der Hype Open Claw und alles und alle und alle brauchen jetzt einen Claw Agent.
Ja, und Google versucht jetzt auch noch mal, ihr eigenes Ding da irgendwie zu spinnen.
Ja, aber ein Open Claw O-OS wird enabled durch dieses OpenUI.com. Und zwar ist-- Pass auf, Jona, das ist richtig wild. Also ich weiß nicht, ob die Technik sich in die Richtung entwickelt. Es macht irgendwie Sinn, aber andererseits wirkt auch das, es wirkt so verschwenderisch auf eine gewisse Weise. Also für mich als alten Mann, als alten Programmierer, weil-- Also stell dir Folgendes vor: Open UI, das ist einfach nur ein Standard, das kannst mit allem, jedem LLM benutzen und es ist einfach nur quasi 'ne Beschreibungsprogrammiersprache, die du halt syntaktisch enforced über die Next Token Prediction, dass nur gewisse Sachen jetzt geprintet werden dürfen als Nächstes. Und das ist einfach nur eine Beschreibungssprache, die aber sehr wie eine Programmiersprache aussieht, die ein UI beschreibt. Und dein LLM soll quasi diese UI-Beschreibungssprache ausgeben und das wird dann gerendert von dem speziellen Renderer. Jetzt ist quasi die Idee, ein auf Open Claw basierendes Betriebssystem hat quasi als Output neben den Toolfunktionen, es gibt nicht Text aus, sondern es gibt immer eine Beschreibung des jetzigen UIs aus. Das heißt-
Oh, das ist praktisch halt wie so ein riesiger Automat auf eine gewisse Weise.
Genau. Es wird gesagt, der Nutzer hat jetzt hier auf den Knopf gedrückt, gibt jetzt sozusagen als nächste Antwort aus, wie das UI jetzt aussieht.
Ja ja, und das ist halt einfach so ein Zustandsautomat auf eine gewisse Weise. Und dann kommt halt, ich sag mal, dann der nächste Schritt.
Ja.
Und das hat sich gemerkt, was jetzt bis dahin passiert ist. Aber das ist, glaube bisher das Extremste mit Kanonen auf Spatzen schießen, was es bisher in der Geschichte gegeben hat.
Ja.
Würde ich mal so behaupten. Also...
Und das nicht nur als eine Anwendung, sondern als Betriebssystem.
Ja ja, das ist halt einfach ein, so, so ein-Lol.
Als Betriebssystem. Also es ist halt nicht, du klickst meinetwegen auf, was weiß ich, auf, auf, halt auf das Menü und dann auf, was weiß ich, Taschenrechner öffnen und es startet keine Anwendung im Hintergrund, sondern dem LLM wird einfach nur gesagt: „Okay, der Nutzer hat jetzt geklickt auf Taschenrechner öffnen. Wie sieht das UI jetzt aus?"
Ja.
So, und dann wird halt, dann generiert der halt on the fly. Das Geile ist, du kannst für jede Art von Datendarstellung direkt das passende UI haben. Also es macht schon Sinn, wenn du einfach jetzt zum Beispiel so einen Data Science Agent hast. Das macht schon Sinn, dass du dann sagst so: „Ja, werte mal halt die ganzen Daten aus von meinen Klicks, die ich bekommen habe auf irgendwas." So, und dann sieht der das halt und überlegt sich: „Ah, okay, es gibt diese Daten, also stelle ich das jetzt so und so dar und generiere ein UI, was perfekt für diese Daten ist."
Okay, okay.
Aber na ja, darauf basierende Betriebssysteme weiß ich nicht. Eine Sache, die ich extrem interessant fand, die aber nur am Rande der Google I/O-- andersrum. Ähm, ich bin bei diesen Audio Only Glasses sehr interessiert. Es gab ja auch eine Google I/O for Developers und da haben sie quasi gezeigt, wie einfach das ist, ähm, das zu integrieren, auch in bestehende Apps. Und da habe ich richtig Lust, ähm, ich habe Lust, eigene Apps zu schreiben für solche Glasses. Darum, darum werde ich mir wahrscheinlich solche holen, wenn die rauskommen, weil ich gerne selber Apps schreiben möchte dafür. Ich möchte zum Beispiel gerne halt, ne, was weiß ich, eine App schreiben, mit der ich halt besser bei OpenStreetMap Sachen eintragen kann. Dass ich halt-- Also ich stelle mir vor, ich gucke eine Sache einfach bloß an, kriege vom-- mein Handy weiß, OpenStreetMap, ach, das ist diese Bank und da fehlt noch diese Information. Und dann sagt mir, dann sagen mir die Glasses: „Hat diese Bank eine Rückenlehne?" Und ich sage: „Ja." Ja, und es wird eingetragen. Und ich gucke das Haus an und die sagen: „Hat diese-- Wie viel Stockwerke hat dieses Haus?" Ich sage: „Vier." Es wird eingetragen. Das fände ich cool.
Richtig, fände ich auch. Ich habe da aber noch zwei Bedenken dabei.
Okay.
Nämlich erstens, da wirst du vermutlich die mit dem integrierten Bildschirm wohl brauchen. Also nicht unbedingt, aber es würde es halt unendlich mal geiler machen.
Ja.
Keine Frage.
weiß, wann es die gibt.
Aber w-- Ja, wer weiß, wann es die gibt. Und zweitens, nein, vielleicht muss man einfach nur einen Schritt weiterdenken.
Jetzt,
Du hast eine Kamera.
Ja, ich-
Das ist so der Point. Du hast eine Kamera. Das agentische System könnte herausfinden: Okay, wir wissen jetzt, dass gewisse Daten noch nicht getaggt sind in OpenStreetMap.
weiß.
Und es kann dann sagen: „Oh, okay, du bist jetzt natürlich in der, in der Nähe." Und das kann man ja auch recht gut geografisch dann crawlen,-
Ja.
-welche Sachen in der Nähe sind. Und wenn du dann vorbeiläufst, könnte es dann automatisch mit deinem Nutzeraccount dann die Changes direkt committen, die es über deine Kamera erkannt hat. Das heißt, es könnte die-- das Kamerabild nehmen und fragen: „Okay, Wieland ist zufällig an einer Bank vorbeigelaufen. Dort sind jetzt gewisse Daten noch nicht getaggt in diesem Beispiel." Und dann kann es die einfach selbst über das Kamerabild herausfinden und nur bei Informationen, die es halt nicht herausfinden kann direkt über die Glasses, weil das halt etwas schwieriger ist, weil es vielleicht auch Maße sind, die es nicht direkt mit der Kamera so präzise abschätzen kann beispielsweise. Dass sie dann sagen: „Ja, hier, okay, Wieland, hier würde halt noch was fehlen. Wenn du Bock hast, könntest du jetzt mal was machen."
Genau. Also ich sag mal so, das wäre natürlich-- Natürlich war das auch die erste Idee, die ich hatte, aber dann habe ich das quasi versucht, ein bisschen realistisch überzuschreiben.
Ja, das ist so richtig so realistisch,
Weil die Erkennung von solchen Sachen historisch bei den Experimenten, die ich schon gemacht habe, ganz schön shit ist, muss ich schon mal sagen.
Fair enough.
Aber das bringt uns super zu dem anderen Thema, was ich mega interessant fand bei der Google I/O, was sie auch bei der Google I/O for Developers, ähm, benannt haben, nämlich Gemma 4, die Open-Source-Modelle von Google. Ähm, da gibt es Varianten, die sind so klein, dass sie auf dem Smartphone laufen können.
Mhm.
Gemma, äh, vier E zwei B I T und E vier B I T. Und ja, da gibt es sogar eine-- Wenn ihr das ausprobieren wollt, da gibt es sogar eine App von Google im Play Store, die heißt die AI Edge Gallery und da kann man einfach sagen: „Okay, los." Und dann-- Auch richtig, das ist auch wirklich trainiert auf agentisches Machen, auf Function Calling, Tool Calling. Sie sind multimodal, sie können Bilder verstehen. Also ihr müsst euer Life chillen. Das ist ein Modell, was auf eurem Handy läuft, was vier Gigabyte groß ist. Also so heftig ist nicht, aber man kann es für spezielle Anwendungszwecke feintunen und zwar auch relativ einfach. Da mietet man sich halt kurz eine GPU, um das zu machen, aber dann kann man es exportieren und da sehe ich richtig viel Potenzial, weil dann könnte man vielleicht wirklich sagen, auf meinem Handy läuft halt ein Modell, was ich speziell trainiert habe, halt zu verstehen, ob Bänke Rückenlehnen haben und alles andere, was ich so abfragen will mit der App.
Ja.
So, und dann kommt zum Beispiel nur noch ein kleiner, ich-- trotzdem ein kleiner, ähm, ist auch bei OpenStreetMap vorgesehen, es muss immer noch einen menschlichen Kontrollschritt geben. Aber wenn man es wirklich superkrass in den Flow reinpacken will, könnte man ja sagen, so ich gucke einfach nur Objekte an und ich bekomme einfach nur das Feedback: „Erkannt, dass diese Bank eine Rückenlehne hat."
Ja.
Und wenn ich dann nicht quasi unterbreche, dann ist es okay. Dann ist es richtig.
Ja.
So, ähm, das könnte man machen. Ja.
Das ist natürlich auch richtig krass, wenn man das dann auch mit live annotieren könnte an die physischen Orte. Wenn diese, wenn diese Glasses das auch erlauben würden, dass, dass, dass du dann diese Informationen mit an das Objekt mit annotieren kannst. Dass es sich sagen wir mit deinem Kopf effektiv mitbewegt, dieses, dieses Pop-up, das jetzt sagt: „Okay, ich habe jetzt hier etwas annotiert", beispielsweise.
Mhm.
Und du könntest dann sagen: „OhHey, ich tue da jetzt nichts dagegen. Das, das ist jetzt okay so. Ich weiß tatsächlich gar nicht, ob die Glasses, ob die 'nen-- die müssen 'nen Trägheitssensor haben. Müssen? Ja. Oder natürlich sollten sie schon. Kompass einen Orientierungssensor, dass man halt also, dass die Glasses verstehen können, in welche Achsenrichtungen ich gerade gucke. Das weiß ich gar nicht. Na ja, das wäre, also mal, mal ganz einfach gesprochen, diese, diese Sensoren dafür sind ja mittlerweile durch die Smartphones und, und, ähm, Fitnesstracker natürlich extremst klein geworden. Also da reden wir um einen einstelligen Millimeterbereich. Also das wäre ganz schön wack, wenn das in der Brille dann nicht mit drin wäre. Also- Ich kann mir vorstellen, die bauen's nicht ein, wenn sie sich denken: „Wofür denn für unsere Anwendung?" Also ich wollte ja vermuten, dass nicht nur sie da erfährt, was entwickelt wird. Also ich kann mir durchaus vorstellen, dass Google sich denkt: „Mir fällt nichts ein, was man nicht einfach nur mit Kamerabild, Geolocation und halt Sprachinput des Nutzers abbilden kann. Also nö, machen wir nicht. Ja. Vor allem bei dem, wenn's keinen, wenn's keinen Display hat. Ich meine, sonst sagt man: „Okay, AR, dann soll Shit rumfliegen im Raum. Dafür brauchst du Trägheitssensoren. Richtig, Du willst es ja sicherlich dann AR annotiert haben und nicht nur, ich sag mal, dass es dir wieder dir dann so ein 2D-Display, sagen wir einfach nur, einblendet oder einfach das als Liste oder wie auch immer dann drin steht. Das wär wahrscheinlich nicht so die Idee, sondern das dann mit AR zu kombinieren, wäre ja gerade eigentlich der wichtige und geile Schritt. Aber Jona- Dann brauchen wir nur noch für die EU eine Datenbank mit persönlichen Daten von allen Personen. Und dann? Ach so. Und dann! Dann wird's doch. Bum. [lacht] Ja, aber Jona, also ganz ehrlich, Jona, also bei allem, wie krass, also alle stürzen sich auf diese großen Modelle, auf dieses große: „Oh, Google hat jetzt das", und diese Demo war richtig impressive mit diesem: Der macht einfach Google Keep auf und fängt an zu labern und sagt: „Ah nee, warte, nee, das doch nicht" und so und so und so. Und er versteht das alles geil. Aber ich hab richtig, richtig Bock auf lokale Modelle oder zumindest also Modelle auf meinem Handy am geilsten, weil auch für mich als App-Entwickler, ich entwickle gerade 'ne App, wo ich aktuell noch, ähm, halt OpenAI-Dienste benutze. Und das Ding ist nicht, dass das halt wegen Datenschutz nicht so geil ist. Das kostet mich ja Geld. Richtig. Weißt du aber, was genau dahin wird es sich ja auch garantiert entwickeln, weil wir einfach nur mal in der Geschichte zurückgucken müssen und dann ja jetzt wieder die gleichen Motive anwenden können. Was ist denn, sage ich mal, mit den ersten Großrechnern am Ende passiert? Wie haben die sich denn gewandelt? We-welche Workloads wurden denn damals darauf getan, die jetzt, die jetzt natürlich in Endgeräten ja auch umgesetzt werden können. Und genauso wird sich das natürlich auch entwickeln, dass man dann einfach, dass man einfach diesen extremen Schritt in das Dezentrale hat. Das heißt natürlich nie, dass jetzt Großrechner oder Server jetzt verschwunden sind. Ja. Also da-- Sondern sie werden sich einfach nur weiterentwickeln, genauso wie ja jetzt auch mit den ganzen EPUs und den speziell dafür entwickelten AI-Erweiterungskarten natürlich. Ja. Das wird sich einfach weiterentwickeln. Was auf den, was damals auf den Servern gelaufen ist, kann jetzt dann auf den Endgeräten tatsächlich mitverwaltet werden. Wie zum Beispiel jetzt auf einem fundamentalen Prinzip einfach mal eine Datenbank und man hat einen simplen Algorithmus, der darüber laufen kann. Das kann alles heutzutage auf jedem Smartphone und jeder, jeder Uhr abgebildet werden und auch schon auf den meisten Toastern. Also klar. Deswegen, also ich- Und ich deswegen wird sich das auch dahingehend entwickeln, dass da die, die Edge-AI, sag ich mal,
Anwendungen sich einfach jetzt extrem weiterentwickeln, dass viel, was früher oder jetzt noch über einen Server läuft, viel über die lokalen Modelle laufen kann, die dann eben wirklich nur, ähm, ein paar [lacht] Milliarden
natürlich, ja, richtig. Genau, also die dann, die dann beispielsweise, wie du ja sagtest, ähm, nur, nur, ähm, vier Gigabyte groß sind und ein paar Milliarden Parameter einfach nur haben und dass sie einfach da drauf laufen können und dass das, sage ich mal, mit der, mit der Modelloptimierung einfach ausreicht. Dass nicht mal unbedingt die Geräte so extrem viel schneller sein müssen, also das Zehnfache oder so, sondern dass man halt einfach nur die KI-Modelle dann spezifischer dahin trimmt und dass die auch einfach effizienter werden, ihre Aufgaben zu erledigen und dass einfach die Server trotzdem noch da bleiben, aber halt einfach viel krassere Dinge tun, als sie jetzt schon können, ja. Und ich muss sagen, ich
merke auch immer mehr, wie meine Prediction sich so ein bisschen anfängt zu bewahrheiten. Ich habe ja immer davon auch ein bisschen geträumt, zu sagen: „Okay, wie jeder heutzutage einen Router hat, hat dann in der Zukunft halt jeder eine KI-Box." So und ich sehe das halt auch schon kommen, dass man sagt, hier hat jeder eine KI-Box und ne, fünfundvierzig Prozent aller Menschen benutzen die von Google, fünfundvierzig Prozent aller Menschen benutzen die von Apple und zehn Prozent aller Menschen benutzen halt irgendwas, was sie sich selber gebaut haben oder was, was auf Linux basiert. So, und das ist okay. Ist okay so. Solange wir das machen, wenn wir das machen können. Aber, aber so ein System hält prinzipiell auch nicht für immer. Das beste Beispiel dafür ist ja, ist ja auch wieder die Geschichte, wie es sich um den, um den PC entwickelt hat, dass es erst ja komplett undenkbar war, einen Computer in jedem Privathaushalt zu haben. Ja. Und oh, dann hat es sich in den 90ern et cetera dazu hin entwickelt, dass jeder einen Heimcomputer hat, wo man sich eben hinsetzen kann und im Internet surfen kann, Dokumente schreiben kann et cetera. Zu, zu der jetzigen SituationOh na ja, eigentlich hat jetzt jeder dezentralisiert ein Gerät dafür in der Hosentasche, womit man das lösen kann oder eben am Arm.
Ja.
Richtig und deswegen würde ich vermuten, dass es sich, weil es sich auch beim Gaming-System auch nicht wirklich dahin entwickelt hat, dass es ein zentrales, einen zentralen Gaming-PC für mehrere Endgeräte gibt und man hat dann irgendwie, ähm, man streamt das dann über das lokale Netzwerk und der PC ist halt extrem geil und kann dann halt acht Spiele gleichzeitig rendern und jede Person im Haushalt macht gerade halt irgendetwas anderes drauf. Das ist halt so 'n-- Kann man als Laiens Fever Dream schon so akzeptieren, würde ich sagen, aber das ist ja jetzt natürlich nicht die Realität, sondern am Ende hat ja trotzdem jeder sein eigenes Endgerät, wo das halt einfach drauf läuft oder wo es meinetwegen eine gemeinsame API beispielsweise pro Gerät hat.
Ja.
Also wo das jetzt, ich sag mal so, so ähnlich offen vielleicht auch sein könnte wie natürlich Google Health Connect, wo wir vorhin schon gesprochen hatten, dass es sich eher so hin entwickelt, anstatt dass man jetzt sagt: „Okay, jeder hat jetzt seinen KI-Server im Keller stehen, der dann jetzt beispielsweise nur fünfhundert Euro kostet."
Ja.
Ja, klar, natürlich. Also wegen mir muss es sich auch jetzt gar nicht zwangsläufig in die Richtung „Du hast deinen KI-Server im Keller stehen" entwickeln. Es darf auch gerne sich in die Richtung private KI auf dem Endgerät entwickeln. Mir geht's nur darum, ähm, wir hatten dieses-- Zuerst hatten wir die Chatbots, dann hatten wir jetzt die Agenten. Agenten werden jetzt Mainstream. Ist ja etwas, was Google jetzt allen Konsumenten anbietet. Und wenn wir jetzt so ein bisschen weiterdenken, dann denke ich daran, Sam Ortman hat ja gesagt, seine Vision ist, ähm, dass wir sogar hinausgehen über dieses: Ich gebe meinem Agenten eine Aufgabe und er geht los und macht sie, sondern er sagt ja immer, sein Traum ist es, dass er einfach 'nen Agenten hat, dem er sagt: „Hier ist Zugriff auf mein ganzes Leben. Ja.
Tätige Handlungen, die mein Leben verbessern. Ich will dir nichts anweisen müssen. Mach es einfach im Hintergrund."
Ja.
So, und das fände ich auch sehr, sehr geil, aber das muss dann lokal sein und nicht zu einer Firma gehören, deren erster Gedanke ist: Wie kann die Verbesserung von Wielands Leben, äh, uns Geld bringen? Und wenn die Verbesserung von Wielands Leben uns kein Geld bringt, dann wird die nicht gemacht. Die wird nur gemacht, wenn sie uns Geld bringt. Und n-na-nein, Jona, nein.
Ja.
Das passiert bitte nicht.
Uff.
Das muss ein lokales Modell sein, was irgendwo bei mir läuft und dessen einziger Incentive ist, mir zu helfen und mehr nicht.
Ja.
So. [lacht] Aber ja, schauen wir mal, wo sich alles hinentwickelt. Das ist ja ein sehr gutes Beispiel. Ich hab jetzt geredet von, na ja, wegen kommerziellem Interesse, aber natürlich halt auch wegen dem Datenschutz, weil ich fände diese Idee halt, zum Beispiel meine ganzen Health-Connect-Daten inklusive Sexual Activity, dass die halt allen, allen Agenten zu geben und sagen: „Sieh dir einfach alles an, was du messen kannst über mich und über mein Leben und sag mir, was ich besser machen könnte, um mein Leben zu verbessern." Das will ich aber nicht der Google Cloud erzählen oder der Open AI Cloud, sondern das will ich 'nem Gerät erzählen, was bei mir im Schrank steht, wo ich im allergrößten Notfall halt mit dem Baseballschläger halt-
Ja.
-die, die Geheimhaltung der Daten sicherstellen kann, wenn alles schiefgeht.
Richtig, ja.
So. Aber ja, des-deswegen.
Und, Wieland, stell dir mal vor, man geht dann so casually draußen einfach so durch die Welt. Man chillt so sein Leben mit den Google Glasses und es sagt, und die Google Glasses sagt dir dann einfach mit, mit dem, mit dem agentischen Workflow, was schon automatisch alles erkennt: „Oh, du ha-- Ich habe doch anhand deiner Chathistorie und Verkaufshistorie erkannt, dass du in zwei Tagen ein Date haben wirst und ich weiß auch tatsächlich, dass dein Kondomvorrat gerade sehr low ist. Deswegen habe ich schon mal eine Amazon-Order für dich hier platziert, damit du bestens ausgestattet bist." Ja.
Und ich habe natürlich-
Wieland sagt: „Perfekt, geil."
Und ich habe natürlich auch bei Google Health Connect bereits die Sexual Activity gepreplant mit Protection Use True. Sollte sich die Amazon-Lieferung verzögern, werde ich's automatisch auf False setzen.
Geil. [lacht]
[lacht]
Perfekt. Ich habe keine Anmerkungen.
Ach ja.
Okay. [räuspert sich] Ja.
Na ja.
Okay.
Ich hab, ich hab tatsächlich noch eine zweite Anmerkung-
Okay, bitte, bitte.
Zu diesem Thema. Ähm, wir hatten ja auch schon mal darüber gesprochen, dass ja auch, ähm, die, die Gesundheitsdaten auch tatsächlich mit zu, mit in die Daten von OpenAI auch mit reingefüttert werden sollen in Amerika. Da hatten wir schon mal, ich weiß nicht, es bei der letzten oder vorletzten Crunch-Time-Episode war, darüber schon mal gesprochen. Und jetzt kommt der nächste Schritt. Sie planen nämlich halt mit der Software Plant, wie sie heißt, nämlich auch alle Finanzdaten importierbar zu machen im ChatGPT, sodass dann halt effektiv drinsteht: Okay, machen wir jetzt mal einen Budget Breakdown. Für wie viel gebe ich jetzt welches Geld aus?
Hm.
Und was kann ich jetzt an meinen persönlichen Finanzen noch optimieren? Und da ist natürlich die Idee dahinter, okay, es gibt jetzt schon mindestens zweihunderttausend Nutzer von ChatGPT, die regelmäßig Finanzfragen stellen, also zu den persönlichen Finanzen und das wäre halt schon extrem geil. Aber jo, was es dir dann alles für Predictions geben könnte, wie zum Beispiel es sagt dann: „Ja, na, da hättest du vielleicht auch einfach mal einmal weniger dir den Starbucks-Kaffee gekauft, dann könntest du dir jetzt das andere jetzt leisten. Hm, Pech gehabt." Oder: „Oh, ich habe gesehen, dass du letzten Monat einhundertfünfzig Euro für E-Scooter-Fahrten ausgegeben hast. Komm, lass uns doch mal was anderes."
Also, du verstehst, was ich meine. Also, LOL.
Ja.
Das, das ist schon recht krass, das dann auch noch mit einzubinden und das hat dann halt einfach auf deinen, auf deinen Schwab Fidelity Account, alles mögliche in Amerika, einfach Zugriff, weil es halt schon so eine, sag mal, so eine Art zentrale Bank-API ist.
Ja.
Was ich halt auch sehr weird finde, dass es das halt bisher noch gar nicht so in diesem Ausmaß gibt.
Jona.
Soweit ich weiß. Du belehrst mich jetzt eines Besseren?
Oh, Jona, ich musste nämlich was erzählen. Das wollte ich eigentlich gar nicht anschneiden, aber bezüglich Finanztools und Bank-APIs-
Ja.
Kann ich dir auch noch erzählen, wie ich am Gucken war und bin. Denn, also ich muss jetzt ein bisschen gucken, dass ich wegen, wegen jetzt nicht so viel Rufschädigung begehe, aber eine Bank hat versucht, mich abzuwerben.
Ja.
Ich wurde da sehr viel, sehr lange beraten und bearbeitet und die haben geworben mit etwas, was ich sehr gut fand. Und zwar haben sie geworben mit einem System, was halt Automatisierung für mich betreibt. Haben quasi gesagt: „So, na ja, hier, ähm, je nachdem, wie viel du ausgibst, kann automatisch ein gewisser Betrag gespart werden und wenn dieser Sparbetrag, hm, auf dem Tagesgeldkonto eine gewisse Zahl erreicht, dann wird alles, was darüber hinaus gespart wird, äh, ins Depot gepackt und zum Teil in eine Rente und et cetera, et cetera. Das ist alles so cool." Ich denke, das ist cool. Das brauche ich gerne.
Ja, und als jemand, der sich natürlich für solche Automatisierungen interessiert, das natürlich extrem geil, so was halt einfach auch mit, mit natürlich durchzuplanen.
Ja.
Aber
nur mal so als Kontext für euch, ich habe dann Wieland auch tatsächlich eine Finanzempfehlung gegeben, und zwar, dass es mehr oder weniger ein Scam ist, diese Bank. Also das Scam, eine Scam-Definition ist ja immer so etwas schwierig, aber so habe ich es in meiner Meinung ihm persönlich geschildert. Und
so ist nämlich sehr häufig so, insbesondere wenn man selbst seine eigenen Konten, weil es ging ja um ein Kontenmodell, dann nicht mehr selbst steuern kann, sondern wenn das alles, sage ich mal, nur, nur noch so ein paar Zahlen auf dem Bildschirm sind, was wohin geflossen ist und im schlimmsten Fall wollen sie ja natürlich auch noch monatlich an dir, an diesem Kontensystem natürlich verdienen. Das ist ja, denke ich, auch logisch. Und am Ende wird das, war meine Einschätzung, dass es wahrscheinlich eine sehr große finanzielle Falle ist, weil sie dann sagen: „Aber guck mal hier auf Seite hundertdreiundzwanzig von dem, was du unterschrieben hast. Da steht ja drin, ah nee, wenn du das aber hier auflösen willst, dann gibt es aber hier die zwanzig Konditionen, die jetzt erst mal einhalten musst", et cetera. Also das ist immer sehr schwierig und dann hab ich ihm empfohlen, tatsächlich nicht es zu üb-- also es nicht komplizierter unbedingt zu machen, als es ist und sich dann jetzt auch nicht deswegen über den Tisch ziehen zu lassen.
Genau. Und was ich krass fand, ist, dass da immer betont wurde, dass diese Bank dieses System patentiert hätte. Das gäbe es ja nirgendwo anders.
Ja, das würde-- Also das ist ja sehr universell. Also da behauptet ja jede Bank von sich, dass sie immer sehr anders ist als die anderen, aber ja.
Ja, Jona, und dann war also, und dann Auflösung: Also ich war bei meiner Bank und ich habe jetzt dasselbe. Nicht komplett mit Bordmitteln meiner Bank. Da gibt's einiges, da kann man einiges machen, aber was ich vor allem auch herausgefunden habe, ist: Es gibt eine universelle Bank-API, Jona.
Was?
Aber jetzt kommt der geile, jetzt kommt der geile Twist.
Ja.
Dass es gibt Bibliotheken, es gibt sogar Python-Bibliotheken, mit denen du das machen kannst.
Lol.
Aber da musst du halt ein Produkt bei der deutschen Kreditwirtschaft registrieren.
Ja.
Ich nenne dir jetzt mal einen, Liste von Finanzprodukten, die bei der deutschen Kreditwirtschaft registriert sind, in Klammern Auszug.
Ja.
Trade Republic.
Ja.
Finanzguru.
Wielands Autofinanz.
[lacht]
Hm, geil.
[lacht]
Ja.
Nee, nee, aber, aber ist ja geil.
Ka-kannst du sagen, wie diese API heißt? Hat die einen konkreten-
Also das nennt sich FinTS.
Ah, okay.
Und wenn man halt-
Das, das fände ich ja schon extrem geil zu sagen: „Oh, okay, man könnte halt direkt dann selbst noch zusätzlich etwas automatisieren." Da wirst du gleich jetzt auch dazu sprechen,
Genau, also das ist halt so die Idee. Da bin ich auch grad noch am Bauen. Also mir ist einfach nur wichtig, ich möchte per API halt auf mein Konto zugreifen können, zum Beispiel halt sehen können, wie viel ist übrig und dann zum Beispiel zu sagen: „Okay, zwanzig davon, Prozent davon ins Depot, was weiß ich, das andere woanders hin, was weiß ich." So und das geht damit. Und was ich vielleicht auch machen wollen würde, so ein bisschen vielleicht so belohnungsmäßig reinzugehen, dass wenn jetzt gesagt wird: „Okay, es ist Geld auf dem Konto überhaupt da, um mich zu belohnen", und dann fragt zum Beispiel halt mein Gesundheitssystem: „Hat Wieland denn heute alle seine Ziele eingehalten?"
War denn Wieland ein braver Junge? Ja.
hat Wieland denn Sport gemacht?
Oi, oi,
Hat Wieland denn kein Big Mac gegessen? So, äh, und wenn ja, dann quasi, dann darf ich am Ende des Tages eine Überweisung von fünf Euro von meinem Tagesgeldkonto auf meine, äh, Konsumkreditkarte autorisieren.
Geil.
So, und, ähm, da ist das einzige Manko. Ich verstehe, warum sie das machen, weil automatisiere dein Konto ist schon ein bisschen heftig. Äh, da kann ich nicht einfach, sage ich mal, ähm, App-TAN-Verfahren machen.
Ja.
Also da kann ich nicht einfach machen, die Sache wird ausgelöst und ich bekomme auf meinem Handy halt dieses: „Ist das okay? Ja, nein." Sondern da muss ich irgend-- da muss TAN-Verfahren gemacht werden. Das ist ein bisschen schade. Was bedeutet, ich muss irgendwie-- es reicht nicht, auf meinem Handy zu sagen „Ja, nein", sondern mein Handy wird mir eine TAN anzeigen, die ich dann irgendwie möglichst sicher, nicht über Telegram, zurück an das Skript irgendwie kriegen muss.
Ja.
Damit dann das Skript die TAN zur Autorisierung benutzen kann. Das ist noch ein bisschen schwierig, da muss ich noch durchsteigen. Aber ja, Jona, also es geht. Man kann das automatisieren. Es ist halt-
Da muss man halt ein bisschen noch um die Ecke programmieren-
man muss-
dass man die Teile noch, sag ich mal, so connectet. Und ja, nee, also ist ja schon rip, wenn da irgendein Exploit drin ist auf dem Weg oder dass der Messenger-Dienst, über den man das übertragen hat, dann natürlich bei allem mithört, was-
Ja.
Wo man ja im Zweifelsfall davon ausgehen muss.
Ja. Also da muss man wirklich gucken, aber Jona, es geht. Das heißt, wenn man solche Späße macht und das geht auch, also bei den meisten Banken. Also ich würde jetzt nicht behaupten, dass meine Bank für Modernität steht. Also ich denke-
Okay.
Also ich denke jetzt bei meiner Bank nicht: „Oh, das ist ein, ein Neo-Broker. Oh, das ist jetzt so eine Bank wie, wie Revolut, die sagt: „Wir haben auch keine Filialen, wir haben nur App, App, App, alles App, alles digital, KI." Und so meine Bank ist sehr traditionell.
Ja.
So, und, ähm, selbst die nehmen an diesem Finanz-FinTS-System teil. Also das macht eure Bank unter Garantie auch.
Genau, gut.
Also das war nur ein kleiner Tangent. Wenn man mal so was automatisieren will, man kann es machen.
Es gibt seit Anfang Mai ein-- einige große, schwerwiegende Bugs im Linux-Kernel. Das war jetzt auch sehr heftig in den Nachrichten, weil da tatsächlich mehr oder weniger fast alle Systeme mit, die eben in, die eben halt Linux sind, betroffen sind, weil es einfach eine, weil es einfach fundamental halt einfach im Kernel so ist.
Mhm.
Und da gibt's halt einige verschiedene, wie jetzt zum Beispiel, ähm, Dirty Pipe, Dirty Cow, Dirty Frag und Copy Fail. Also da gibt es halt wirklich halt viele, die halt auch so ähnlich, sage ich mal-
Ja
benannt sind und alle ein klitzekleines bisschen unterschiedlich sind. Also ich gehe jetzt nicht extrem ins Detail, weil das wäre ganz schön heftig. Aber ich kann euch mal erklären, der Ex-- die Exploits funktionieren ungefähr so, dass es da eine gewisse Schnittstelle im Kernel gibt, bei der es eben möglich ist, vier Bytes in den Page Cache zu schreiben. Und je nach Exploit ist das einfach eine verschiedene, ist einfach eine unterschiedliche Schnittstelle. Und jetzt fragt man sich: „Okay, aber vier Byte, das ist jetzt halt nicht so viel."
Ja, das mag sein, aber man kann die ja an eine beliebige Stelle schreiben. Und das bedeutet natürlich, dass man auch im Optimalfall natürlich Passwd oder halt den, die, die SU-Datei halt einfach umschreiben kann.
Ja.
So dass man halt als normaler Nutzer direkt nach Ausführen dieses Skriptes dann direkt Root-Rechte auf dem System hat. Und ja, das ist halt natürlich sehr schlimm, weil du damit auch aus Containern ausbrechen kannst. Weil wenn du halt Docker-Container hast, dann wird ja trotzdem ein Page Cache logischerweise, ähm, geteilt.
Ja.
So, so funktioniert das ja. Da, da hat jetzt nicht jedes, jedes System dann eine, eine andere, sondern da kannst du halt wirklich daraus auch jetzt bei gehosteten Servern dann da tatsächlich ausbrechen. Und dann ist halt rip. Und das gibt, dass die, diesen Page Cache gibt es natürlich da aus dem Grund, weil es natürlich viel zu langsam ist, jederzeit immer alle Daten auf die Festplatte zu schreiben, dann wieder sich an die richtige Position mit dem Lesekopf zu bewegen, um dann dort die Daten wieder auszulesen. Das würde alles viel zu lange dauern. Deswegen gibt's ja den Page Cache. Das wird dann immer seitenweise dann natürlich zurückgeschrieben. Lernt man ja auch so mit in der Uni. Wird dann seitenweise wieder zurückgeschrieben und der, der wird natürlich ab und zu, wird, wird da natürlich wieder in regelmäßigen Abständen alles auf die Festplatte wieder zurückgeschrieben. Das ist ja klar. Aber in diesem Fall ist das bei den Exploits sehr interessant, weilDas System halt dann gar nicht merkt, dass diese, dass diese Seiten, sag ich mal, modifiziert sind. Weil das, was-- Weil dieser Page Cache, der ist sozusagen in dem Moment bei solchen Checks komplett egal, weil diese Checks gucken ja, was auf der Festplatte steht. Das heißt, auf der Festplatte wird geguckt: Okay, stimmt jetzt der Hash, den wir ja generiert haben, mit diesem Teil an Daten auf der Festplatte überein und das trifft ja immer zu, egal was passiert, weil du ja nur den Page Cache verändert hast und nicht die Daten, auf denen dieser Cache eigentlich basiert, sodass das halt gültig ist, bis du dein System natürlich neu startest oder manuell diese Page-Cache-Seite invalidierst. Das kann man natürlich auch unter Linux mit einem Befehl logischerweise machen, aber das macht man nicht einfach mal so casually, weil man da so einen Verdacht hat. Also das ist ja, denk ich, logisch. Also ja. Und das bedeutet, dass er natürlich jetzt ganz schön rip ist, weil er nat-- das natürlich alle Distributionen seit 2017 mehr oder weniger betrifft und dass man da eigentlich eine neuere Version mit dem neueren Linux-Kernel-Version, ich weiß nicht, ob das dann 6.3.1 ist oder ich weiß nicht, wo die gerade sind, sich dann ziehen muss und darauf einfach upgraden muss, weil ansonsten ist halt einfach rip. Diese Exploits wurden tatsächlich alle mithilfe von KI gefunden.
Ja.
Also da war halt echt der, hat halt echt der Security Researcher halt richtig die KI embraced und hat sie halt wirklich heftig suchen lassen und die KI kann da jetzt noch nicht, ich sag mal, das komplett von Anfang bis zum Ende durchdenken. So krass ist halt die KI noch nicht. Also hängt natürlich vom Budget ab, wenn man da sagt: „Okay, hier, ich gebe dir mal eintausend Euro als Budget", dann funktioniert das sicherlich, aber in realistischen Geld, mit realistischen Geldbeschränkungen, sag ich mal, kann das die KI noch nicht. Sie braucht eben schon noch die menschliche Unterstützung, der dann eben sagt: „Okay, wir forschen jetzt mal weiter in diese Richtung. Können wir denn da noch etwas tun?" Und der weiß halt: „Oh, okay, aber es gibt noch diese Idee." Und so ist das, sag ich mal, jetzt, so hat das jetzt gerade funktioniert. Und das, das heißt auch, dass natürlich die Prediction, die Vorhersage richtig war, dass viele Sicherheitslücken dann jetzt mit KI gefunden werden. Und sehr häufig passiert das auch gerade beim Linux-Kernel, dass das, dass es da sehr viele, ähm, kleinere, unwichtigere Schwachstellen gibt. Und da hat der Man himself, Linus Torvalds, tatsächlich auch geschrieben, dass er gerade extrem überfordert ist mit der Menge an Issues, die, sag ich mal, geöffnet werden, die alle eigentlich nur Duplikate voneinander sind, aber Leute halt nicht checken, was da steht, was das eigentlich bedeutet oder schon einen Fix dafür implementieren, sondern da wird einfach nur der KI-Output, sag ich mal, wie ins Issue gedroppt und dann ist halt gut. Und die verstehen halt nicht, was da, was da gerade passiert oder dass es halt schon ein Duplikat eines anderen, eines anderen Issues ist. Und er meint auch konkret:
„Die, die meisten, äh, Probleme, die du mit deiner KI finden kannst, werden garantiert auch schon von anderen KIs so gefunden worden sein. Außer wenn du jetzt halt extrem viel Geld in die Hand nimmst, dann ist das natürlich etwas ganz anderes. Aber es ist sehr, sehr wahrscheinlich, dass dieses Problem dann schon bekannt ist.
Ja.
Ja.
Also ich wollte dich nämlich schon fragen, ob das diese, ob das auch Schwachstellen sind, die, ähm, von KI gefunden wurden, weil das fand ich so interessant. Also zum einen, wie, wie langsam die Nachrichtenwelle hier in Deutschland ist. Also, äh, vor zwei Tagen gab's in der, äh, im, im, irgendwo im ZDF einen, einen Beitrag zum Thema: Wie gefährlich ist Claude Mythos? Wo ich mir dachte so:
Vielen Dank, ZDF. Schön, dass wir es hier in Deutschland auch schon mitkriegen. Ich hab mir diese Frage vor drei Wochen gestellt, aber macht nichts, lass uns drüber reden. Ähm, es war sehr interessant und es war für viele Leute vielleicht so ein bisschen der Aufwachmoment, weil quasi ich finde, es gibt diese immer extremer werdenden Spannungen zwischen halt solchen Dingen, die faktisch passieren-
Ja.
-und Leuten, die sagen, KI ist nicht echt.
Was meinst du denn mit nicht echt?
Na ja, also im Englischen sagt man halt Nothing Burger.
Mhm.
Also halt, es, es ist alles nur Hype. Es kann gar nicht das, was es kann, et cetera, et cetera. Und ich finde, das war jetzt halt so 'ne Situation, wo du schon unbestreitbar sagen kannst, also wenn, ich weiß nicht, was, Claude Mythos hat irgendwie tausendfünfhundert Zero-Day-Exploits in einer Woche gefunden, die halt echte Exploits sind, die man actually exploiten könnte.
Ja.
Ähm, deswegen weiß ich nicht. Also viele Leute haben, ich kann irgendwo die Leute verstehen, die gesagt haben, das ist bloß Hype, weil dann, fand ich sehr interessant, haben einige Leute im Kontrast dazu gesagt: „Ja, Leute, ich lese euch jetzt mal einen Nachrichtenartikel vor", und dann sagen die so: „Ja, OpenAI hat ein Modell entwickelt, was sie jetzt aber noch zurückhalten, weil sie sagen, das ist halt viel zu gefährlich. Es könnte halt wirklich mega krassen Schaden anrichten an der Gesellschaft oder an Computersystemen und darum werden sie GPT 3.5 fürs Erste nicht veröffentlichen."
Richtig.
Also hmm.
Ja, das ist ja schon die Frage, in welchem Verhältnis das steht.
Ja.
Aber warum, warum gibt es denn, sag ich mal, diese leeren Hüllen? Das ist ja offensichtlich. Natürlich ist das eigentlich nur da, um natürlich die Shareholder zu primen, natürlich auch wieder mehr Geld da reinzustecken, weil da geht es ja nicht darum, was im nächsten Jahr passiert. Das ist ja, das ist ja, sag ich mal, nie der Point, sondern was, sag ich mal, auf längerfristiger, ich sag mal, vielleicht auf die nächsten zehn Jahre eher so dann erreichbar wird und wie natürlich die Firma in den nächsten zehn Jahren oder zwanzig Jahren dann natürlich Geld daraus machen kann. Das ist nicht nur: Oh ja, okay, wie sieht es denn nächstes Quartal aus? Also ja, da hat man auch schon häufig Sprünge, aber so deep ist es nie.Sondern da wird halt eher geschaut, okay, wie sieht jetzt ja natürlich die, der Umsatz, die Umsatzentwicklung in Zukunft aus und nicht nur nächstes Quartal, nächstes Jahr oder nächsten fünf Jahre, sondern auch sehr viel länger. Und da finde ich das gar nicht so schlecht, einfach zu viel zu versprechen im Zweifelsfall, weil das auch wieder schneller vergessen wird, als man denkt, dass man so etwas dann versprochen hat, wenn man eben diese konstante Flut von neuen Informationen, was jetzt bald möglich sein soll, einfach immer aufrechterhält, wenn man diesen Ball immer am Rollen lässt.
Ja.
Ist es okay, weil es irgendwann ja definitiv funktioniert. Bloß sie haben einfach den Zeitabschnitt, in dem das dann möglich sein wird, einfach extrem unterschätzt, absichtlich unterschätzt. Dass man sagt: „Oh ja, okay, das funktioniert in einem, in einem Jahr, aber realistisch gesehen sind eher drei bis fünf Jahre, wo man dann realistischer so ein Konzept umsetzen kann.
Na ja, ja.
Und natürlich kann man sagen: „Okay,
GPT-3.5 war halt extrem geil für die Zeit, aber halt jetzt nicht so ein extremer Schaden für die Gesellschaft, je nachdem, wie man einen Schaden für die Gesellschaft natürlich definiert.
Ja.
Aber genau, aber verstehst du? Das wollte ich jetzt nämlich auch sagen. Also GPT 3.5 konnte gerade so einen kohärenten Satz zusammenstellen.
Ja.
Verstehst du? Und da haben jetzt halt Leute die Parallele gezogen haben gesagt: „Na gut, das hat, du hast nichts gehackt mit GPT 3.5. So, also ist das jetzt safe? Alles auch nur Fake. Aber ich meine, deswegen daran, dass es ja actual Auswirkungen hat, sozusagen, dass ja auch versucht wird, damit relativ irgendwie gut umzugehen, dass zum Beispiel gesagt wird: „Ja gut, es, ähm, es wird diese Technologie halt bald auch in Open Source geben. Deswegen ist die Idee, die ja auch, auch OpenAI hat ja jetzt so was und Google hat auf der Google I/O auch so was angekündigt, aber egal. Deren Ziel ist jetzt zu sagen: „Okay, wir gehen zuerst zu allen großen Firmen mit diesen Modellen und scannen die halt alle auf Sicherheitslücken, dass quasi,
wenn dann diese Technologie irgendwann inevitably, äh, halt allen Leuten zugänglich ist, dass dann zumindest jetzt nicht Google morgen gehackt wird oder halt, dass jetzt nicht Adobe morgen gehackt wird. Das wäre schon ganz schön scheiße für die Weltwirtschaft.
Ja.
So, aber
ja, also fand, fand ich wild. Das war für viele Leute, denke so ein kleiner Aufwachmoment, würde ich sagen, weil verstehst du, die konnten dann immer sagen: „Ja, also das, keine Ahnung, ganz viele Kai GitHub Issues,
so und so und alles ertrinkt im Slop. So, das alles so: „Ja, es ist alles, es ist alles nichts. So viel Wind, aber Ende ist es ja alles nichts. Nichts davon hat 'ne echte, hat einen echten economic Value, nichts davon hat ein echtes Sicherheitsrisiko et cetera, et cetera. So, das ist das Narrativ, was da immer verbreitet wird. Und ich glaube, das ist jetzt aber halt sehr schwer zu dienen gewesen. Wie kann man denn so ignorant die aktuelle Situation ignorieren?
Äh.
Oder falsch einschätzen, sollte ich eher sagen. Also-
Äh, extreme Stankorbium.
Ja. [lacht]
Aber Jona, perfekt, wie es hier
aufgeht.
Richtig. Ich muss aber auch als Disclaimer natürlich auch noch mit, ähm, anmerken, dass es, dass tatsächlich auch schon, dass schon einige nachgewiesen haben sollen, dass auch gewisse Modelle über die letzten Monate auch teilweise schlechter geworden sind oder zumindest, dass Menschen dieses Subjekt, dieses subjektive Empfinden davon haben. Und das ist natürlich die Frage: Hängt das damit zusammen, was einem von allen Firmen versprochen wird und die Modelle bleiben effektiv in ihrer Qualität gleich? Oder gibt es tatsächlich eine Rückwärtsentwicklung? Weil viele meinten ja auch, wie die KI antwortet und wie welche Tokens am Ende ja auch natürlich generiert werden. Das entspricht ja komplett der Qualität und wie viele Tokens auch angege- ausgegeben werden, wurde halt einfach sehr manipuliert. Also dass zum Beispiel einfach sehr viel mehr Füllmaterial jetzt mit im Output ist im Vergleich zu früher, sodass man heutzutage eher ein „Oh, fasse dich kurz", noch hinzufügt müsste, um den Output so zu bekommen, wie man ihn eigentlich erwartet.
Mhm.
Da gibt es eben auch viele, die in diese Richtung argumentieren, was ich definitiv verstehen kann, weil ich da auch subjektiv gesehen auch ein bisschen das Gefühl habe, dass das passiert.
Jona, also da kommen wir halt in den Bereich, ich wollte eigentlich nicht drüber reden, aber irgendwie habe ich schon Bock. Ich will jetzt seit zwei Folgen eigentlich mal, will ich mal diesen, diesen kleinen, ist kein Rant, aber diesen, diesen kleinen Hot Take von mir eigentlich bringen.
Tu
Und zwar, wer kein kostenpflichtiges KI-Modell benutzt, ist faktisch nicht in der Lage, eine korrekte Einschätzung zu treffen, was KI heutzutage kann.
Ja.
Und ich finde das, ich find das, ich find das schade in mehrerlei Hinsicht. Also ich finde das, ich finde das, also deswegen, ich habe auch schon den Hot Take gebracht. Also da bin ich, also das ist der Punkt. Da, da stimmt niemand mit mir bei. Ich, ich bin ja quasi, ich bin der, der sagt, aus, aus einem sehr hohen philosophischen Level wäre ich dafür, dass es kein kostenloses ChatGPT gibt.
Mhm.
Sondern ich finde, es tut der Gesellschaft und der Industrie insgesamt-Schaden, dass es quasi halt, ja, zwei sehr unterschiedliche Arten von KI gibt, die so dem Konsumenten zur Verfügung stehen. Es gibt die, die halt kostenlos ist, die sechsundneunzig Prozent aller Leute nutzen und sich daraus halt ihre Meinung bilden: Was kann KI?
Richtig.
Und dann gibt's halt die Leute, die halt dafür bezahlen und halt ein viel, viel besseres Ding bekommen und deswegen 'ne viel krassere Ahnung haben. Ich hab das letztens gemerkt, hier im Radio.
Also das, das ist ja total richtig, aber ich glaube, ich glaube, dass das meine Vermutung nicht invalidiert. Es invalidiert definitiv das Argument mit: „Ah, na ja, es ist ja doch nicht so geil, wie alle versprochen haben. Ja, natürlich, wenn man kein Geld dafür ausgibt, entweder monatlich oder gar pro Prompt, weil natürlich ist, wenn du zehn Euro, hundert Euro oder gar hundert Euro pro Prompt ausgibst, ist natürlich das Ex, das Ergebnis extremst heftig, was du da alles erzielen kannst heutzutage schon mit der KI. Aber ich glaube, dass mein Argument vielleicht immer noch steht.
Genau, nein, ich denke, dass man das eventuell damit erklären kann. Also meine Theorie wäre, dass quasi am Anfang, um den Hype aufzubauen, zum Beispiel auch die kostenlosen Nutzer das Geile bekommen haben, obwohl sie nicht bezahlt haben. Und jetzt, wo man, wo sich halt langsam die KI-Firmen sagen: „Okay, das kostet halt actually richtig viel. Also wir verlieren auch mit den Leuten, die zweihundert Dollar im Monat bezahlen, Geld.
aber wir sollten vielleicht anfangen, dass die Leute, die literally nichts bezahlen, vielleicht 'n bisschen weniger Intelligenz bekommen. You know?
Ich denke, dass das eine Erklärung sein könnte, sozusagen warum Leute, die halt-- also zum großen Teil Leute, die das merken, ja die kostenlosen Nutzer sind, halt das merken. Weil einfach quasi, sie bekommen einfach nicht mehr hundert Prozent dessen, was möglich wäre.
Ja.
Und darum kommt es ihnen schlechter vor, weil es schlechter ist.
Ja.
Genau. Ähm, ich wollte aber nur noch mal darauf zurück. Ich habe das gemerkt, dieser Kontrast. Mir ist so klar geworden, was für einer Bubble ich lebe. Also Jona, für dich als kleine Beichte: Ich habe mir jetzt für diesen Monat mal zum Ausprobieren, ich habe das Hundert-Euro-ChatGPT.
Nice.
Also ich habe mir nicht das für zweihundert Euro geholt. Also ich habe, ich habe ChatGPT Pro, aber da kannst dich entscheiden, möchtest du das für hundert Euro, wo du die fünffache Menge hast, oder für zweihundert Euro, wo du die zwanzigfache Menge hast. Und ich hab's mir geholt, weil ich bei Programmieren mit Codex immer an meine Grenzen gestoßen bin und mir dachte: „Okay, es würde sich jetzt legit lohnen, mehr Kontingent zu haben.
Ja.
Aber mit, mit fünffach komme ich komplett aus. Da komme ich nicht an die Grenze, also brauche ich zwanzigfache nicht. Ähm, und dieser Kontrast zu-- wir saßen hier im Radio und, äh, eine, eine, ei-eine, äh, hier eine Dame aus dem Radio hat halt erzählt so: „Ja, na ja, äh, irgendwie, ich habe ChatGPT gebeten, eine, eine Zitation in APA quasi umzuwandeln.
Ja.
Und es hat reingeschissen.
Ja.
Bei einer extrem einfachen, offensichtlichen Aufgabe.
Ja.
Und dann haben wir gesagt so: „Ja klar, also das kann KI nicht. So, das geht nicht. Kontrast dazu: Codex schreibt wöchentlich für mich hunderttausende Zeilen Code fehlerfrei.
Ja.
Das ist so ein Kontrast. Der durchschnittliche Mensch hat zu, zu Recht den Eindruck, dass halt du ChatGPT nicht mal einen Satz schreiben lassen kannst, ohne dass es wahrscheinlich reingeschissen hat.
Ja.
Weil der durchschnittliche Mensch halt das Kostenlose kennt, was scheiße ist.
Ja.
Und das finde ich aus mehrerlei Hinsicht schade. So natürlich aus 'ner gesellschaftlichen Sicht finde ich's schade, dass quasi der Großteil der Bevölkerung nicht versteht, was für 'ne coole Technologie es gibt und wofür man sie benutzen könnte. Aus 'nem jetzt eher doomerist Perspective könnte man sagen, der Großteil der Gesellschaft checkt nicht, wie gefickt wir alle sind.
Ja.
Weil sie denken, das Ding hat nicht mal einen Satz korrekt geschrieben. Das nimmt mir nicht meinen Job weg.
Ja.
So, und die checken nicht, dass es halt, wenn du Geld bezahlst, absolut Dinge gibt, die dir deinen Job wegnehmen können. Und ich persönlich find's halt auch mega schade, weil dadurch natürlich die Wahrnehmung dessen, was ich mache mit KI, halt extrem verzerrt ist.
Mhm.
Dass es halt passiert, dass wenn ich Leuten sage zum Beispiel: „Hey, ähm, ich experimentiere gerade damit, die Crunch-Time-Videos mit KI zu schneiden.
Ja.
Dann denken die Leute daran, was ihr kostenloses ChatGPT, wie das in drei Sätzen sieben Fehler macht und sagen: „Wieland, lass das bitte. Das wird nicht funktionieren. Hä? Das kann doch KI gar nicht. Es kann nicht mal einen Satz schreiben, ohne 'n Fehler zu machen", sagten sie unter Berufung auf ihre Erinnerung an das kostenlose ChatGPT.
Ja.
So, [seufzt] so natürlich habe ich da von meinen Freunden auch natürlich Gegenargumente bekommen. Ich finde absolut gut, dass es diesen kostenlosen Zugriff gibt, insofern, dass ich natürlich sage: Ich finde gut, wenn mehr Leute Zugang zu diesem Werkzeug haben.
Ja.
Und wer es sich nicht leisten kann oder will, da bin ich wie gesagt selbst wie gespalten, ähm, hat immerhin 'ne Möglichkeit. Auf der anderen Seite kommen wir am Ende zu meinem Grundargument: Nicht KI ist das Problem, sondern der Kapitalismus. Es ist halt-- also wenn alle Leute Zugang zu 'nem sehr guten System hätten, wär ich da natürlich dabei. Und natürlich zu sagen: „Ja, okay, dann kannst du halt kostenlos was nicht so Gutes haben, aber immerhin hast du was." Ja.Aber ich finde, [seufzt] da hat sozusagen das Internet und der, sag ich mal, Internetkapitalismus, der halt in den frühen 2010er Jahren so richtig anfing, halt hat leider KI in die Griffe bekommen, weil ganz am Anfang, ganz früher hat Sam Altman nämlich noch gesagt so: „Jo, unsere KI, ich weiß, ihr seid es gewohnt, dass alles kostenlos ist im Internet und über Werbung finanziert wird. Like, KI ist so heftig teuer, das funktioniert nicht. Deswegen werden wir das nicht als Geschäftsmodell machen, weil wir werden keine Werbung machen und es wird keine kostenlose Version geben. Wir stellen hier ein Produkt her, wofür ihr bitte natürlich bezahlen werdet.-
Ja.
-so wie ihr das bei jedem anderen Produkt auch macht.
Ja.
Weil ohne Scheiß, ich vergleiche das immer, das ist ein richtig doofer Vergleich, weil ich vergleiche halt zum Beispiel, auch wenn ich quasi Leuten erklären will, ChatGPT und ich benutze die OpenAI API, dann vergleiche ich es immer mit Milch, und zwar mit Müllermilch, weil ich quasi sage so: „Okay, in der Müllermilch sind, ich weiß nicht, ob das stimmt, wer verklagt uns wegen Rufschädigung, ähm, in der Müllermilch sind meinetwegen fünfzigtausend Konservierungsstoffe und Geschmacksverstärker, aber das heißt ja nicht, dass wenn ich als B2B-Customer für das Herstellen der Wieland-Milch,-
Ja.
-wenn ich mir jetzt von, von der Molkerei Müller die B2B-Milch kaufe, die hat keinen Geschmacksverstärker oder Konservierungsstoff oder irgendwas. Die ist gut. Wahrscheinlich werde ich in meine Wieland-Milch Konservierungsstoff und Geschmacksverstärker reinmachen oder im Falle von ChatGPT dich tracken, dir Werbung zeigen, deine Daten verkaufen. Aber nur weil quasi die Müllerei Molker andersherum auch sozusagen die Müller-Milch herstellt, muss man trennen zwischen dem B2B-Produkt und dem B2C-Produkt. Und deswegen vergleiche ich das jetzt immer mit, stell dir vor, so, so, so, das muss, das kann man sich gar nicht vorstellen, aber im Internet und bei digitalen Waren ist das halt normal. Stell dir vor, du im Laden gibt es einfach eine kostenlose Müller-Milch und eine, die du bezahlen musst.
Ja.
Und die kostenlose ist halt scheiße.
Ja.
Also die ist halt deutlich schlechter.
Es ist halt Wasser mit ein bisschen Milchgeschmack oder was weiß ich, ja.
Und dann stell dir aber mal vor, was, was wäre das, was passiert? Fünfundneunzig Prozent aller Leute würden die kostenlose Müller-Milch nehmen, würden sagen so: „Also, Wieland, bist du, bist du dumm? Warum bezahlst überhaupt Geld dafür, hä?„ So. Und der nächste Punkt ist, sie würden und dann würde sich halt dann die Molkerei Müller selbst ins Bein schießen, wenn ich dann sage: „Ja, mir schmeckt die Müller-Milch, ich bezahle dafür.„ Die würden sagen: „Also, Wieland, ich trinke immer die kostenlose Müller-Milch. Die schmeckt so scheiße. Also selbst kostenlos nehme ich die nur gerade so. Nie im Leben würde ich für den Scheiß Geld bezahlen, weil ihm gar nicht in den Sinn kommt. Es heißt doch beides Müller-Milch. Was willst du, Wieland?„
Ja.
Natürlich bezahle ich dafür kein Geld. Und genauso sagen mir dann auch meine Leute so: „Wieland, ChatGPT kann nicht mal einen Satz richtig schreiben. Nie im Leben würde ich Geld dafür ausgeben.„ So. Weil sie, weil ihnen obviously gar nicht klar ist, dass das ja nicht so wäre, wenn... Sorry, ich rante viel zu viel.
Richtig. Und sie verstehen auch nicht, dass wenn eine Firma eintausend Euro im Monat, also zwölftausend Euro im Jahr, in Form von KI einsetzen würde, dass sie da schon durchaus eine Position einsparen können. Also-
Ja.
-die Frage ist nur natürlich, welche. [lacht] Aber wenn natürlich deine Erfahrung ist, okay, du hast halt das kostenlose ChatGPT oder, ähm, oder meinetwegen den kostenlosen Copilot oder was weiß ich nicht alles, dann kannst du das natürlich nicht nachvollziehen, weil ach ja, nee, KI, nee, Jobs nehmen, ja, nee. Aber du musst ja verstehen, dass die Alternative ja ist, okay, einer Person stattdessen dreißig bis fünfzigtausend Euro oder gar mehr im Zweifelsfalle pro Jahr zu bezahlen. Und das ist ja theoretisch das Budget, was du für die API-Anfragen
et cetera hast. Was man, sage ich mal, mit der KI und wie geil sie ist und wie gut sie sich anpassen kann, natürlich auf eine gewisse Weise stark unterbieten muss. Oder das ist, ja.
Aber richtig, Jona, wie gesagt, auch wenn du das schon wieder sagst, wir haben mit, mit den Jobs, also ich glaube, das sind einfach
incredible levels of Copium, was ich verstehen kann, weil so ist der Mensch nun mal. Wenn, wenn er irgendwas hat, was ihm Hoffnung gibt, ich meine, ich würde, oh, Wieland mit den Hot Takes. Oh, ich freue mich auf die Kommentare auf YouTube. Ich finde, man kann es irgendwie mit Populismus vergleichen. So, es ist auch dieses, dieses, quasi so irgendwas gibt mir eine Hoffnung, ne, keine Ahnung, so mein Leben ist scheiße. Warum? Asylbewerber. Wenn die nicht da wären, wären all meine Probleme gelöst und das gibt mir Hoffnung, weil es nicht heißt, oh, die Welt ist komplex und vielleicht kann man Probleme gar nicht lösen, sondern ich weiß eine Sache, warum mein Leben scheiße ist und dagegen kämpfe ich jetzt.
Und das kann man jetzt natürlich nicht aus, komplett aus dem Kontext reißen, was du bisher gesagt hast.
[lacht]
Verstehst du, genauso denke ich mir halt, dass wenn man jetzt jemandem sagt, auch immer wieder so: „Hey, like, KI und die wird halt, die, und ich sage dann, die wird demnächst in der Lage sein, den Großteil der Arbeit der Menschheit zu machen und wir sollten uns als Gesellschaft überlegen, wie wir damit umgehen.
Ja.
So, das wär halt wichtig. Dann und dann kommen halt solche, diese ganz berühmte Studie heraus, fünfundneunzig Prozent aller KI-Projekte in Firmen schlagen fehl. So, und dann, da stürzen sich die Leute drauf und sagen: „Guck mal, guck mal hier. Kann also gar nicht stimmen. Das Ding nimmt mir nicht meinen Job weg." Und dann liest du das Paper und denkst dir: „Ja gut, die definieren halt 'n Fehlschlag als es hat nicht die Revenue erhöht oder sie fanden das halt nicht nützlich." Aber dass eine Firma oder-
Ah, das ist also der Threshold dafür, dass es gescheitert ist. Aha, okay.
Also, ne also sie haben das Scheitern definiert, wie sie haben es nach der Testphase nicht weitergemacht. Also, wo ich mir denke so, also ich weiß es jetzt nicht so krass von Firmen, aber Jona, fünfundneunzig Prozent meiner Projekte schlagen fehl. Wenn man sagt, ich probiere halt was aus, merke, das bringt nicht den gewünschten Effekt und dann lass ich's halt.
Sie müssen deinen Umsatz erhöhen. Ja klar.
Oder halt meinen Umsatz. Oder es hat mir irgendeinen Benefit gebracht in meinem Leben so. Nein, machen wir nicht. Aber hey, das machen doch Firmen ständig. Also so, das machen doch auch Firmen safe mega oft. Die sagen: „Okay, wir probieren mal das, versuchen mal ein bisschen was zu entwickeln, machen das mal eine Woche oder zwei und wenn das nicht klappt, dann machen wir's halt nicht weiter.
Ja, richtig.
Aber das zählt in dieser Studie als KI-Projekt fehlgeschlagen.
Na ja, das ist ja etwas, das ist ja ganz schön strikt.
So und, aber da, da stürzen sich die Leute drauf und ich kann's verstehen, weil natürlich willst du das nicht glauben, wenn dir einer sagt so: „Hey, übrigens, du hast jetzt, du arbeitest seit zwanzig Jahren, äh, in drei Jahren ist übrigens, die Welt wird komplett Kopf stehen."
Ja.
Dann stürzt du dich natürlich auf alles, was sagt: „Ey, der labert nur.
Ja.
Die labern alle nur, die was von KI erzählen.
Ja.
Apropos teure Abo-Modelle, wo man es aber garantiert nicht einsehen muss, dafür Geld auszugeben. Tatsächlich hat jetzt auch Plex mal wieder ihre Preise angehoben und das find ich ja so absolut whack, dass es überhaupt, also zu den Ausmaßen an Kosten da überhaupt so gekommen ist, weil sie erhöhen jetzt halt den lebenslangen Zugang zu Plex. Der ist halt von, ich weiß nicht, ob es jetzt gerade bei zweihundertfünfzig Dollar war, jetzt auf siebenhundertfünfzig. Es wird also verdreifacht und der Grund dafür ist, der Dude hat gesagt: „Ja, nee, eigentlich wollen wir das ja sowieso nicht, ähm, länger so anbieten", also praktisch den klassischen Adobe Move, sondern wir wollen ja sowieso eigentlich nur Abo-Modelle anbieten, wo man halt jeden Monat wieder und wieder bezahlt. Und da ist natürlich RIP, weil es ist eine Software, um Videos, die schon bei dir auf deinem eigenen Server logischerweise schon existieren, dann an andere Geräte zu streamen und dafür muss man kein Geld ausgeben und überhaupt nicht siebenhundertfünfzig Euro zusätzlich natürlich zu Hardware und das, dass man sich das alles einrichtet, den Zeitaufwand, den man natürlich mit dem Einsetzen davon hat. Man könnte auch einfach eine sehr schöne Open-Source-Lösung stattdessen benutzen und es ist einfach geil.
Wenn man, also wenn man Bedarf für so etwas hat. Also natürlich, natürlich nur mal so als Disclaimer: Ihr müsst natürlich auch die Videos entsprechend schon einmal gekauft haben, aber dann dürft ihr euch ja Privatkopien in Deutschland anlegen. Das heißt, das, was da passiert, ist auch vollkommen legitim, aber ja.
Ja.
Lol. Und das ist wieder noch ein weiterer, als hätten wir nicht schon, als hätten wir von der Bevölkerung her nicht schon genügend Hate bezüglich Abo-Modellen gehabt.
Ja.
Jona, da haben wir aber mal wieder geliefert.
Richtig.
Wie man sagen könnte. Wir haben eine wundervolle Folge aufgenommen, voller krasser Infos, äh, voller Infos über unsere privaten Projekte, was wir grade so machen, was wir, äh, mit Technik machen und natürlich darüber, ähm, was die großen Tech-Firmen mit Technik grade so machen. Und Jona, wir hatten sogar noch ein paar schöne kleine Rants über den Late Stage Capitalism und die drohende Watchshops-Welt, in der wir alle vielleicht mutmaßlich bestimmt bald leben werden. Es war eine Classic-Folge vollgepackt mit tollen Momenten. Wenn man das jetzt nicht alles gehört hat und sich aber denkt, das war so gut, ich würde das gerne komplett hören. Ich hab jetzt gerade einfach nur reingezoomt, reingeschaltet oder ich würde es gerne nachhören. Wo kann man das denn machen, Jona?
Dafür müsst ihr am besten auf radio-unique.de gehen. Dort findet ihr natürlich alle Newsartikel von, von uns als Studentenradio, aber ihr solltet natürlich auf die entsprechenden Crunch-Time-Episoden klicken. Dort könnt ihr natürlich jederzeit alle Folgen noch mal nachhören. Ansonsten könnt ihr auch gerne auf YouTube oder Spotify nach Die Crunch Time suchen. Wir haben tatsächlich auch unseren Podcast tatsächlich auch im RSS-Format. Das heißt, da müsst ihr einfach nur mal auf podcast.radio-unique.de gehen. Da könnt ihr euch von allen, ähm, Podcasts direkt die RSS-Links, ähm, abspeichern und direkt in euren Podcast-Reader eurer Wahl reinladen oder dort findet natürlich auch direkt die YouTube- und Spotify-Links et cetera.
Und wenn man aber ganz frisch dabei sein will und, und oder vielleicht nur ein analoges Radio hat, wo man auf so 'nem Slider eine FM-Zahl einstellen w-will.
Uiuiui.
Wo kann man denn dann die Crunch Time hören? Das nächste Mal.
Die einundachzigste Folge der Crunch Time kommt dann tatsächlich am 28. Juni. Das ist wie jeden Monat der vierte Sonntag und da müsst ihr zwischen achtzehn und neunzehn Uhr entweder auf UKW, auf einhundertzwei Komma sieben Megahertz einschalten oder auch gerne auf DAB+ im Bukett fünf B. Dafür müsst ihr euch aber natürlich im Chemnitzer Raum befinden. Ansonsten könnt ihr auch gerne auf radio-unique.de gehen und auf den Webplayer klicken. Dort könnt ihr auch dann am 28. Juni zwischen achtzehn und neunzehn Uhr die Crunch Time live miterleben.
Also euch stehen alle Möglichkeiten offen, diese, die letzten und die zukünftige Crunch Time zu verfolgen. Bis dahin. Macht’s gut.
Tschau.
[Outro-Musik]
Das war
die Crunch Time, eine Produktion von Radio UNiCC.
Zuletzt aktualisiert am 1
Hello and a warm welcome to all of you out there tuning in. Welcome to Crunch Time. This is episode eighty of our tech podcast; I'm Wieland.
And I'm Jona, too.
Every fourth Sunday of the month we bring you the latest from the world of technology and from our personal DIY and tinkering life. We've once again prepared some nice things for you, this time to match the number eighty. Normally, whenever we hit some round, quirky number, we try to come up with something really big, but I think this time it's just very cool: our eightieth episode will be a classic one, with topics from the world of technology and, uh, from the DIY projects we do in our spare time.
Radio UNiCC presents
[Music] the Crunch Time
[Music] with Jona and Wieland.
And that's where I'd like to start right away, uh, yeah, with a topic I already teased in the last episode, that I've since played around with a bit more, so I can now finally tell you all how great I think Google Health Connect is, because it's just—
[laughs]
It's just awesome. Jona, I have been cookin' so hard. It's really good. So I should probably bring you all up to speed first: what is Google Health Connect, why do I think it's so great, and why should you all be using it?
Right.
So, um, in a very untypical move for a big tech company, Google Health Connect is basically an interface on Android phones that lets different health-related apps talk to each other. The whole thing is set up so that it's essentially just a database that's stored locally on every phone, and apps can tell it to write data into that database or read data back out. There's also kind of a sub-permissions system on top of that. And maybe I should mention: up to Android 14 it's just a separate app you have to install, and starting with Android 14 it becomes a built-in part of the Android operating system.
And the way I understand it now, that also means that, for example, the step counts that the phone itself has recorded over the day could then be passed on, say, to the health-insurance apps as well. There are a few fairly well-known providers that do that—
Mhm.
Uh, the ones that, like, pay you a few cents for each day where you've done ten thousand steps with that phone in your pocket, of course. Does that also run through this API?
So I think—
or is that actually, is that something completely different?
So I think that could definitely also work through it. I personally haven’t used it for that specific case, but in theory all of that is possible. And it’s really important for me to stress that this is not, like, part of Google Play Services and it also does not sync with your Google account, because I can totally imagine a lot of people being worried about that. You actually can’t sync it with your Google account at all. The most extreme thing you can do is tell it to automatically export a ZIP file with all the data into any cloud app, and you can pick any cloud app that’s installed on your phone, including Google Drive if you want. But yeah, that’s really just an automatic export. All of it lives locally on the phone and—
Except for that export, of course. Can you also handle that locally, so that it just writes a ZIP file somewhere on the device? Because if you say, okay, I technically have the right to see which data is stored and so on, but then all of it is automatically pushed straight into some random cloud provider, that kind of undermines the whole nice ecosystem again. So does it also work completely offline, just locally?
So, uh, the thing is, I don’t— I don’t think so. I can’t just have it create a file directly on my phone, as far as I can see. But, like, first of all, you can of course just pick, say, Nextcloud there as the app it should export the data into.
Oh okay, well, then that’s more or less fine. I mean, nobody’s going to set up Nextcloud just for that.
Yeah.
But that, that means in principle it is possible.
Right, but what’s also possible here, and what I really like about it, is that it’s literally just a database on your phone, so you can just, like, write apps that work with it and that’s it. It’s not one of those things where, like with other Google stuff, if I want to build something that interacts with YouTube, I first have to create an app in the Google Cloud Console, get an app secret, and then somebody at Google has to review whether it’s okay for me to do that, and—
And in the worst case you only even have access to like twenty percent of the docs.
That’s the next thing.
And then there are a ton of features—
Yeah.
—that you can’t access at all, or that you technically could access, but you simply don’t know about them because they’re just not documented anywhere in a useful public way.
Yeah.
Exactly, all that stuff.
And the whole thing is just a database system on your phone where an app can simply request, like, “I would like to be allowed to read these data types and write those data types.”
Perfect.
And there’s an important distinction here. There are two big categories of data in there. Only one of them is really visible in Germany right now, I’d say, because I suspect that, due to EU regulations and medical-device laws and all that, there are still some things that aren’t really being used yet. Or maybe I just don’t use any of the apps that make use of them. Anyway, the first big bucket is, confusingly enough, just called “Health Data”, and that literally means all the stuff you can track. And every time I open that permission screen I’m blown away again by the sheer amount of things you can track. You should also know, since you mentioned transparency about who’s accessing what: you can, in the Health Connect app itself, or in the system settings under Health Connect if you’re on Android 14, see exactly which apps have accessed it recently, and what kinds of data they’re allowed to read or write, and so on. So: this Health Data category is all the stuff you’d normally associate with health tracking. And I’ve really, like, dug into it. There’s an app you can’t get from the Play Store, you have to download it as an APK from the Google developer site. It’s called the Health Connect Toolbox, and with that you basically get raw access to the database. You can simulate these access calls and look at what’s stored in there. And that’s how I know what you can actually write into it. It starts, of course, with simple things like steps, but then also heart rate. You can record your weight, bone mass, muscle mass— well, actually, no, not muscle mass. That’s the one weird thing I’ve found. Out of everything that’s supported, that’s the only real complaint I have: that muscle mass, which compared to all the other things is a pretty common data point, just isn’t there as a field you can store. I have to work it out indirectly, because Health Connect can store, on the one hand, the mass of all bones, and on the other hand the mass of everything that is neither bone nor muscle. And from those two values you can then basically back-calculate what your muscle mass must be.
Ah, what is the point of that?
You can, of course, also track nutrition. You can track what you eat, track your fluid intake, you can track your weight. They’re all just data points. And of course you can also track, uh, women’s-health topics there: so, like, menstrual bleeding, cervical mucus, all of that can be logged. And the thing I just, quote-unquote, find funny about it — I can already see the comments — is that explicitly under the women’s-health section, something I personally don’t want to track as a man, but women might, there’s a Health Data record of type “Sexual Activity”.
Yeah.
Where the only parameter— there is exactly one parameter for Sexual Activity, namely “Protection Used”, true or false.
Huh, but that just sits there so casually in the database. I mean, of course it totally makes sense why all of that is there, because you can, like, take all those data points together with temperature measurements and so on and use them to predict the cycle. I just still find it a bit strange to say, okay, I’m going to log that kind of activity every day, or I’m going to log my mucus consistency every single day. That’s kind of weird, but you can do it, and it really does help that prediction algorithm. That’s just, you know, context for everyone for whom this might sound a bit odd.
There’s this app that does women’s-health tracking, and in that one you can also log Sexual Activity. I don’t know whether it’s compatible with Google Health Connect, and whether it actually syncs that data into it.
But it could.
It could; on that day there’s a little heart icon. So if you had sex, there’s a little heart on that day. Anyway. In any case, uh, all of that stuff is in there as well, and that’s also kind of why—
“I would never want to sync that with Google!” — no, it’s on your phone. Like, to the point where you literally cannot sync it with Google. “I would never do that, that’s way too unsafe.” There’s nothing unsafe there; it’s on your phone.
And the awesome thing this database makes possible, which I find so wild and so good and so useful — something I would never expect from a big tech company — is that it actually enables interoperability between all sorts of different apps.
That is really atypical, honestly. You’d almost have to underline that once again right now.
Yeah, I find that so wild.
Yeah.
Exactly. Jona, I’ve just quickly pulled up from the Health Connect Toolbox, which can read everything, the list of Health Data types that exist. So we have active calories burned, elevation gained, floors climbed, activity-intensity data, speed, total calories burned, power output, VO₂-max, wheelchair pushes, steps, sports, training plans, distance. And then we also have other things like resting heart rate, oxygen saturation, skin temperature, blood sugar and, uh, yeah, it goes on somewhere— sleep, various body measurements, vital signs. You can even track mindfulness exercises.
Yeah, wow.
My mind is kinda blown by that. And that’s where I start to find it interesting. Now it’s coming back to me, my line of argument here, because I’m like, yeah, like, I’m aware, like, it’s framed as women’s health, tracking Sexual Activity, okay. But, like, as a man I might also want to track that to see correlations.
Yeah.
So, and I mean, there is a reason why you can set and store that “Protection Used” parameter there. I actually went and asked a couple of women in my circle, like, what’s the point of that, why would you ever log it? And they were like, “Well, if my period is late, I can quickly check when I last had unprotected sex. Could I be pregnant?” And—
Yeah, and then, you know, roughly assess—
Yeah.
how likely it might be, so to speak, right.
and I’m thinking, okay, but maybe I, too, have an interest in writing down and later checking when I last had unprotected sex.
Okay, but question: Is that, is that then just to flex in front of yourself? Or why? [laughs]
So, uh, no, I think that, actually you can already—now I—we're drifting a bit off topic here. Don't worry, but in principle that would mean that you can do these kind of fundamental analyses of a person's health basically directly, I'd say more or less automatically. That of course does not mean that all general practitioners disappear, that’s obviously not the point, but that you can, I'd say, already detect things directly, maybe much earlier, because normally you don't go, "Oh yeah, let me first combine these four different data sets to validate that I don't have this one weird disease." You know what I mean. One that specifically expresses itself in these kinds of parameters. Instead you could just do that directly, as long as enough data is fed into this system, as long as there's an app that is allowed to evaluate all of that—
Yeah.
—you could set that up in a really awesome way so that humanity as a whole just gets healthier. So that’s kind of what I—and that's a perfect segue into my—I’ve—I call it my overall health system, basically.
Oh, that's nice.
What I'm trying to achieve with my health system that I’ve now developed, at least a little bit. And for that, Google Health Connect is absolutely key, because I could never, and also would never want to, have all parts of this system from a single manufacturer; that would just be way too much lock‑in for me. So, Jona, I have a fitness‑tracker watch; it has an app. I have a smart scale, meaning a scale that's not just "smart" because it's connected, but a scale that also measures body metrics and all sorts of things, uh, like body‑fat percentage, muscle mass.
From all my data it can even calculate what my basal metabolic rate in calories is. And, uh, then I have a smart blood‑pressure monitor that can record this data. And none of these apps are compatible with each other.
Yeah.
By default they don't. And I have, um, an app that I use to track my diet, which I also—So, Jona, I basically have this one app, it's an open‑source app, it’s based on Open Nutri Tracker, and I’ve massively extended it. Out of the box it has no Health Connect integration, but it's just a database: you import the right module and off you go.
Yeah, very nice.
Um, and none of that would be compatible with each other and I would never be able to pull it all together. And then I also coded, uh, a workout app that basically guides me through a strength‑training routine, which also hooks into Google Health Connect. And all of that flows into Google Health Connect. And then I wrote myself a dashboard app that reads all this data from Google Health Connect and then draws connections and says stuff like, like, "Okay, all the various parameters are such that I should be losing fat."
Yeah.
Did that actually happen? If yes, great. If not, here’s a set of parameters you can tweak. For example, we might say, "Okay, then the calculation of how many calories I burn while running is probably wrong. Let’s tweak that a bit."
Yeah.
All this only works because of Google Health Connect.
Awesome.
And there’s also something else, which is the second big part of the Google Health Connect data. That’s called—like I said, it's set up a bit strangely. So one part is called Health Data and the other is now called Medical Resource. And that one is, I’d say, a bit more intense, because that’s really about—So in German the first category is called Fitness and Wellness, that’s the one with the fitness trackers and so on. And the other one is really about, like, medical stuff.
Basically lab results and medical stuff.
And there we have, for example—um, the permission system is different there too. With an app, if it has write access, it has write access to all medical data, and you can give an app read access only to specific categories. And even there there are some interesting things. We have allergies, doctor visits, information about doctors, conditions, vaccinations, lab results, medications, medical procedures, personal data, pregnancies, vital signs, and then there’s another category called Social History. And of course I looked that up in the Health Connect Toolbox and was like, "Okay, wait, what could I use as, um, as Social History?" There were JSON examples for Social History, and it’s basically, what is—so in English it’s called Social History, in German Sozialanamnese. And then all my friends who saw that were like, [laughs] "What an idiot, Sozialanamnese." [laughs] Anyway, for example, one example entry for Social History is: was exposed to second‑hand cigarette smoke as a child.
Okay, wait a second.
Yeah.
That—this, this statement was again so extremely Watch‑Dogs‑coded for me, the way you just presented it just now. Like that already had that exact vibe again, you know... [laughs]
That's exactly the kind of line you’d see pop up in Watch Dogs.
Yeah, exactly. Then like, "Oh yeah, here, your brother—"
—"is dealing with X‑Y," or something like that. Yeah.
But, like I said, that’s a bit of a different thing again, and I’ve never seen an app use any of that, except of course for my own apps that I wrote, because it’s basically just a database. But it really is kind of the equivalent of an electronic patient record, like what you have in the US, which for us would be the elektronische Patientenakte. And I actually use one of those things for myself in my system, namely medication intake. That one is a bit tricky. You can—because, as I said, it’s really intended for clinical use; it’s not for self‑tracking. So there isn’t a record type that just says, "I took a medication."
There’s "medication is prescribed to be taken in such‑and‑such a way", and there’s a data type that basically says, the nurse has now given me this medication for me to take it. But they emphasize in the documentation that from a medical‑philosophical point of view there’s a difference between "I was given the medication to take now" and "I have actually taken it now."
Yeah.
But I don’t care. [laughs]
Yeah.
I just write that, uh, Medication Administration record in there, and I know that in my app it means I took it, not that someone—
—someone came to your place and handed it to you personally.
Yeah, exactly. And that’s just really, really cool. And with all of these things I’ve built in there—I just want to give a tiny little glimpse. I’ve already talked about the device that checks whether I’m actually losing weight when I should. But there are also convenience things. For example, when my app asks me, "Hey, did you take your meds?" I usually take them after getting up, I don’t have to theoretically, but most of the time I do. And then when I open the app at some point during the day, it asks me, "Hey, did you take your medication today?"
Yeah.
And when I tap Yes, I get the choice: Do you want to enter a specific time, or was it after waking up?
Yeah.
If I tap "after waking up", it reads from the Google Health Connect data how my tracker tracked my sleep, how I slept. And from that it can calculate when I took the meds, even if I don’t remember when that was, because at some point I woke up. And I know—
That's very, uh, cool. As a little tangent to that: I also actually use the, um, sleep probability that basically every phone gives you as a prediction, I actually use that as a trigger in Home Assistant to just clean up all sorts of things at the end of the day. So, of course, to check that all the lights are off, etc. Just to have all the other maintenance stuff run, toggling whatever boolean helpers on or off.
Like I said, so that’s—
That, that is very, very practical.
That’s extremely practical, and that’s why I’ve built into my dashboard app that, as soon as I open it—because there’s no simple way to just say, "export this to a file"—my dashboard app just sends everything it has, as soon as it’s opened and I’m on my local network, to a server. And that server then does fun things with it that I’m still working on. I can do a bit of foreshadowing: in the future it should not only let me track my food, it should even generate recommended meal plans for me.
Wow.
Based on plans that basically change dynamically depending on what I did today, how many calories I burned, how much water I drank.
Right. And I think that’s really crazy, because you can think really far with that. You could say, "Oh, okay, what things have you bought that you could plug in?" Or, what does your current calendar look like? And you co—could then already predict how likely it is that you won’t feel like cooking something major tonight—
Yeah.
—after you get home? That’s just so human—
Exactly.
—completely human and, uh, normal to say, "Yeah, okay, then you already have something prepared for that case." Or that, let’s say, it also factors in that you don’t end up with, like, "Ah yeah, okay, it’s already eight p.m. and the app is suggesting the biggest feast ever." And then you’re like, okay, you really don’t feel like that. There are a ton of features like that that you could also feed into those kinds of predictions.
Exactly.
That’s obviously wild. Now all that’s missing is the overpriced smart fridge that also tracks what’s inside.
Yeah, I—I’m just not up for that. I’ve thought about it before. For many, many years I kept wondering every now and then, how could I build a smart fridge that knows what’s inside it without dying from the organizational overhead? I never managed it. I gave up. I’m not doing the whole "What do I have in the fridge?" thing. Instead I’d rather just say, I’ve now spontaneously bought this soda here. I, I just track that I’ve drunk it now, and then the plan dynamically adjusts what I therefore should or shouldn’t eat for the rest of the day.
Yeah, exactly. And at least you can track all your receipts, of course, and feed them into the system as well. Yeah.
Like I said, I also work a lot with Open Food Facts there; my apps integrate with that heavily. I’ve also added features to Open Nutri Tracker so I can contribute directly from Open Nutri Tracker to Open Food Facts and to Open Prices. Because otherwise I just wouldn’t do it. I’m not opening two apps and fiddling through some interface. I scan the thing and it tells me, "Stop, Wieland, these data points are still missing. Want to quickly enter them before you send it off?" Yeah, and then I send it off, I’ve drunk it.
Yeah, very nice.
And that’s how all of this works. And then there’s a third little thing that’s stored in there in Health Connect. So those are these three buckets, these small bits of data, where you again need a special permission type. And that one is really actually interesting in terms of access. Apps, if they have permission, are allowed to read data from all other apps. It’s always recorded which app wrote a given entry; that’s basically a standard meta‑tag. It can also record the device name, and what kind of entry it is—manually recorded, automatically recorded, inferred. And I just found the idea so funny that, in theory, you could have an entry—and now we’re back at Watch Dogs again—along the lines of: device type Amazon Echo, recording type manually recorded, activity type sexual activity. [laughs]
There already was a goofy episode with a similar title like that.
The data model actually fully allows for an entry like that to appear.
Yes.
Um, and so any app that has read permission can read from all other apps. It can write and delete only its own entries, though. An app can never, and you can’t even grant that, delete entries that were written by other apps. And the cool thing with the Health Connect data is that you can also request aggregated data, and it will, uh, combine that intelligently from different apps. But I have to say, like you already kind of hinted at earlier, it doesn’t work that well, especially for steps. For a long time my dashboard was telling me, "Wieland, you’re so awesome. You’re doing so many steps every day. It’s so nice, that totally counts as a workout, you’re walking so much. You don’t even have to do strength training today." And I was like, "Am I really that awesome?" [laughs] And then it turned out I had allowed my phone to write steps, and my fitness‑tracker app was also writing steps. And in theory the system is super cool and can factor that out, and can understand that when two apps say I did steps in the same time span, those shouldn’t be added together.
Yeah, yeah.
But yeah, that doesn’t really work properly, so I just forbid my phone from writing step data; only the app from my fitness tracker does that now.
Yeah, because otherwise that really is how it’s meant to work, that you then can properly fuse those data sets. There are people who, really for actual fitness reasons, will even wear the tracker on their leg or something like that. So you literally just end up with way better and, I’d say, much more reliable data points. If you say, okay, you’ve got your phone, and you’ve also got your smartwatch, and there are even some people who, like I said, wear it on their ankle more or less like an ankle monitor. So the system really should actually be able to handle that, but yeah.
So yeah, that part works; otherwise it’s really awesome. There’s also this function in the API where you can just say, like, "Please read aggregated steps from this point in time to that point in time, with everything de‑duplicated and all that." Super cool. And then, the next thing is that apps can, by default, only look thirty days back in time for anything. You can grant an extra permission so they can look back forever. And what also belongs to this third special category are GPX tracks. Which I found so, so cool, because I always thought it sucked that for another project I would have liked to have all my hikes recorded as tracks—like, the route I walked—and then overlay and aggregate them with data like heart rate and so on.
Yeah.
And in my fitness tracker’s app that just didn’t work. If I was lucky I could get a fucking GPX track, but even that was really bad, because I could only export it if I synced with their cloud where my route was stored. I thought that was really crap. But the tracks of your workouts are simply another data type in Health Connect that you can just write yourself, with a separate permission from that third category. And then any app that has read access can read them. So I just built my own little exporter.
Very cool.
So I’ve got some awesome plans for that already. So yeah, that—oh man, Google Health Connect, fucking awesome.
Wieland, you cannot imagine how hyped I actually was when I was, uh, reading the release notes, the changelog the other day. I mean, it’s maybe a kind of weird activity to do and be that insanely excited about while you do it.
I do too.
Okay.
But the question is, from which software exactly?
It was actually about ESPHome for me.
Okay.
Because with version, uh, let me think, 2026.5.0b1, so a beta version, I already saw there—
Okay
read right away: “Oh yeah, there’s this certain dude that I, that I basically already know just from his GitHub handle—”
Mm-hm
so he has finally managed to get his code merged in there. Actually into the current version, namely full Zigbee support.
Okay.
In ESPHome. It just works now.
Okay.
Before that it was just extremely limited to a single chip that not that many people use, that NRF chip. But now it also works for what is way more common now, of course the ESP32‑C6 and also the H2. They have Zigbee support built in by default.
Mm-hm.
And that means you can now just equip your projects directly with it. And that’s awesome, because you can simply map all your sensors and binary inputs and so on over Zigbee with it. And you still get all the functionality from the external libraries on top, and you can of course still hook up all your usual sensor modules, just like you’re used to. And yeah, I’m currently in the process of slightly rewriting my software to try it out. Because my first attempt with the external component, where you can already pull in other forks directly as a component, wasn’t all that successful. Technically speaking, in theory it has already been possible up to now, but only through such an external component, and for me it just never worked. I never managed to figure out what exactly it was failing on. But now it’s, let’s say, finalized. It has, let’s say, been merged into the main branch now. So it’s no longer only in the beta branch, and I’m super hyped about that, because up to now you could basically only use Wi‑Fi. To put it really simply: you could only use Wi‑Fi, and there are only two ESPHome‑compatible devices that can sort of do Ethernet. I think there are only ESP32 boards from Waveshare and some other manufacturer that you can really connect via Ethernet. That also works in theory, but apart from that it has basically always been, oh well, you always plug it in via Wi‑Fi, so to speak. And now, of course, I’ve already built and programmed my own presence sensor with it. It works great.
Oh, nice.
I’d say it’s really insanely plug and play. You don’t have to open the Arduino IDE and be like, “Okay, I’ll put this in the loop, these are all the commands I need to use to get it running,” but it’s absolutely simple. You just write your YAML file, upload it to your ESP32 and you’re done. It just works. It’s even great for people who have no clue at all. That’s putting it very bluntly.
Very good. [laughs] All our viewers will install it.
Right away. [laughs]
Nice. Yeah, so that was a bit insulting.
No, no, no.
Nice.
I mean, it’s extremely beginner‑friendly. You really just write a couple of lines in your text editor, upload it, and you don’t have to do anything in C or anything like that; you just use this declarative language and that’s it, and basically nothing can really go wrong.
Mm-hm.
And that’s just really crazy.
That is awesome.
And with that you can also save a lot of money by building your own presence sensor or other sensors, especially, um, when you want to track more specialized
values. For example, uh, CO₂ content of the air is also a tricky topic, because there’s just a direct correlation between price and how good your readings are. That’s really annoying, because there is simply no trick, no hack, no shortcut, no super‑cheap sensor that still gives you awesome data.
Yeah.
There’s no trick, like, “Oh yeah, here’s a sensor for two or three euros that’s just awesome,” it really just scales linearly. The two‑euro ones, in case of doubt, just make up values, because they’re actually measuring something else and only inferring CO₂ values from that and kind of guesstimating them. Whereas for around thirty euros you can get a relatively reasonable sensor; for example the SCD40, which is recommended quite often. And on the other end you can spend tens of thousands of euros on CO₂ measurements. And of course the results from those are insanely good, but there just isn’t any shortcut, so to speak, to awesome results.
Okay.
And with that you can hook up really great sensors to Home Assistant or any other system you like, and that’s pretty awesome, because for example I’ve now also built my own water‑leak sensor with a cable out of loose parts, completely home‑made and tailored to what I need.
Okay.
Because you can buy from Shelly, from their water‑leak sensor, this kind of, basically, audio cable where the outer jacket can partially conduct electricity. It’s a really, really interesting product. It’s basically an extension cable for measuring resistances. So the, the— [clears throat]
the water detector works by simply measuring the resistance between two metal contacts.
Yeah.
And you can also do that even if you don’t need it to be super precise, which in this case you don’t, because you’re only asking, “Is there water or not?” That’s totally sufficient for these use cases. You can implement it with a simple resistor, by, say, building a voltage divider between this cable and the supply voltage of your ESP32, and then you take that divider point and simply measure what voltage you have there with your ADC. With that you can then rearrange your voltage‑divider formula accordingly and from that you know—
Aha.
—you can then measure the resistance.
Okay, yeah.
So.
Yeah, I was, I was—
You can just do basic electrical‑engineering stuff and roughly figure out, okay, how much resistance do you have there right now. And with this sensor cable it’s pretty interesting. I’ve found that about one megaohm is a very good threshold. So, roughly speaking, above that there’s no water, and below that it means there is water on the cable. And it is an audio cable, I should probably mention that again, because it literally uses a 3.5‑millimeter jack plug.
Okay.
And it only uses the tip and the sleeve on it. And you can just use that however you want. I don’t, I, I don’t actually know what happens with the ring contact. I don’t know whether it’s simply not connected, or whether it’s tied to one of the other ones somehow. I’m not really sure what’s going on there. [clears throat] But you can simply repurpose it and do your own measurements. And the nice thing about this cable is that you don’t just detect water at a single point, but along the entire two meters or one and a half meters or whatever length the cable has. And you can, if you like, also hook up door contacts to it, which then of course don’t all need their own separate batteries, because that’s a common problem in smart homes: “Okay, which battery am I supposed to replace this week?” That’s slightly exaggerated, of course.
Yeah, yeah.
So you don’t end up with every little thing needing its own specific device, in the worst case. You can avoid that a bit by just putting a single ESP32 somewhere centrally and then having all the sensors you want in that room run back to it, so to speak. That’s also a pretty relaxed setup.
Yeah Jona, we haven't just been 'cooking'. Not only have we been, you know, 'logging in', as the young folks say, and 'cooking', as the young folks say, but there was also Google I/O recently, Google's, uh, conference where they basically just tell you how awesome they are and what they've just released and are about to release. And I honestly have to say: holy moly, this time it was really a Google A‑I/O. Like—
[laughs] Yeah.
It was only about AI.
I mean—
just that.
Yeah.
Like, just, I— I—
So what I’d heard, for example, is that they basically just want to turn the Google search bar more or less into this kind of universal tool now. And that it was also really weird how they launched their, what were they called again, I think Google Books or something, um, that that was technically at this separate event that happened right before. Like, something weird went down in the release cycle there, that they pushed out something else right before...
announced something.
Exactly. Yeah, that was also one of the big things we need to talk about. There was, there were so many things, it’s all so cool and so wild, but it’s honestly getting kind of exhausting at this point. Because basically you can sum it up as: every single thing that is in any way a Google product now gets, more or less, either some kind of 'just tell it all your stuff' feature for the Google Ultra subscribers, or every search box turns into an agentic bar. So you were totally right: they’re super proud that after more than twenty years, now, after twenty years, the Google search box is changing its function. And that’s basically how Google wants to corner the market a bit, I think, because, uh, Google started getting scared that people stopped googling things and instead just typed whatever they would have googled straight into ChatGPT.
Yeah.
So now Google also wants a piece of that, basically by saying, 'Yeah, and our search bar is the same thing, basically.' So it goes beyond just this AI mode; you can just type something into the search bar and that’s the start of a conversation with Gemini. And of course Gemini Omni is very impressive, the model that can go from anything to anything. You know, what we were promised back with GPT‑4.0. People may remember, the O stood for 'Omni'.
Yeah.
Um, and it really can go from anything to anything. It can generate videos that are supposed to be very well grounded in physics. So that’s pretty wild, but beyond that everything is just becoming a bit more agentic. Even on YouTube there’ll be a feature where you don’t actually search in the search bar anymore, you just type, 'Explain to me how to ride a bike,' and search just uses YouTube to show you a compilation of relevant videos or something like that. Or it’ll say, 'Yeah, click here,' and the video will automatically open at the exact second where you see whatever it is, and then, 'Click here to watch that part.' So, yeah.
Oh wow,
And the second thing is basically: everything becomes an agent. Google, uh, also wants to roll out something that kind of works for you in the background. It’s very, uh, very intense, very agentic, very focused on, 'Tell Google something and it’ll somehow just do it for you.'
Ah, yeah.
But then there were also, um, these—what I found really weird in terms of wording and marketing—these 'smart glasses' that got announced again. Like, they already announced the smart glasses at last year’s Google I/O, we remember, we talked about them.
Yeah.
Yeah, that Google Glass is coming back. And now at this Google I/O they said, 'Oh by the way, the smart glasses, those are still coming later, um, but we’re going to release a derivative of them that’s actually coming this fall already: audio‑only glasses. They’re basically just like the display glasses, they have a microphone, they have a camera—this really wasn’t clear to people, they do have a camera—um, but they basically have everything the other smart glasses have, just without a display in the lens.'
Yeah, yeah.
And then there was this demo where, you know, this woman was standing there on stage and she said, 'Hey Gemini, I’d like to, uh, go to where I went hiking last time, like, I want…' Right, all she actually said was, 'I want to go to where I went hiking with my friend last time.' And then Gemini said—sorry Jona, everyone thought this was awesome, but I found that part super dystopian. Let’s please not do that.
Yeah.
Then the glasses themselves just go and say—
Yeah.
—which is how Google wants to show how amazing this is and that you absolutely need it. The glasses say, 'Of course, I’ll navigate you to, uh, Blabla Peak, where you went hiking with Sarah last time. Normally around this time you always grab a coffee from your favorite shop. Should I go ahead and order that coffee and route you past there on the way?'
No!
And the woman’s like, 'Yeah.' And it’s like, 'All right, I’ve placed a DoorDash order for pickup and I’ll now navigate you so you arrive right when it’s ready.'
Bro.
I do not want my glasses to be like, 'By the way, usually around this time you stuff your face at McDonald’s. Want me to just order your usual meal there right now?'
[laughs]
So and then, like I said, I don’t know, this whole, this whole thing—no idea—when it comes to food delivery services I just get totally triggered, because I’m like, 'Nobody can afford that.' [laughs] Like, I would never in my life place an order—here that would be a Lieferando order—for delivery,
uh, because that co— because, because that costs—
I’ll just say, like, casually.
Yeah, that, that is insanely exp—just way more expensive than if you just pay for it in the shop. There’s always the fee and another fee and the fee‑fee and the service fee and the service charge. Like,
then my glasses just go, 'Oh, what, he wants a coffee? Okay, I ordered you a coffee for twelve euros, go pick it up.'
Yeah.
No id— I mean, it’s not as bad as 'buy me a three‑thousand‑five‑hundred‑dollar suit,' but I just really don’t want that either.
Yeah, but it’s kind of, I’d say, the replacement for a personal assistant, basically. So in a way it already is that, but you don’t even have to push it that far with paid things. Like, if you say, 'Okay, that’s just not in my price range,' you don’t casually order a suit and it immediately pulls your measurements from your body‑data API and can say, 'All right, now I know exactly what size to order for you.' And then you just get your suit and that’s awesome. Sure, that’s another level again. But even just being able to use it in a more basic way, like, 'Okay, find me some accommodations that match the kind of places I usually stay,' and it goes, 'Okay, here are three or four options,' and you’re like, 'Yeah, these look great in terms of vibe and price.' And then the system can learn directly from that, and you never have this, 'Ugh, now I have to sit down and invest time into looking something up on the internet,' because you just let it do it for you.
Yeah.
And that way you actually gain time back in your day.
Of course, of course. Like I said, it’s just this, this whole ramp— I know it’s super contradictory of me that I love all the AI stuff so much, but then I find this rampant consumerism so, like, honestly ridiculous though. So—
Yeah, same, but you really don’t have to take it that far. You don’t have to use it to that extent.
Yeah.
But the problem again is that you’ve opened up, I’d say, a new attack vector on yourself, because you’re not only sharing even more data, you’re also way more vulnerable to advertising again.
Yeah.
Because in case of doubt there’ll be some partnership between certain companies and the company that made your smart glasses or the AI for them.
Yeah.
And then it’s just instantly rip again.
That’s exactly what I mean. Especially this thing they showed that was like, 'Oh, you can make shopping more fun by not having to, uh, search for stuff yourself.' When I saw that demo I was like, 'Oh my God, I want a straw hat that has exactly this and that and that, and the agent is smart enough to figure out that this product meets all my requirements.' And I’m sitting there going, 'Okay, but how do I know there isn’t a cheaper product that also fits my requirements?' Like… [groans]
Well. Anyway, that’s what I found kind of messed up, but it was obvious that had to happen, because Google is a company that fundamentally runs on advertising. Of course.
Yeah.
There was also, um, another announcement that I find interesting and that I think kind of shows where this is heading. This is where it gets very futuristic. In Google Search there will soon be the option for Google, when you ask about something, to live‑code, how should I put it, like explainer UIs or simulations. And that’s cool, and I’m curious where that goes. Because I recently discovered something called OpenUI.com. And it’s, it’s wild when you think about it. The idea there—and they’ve actually already built a whole network around it—is, you know the hype around Open Claw and all that, and how everyone now needs to have a Claw agent.
Yeah, and Google is now trying to spin up their own thing in that space too.
Yeah, but an Open Claw O‑OS would be enabled by this OpenUI.com thing. And the idea—listen, Jona, this is really wild. I don’t know if the tech will actually go in that direction. It kind of makes sense, but at the same time it also feels so wasteful in a way, at least to me as an old man, an old programmer. So imagine this: OpenUI is just a standard, you can use it with any LLM, and it’s basically just a descriptive programming language that you syntactically enforce via next‑token prediction so that only certain things are allowed to be printed next. And it’s just a description language that looks a lot like a programming language but describes a UI. And your LLM is supposed to output this UI description language, which then gets rendered by a special renderer. Now the idea is that an operating system based on Open Claw would, as output, in addition to its tool functions, not emit text but always emit a description of the current UI. That means—
Oh, so that’s basically like one huge automaton, in a way.
Exactly. It’s told, 'The user just clicked this button,' and then, as its next answer, it outputs what the UI looks like now.
Yeah, yeah, and it’s basically just a state machine in a way. And then, I’d say, the next step happens.
Yeah.
And it has remembered everything that’s happened up to that point. But I think that’s the most extreme case so far of using a sledgehammer to crack a nut that we’ve ever had.
Yeah.
I’d put it that way. So…
And not just as one application, but as an operating system.
Yeah, yeah, that’s just like, such a—lol.
As an operating system. So it’s not like you click on, I don’t know, the menu and then 'open calculator' and some app starts in the background. Instead, the LLM is simply told, 'Okay, the user just clicked on Open Calculator. What does the UI look like now?'
Yeah.
And then it just generates that on the fly. The cool thing is you can have the perfect UI for every kind of data representation. So it does make sense if you have, say, a data‑science agent. It makes sense that you’d say, 'Yeah, analyze all the click data I’ve gotten on something,' and it looks at that and thinks, 'Ah, okay, these are the data, so I’ll present them like this and that and generate a UI that’s perfect for these data.'
Okay, okay.
But yeah, operating systems built on top of that? I don’t know. One thing I found extremely interesting, which was only kind of mentioned on the sidelines of Google I/O—other direction. Um, I’m really interested in these audio‑only glasses. There was also a Google I/O for Developers, and they showed how easy it is to integrate them into existing apps. And that really made me want to, uh, write my own apps for those glasses. So I’ll probably get a pair when they come out, because I want to write apps for them myself. For example, I’d love to write an app that lets me add things to OpenStreetMap more easily. So I imagine I just look at something, my phone knows via OpenStreetMap, 'Oh, that’s this bench, and there’s still information missing,' and then the glasses say to me, 'Does this bench have a backrest?' and I say, 'Yes.' And it gets entered. And I look at a building and they say, 'How many floors does this house have?' I say, 'Four.' It gets entered. I’d love that.
Exactly, I’d love that too. But I still have two concerns about it.
Okay.
First, you’ll probably need the ones with an integrated display. Not strictly need, but it would make it infinitely cooler.
Yeah.
No question.
who knows when those will exist.
But w— yeah, who knows when those will exist. And second, no, maybe we just have to think one step further.
Now,
You have a camera.
Yeah, I—
That’s the point. You have a camera. The agentic system could figure out, 'Okay, we know certain data still aren’t tagged in OpenStreetMap.'
right.
And then it can say, 'Oh, okay, you’re obviously in the area right now.' And you can crawl that pretty well geographically already—
Yeah.
—which things are nearby. And as you walk past them, it could automatically commit the changes with your user account based on what it detected through your camera. So it could take the camera image and say, 'Okay, Wieland just happened to walk past a bench. In this example, some data for it still aren’t tagged.' And then it can just figure those out itself from the camera image, and only for information it can’t get directly from the glasses—because that’s harder, like if it’s measurements it can’t estimate precisely from the camera, for example—then it would say, 'Hey, okay, Wieland, something’s still missing here. If you feel like it, you could add something now.'
Exactly. So I’d say, of course that was my first idea too, but then I tried to overwrite it with something a bit more realistic.
Yeah, that’s like you being all realistic,
because historically the recognition of things like that, in the experiments I’ve done, has been pretty shit, I have to say.
Fair enough.
But that leads us perfectly to the other topic I found super interesting at Google I/O, which they also talked about at the Google I/O for Developers, namely Gemma 4, Google’s open‑source models. Um, there are variants that are so small they can run on a smartphone.
Mhm.
Gemma, uh, 4E‑2bit and 4E‑4bit. And yeah, there’s even—if you want to try it out—an app from Google in the Play Store called AI Edge Gallery, and you can just go, 'Okay, go,' and then… It’s really trained for agentic stuff, for function calling, tool calling. They’re multimodal, they can understand images. So you can chill about your life: this is a model running on your phone that’s like four gigabytes in size. So it’s not that huge, but you can fine‑tune it for specific use cases, and that’s actually pretty easy. You just rent a GPU for a bit to do it, and then you can export it. And I see a lot of potential there, because then you could actually say, 'On my phone there’s a model I specifically trained to understand whether benches have backrests and everything else I want to query with the app.'
Yeah.
So then there’s just a small, I—still a small, um—this is also how OpenStreetMap intends it—there always has to be a human control step. But if you really wanted to bake it hardcore into the flow, you could say, I just look at objects and I only get the feedback, 'Detected that this bench has a backrest on it.'
Yeah.
And if I don’t intervene at that point, then it’s okay. Then it’s correct.
Yeah.
So, um, that’s something you could do. Yeah.
That would of course be really wild if you could also live‑annotate that to the physical locations. If these glasses would also allow you to, like, attach that information directly to the object. So that, let’s say, this little pop‑up that says, 'Okay, I’ve annotated something here,' effectively moves along with your head.
Mhm.
And you could just say, 'Oh hey, I’m not going to override that; that’s fine the way it is.' I actually don’t even know if the glasses have—well, they have to have an inertial sensor. They have to, right? Or at least they really should. A compass, an orientation sensor, so the glasses can understand which axis I’m currently looking along. I have no idea if they do. I mean, to put it simply, those sensors have become extremely tiny thanks to smartphones and, um, fitness trackers. We’re talking single‑digit millimeter size. So it would be pretty wack if the glasses didn’t include that. I can imagine them not putting it in if they’re like, 'Why would we need that for our use case?' I would assume not only they know what’s being developed. I can totally imagine Google thinking, 'We can’t think of anything we couldn’t just do with camera image, geolocation, and the user’s voice input. So nope, we won’t add it.' Yeah. Especially if there’s no display. I mean, otherwise you’d say, 'Okay, AR, we want stuff floating around in the room.' For that you need inertial sensors. Exactly, because you’d definitely want it AR‑annotated and not just, I don’t know, some flat 2D display they show you, or a list or whatever. That probably wouldn’t be the idea; combining it with AR would actually be the important and cool step. But, Jona—then all we’d need for the EU is a database of personal data of every single person. And then? Oh right. And then! Then it all comes together. Boom. [laughs] Yeah but Jona, honestly, with all the craziness—everyone is jumping on these huge models, this whole, 'Oh, Google has this now,' and that demo was really impressive, where it just opens Google Keep and starts rambling and goes, 'Ah, no, wait, not that, actually this and this,' and it understands all of it perfectly. But I am really, really hyped about local models, or at least models on my phone—that would be ideal. Because as an app developer, I’m currently building an app where I still use OpenAI services, and the issue isn’t even just that it’s not great from a privacy standpoint. It literally costs me money. Right. But you know, that is exactly where this is guaranteed to go if we just look back at history and apply the same patterns again. What happened, so to speak, to the first mainframes in the end? How did they evolve? What workloads did they run back then that can now be run on end devices? And it’s going to develop the same way here, that we’ll take this huge step toward decentralization. That doesn’t mean mainframes or servers will disappear. Yeah. Instead, they’ll just keep evolving, just like now with all the NPUs and the special AI accelerator cards. That will keep advancing. Things that used to run on servers can now also be managed on end devices. Like, fundamentally, a database with a simple algorithm running over it—that can all be done today on any smartphone, any watch, and honestly on most toasters already. So yeah. And that’s why it’s going to evolve in such a way that edge AI, so to speak,
applications will just develop massively, and a lot of what used to run—or still runs—on a server will run on local models, which then really only have, um, a few [laughs] billion
of course, yeah, exactly. So ones that, like you said, are only, uh, four gigabytes in size and 'just' have a few billion parameters, and they can just run on there, and with model optimization that’s enough. The devices themselves don’t even have to get ten times faster or anything; you just tune the AI models more specifically for that purpose and make them more efficient at doing their tasks. And the servers still stay around, but they just do much more extreme things than they already can, yeah. And I have to say, I
I’m noticing more and more how my prediction is kind of starting to come true. I always sort of dreamed of this idea that, just like everyone today has a router, in the future everyone will have an AI box. And I can really see that coming: everyone has an AI box and, you know, forty‑five percent of people use the one from Google, forty‑five percent use the one from Apple, and ten percent use something they built themselves or something based on Linux. And that’s fine. That’s totally fine, as long as we’re able to do that. But a system like that also doesn’t necessarily last forever. The best example is, again, how things developed around the PC: at first it was completely unthinkable that every household would have a computer. Yeah. And then in the ’90s and so on it evolved to the point where everyone had a home computer they could sit down at, go on the internet, write documents, etc., and now we’re at the situation where, well, actually everyone has a decentralized device for that in their pocket or on their wrist.
Yeah.
Right, and that’s why I’d guess it’ll develop similarly here, because even in gaming it never really went in the direction of having one central gaming PC for multiple end devices where you, like, stream everything over the local network and that one insanely powerful PC renders eight games at once while everyone in the household is doing something different on it. That’s more like a layperson’s fever dream, I’d say, but it’s not reality. In the end everyone still has their own device where it just runs, or maybe there’s a shared API per device or something.
Yeah.
So where it could be, I’d say, similarly open to how Google Health Connect works, which we talked about earlier—that it goes more in that direction instead of, 'Okay, everyone has their own AI server in the basement that costs, say, five hundred euros.'
Yeah.
Yeah, sure, of course. As far as I’m concerned it doesn’t have to develop into, 'You have your AI server in the basement.' It can totally go in the direction of private AI on the end device. My point is just: we had this progression—first we had chatbots, now we have agents. Agents are going mainstream; that’s what Google is now offering to all consumers. And if we think a bit further, I think of how Sam Altman said his vision is that we go beyond, 'I give my agent a task and it goes off and does it.' He always says his dream is to have an agent where he can say, 'Here’s access to my entire life.'
'Improve my life. I don’t want to give you instructions. Just do it in the background.'
Yeah.
So, and I would also find that really, really awesome, but it has to be local and not belong to a company whose first thought is, 'How can improving Wieland’s life make us money?' And if improving Wieland’s life doesn’t make us money, then it won’t be done; it only gets done if it makes us money. And n‑n‑no, Jona, no.
Yeah.
Please let that not happen.
Oof.
That has to be a local model that runs somewhere at my place and whose only incentive is to help me, and nothing else.
Yeah.
Yeah. [laughs] But yeah, we’ll see where all of this goes. This is a really good example: I just talked about, well, commercial interests, but of course it’s also about privacy. Because I love the idea of giving all my Health Connect data, including sexual activity, to an agent and saying, 'Look at everything you can measure about me and my life and tell me what I could do better to improve it.' But I don’t want to tell that to the Google Cloud or the OpenAI Cloud; I want to tell it to a device that sits in my closet, where in the absolute worst case I can just take a baseball bat and—
Yeah.
—guarantee the secrecy of the data if everything goes wrong.
Exactly, yeah.
Yeah. But yeah, th‑that’s why.
And Wieland, just imagine, you’re casually walking around outside living your life with the Google glasses, and the Google glasses, with their agentic workflow that automatically recognizes everything, just tells you, 'Oh, I noticed from your chat history and purchase history that you’re going on a date in two days, and I also know that your condom supply is currently very low. So I’ve already placed an Amazon order for you so you’ll be fully equipped.' Yeah.
And of course I’ve—
Wieland says, 'Perfect, awesome.'
And of course I’ve already pre‑planned the sexual activity in Google Health Connect with Protection Use set to True. If the Amazon delivery gets delayed, I’ll automatically switch it to False.
Nice. [laughs]
[laughs]
Perfect. I have no comments.
Oh yeah.
Okay. [clears throat] Yeah.
Well, yeah.
Okay.
I, I actually still have a second comment here—
Okay, go ahead.
On that topic. Um, we’ve already talked about how, uh, health data is supposed to be fed into OpenAI’s data in the U.S. as well. I don’t know if that was in the last or the second to last Crunch Time episode, but we discussed it before. And now the next step is coming: they’re planning, with this software Plant, as it’s called, to make all your financial data importable into ChatGPT too, so that you can literally say, okay, let’s do a budget breakdown. How much money am I spending on what?
Hm.
And then, what can I still optimize about my personal finances? The idea here is, okay, there are already at least two hundred thousand ChatGPT users who regularly ask finance questions, like about their personal finances, and that would be insanely cool. Just imagine the kinds of predictions it could give you. For example, it might say, 'Yeah, well, if you’d just skipped that Starbucks coffee once, you could afford this other thing now. Tough luck.' Or, 'Oh, I saw that you spent a hundred and fifty euros on e‑scooter rides last month. Come on, let’s try something else instead.'
So, you know what I mean. Like, LOL.
Yeah.
That, that’s pretty wild to plug in as well, and then it just has access to your Schwab or Fidelity account and all kinds of stuff in the U.S., because it’s basically, let’s say, a kind of central banking API there already.
Yeah.
I also find it pretty weird that this hasn’t really existed yet in this kind of scope.
Jona.
As far as I know. Are you correcting me?
Oh Jona, I had something to tell you. I didn’t want to bring it up, but about finance tools and bank APIs—
Yeah.
I can also tell you how I was, and still am, looking into this. Because I have to be a bit careful here not to damage anyone’s reputation too much, but a bank tried to poach me as a customer.
Yeah.
They gave me a lot of very lengthy counseling and sales talk, and they advertised something that I thought sounded really good. Namely, they pitched a system that would basically automate everything for me. They were like, 'So, well, depending on how much you spend, a certain amount can automatically be saved, and once that savings amount on your high‑yield account hits a certain number, then everything you save beyond that gets moved into your investment account and partly into a pension plan and so on and so on. It’s all so cool.' And I’m thinking, that is cool, I’d really like that.
Yeah, and as someone who’s naturally interested in that kind of automation, it’s insanely cool to be able to plan all of that out too.
Yeah.
But—
just as some context for you all, I actually gave Wieland a piece of financial advice, namely that this bank is more or less a scam. Now, the definition of 'scam' is always a bit tricky, but that’s how I personally framed it to him. And
that’s how it very often goes, especially when you can no longer actually control your own accounts yourself — because this was about an account model — and everything is basically just a couple of numbers on a screen showing what went where. And in the worst case, of course they also want to earn a monthly fee off you, off this account system; that’s pretty obvious, I think. And my assessment was that it would probably turn into a big financial trap, because then they say, 'But look, on page one hundred and twenty‑three of what you signed, it says that if you want to dissolve this here, there are these twenty conditions you have to meet first,' and so on. So it’s always very tricky, and I recommended that he actually not use it — not make things more complicated than they have to be, and not let himself get taken for a ride because of it.
Exactly. And what I found wild was how they kept stressing that this bank had patented this system, that it supposedly didn’t exist anywhere else.
Yeah, that would— I mean, that’s super generic. Every bank claims that about itself, that it’s totally different from all the others, but yeah.
Yeah, Jona, and then, the punch line: I went to my own bank and now I have the same thing. Not entirely with the tools my bank itself provides — there’s a lot you can do there — but what I mainly found out is: there is a universal banking API, Jona.
What?
But here’s the cool part — here’s the big twist.
Yeah.
There are libraries for that, there are even Python libraries you can use to do it.
Lol.
But you have to register a product with the German banking industry.
Yeah.
Let me give you a list of financial products that are registered with the German banking industry — excerpt only.
Yeah.
Trade Republic.
Yeah.
Finanzguru.
Wielands Autofinanz.
[laughs]
Hm, nice.
[laughs]
Yeah.
No, no, but, but it really is cool.
Can you say what this API is called? Does it have a—
So, that’s called FinTS.
Ah, okay.
And if you just—
I’d honestly find it incredibly cool to say, 'Oh, okay, you could then directly automate some extra things yourself as well.' You’re about to talk about that in a second,
Exactly, that’s the idea. I’m still in the middle of building it. What matters to me is simply that I can access my account via API — for example, be able to see how much is left over and then say, 'Okay, twenty percent of that into the brokerage account, whatever, the rest somewhere else, whatever.' And that works with it. And what I might also want to do is add a kind of reward system: so if it says, 'Okay, there’s money in the account that I’m allowed to use to reward myself,' then, for instance, my health system asks, 'Has Wieland actually met all his goals today?'
Was Wieland a good boy then? Yeah.
Has Wieland done his workout?
Oi, oi,
Did Wieland manage not to eat a Big Mac? And if so, then at the end of the day I’m allowed to authorize a transfer of five euros from my savings account to my, uh, spending card.
Nice.
So, and, um, that’s the only drawback. I get why they do it, because automate your bank account is a pretty heavy thing. I can’t just, let’s say, use the app‑TAN method for that.
Yeah.
So I can’t just have it set up so that something gets triggered and I get a little prompt on my phone saying, 'Is this okay? Yes, no.' Instead, there has to be some kind of TAN procedure. That’s a bit of a shame. It means I somehow have to — it’s not enough to just tap 'yes/no' on my phone — my phone has to show me a TAN that I then somehow, as securely as possible, not via Telegram, have to get back to the script.
Yeah.
So that the script can then use that TAN for authorization. That part is still a bit tricky; I still have to figure it out. But yeah, Jona, it works. You can automate it. It’s just—
You just have to code around it a little bit—
have to—
so that, you know, you hook the pieces together like that. And yeah, no, it’s already rip if there’s some exploit in there along the way, or if the messaging service you used to send it is, of course, listening in on everything—
Yeah.
Which you basically have to assume by default.
Yeah. So you really have to be careful there, but Jona, it works. Which means if you want to do tricks like that, you can, with most banks. I wouldn’t claim that my bank stands for modernity or anything. I mean—
Okay.
So when I think about my bank, I don’t go, 'Oh, this is a neobank. Oh, this is a bank like Revolut that says, We don’t have branches, we just have an app, app, app, everything’s an app, everything digital, AI.' My bank is very traditional.
Yeah.
And even they participate in this FinTS financial system. So your bank is guaranteed to be part of it too.
Right, good.
So that was just a little tangent. If you ever want to automate something like that, you can do it.
Since the beginning of May there have been a couple of major, very serious bugs in the Linux kernel. They’ve been all over the news lately, because in practice more or less every system that runs Linux is affected, simply because this issue sits fundamentally down in the kernel itself.
Mhm.
And there are a couple of different ones, like, for example, Dirty Pipe, Dirty COW, Dirty Frag and Copy Fail. So there are really quite a lot of them, and many of them are, I’d say, pretty similar—
Yeah.
They’re all named like that and each one is just a tiny bit different. I’m not going to go into extreme detail here, because that would get pretty heavy, but I can roughly explain how the exploits work: there’s a certain interface in the kernel that lets you write four bytes into the page cache. Depending on the specific exploit it’s a different interface, but the idea is the same. And then you wonder, okay, but four bytes, that’s really not a lot.
Yeah, that may be true, but you can write those four bytes to any location. And that of course means that in the ideal case you can just overwrite passwd or the su binary.
Yeah.
So as a regular user you end up with root privileges on the system immediately after running this script. And yeah, that’s obviously really bad, because you can also use it to escape from containers. If you’re running Docker containers, they still share a single page cache, logically enough.
Yeah.
So that’s how it works. There isn’t a separate page cache for every single system or container; instead you really can break out of, say, hosted servers with this and then it’s basically RIP. And of course this page cache exists for a reason: it would be far too slow to write all data straight to disk every single time, then move the read head back to the right position to read it again. That would all take way too long. That’s why the page cache exists in the first place. Data is written back in pages, so to speak. You even learn that kind of thing at university: it gets written back page by page, and every so often the system flushes everything out to disk again at regular intervals. That part is obvious. But in this case, for these exploits, it’s really interesting, because the system doesn’t actually notice that those pages, so to speak, have been modified. The reason is that the page cache is effectively ignored during those integrity checks; the checks only look at what’s stored on disk. So on disk it just checks, okay, does the hash we computed match this chunk of data on the disk? And that will always be true, no matter what you do, because you only changed the page cache and not the actual data the cache is based on. So everything looks valid until you reboot your system or manually invalidate that page‑cache page. You can do that in Linux with a command, of course, but nobody casually runs that just because they have a vague suspicion; that’s, I think, pretty clear. So yeah. And that means things are pretty RIP right now, because this basically affects all distributions since around 2017, and you really have to pull in a newer release with the updated Linux kernel version—I don’t know if that’s 6.3.1 or wherever they’re at—and upgrade to it, otherwise it’s just RIP. These exploits were actually all found with the help of AI.
Yeah.
So the security researcher really leaned into using AI for this. He basically let the AI go to town on the search, and right now the AI still can’t, I’d say, reason everything through completely from start to finish on its own. It’s just not that powerful yet. Of course it also depends on the budget: if you say, okay, here’s a thousand euros to burn on compute, then you can probably make that work, but with realistic monetary constraints the AI still can’t do the whole thing by itself. It still needs human guidance – someone who says, okay, let’s investigate further in this direction, is there anything more we can do here? and who knows, oh right, there’s also this other idea we could try. That’s more or less how it worked in this case. And that also means the prediction was correct that lots of security vulnerabilities are going to be discovered using AI. What we’re seeing, especially with the Linux kernel, is that there are now tons of smaller, relatively unimportant weaknesses being reported. And the man himself, Linus Torvalds, actually wrote that he’s currently completely overwhelmed by the number of issues that are, so to speak, being opened – and they’re almost all just duplicates of each other. People don’t understand what the report is saying, what it actually means, or how to implement a fix; instead they just paste the raw AI output into an issue and call it a day. They have no idea what’s actually going on, or that it’s already a duplicate of some existing issue. And he also said quite explicitly:
Most of the problems you can find with your AI have almost certainly already been found in essentially the same way by other AIs. Unless you’re willing to put an extreme amount of money on the table, that’s a different story. But it’s very, very likely that the issue you’ve found is already known.
Yeah.
Yeah.
I was actually just about to ask you whether these are also vulnerabilities that were found by AI, because I thought that was really interesting. For one thing it shows how slow the news wave is here in Germany. Like, two days ago there was a segment somewhere on ZDF titled How dangerous is Claude Mythos?, and I was sitting there thinking:
Thanks, ZDF. Great that we’re finally hearing about it here in Germany too. I was asking myself that question three weeks ago already, but never mind, let’s talk about it. It was really interesting, and for a lot of people it was maybe a bit of a wake‑up call, because I think the tension is getting stronger and stronger between things that are actually happening in reality—
Yeah.
—and people who say AI isn’t real.
What do you mean by “not real”?
Well, in English you’d call it a nothing burger.
Mhm.
Like, it’s all just hype, it supposedly can’t really do the things it appears to do, and so on. And I think this was one of those situations where you can undeniably say: I mean, I don’t know, Claude Mythos found something like fifteen hundred zero‑day exploits in a single week, and those are real exploits that you could actually exploit.
Yes.
Um, so I don’t really know. A lot of people—I can kind of understand them—said, “This is just hype.” And then, which I found really interesting, some people contrasted that by saying, “Alright folks, let me read you a news article,” and it goes something like, “OpenAI has developed a model that they’re currently holding back because they say it’s way too dangerous. It could cause really massive damage to society or to computer systems, and that’s why they’re not going to release GPT‑3.5 for the time being.”
Exactly.
So, hmm.
Yeah, the question is what the actual relationship there is.
Yeah.
But why, why do these empty shells even exist, so to speak? That part is kind of obvious. Of course they’re really just there to prime the shareholders, to get them ready to pour more money into it. Because it’s not about what happens next year. That’s basically never the point. The point is what might be achievable in the longer term, say over the next ten years or so, and how the company can then make money off it over the next ten or twenty years. It’s not just, “Okay, what does next quarter look like?” Sure, sometimes you see big jumps even quarter to quarter, but it’s never that deep. Instead what people are really looking at is, okay, what does revenue, what does the revenue trajectory look like in the future, and not just next quarter, next year, or even the next five years, but way beyond that. And from that angle I don’t even think it’s that bad to massively overpromise if you have to. Those promises get forgotten a lot faster than you’d think, as long as you keep up this constant flood of new announcements about what’s supposedly going to be possible any day now—as long as you always keep that ball rolling.
Yeah.
It’s fine, because at some point it definitely will work. They just massively underestimated the time frame when it would actually become possible—underestimated it on purpose. So they say, “Oh yeah, this will work in a year,” when realistically it’s more like three to five years before you can reasonably implement a concept like that.
Yeah, well, yeah.
And of course you can say, “Okay,
GPT‑3.5 was insanely good for its time, but it wasn’t exactly some catastrophic harm to society—depending, of course, on how you choose to define “harm to society.”
Yeah.
Right, exactly, you see what I mean? That’s what I was trying to say as well. GPT‑3.5 could barely string together a coherent sentence.
Yeah.
You know what I mean? So people drew this parallel and said, “Well, you didn’t hack anything with GPT‑3.5, so that means it’s safe, right? All of this must just be fake.” But the fact that it actually has real‑world effects is exactly why people are trying to deal with it in a somewhat responsible way. For instance, they’re saying, “Okay, this technology is going to show up in open source fairly soon anyway.” So the idea—OpenAI is doing this, and Google announced something similar at Google I/O, whatever—is: “Let’s first go to all the big companies with these models and scan all of them for security holes, so that basically
when this technology inevitably becomes accessible to everyone at some point, at least Google doesn’t get hacked tomorrow, or Adobe doesn’t get hacked tomorrow. That would be pretty disastrous for the global economy.
Yeah.
So, but—
yeah, I just thought that was wild. I’d say for a lot of people that was a bit of a wake‑up moment, because, you know, before that they could always say, “Yeah, I don’t know, there are all these AI GitHub issues,
and whatever, and everything’s drowning in slop.” Like, the whole vibe was, “Yeah, it’s all nothing. Lots of noise, but in the end it all amounts to nothing. None of it has any real economic value, none of it poses any real security risk, etc., etc.” That’s the narrative that kept getting pushed. And I think it suddenly became really hard to maintain that. How can you be that ignorant of the current situation?
Uh.
Or misjudge it, I should probably say. So—
Uh, extreme stankorbium.
Yeah. [laughs]
But Jona, how perfect this is
working out.
Right. But I also have to add, as a bit of a disclaimer, that apparently some people have already shown that certain models have actually gotten worse over the last few months—or at least that people have that subjective impression. And the question, of course, is: is that tied to everything the companies are promising while the models themselves stay basically the same in quality? Or is there really some regression happening? A lot of folks have pointed out that the way the AI responds and which tokens it ends up generating is tightly linked to the perceived quality, and that the number of tokens it’s allowed to spit out has been heavily tweaked. So, for example, there’s just a lot more filler in the output now compared to before, which means these days you almost always have to tack on something like “keep it short” to get the kind of output you actually expect.
Mhm.
There are a lot of people arguing along those lines, and I can definitely understand that, because subjectively I also kind of have the feeling that that’s what’s happening.
Jona, this brings us into an area I actually didn’t want to talk about, but somehow I kind of do. For the last two episodes I’ve been wanting to drop this little—not really a rant, more like a little hot take of mine.
Do
Namely: anyone who doesn’t use a paid AI model is basically unable to form an accurate judgment of what AI is capable of today.
Yeah.
And I think that’s a shame in several different ways. So that’s why I’ve already floated this hot take that basically nobody agrees with me on: from a kind of high‑level philosophical perspective, I’d actually be in favor of there not being a free version of ChatGPT at all.
Mhm.
I actually think it harms society and the industry as a whole that there are basically two very different kinds of AI available to consumers. There’s the free one that ninety‑six percent of people use, and that’s what they base their opinion on when they ask, “What can AI do?”
Exactly.
And then there are the ones who pay and get a way better system, and therefore have a much stronger sense of what it can do. I noticed that recently here at the radio.
So that’s absolutely true, but I don’t think it invalidates my original suspicion. It definitely invalidates the argument of, “Eh, it’s not actually as great as everyone promised.” Of course it seems that way if you never spend any money on it—whether that’s a monthly fee or even per prompt. If you’re paying ten euros, a hundred euros, or even a hundred euros per prompt, the results you can get out of AI today are obviously insanely strong. But I still think my basic argument might hold.
Right, no, I think you can maybe explain it that way. My theory would be that at the beginning, to build up the hype, even the free users got the really good stuff, even though they weren’t paying. And now the AI companies are slowly going, “Okay, this actually costs a ton. We’re even losing money on the people who pay two hundred dollars a month.”
but maybe we should start letting the people who literally pay nothing get a little less intelligence, you know?
I think that could be one explanation for why the people who are noticing this are, for the most part, the free users. They’re just no longer getting a hundred percent of what the system is actually capable of.
Yeah.
So it seems worse to them because it actually is worse.
Yeah.
Exactly. Um, I just wanted to circle back to that. I really felt this contrast; it made me realize what a bubble I live in. So, Jona, small confession: for this month, to try it out, I bought the hundred‑euro ChatGPT plan.
Nice.
So I didn’t get the two‑hundred‑euro one. I have ChatGPT Pro, but you can choose: do you want the hundred‑euro tier, where you get five times the quota, or the two‑hundred‑euro tier, where you get twenty times as much? I went for it because when I program with Codex I kept hitting my limits and thought, “Okay, it would actually be worth it to have more quota.”
Yeah.
But with the five‑times quota I’m totally fine; I don’t hit the limit, so I don’t need the twenty‑times option. And then, in contrast, we were sitting here at the radio station and one of the women from the editorial team said, “So, I asked ChatGPT to convert a citation into APA format,
Yeah.
And it screwed up.
Yeah.
On an extremely simple, obvious task.
Yeah.
And then people went, “Yeah, see, AI just can’t do that. It doesn’t work.” In contrast, Codex writes hundreds of thousands of lines of code for me every week without errors.
Yeah.
That contrast is insane. The average person, quite understandably, has the impression that you can’t even have ChatGPT write a single sentence without it probably screwing something up.
Yeah.
Because the average person only knows the free one, which sucks.
Yeah.
And I think that’s unfortunate in a bunch of ways. From a social perspective, it’s a pity that most people don’t grasp what a cool technology this is and what you can actually use it for. From a more doomerish perspective, you could say most of society just doesn’t realize how screwed we all are.
Yeah.
Because they think, “This thing can’t even write one correct sentence; it’s not going to take my job.”
Yeah.
And they don’t get that once you pay for it, there absolutely are systems that can take your job. And personally I find it super frustrating, because it means people’s perception of what I’m doing with AI is completely distorted.
Mhm.
Like, it happens that when I tell people, “Hey, I’m experimenting right now with having AI edit the Crunch Time videos for me,
Yeah.
then people think of their free ChatGPT, how it makes seven mistakes in three sentences, and they’re like, “Wieland, please don’t. That’s not going to work. Huh? AI can’t do that. It can’t even write one sentence without making a mistake,” they say, based on their memory of the free ChatGPT.
Yeah.
So, [sighs] obviously my friends have pushed back on that. I do think it’s absolutely good that there’s free access in the sense that I like more people being able to use this tool.
Yeah.
And for people who can’t or don’t want to afford it—I’m really torn on that point—at least they have some option. But on the other hand we end up back at my core argument: the problem isn’t AI, it’s capitalism. If everyone had access to a really good system, I’d obviously be all for that. And I can also live with, “Okay, you can have a lesser version for free, at least you have something.” But I think—[sighs] this is where the internet and, let’s say, internet capitalism that really took off in the early 2010s unfortunately got its claws into AI. Because at the very beginning, way back, Sam Altman literally said, “Yeah, our AI—I know you’re used to everything on the internet being free and ad‑supported. Like, AI is insanely expensive; that doesn’t work. So we’re not going to make that our business model. We’re not going to run ads, and there won’t be a free version. We’re creating a product here that you will, of course, pay for.
Yeah.
—just like you do with any other product.
Yeah.
Because, no joke, I always compare it—this is a really dumb comparison—but when I explain to people that I use ChatGPT and the OpenAI API, I always compare it to milk, specifically to Müller milk. I say, “Okay, in the consumer Müller milk there are, I don’t know if this is true, please don’t sue us, like fifty thousand preservatives and flavor enhancers. But that doesn’t mean that when I, as a B2B customer, buy milk from them to produce ‘Wieland Milk,’
Yeah.
—if I buy the B2B milk from the Müller dairy, that milk doesn’t have any flavor enhancers or preservatives or anything. It’s good. I’m the one who would probably put preservatives and flavorings into my “Wieland Milk” later—or, in the case of ChatGPT, be the one tracking you, showing you ads, selling your data. But just because the same Müller dairy also produces the consumer Müller milk, you still have to separate the B2B product from the B2C product. And that’s why I always say: imagine—this is hard to imagine in the physical world, but on the internet with digital products it’s totally normal—imagine you go into a store and there’s a Müller milk that’s free and one you have to pay for.
Yeah.
And the free one just sucks.
Yeah.
Like, it’s just way worse.
It’s basically water with a tiny bit of milk flavor or whatever.
And then imagine what would actually happen in that scenario: ninety‑five percent of people would take the free Müller milk and say, “Wieland, are you dumb? Why are you seriously paying money for that?” And Müller would basically be shooting itself in the foot, because when I say, “Yeah, I like the paid Müller milk, I’m happy to pay for it,” they’d answer, “Wieland, I always drink the free Müller milk. It tastes so bad that even for free I barely tolerate it. I would never in my life pay for that crap anyway. It’s all called Müller milk—what are you on about, Wieland?”
Yeah.
“Of course I wouldn’t pay for that.” And that’s exactly what people say to me: “Wieland, ChatGPT can’t even write one correct sentence. I’d never in my life spend money on it.” Because they obviously don’t realize that it wouldn’t be like that if… Sorry, I’m ranting way too much.
Exactly. And they also don’t get that if a company spent a thousand euros a month—twelve thousand a year—on AI, they could absolutely cut an entire position with that. So—
Yeah.
—the only question is which one, of course. [laughs] But if your experience is just the free ChatGPT, or, I don’t know, the free Copilot or whatever else, then of course you can’t relate to that. It’s like, “Nah, AI, no, it’s not taking jobs.” But you have to understand that the alternative is paying a person thirty to fifty thousand euros a year, or even more, in many cases. And theoretically that’s the budget you’d have available for API calls
and so on. Which, given how good AI already is and how well you can adapt it, you kind of have to undercut pretty dramatically. Or at least that’s the idea, yeah.
But right, Jona, even when you bring up the jobs thing again, I think what we’re really seeing are just
incredible levels of copium—which I can understand, because that’s just how people are. If they have something that gives them hope… here comes Wieland with the hot takes, I’m already looking forward to the YouTube comments. I think you can kind of compare it to populism. It’s the same pattern: something gives me hope. Like, my life sucks. Why? Asylum seekers. If they weren’t here, all my problems would be solved. And that gives me hope, because it doesn’t mean “the world is complicated and maybe some problems can’t really be solved,” it means, “I know the one reason my life sucks, and that’s what I’ll fight against now.”
And you obviously can’t just rip that out of the context of everything you’ve been saying so far.
[laughs]
You know what I mean? In the same way, I think when you keep telling someone, “Hey, like, AI is going to be able, pretty soon, to do the majority of humanity’s work, and we as a society should think about how we want to handle that,”
Yeah.
that would be kind of important. And then along comes one of those famous studies saying that ninety‑five percent of AI projects in companies fail. People latch onto that and go, “Look, see? That proves it. This thing isn’t going to take my job.” And then you read the paper and see that they define “failure” as “it didn’t increase revenue” or “they didn’t think it was useful.” But the idea that a company or—
Ah, so that’s the threshold for calling it a failure. I see.
Yeah, so they defined failure as “they didn’t continue it after the test phase.” And I’m like, I don’t know that much about companies, but Jona, ninety‑five percent of my own projects “fail” if you define it as, “I tried something, noticed it didn’t have the desired effect, and then I dropped it.”
It has to increase your revenue, of course.
Or my revenue. Or it has to give me some tangible benefit in my life. If not, we don’t do it. But companies do that all the time. They constantly say, “Okay, let’s try this, let’s build something, work on it for a week or two, and if it doesn’t work out, we’ll just stop.”
Yeah, exactly.
But in that study, that counts as a failed AI project.
Well, that’s a pretty strict definition, to be honest.
So people jump on that, and I get it, because of course you don’t want to believe it when someone tells you, “Hey, by the way, you’ve been working for twenty years, and in three years the whole world is going to be turned upside down.”
Yeah.
Then you naturally cling to anything that says, “Nah, he’s just talking nonsense.
Yeah.
Everyone talking about AI is just talking crap.
Yeah.
Speaking of expensive subscription models where you really don’t need to see any reason to pay: Plex has once again raised its prices, and I find it absolutely whack that it has even gotten to this level. They’re increasing the price of the lifetime Plex pass—it used to be, I don’t know if it was around two hundred fifty dollars, and now it’s seven hundred fifty. So they’re basically tripling it. And the reason is, the guy said, “Yeah, we actually don’t even want to offer that anymore,” basically the classic Adobe move. They really just want subscription models where you pay every single month over and over. And that’s just RIP, because this is software for streaming videos that already exist on your own server to your other devices. You absolutely do not need to pay money for that, and definitely not seven hundred fifty euros on top of the hardware and on top of the time you spend setting it all up and maintaining it. You could just use a really nice open‑source solution instead, and it’s great.
If you, you know, actually have a need for something like that. And of course, just as a little disclaimer up front: you do, of course, have to have bought the videos beforehand, but then you are allowed to make private copies for yourself here in Germany. So what’s happening there is completely legitimate, basically.
Yes
Lol. And that’s yet another one, as if we hadn’t already, as if we as a population hadn’t already had more than enough hate for subscription models.
Yep
Jona, we really came through again this time.
Exactly.
You could say that. We recorded a wonderful episode, packed with wild information, packed with updates about our private projects, what we’re up to right now, what we’re doing with tech, and of course what the big tech companies are currently doing with technology. And Jona, we even had a few nice little rants about late-stage capitalism and the looming Watchshops world that we’re all probably, allegedly, definitely going to be living in soon. It was a classic episode, crammed full of great moments. So if you haven’t heard all of that and you’re thinking, wow, that sounded so good, I’d really like to hear the whole thing, maybe you just zoomed in, just tuned in, or you want to catch up on it later: where can people do that, Jona?
For that, the best thing is to go to radio-unique.de. There you’ll find all the news articles from us as the student radio station, but you should definitely click on the corresponding Crunch Time episodes. There you can listen back to any episode whenever you like. Otherwise you can also just head over to YouTube or Spotify and search for 'Die Crunch Time.' We actually have our podcast available in RSS format as well. Just go to podcast.radio-unique.de, where you can save the RSS links for all our shows and load them straight into the podcast app of your choice, or grab the direct YouTube and Spotify links there.
And if you want to be really up to date, or maybe you only have an analog radio where you dial in an FM frequency with a little slider.
Ohohoo.
So where can people actually listen to Crunch Time next time?
The eighty-first episode of Crunch Time will actually air on June 28. As always, that’s the fourth Sunday of the month, and between 6 pm and 7 pm you should either tune in on FM at 102.7 megahertz, or listen via DAB+ in multiplex 5B. For that you do, of course, need to be in the greater Chemnitz area. Otherwise you can go to radio-unique.de and click on the web player, and there you can also experience Crunch Time live on June 28 between 6 and 7 pm.
So you have every possible way to follow this, past, and future Crunch Time episodes. Until then, take care.
Goodbye.
[outro-music]
That was
The show Crunch Time, a Radio UNiCC production.
Zuletzt aktualisiert am 1
Hola y bienvenidas, bienvenidos, queridas personas ahí fuera escuchando en vuestros dispositivos. Bienvenidos a Crunch Time. Este es el episodio 80 de nuestro pódcast de tecnología, en el que yo, Wieland,
Y yo, Jona, también.
Os contamos cada cuarto domingo de mes las últimas novedades del mundo de la tecnología y de nuestra vida privada de cacharreo y proyectos DIY. Hoy también hemos preparado unas cuantas cosas chulas para vosotros y, esta vez, a juego con el número 80. Normalmente, cuando llegamos a cifras redondas un poco raras, siempre intentamos inventarnos cosas locas, pero creo que en esta ocasión simplemente ha quedado muy guay. Nuestro episodio número 80 va a ser un episodio clásico, con temas del mundillo tecnológico y, eh, con cosas de lo que hacemos por nuestra cuenta en plan DIY.
Radio UNiCC presenta
[Música] la Crunch Time
[Música] con Jona y Wieland.
Y ahí enlazo directamente con, eh, sí, un tema que ya anuncié en el último episodio, con el que he estado trasteando aún un poco más, y por eso ahora os puedo contar tranquilamente lo muchísimo que me gusta Google Health Connect, porque es simplemente…
[se ríe]
Es que es una pasada. Jona, I have been cookin' so hard. Es realmente buenísimo. Pero bueno, os tengo que poner primero en contexto: ¿qué es Google Health Connect, por qué me flipa tanto y por qué deberíais usarlo todas y todos?
Exacto.
Pues, eh, de una forma muy poco típica para una gran empresa tecnológica, Google Health Connect es una interfaz en los móviles Android que permite que distintas apps, eh, del ámbito de la salud se puedan comunicar entre sí. Todo se gestiona de forma muy sencilla: en esencia es como una especie de base de datos que está local en cada móvil, y las apps pueden simplemente decirle que escriba en esa base de datos o que lea de ella. Luego encima hay como un subsistema de permisos. Ah, y quizá debería decir primero: hasta Android 14 es simplemente una app independiente que tienes que instalar, y a partir de Android 14 pasa a ser una parte del propio sistema operativo Android.
Y por lo que yo he entendido, significa entonces también que, por ejemplo, los contadores de pasos que ha registrado el propio móvil se pueden, por ejemplo, reenviar a las apps de las aseguradoras de salud. De esas hay ya unas cuantas bastante conocidas…
Ajá.
Eh, estas que te dan, por así decirlo, unos cuantos céntimos por el número de días en los que has hecho diez mil pasos con ese móvil, claro. ¿Eso también funciona a través de esta API?
Pues yo creo que…
¿o en realidad eso es otra cosa totalmente distinta?
Pues yo creo que eso, en principio, también podría funcionar a través de ahí. Eh, yo personalmente no lo he usado para eso, pero en teoría todo eso es posible. Porque, y esto me parece importante subrayarlo, no forma parte, por así decirlo, de los servicios de Google Play, ni se sincroniza con tu cuenta de Google, porque, vamos, me imagino que mucha gente tendrá ahí, eh, sus reparos. No puedes, o sea, no tienes manera de sincronizarlo con tu cuenta de Google. Lo más fuerte que puedes hacer es decirle que exporte automáticamente todos los datos en un archivo ZIP a alguna app de la nube, la que tú quieras, cualquiera de las apps de almacenamiento en la nube que tengas instaladas en el móvil, incluyendo, claro, Google Drive si quieres. Pero eso es simplemente una exportación automática; por lo demás, todo está local en el teléfono y…
Excepto, claro, esa exportación. ¿Se puede hacer también de forma local, en plan que te genere directamente en algún sitio un archivo ZIP? Porque si dices, vale, tengo derecho a ver qué datos se están guardando y todo eso, pero luego se mandan todos automáticamente a cualquier proveedor en la nube, entonces, por así decirlo, se rompe un poco todo ese bonito ecosistema de privacidad. ¿Se puede hacer todo eso también completamente en local?
Pues, eh, la cosa es, o sea, yo no sé… yo diría que no. Yo ahora mismo no puedo crear simplemente un archivo suelto en mi móvil, pero ahí viene el matiz. Primero, puedes, por ejemplo, elegir también Nextcloud, por decir algo, como la app a la que se van a exportar esos datos.
Ah, vale, entonces eso ya es más o menos tranquilo. Quiero decir, nadie se va a poner a montar una Nextcloud solo para eso, probablemente.
Sí.
Pero eso significa que, en principio, sí que es posible.
Exacto. Y lo que me parece tan guay es que, como dije, al final no es más que una base de datos en tu móvil, con la que puedes, por así decirlo, programar apps que trabajen con ella y punto. No es nada del estilo de otras cosas de Google, tipo: si quiero algo que interactúe con YouTube, tengo que ir al panel de Google Cloud, crear una aplicación, generar un secreto de app, y luego tiene que venir alguien de Google a revisar si está bien que yo haga eso, y…
Y luego, en el peor de los casos, solo tienes acceso quizá al veinte por ciento de toda la documentación.
Eso ya es lo siguiente.
Y luego hay además un montón de funciones…
Sí.
…a las que directamente no puedes acceder, o a las que podrías acceder pero ni siquiera sabes que existen, porque en ninguna parte están documentadas de forma decente hacia fuera.
Sí.
Todo ese rollo, vaya.
Y, eh, todo esto es simplemente un sistema de base de datos en tu móvil, al que una app puede hacer una petición tipo: «Quiero poder leer estos tipos de datos y escribir estos otros tipos de datos».
Perfecto.
Y, eh, ahí hay una distinción importante: hay dos grandes tipos de datos. Solo uno de ellos es, digamos, lo que se ve ahora mismo en Alemania, porque supongo que por temas de normativa europea y de legislación sobre productos sanitarios todavía hay cosas que, digamos, no se implementan así. O igual es simplemente que yo no uso ninguna de las apps que lo aprovechan. El primer gran bloque se llama, de una forma un poco confusa, «Health Data», y con eso se refieren literalmente a todo lo que puedes registrar. Y es que cada vez que veo esa pantalla de permisos me parece loquísimo todo lo que se puede llegar a monitorizar. Además, en cuanto a la transparencia que comentabas, de saber quién accede y quién no: en, bueno, en la propia app de Health Connect, o en los ajustes del sistema, en el apartado de Health Connect, puedes ver claramente qué apps han accedido últimamente y qué tipos de datos pueden leer o escribir, etcétera. Estos datos de «Health Data» son todo eso que normalmente asociarías con el tracking de salud. Y yo, como decía, me lo he mirado bastante a fondo. Hay una app que no está en la Play Store, sino que se descarga como APK desde la página de desarrolladores de Google; se llama Health Connect Toolbox, y con ella tienes básicamente acceso en crudo a la base de datos, puedes simular esas consultas y ver qué hay guardado dentro. Y por eso sé también todo lo que se puede registrar. Empieza, claro, por cosas muy simples como los pasos, pero también incluye, eh, la frecuencia cardiaca. Puedes registrar el peso, la masa ósea, la masa muscular… bueno, no, masa muscular justamente no. Eso es lo raro. Es la única pega que le he encontrado: que algo que, comparado con todo lo demás que hay, es un dato bastante común, no se puede guardar directamente. Me lo tengo que calcular indirectamente, porque Health Connect puede almacenar, por un lado, la masa de todos los huesos y, por otro, la masa de todo lo que no son huesos ni músculos, y a partir de ahí lo puedes recomponer.
Ah, ¿y qué sentido tiene eso?
También puedes, por supuesto, registrar la alimentación. Puedes hacer tracking de lo que comes, del consumo de líquidos, eh, puedes llevar un registro de tu peso. Son simplemente distintos puntos de datos. Y, obviamente, también se pueden registrar temas de salud femenina: cosas como el sangrado menstrual, el moco cervical, todo eso se puede anotar. Y lo que a mí me resulta, entre comillas, gracioso —ya me imagino los comentarios— es que, como subapartado explícito de salud femenina, o sea, algo que yo como hombre no querría registrar, pero que a lo mejor una mujer sí, está el registro de tipo «Sexual Activity» dentro de estos datos de salud.
Sí.
Donde, como parámetro… solo hay un único parámetro para «Sexual Activity», que es «Protection Used», es decir, si se ha usado protección, verdadero o falso.
¿Eh? Pero eso está ahí metido tan tranquilamente en la base de datos. O sea, tiene todo el sentido del mundo que exista, porque con todos esos puntos de datos, junto con mediciones de temperatura y demás, puedes, digamos, predecir el ciclo. Pero a la vez me parece un poco raro decir: vale, voy a registrar a diario ese tipo de actividades, o voy a registrar cada día la consistencia de mi moco cervical. Es un poco extraño, la verdad, pero se puede hacer y eso ayuda a ese algoritmo de predicción, por así decirlo. Solo como contexto para todas las personas a las que esto les pueda sonar un poco raro.
O sea, hay por ahí una app de estas de seguimiento de salud femenina en la que también puedes registrar la actividad sexual. No sé si es compatible con Google Health Connect ni si sincroniza esos datos.
Pero podría.
Podría ser; ese día te aparece un corazoncito en el calendario. O sea, cuando has tenido sexo, ese día sale un corazón. En fin. El caso es que ahí hay todo ese tipo de cosas y, precisamente por eso…
«Eso no lo querría sincronizar nunca con Google». No, si está en el propio móvil. O sea, llega hasta el punto de que de verdad no lo puedes sincronizar con Google. En plan: «Yo eso jamás lo haría, me parece superinseguro». No hay nada inseguro ahí, está en tu teléfono.
Y lo bestia de esta base de datos, lo que me parece tan fuerte y tan útil, algo que jamás esperaría de una gran tecnológica, es que permite la interoperabilidad entre todas, todas las apps que te puedas imaginar.
O sea, eso es súper atípico. Eso habría que subrayarlo otra vez bien claro ahora mismo.
Sí, a mí eso me parece alucinante.
Sí.
Exacto. Jona, he abierto un momento la Health Connect Toolbox, que puede leerlo absolutamente todo, para ver qué «Health Data» hay. Tenemos calorías activas quemadas, desnivel acumulado, pisos subidos, datos sobre intensidad de la actividad, velocidad, calorías totales quemadas, potencia, consumo máximo de oxígeno, impulsos de silla de ruedas, pasos, entrenamientos, planes de entrenamiento, distancia recorrida. Y luego también cosas como frecuencia cardiaca en reposo, saturación de oxígeno, temperatura de la piel, glucosa en sangre y, eh, bueno, por algún lado está también el sueño, distintos valores corporales, constantes vitales. Incluso puedes registrar ejercicios de atención plena o mindfulness.
Sí, guau.
A mí eso me parece fortísimo. Y por eso, en cierto modo, me resulta tan interesante. Ahora me vuelve a venir mi argumento a la cabeza, porque pienso: sí, en plan, está claro, salud femenina, registrar la actividad sexual, vale. Pero, en plan, yo como hombre quizá también querría hacerlo, para poder ver correlaciones.
Sí.
Y además, quiero decir, hay un motivo por el que puedes indicar y guardar ahí ese parámetro «Protection Used», eh, si se ha usado protección. Yo le pregunté a amigas de mi entorno, en plan: ¿qué sentido tiene eso? Y me decían: «Pues si se te retrasa la regla, puedes mirar rápidamente cuándo fue la última vez que tuve sexo sin protección. ¿Podría estar embarazada?», y…
Sí, y luego poder, por así decirlo, valorar…
Sí.
…qué probabilidad, por así decirlo, podría haber, claro.
y yo pienso: vale, pero quizá yo también tenga interés en apuntar eso y poder mirar cuándo fue la última vez que tuve sexo sin protección.
Vale, pero una pregunta: ¿eso es solo para fardar delante de ti mismo? ¿O por qué? [ríe]
Bueno, eh, no, yo creo que eso... en realidad, nos estamos alejando un poco del tema ahora, pero no pasa nada. En principio significaría que se pueden hacer este tipo de análisis fundamentales sobre la salud humana de forma más o menos automatizada y directa. Eso no quiere decir, por supuesto, que vayan a desaparecer todos los médicos de cabecera, ni mucho menos, pero sí que se podrían detectar ciertas cosas directamente, quizá incluso mucho antes, porque normalmente nadie dice: «Oh, venga, voy a combinar primero estos cuatro conjuntos de datos diferentes para comprobar que no tengo esa enfermedad rarísima». Ya sabes a lo que me refiero: una enfermedad que solo se manifiesta en parámetros muy concretos. Y eso lo podría ver el sistema directamente, siempre que se le alimente con suficientes datos y exista una app a la que le permitas procesarlo todo-
Sí.
Y se podría montar algo súper guay para que, en general, la humanidad estuviera más sana. Y eso es un poco lo, lo que yo… y es una transición perfecta hacia mi… lo llamo, por así decirlo, mi «sistema de salud» personal.
Ah, vale, muy bien.
Lo que quiero conseguir con mi sistema de salud, que he desarrollado ahora, es precisamente eso. Y para ello Google Health Connect es la pieza clave, porque yo nunca podría, ni querría, tener todas las partes de ese sistema de un solo fabricante; sería un bloqueo brutal. En plan, Jona: tengo un reloj de actividad, que tiene su propia app. Tengo una báscula inteligente, y no solo es «lista» porque esté conectada, sino que es una báscula que además mide valores corporales y mil cosas más, eh, porcentaje de grasa, porcentaje de músculo.
Con todos esos datos puede incluso calcular cuál es mi metabolismo basal en calorías. Y, eh, luego tengo, tengo un tensiómetro inteligente que también registra esos datos. Y ninguna de esas apps es compatible entre sí.
Sí.
De forma nativa, quiero decir. Y tengo, eh, una, una app con la que registro mi alimentación, que además… O sea, Jona, solo esa app, que es de código abierto, se basa en Open Nutri Tracker, pero yo la he ampliado muchísimo. De serie no tiene integración con Health Connect, pero al final es solo una base de datos: importas el módulo adecuado y ya tira.
Sí, muy bien.
Y todo eso no sería compatible entre sí y yo nunca lo conseguiría juntar. Y luego además he programado una app de entrenamiento que me guía en determinados ejercicios de fuerza y que también habla con Google Health Connect. Y todo eso va a parar a Google Health Connect. Y después me he hecho una app de panel de control que lee todos esos datos de Google Health Connect y saca relaciones, y te dice cosas en plan: «Vale, todos los parámetros apuntan a que debería estar perdiendo grasa».
Sí.
¿Ha pasado eso también? Si sí, perfecto. Si no, aquí tienes una serie de parámetros que puedes ajustar. Por ejemplo: «Vale, entonces probablemente el cálculo de cuántas calorías quemo corriendo no es del todo correcto; vamos a ajustarlo un poco».
Sí.
Y todo eso solo funciona gracias a Google Health Connect.
Guay.
Y luego está la otra cosa, que es la segunda gran parte de los datos de Google Health Connect. Eso se llama, está, como decía, un poco raro montado: una parte se llama Health Data y la otra ahora se llama Medical Resource. Y esa es bastante más seria, por así decirlo, porque ahí va de verdad… En alemán a lo primero le llaman «fitness y bienestar», que es donde encajan los relojes y pulseras de actividad y todo eso. Y lo otro va realmente de cosas médicas, médicas de verdad.
O sea, básicamente informes de laboratorio y médicos.
Ahí, por ejemplo, el sistema de permisos también es distinto. Si una app tiene permiso de escritura, puede escribir en todos los datos médicos, pero al darle permiso de lectura puedes limitarlo a determinadas categorías. Y ahí hay cosas bastante interesantes. Tenemos alergias, visitas al médico, datos sobre médicos, enfermedades, vacunas, resultados de laboratorio, medicación, procedimientos médicos, datos personales, embarazo, constantes vitales y luego hay una categoría que se llama Sozialanamnese. Y claro, me puse en la Health Connect Toolbox a mirar: «Vale, a ver, ¿qué podría meter yo como…?»; había un ejemplo de Sozialanamnese en JSON, había como JSONs de ejemplo. Y en inglés eso se llama Social History, historia social. Y todos mis amigos que lo vieron dijeron: [ríe] «Eres un imbécil. Sozialanamnese». [ríe] Y, por ejemplo, un ejemplo de Sozialanamnese es: «De niño estuvo expuesto al humo de tabaco de forma pasiva».
Vale, espera un momento.
Sí.
Esa… esa frase para mí ha sonado otra vez súper rollo Watch Dogs codeado, tal y como lo has presentado ahora. O sea, eso ya otra vez ha sido… [ríe]
Es es una de esas cosas tan guapas que verías en Watch Dogs.
Sí, exacto. Y luego en plan: «Oh, sí, aquí, su hermano…»
…está trapicheando con X o lo que sea». Sí.
Pero eso, como decía, es otra liga, y yo nunca he visto ninguna app que lo use, aparte de las que me he programado yo mismo, porque al final no deja de ser una base de datos. Es básicamente el equivalente a la historia clínica electrónica, como la que tienen en Estados Unidos, o lo que aquí sería la historia clínica electrónica. Y de hecho yo uso una de esas partes también para mí, dentro de mi sistema, que es el registro de toma de medicación. Ahí se complica un poco, porque, como digo, está pensado para cosas médicas formales, no para «yo me mido a mí mismo». Por eso no hay ningún tipo de registro que diga literalmente: «He tomado un medicamento».
Existe «medicación prescrita», con cómo y cuándo se debe tomar, y hay un tipo de dato que básicamente dice que la enfermera me ha dado ahora este medicamento para que me lo tome. Pero en la documentación recalcan que, desde un punto de vista filosófico‑médico, hay una diferencia entre «me han dado el medicamento para que me lo tome ahora» y «yo ya me lo he tomado».
Sí.
Pero a mí me da igual. [ríe]
Sí.
Yo simplemente escribo ese, eh, Medication Administration Record y en mi app sé que eso significa «me lo he tomado». No que… alguien…
Que alguien ha venido a tu casa y te lo ha dado.
Sí, exacto. Y eso es realmente, realmente chulo. Con todas estas cosas he montado… solo quiero dar un pequeño vistazo. Ya he hablado del aparato con el que, eh, realmente adelgazo cuando debo. Pero también hay cosas de pura comodidad. Por ejemplo, cuando mi app me pregunta: «Oye, ¿te has tomado la medicación?» Yo normalmente me la tomo, eh, después de levantarme, aunque en teoría no tendría por qué, pero casi siempre es después de levantarme. Y si luego abro la app en algún momento del día, me vuelve a preguntar: «Oye, ¿te has tomado hoy la medicación?»
Sí.
Y si entonces pulso que sí, me sale la opción: ¿Quieres introducir una hora concreta o fue después de despertarte?
Sí.
Si pulso «después de despertarme», lee en los datos de Google Health Connect cómo mi pulsera ha registrado mi sueño, cómo he dormido. Y con eso se puede calcular a qué hora tomé la medicación, aunque yo no recuerde cuándo fue, porque en algún momento me habré despertado. Y yo sé…
Eso es muy, muy guay. Como pequeña tangente: yo también uso la, eh, la probabilidad de sueño que, digamos, cualquier móvil te da como predicción, y la uso como disparador en Home Assistant para, al final del día, recoger todas las cosas posibles. O sea, comprobar que están todas las luces apagadas, etcétera, y que se ejecuten el resto de tareas de mantenimiento, que se activen o desactiven ciertos ayudantes booleanos y demás.
Como digo, eso es…
Eso, eso es muy, muy práctico.
Es extremadamente práctico y por eso tengo integrado en mi app de panel de control que, en cuanto la abro —porque no hay una forma sencilla de decir «expórtalo a un archivo»—, la app le cuente todo lo que tiene a un servidor de mi red local. Y ese servidor hace cosas divertidas con ello, en las que todavía estoy trabajando. Puedo hacer un poco de spoiler: en el futuro no solo me permitirá seguir registrando lo que como, sino que incluso me generará planes de alimentación recomendados.
Guau.
Basados, digamos, en planes que se vayan cambiando dinámicamente según lo que haya hecho hoy, cuántas calorías he gastado y cuánta agua he consumido ese día.
Exacto. Y eso me parece una locura, porque ahí puedes pensar a lo grande. Podrías decir: vale, ¿qué cosas has comprado que se podrían tener en cuenta? ¿Cómo está tu calendario ahora mismo? Y ya podrías predecir con qué probabilidad no te va a apetecer ponerte a cocinar algo muy elaborado cuando llegues a casa esa noche -
Sí.
-después de llegar a casa? Eso es…
Exacto.
—porque es completamente humano y normal que digas: «Vale, pues ya tengo algo preparado para ese caso». O que, digamos, también se tenga en cuenta eso y no se limite a decir: «Ah, vale, ya son las ocho y la app ahora te propone el banquete más grande del mundo». Y tú en realidad igual piensas que no te apetece nada. Hay un montón de funciones de ese tipo que también se podrían integrar en esas predicciones.
Exacto.
Eso, claro, sería una locura. Solo faltaría ya la nevera inteligente carísima que además lleva el control de lo que hay dentro.
Eso… eso sí que no me apetece nada. Ya lo he pensado muchas veces, durante muchos años: cómo podría construir una nevera inteligente que supiera lo que tiene dentro sin morir en el intento con toda la parte de organización. Nunca lo he conseguido; he tirado la toalla. No lo voy a hacer con «¿qué tengo en la nevera?», sino que prefiero algo tipo: ahora me he comprado esta limonada de repente, la he… la registro simplemente como que me la he bebido y, a partir de ahí, el plan se ajusta dinámicamente a qué debería o no debería comer hoy.
Sí, exacto. Y al menos puedes hacer un seguimiento de todos tus tickets de compra y meterlos también en el sistema, claro.
Como decía, también ahí uso mucho Open Food Facts; mis apps trabajan muy de la mano con eso. He ampliado Open Nutri Tracker con funciones para poder contribuir directamente a Open Food Facts y a Open Prices. Porque si no, no lo hago: no voy a abrir dos apps y pelearme con otra interfaz. Escaneo el producto y me dice: «Para, Wieland, faltan estos datos, ¿quieres meterlos rápido antes de enviarlo?». Yo digo que sí, lo envío y marco que me lo he bebido.
Sí, muy bien.
Y con eso es con lo que funciona todo. Luego hay una tercera cosa pequeña que también se guarda en Health Connect. Son como un tercer grupo de datos, datos muy concretos para los que hace falta de verdad un tipo de permiso adicional. Y el modelo de acceso es bastante interesante: las apps, si tienen permiso de lectura, pueden leer los datos que hayan escrito otras apps. Siempre queda registrado quién, es decir, qué app ha escrito cada entrada; eso es un metacampo estándar. También puede quedar registrado el nombre del dispositivo y el tipo de registro que es: si es manually recorded, automatically recorded o inferred. Y me hizo mucha gracia la idea de que, en teoría, podría existir una entrada que fuera, volviendo otra vez al rollo Watch Dogs, algo como: Device Type Amazon Echo, Recording Type manually recorded, Activity Type sexual activity. [ríe]
Ya hubo por ahí un episodio chorra con un título parecido.
Eso es… el propio modelo de datos permite que una entrada así pueda aparecer.
Sí.
Y, bueno, cualquier app que tenga permiso de lectura puede leer los datos que hayan escrito todas las demás. Solo puede escribir y borrar sus propios datos; una app nunca puede —y no hay forma de darle ese permiso— borrar entradas creadas por otras apps. Y lo guay de los datos de Health Connect es que puedes pedir datos agregados, y entonces el sistema, en teoría, los combina de forma inteligente desde distintas apps. Pero, como ya apuntabas antes, tengo que decir que no funciona tan bien, sobre todo con los pasos. Durante mucho tiempo mi panel me decía: «Wieland, eres la leche, haces un montón de pasos cada día. Es increíble, esto cuenta como entrenamiento, has caminado tanto que hoy no hace falta que hagas fuerza». Y yo en plan: «¿Soy tan bueno?». [ríe] Y luego resultó que le había dado permiso a mi móvil para escribir pasos, y la app de mi pulsera de actividad también escribía pasos. En teoría el sistema es muy listo y debería poder compensar eso, entender que si dos apps dicen que he dado pasos en el mismo intervalo de tiempo, no hay que sumarlos.
Sí, sí.
Sino que los trate así, pero eso no funciona bien y por eso he prohibido a mi móvil que escriba pasos; eso solo lo hace la app de mi pulsera.
Claro, porque en realidad la idea es justo que puedas fusionar esos datos. Hay gente que, por motivos deportivos de verdad, para correr o entrenar de forma más precisa, lleva el cuantificador, por ejemplo, en la pierna. Y ahí tienes literalmente puntos de datos mucho mejores y más fiables, digamos. Si dices: vale, tengo el móvil y además tengo el reloj inteligente, y hay quien, como decías, lo lleva también como si fuera casi una tobillera, atado a la pierna. En teoría el sistema tendría que ser capaz de combinar todo eso como es debido, pero bueno, en la práctica ya ves que no siempre pasa.
Por eso, bueno, funciona, y por lo demás es realmente muy guay. En esta API tienes también la función de decir algo como: «Léeme los pasos agregados desde tal momento hasta tal momento, ya con duplicados descontados y todo». Súper guay. Y luego, lo siguiente es que las apps, por defecto, solo pueden mirar treinta días hacia atrás en cualquier dato. Puedes conceder un permiso adicional para que puedan mirar hacia atrás para siempre. Y algo que también entra en esta tercera categoría especial son las trazas GPX. Eso me pareció brutal, porque siempre me había parecido un rollo: para otro proyecto me habría encantado tener siempre registradas mis rutas de senderismo, es decir, el recorrido, y poder superponer y agregar sobre esa ruta datos como frecuencia cardiaca y cosas así.
Sí.
Y en la app de mi pulsera eso no se podía. Con suerte podía sacar un maldito GPX de la ruta, pero muy cutre, y solo lo podía exportar si sincronizaba con la nube el sitio por donde había ido. Me parecía una mierda. Pero los tracks de tus entrenamientos son simplemente otro tipo de dato en Health Connect, que además puedes escribir si tienes ese permiso separado de la tercera categoría. Y luego cualquier app que tenga permiso de lectura puede leerlos. Así que me hice mi propio pequeño exportador.
Muy guay.
Y con eso tengo pensadas cosas muy chulas. Así que sí, gente: Google Health Connect es jodidamente guay.
Wieland, no te puedes imaginar lo flipado que estaba el otro día cuando me puse a leer, eh, las notas de la versión, el changelog. Igual es una actividad un poco rara hacerlo y ponerse tan exageradamente contento mientras tanto.
Yo también, vamos.
Vale.
Pero la pregunta es: ¿de qué software hablas?
Ahí me refería en realidad a ESPHome.
Vale.
Ahí vi, eh, en la versión, que no sé si recuerdo bien, 2026.5.0b1, una beta...
Vale
he visto directamente: «Ah, sí, hay un tipo al que ya conozco solo por su nick de GitHub desde hace tiempo ya...»
Mmm
por fin, digamos, ha conseguido que su código se fusione, se meta en la versión actual, es decir, soporte Zigbee oficial.
Vale.
En ESPHome. Ahora ya simplemente funciona eso.
Vale.
Antes estaba súper limitado a un solo chip que casi nadie usa, este chip NRF. Pero ahora también funciona con lo que está muchísimo más extendido en el mundo maker, claro: el ESP32‑C6 y también el H2, que traen soporte Zigbee directamente de serie, integrado en el propio chip.
Mmm.
Y eso significa que ahora puedes equipar directamente tus proyectos con eso. Y está guapísimo, porque puedes mapear directamente todos los sensores y las entradas binarias, etcétera, a través de Zigbee, sin apenas configuración extra. Y sigues teniendo dentro todas las funcionalidades de las librerías externas, y puedes seguir integrando sin problema todos tus módulos de sensores, como se hace de toda la vida en ESPHome. Y nada, estoy ahora mismo reescribiendo un poco mi software, trasteando, a ver qué tal. Porque el primer intento que hice con el componente externo, este con el que ya podías incluir otros forks directamente como componente, no fue muy exitoso. Técnicamente ya era posible hacer algo parecido hasta ahora, pero solo con ese componente externo, y a mí sencillamente nunca me llegó a funcionar; nunca he averiguado del todo en qué fallaba exactamente. Pero ahora esto está, por así decirlo, terminado de verdad: lo han mergeado también en la rama main, ya no está solo en la rama beta, y estoy hiper‑hypeado. Porque hasta ahora básicamente solo podías usar Wi‑Fi; dicho en sencillo: solo podías tirar de Wi‑Fi. Y apenas hay dos dispositivos compatibles con ESPHome que puedan usar Ethernet de verdad. Creo que solo hay unas placas ESP32 de Waveshare y de algún otro fabricante con las que puedes conectarte realmente por Ethernet. Eso en teoría también funciona, pero por lo demás era siempre, en plan: «bueno, lo cuelgas por Wi‑Fi y ya está». Y ahora, claro, me he montado y programado ya mi propio detector de presencia usando esto, y va de lujo.
Oh, guay.
O sea, es que es un plug and play brutal. No tienes que abrir el Arduino IDE ni ponerte en plan: «vale, aquí meto esto en el loop, estos comandos tengo que usarlos todos para que eche a andar», sino que es absurdamente sencillo. Solo escribes tu archivo YAML, lo subes al ESP32 y ya está. Simplemente funciona. Es una pasada incluso para gente muy torpe, por decirlo así de forma muy simple.
Muy bien. [risas] Todos nuestros espectadores lo instalan.
Al instante. [risas]
Guay. Sí, ha quedado un poco insultante de entrada.
No, no, no.
Guay.
O sea, es ultraapto para principiantes. Realmente escribes solo unas pocas líneas en tu editor de texto, lo subes y listo, y no tienes que hacer nada en C ni nada por el estilo, sino que usas simplemente este lenguaje declarativo y ya, y ahí, por así decirlo, casi no puede salir nada mal.
Mmm.
Y eso es muy bestia.
Eso es guay.
Y con eso también puedes ahorrarte un dineral montándote tu propio sensor de presencia u otros sensores, sobre todo, eh, cuando quieres, por ejemplo, medir cosas un poco más especiales...
valores. Por ejemplo, eh, el contenido de CO₂ en el aire es también un tema complicado, porque ahí hay una correlación directa entre el precio y lo buenos que son tus datos. Es horroroso, porque no hay, no sé, ningún truco mágico para conseguir mediciones realmente decentes ahí.
Sí.
No hay truco, o sea, no existe ese sensor de dos o tres euros que sea simplemente la leche; ahí escala de forma prácticamente lineal. Los de dos euros, en caso de duda, se inventan los valores, porque en realidad miden otra cosa y de ahí infieren el CO₂, y al final hacen una estimación así a ojo. Mientras que por unos treinta euros ya hay un sensor razonablemente decente; por ejemplo, el SCD40, que es el que se recomienda bastante a menudo. Y luego, por supuesto, puedes irte hasta equipos de medición de CO₂ por los que se pagan decenas de miles de euros. Y claro, los resultados que dan son espectacularmente buenos, pero no hay, por así decirlo, ningún atajo hacia resultados tan buenos.
Vale.
Y con eso puedes conectar sensores realmente buenos a tu Home Assistant o a cualquier otro sistema que uses, y eso está muy, muy bien, porque, por ejemplo, yo me he montado también mi propio sensor de fugas de agua, con cable, hecho completamente por mí.
Vale.
Porque puedes comprar de Shelly, del propio sensor de fugas de agua que tienen, una especie de cable de audio cuya funda exterior puede conducir parcialmente la corriente. Es un producto muy, muy curioso; en realidad es una alargadera pensada para medir resistencias. O sea, las, las... [se aclara la garganta]
el detector de agua funciona midiendo simplemente la resistencia entre dos contactos metálicos allí puestos.
Sí.
Y eso también se puede hacer aunque no necesites una precisión brutal, que en este caso no hace falta, porque solo quieres saber si hay agua o no hay agua; para esos casos eso basta de sobra. Lo puedes montar con una simple resistencia, haciendo, digamos, un divisor de tensión entre ese cable y la alimentación de tu ESP32. Tomas el punto intermedio de ese divisor de tensión y lo mides con el ADC para ver qué voltaje tienes ahí. Con ese valor ya puedes reorganizar la fórmula del divisor de tensión y saber entonces—
Ajá.
—puedes, claro, medir resistencias con eso.
Vale. Sí.
Pues.
Sí, yo estaba, yo estaba
Puedes hacer básicamente cosas de electrónica, y tener una idea, más o menos a ojo, de qué resistencia tienes ahí en ese momento. Y con este cable sensor es bastante curioso: he visto que un megaohm es una frontera muy buena; digamos que por encima de ese valor no hay agua y por debajo significa que hay agua en el cable, por así decirlo. Y es un cable de audio, debería haberlo dicho antes, porque en realidad lleva un conector jack de 3,5 milímetros de los de toda la vida.
Vale.
Y solo usa, digamos, la punta y la masa del jack, el tip y el sleeve. Eso lo puedes usar tal cual como quieras. Y la verdad es que no tengo muy claro qué pasa con el anillo, con el ring; no sé si simplemente no está conectado o si lo han puenteado con alguno de los otros contactos, ahí no sé exactamente qué han hecho. [se aclara la garganta] Pero lo puedes reutilizar perfectamente y hacer tú mismo la medición. La gracia de este cable es que no detectas agua solo en un punto concreto, sino a lo largo de los dos metros, o metro y medio, o lo que mida el cable entero. Y, si quieres, puedes colgar también contactos de puerta u otros sensores ahí mismo, que por supuesto ya no necesitan una pila independiente, porque ese es un problema típico en el smart home: «vale, ¿qué pila me toca cambiar esta semana?». Dicho así un poco en plan exagerado.
Sí, sí.
O sea, en el peor de los casos cada cacharro necesita aquí su cosa específica, su pila concreta, por así decirlo. Y con esto te lo puedes ahorrar un poco, poniendo simplemente un ESP32 en un punto central y llevando hasta ahí todos los sensores que quieras tener en esa habitación, que converjan todos en ese sitio, por así decir. Y eso es bastante, bastante cómodo.
Sí, Jona, no solo we have been cooking. No solo hemos estado logueándonos, como dicen los jóvenes, y cocinando, como dicen los jóvenes, sino que hace poco fue la Google I/O, la conferencia de Google donde básicamente salen a decir lo geniales que son y todo lo que acaban de sacar y van a sacar. Y tengo que ser sincero: madre mía, esta vez ha sido de verdad una Google A‑I‑O. O sea...
[se ríe] Sí.
Solo iba de IA.
O sea...
solo eso.
Sí.
O sea, eh, o sea...
Pues lo que, por ejemplo, había oído yo ahora es que la barra de búsqueda de Google la quieren convertir, más o menos, en una especie de herramienta universal, por así decirlo. Y que también fue bastante raro cómo presentaron ahora sus, creo que se llamaban Google Books o algo así, que eso técnicamente fue en un evento separado, justo antes de la I/O, y ahí pasó algo raro con el ciclo de lanzamientos, que sacaron otra cosa justo antes y fue todo un poco extraño.
lo explicaron.
Exacto, sí, esa fue como la gran cosa de la que queríamos hablar. Hubo tantas cosas, todo tan guay y tan bestia, que ya empieza a cansar un poco, la verdad, porque en el fondo se puede resumir en: cualquier cosa que sea un producto de Google recibe, más o menos, o bien para los suscriptores de Google Ultra, alguna función tipo «cuéntale simplemente toda tu mierda», o bien cada caja de búsqueda se convierte en una barra con capacidades de agente. Así que tenías razón: están superorgullosos de que, después de más de veinte años, ahora cambie la función del cuadro de búsqueda de Google. Que básicamente, de esta forma, Google quiere acaparar un poco el mercado, supongo, porque Google empezó a asustarse al ver que la gente había pasado de googlear cosas a meter directamente lo que habrían buscado en Google en ChatGPT.
Sí.
Y ahí es donde Google ha querido llevarse también parte de ese pastel diciendo: «Nuestra barra de búsqueda es lo mismo». Que vaya más allá de este modo IA y que puedas simplemente escribir algo en el buscador y eso sea el inicio de una conversación con Gemini. Y, claro, muy impresionante Gemini Omni, el modelo que va de todo a todo. O sea, lo que nos prometieron en su día con GPT‑4.0; nos acordamos, la O era de Omni.
Sí.
Y puede ir de todo a todo. Puede generar vídeos que, se supone, están muy bien anclados físicamente. Eso es bastante loco. Pero, aparte de eso, todo se vuelve un poco de tipo agente. También en YouTube tendrás la función de que en la barra de búsqueda no buscas un vídeo, sino que pones: «Explícame cómo montar en bici», y la búsqueda usa YouTube solo para enseñarte un montaje de vídeos relevantes o algo así. O te dice: «Mira, haz clic aquí», y el vídeo se abre automáticamente en el segundo exacto donde ves tal cosa, y luego: «Pulsa aquí para ver lo otro». O sea, sí.
Oh, guau,
Y lo segundo es que todo se vuelve de tipo agente. Google también quiere desplegar algo que trabaje por ti en segundo plano. Es muy bestia, muy agentizado, muy centrado en: «Cuéntale algo a Google y ya se encargará de hacerlo por ti de alguna manera».
Ah, sí.
Pero también presentaron, y esto me pareció muy raro a nivel de naming y de marketing, estas smart glasses que volvieron a anunciar. Ya el año pasado, en la Google I/O, presentaron las smart glasses. Nos acordamos, hablamos de ello.
Sí.
Sí, que Google Glass volvía. Y ahora, en esta Google I/O, dijeron: «Por cierto, las smart glasses siguen llegando más adelante, pero vamos a sacar un derivado de ellas que sí sale ya este otoño: unas gafas solo de audio». Son básicamente iguales que las gafas con pantalla: tienen micrófono, tienen cámara. Eso muchas veces no quedaba claro. Tienen cámara. Pero llevan lo mismo que las otras smart glasses, solo que no tienen pantalla en el cristal.
Sí, sí.
Y ahí hicieron una demo en la que, nada, la chica estaba en el escenario y dijo: «Oye, Gemini, quiero ir a donde estuve de excursión la última vez con mi amiga», algo así, solo dijo: «Quiero ir a donde estuve de senderismo con mi amiga el otro día». Y entonces Gemini dijo… Lo siento, Jona, a todo el mundo le encantó, pero ese punto a mí me pareció superdistópico. Mejor no hacerlo.
Sí.
Entonces las gafas, por iniciativa propia, dicen...
Sí.
—con lo que Google quiere demostrar lo increíble que es y que lo necesitas—, las gafas dicen: «Por supuesto, te voy a guiar a tal pico‑no‑sé‑qué donde hiciste senderismo con Sarah la última vez. Normalmente, a esta hora siempre tomas un café de tu cafetería favorita. ¿Quieres que haga ya el pedido de ese café y te guíe por el camino para que pases a recogerlo?»
¡Eh!
Y la chica dice: «Sí». Y las gafas: «Perfecto, he hecho un pedido en DoorDash para recoger, y ahora te voy guiando de forma que llegues justo cuando esté listo».
Bro.
Yo no quiero que mis gafas me digan: «Por cierto, normalmente a esta hora te zampas algo en McDonald's. ¿Te encargo ya tu menú habitual allí?»
[se ríe]
Y además, no sé, todo ese tema, yo con los servicios de comida a domicilio siempre estoy hipertriggered, porque pienso: «Esto no se lo puede permitir ni dios» [se ríe]. O sea, yo en la vida haría, en nuestro caso, un pedido de Lieferando,
porque eso cue‑, porque eso cuesta...
Lo piden así, en plan casual.
Sí, es que eso cuesta un huevo, muchísimo más que pagarlo en el local. Siempre hay una fee y otra fee y la service fee y la service charge, y así todo,
y luego mis gafas me preguntan: «Ah, ¿quieres un café? Vale, te he pedido uno por doce euros, pásate a recogerlo».
Sí.
No es tan… no sé, no es tan grave como «cómprame un traje de tres mil quinientos dólares», pero es que no me apetece nada eso.
Ya, pero es, digamos, el sustituto del asistente personal, por así decirlo. En cierto modo, eso ya lo es, pero tampoco hace falta llevarlo necesariamente tan lejos con cosas de pago. Si dices: «Vale, eso ya no entra en mi rango de precios», en plan pedirte un traje así como si nada, que encima pregunte directamente tus medidas a tu API de datos corporales y pueda decir: «Perfecto, ya sé qué tallas tengo que pedirte». Y entonces te llega tu traje y está guay. Claro, eso es otra liga, pero simplemente poder manejar lo básico: «Vale, búscame qué alojamientos encajan con mi estilo habitual de viaje», y que te diga: «Mira, aquí tienes tres o cuatro opciones», y tú dices: «Vale, esto por aspecto y precio tiene buena pinta». Y el sistema aprende de eso y nunca tienes ese momento de: «Uf, ahora tengo que sentarme e invertir tiempo en buscar algo por Internet», sino que dejas que lo haga por ti.
Sí.
Y así también vuelves a ganar tiempo al día.
Claro, claro. O sea, solo que con esto, con este consum‑… Sé que es muy contradictorio por mi parte que todas las cosas de IA me flipen tanto, pero luego ese consumerismo desbocado me parezca tan ridículo. O sea...
Sí, a mí también, pero tampoco hace falta llevarlo tan lejos. No es obligatorio usarlo en esa escala.
Sí.
El problema es que, otra vez, abres un vector de ataque contra ti, porque no solo compartes más datos, sino que además te vuelves mucho más vulnerable a la publicidad.
Sí.
Porque, en caso de duda, habrá una cooperación entre ciertas empresas y la empresa que haya sacado tus smart glasses o la IA que las mueve.
Sí.
Y entonces ya es rip otra vez, directo.
Eso es exactamente a lo que me refiero. Sobre todo con lo que enseñaron de «Oh, you can make shopping more fun by not having to search everything yourself». Cuando vi esa demo pensé: «Dios mío». En plan: «Quiero un sombrero de paja que tenga exactamente estas y estas características», y el agente es inteligente y encuentra un producto que cumple todos tus requisitos. Y yo: «Vale, pero ¿cómo sé que no hay un producto más barato que también cumpla mis requisitos?» Así que... [gime]
En fin. Eso fue lo que me molestó un poco, pero era obvio, tenía que llegar, porque Google es una empresa que, en lo fundamental, vive de la publicidad. Ya, se entiende.
Sí.
También hubo otro anuncio que me parece interesante y que creo que muestra un poco hacia dónde va todo. Aquí se pone muy futurista. En la búsqueda de Google, dentro de poco, habrá la posibilidad de que, cuando preguntes algo, Google programe en vivo, por decirlo así, interfaces explicativas o simulaciones. Y eso mola. Y me interesa hacia dónde lleva, porque hace poco descubrí algo llamado OpenUI.com. Y eso es una locura si lo piensas. La idea es que, y ya tienen también una especie de red montada, tú sabes, ¿no?, el hype con Open Claw y todo el mundo necesita ahora un agente Claw.
Sí, y Google intenta ahora también montarse su propio tinglado ahí.
Sí, pero un sistema operativo Open Claw‑OS estaría habilitado por este OpenUI.com. Y es que, mira, Jona, es bastante loco. No sé si la tecnología irá en esa dirección. Por un lado tiene sentido, pero por otro me parece tan derrochador, desde mi mentalidad de viejo programador. Imagínate: OpenUI es solo un estándar que puedes usar con cualquier LLM, y básicamente es un lenguaje de descripción que se fuerza sintácticamente mediante la predicción del siguiente token, de forma que solo se puedan generar ciertas cosas. Es simplemente un lenguaje de descripción que parece mucho a un lenguaje de programación, pero que describe una interfaz. Y tu LLM tiene que sacar justamente esa descripción de UI, que luego un renderizador especial convierte en una interfaz real. La idea es que un sistema operativo basado en Open Claw tenga como salida, además de las funciones de herramientas, no texto, sino siempre una descripción de cómo es la interfaz actual. Es decir...
Ah, eso en la práctica es como un autómata enorme, de alguna manera.
Exacto. Se dice: el usuario ha pulsado este botón, así que como siguiente respuesta genera cómo se ve la interfaz ahora.
Sí, sí, y eso al final es solo un autómata de estados, en cierto modo. Y luego viene, digamos, el siguiente paso.
Sí.
Y se acuerda de lo que ha pasado hasta entonces. Pero creo que, hasta ahora, es el ejemplo más extremo de matar moscas a cañonazos que ha habido en la historia.
Sí.
Diría yo, vaya. O sea...
Y no solo como una aplicación, sino como sistema operativo.
Sí, sí, es que eso es simplemente un… o sea, lol.
Como sistema operativo. No es que hagas clic, yo qué sé, en el menú y luego en «abrir calculadora» y se inicie una aplicación en segundo plano, sino que al LLM simplemente se le dice: «Vale, el usuario ha hecho clic en abrir calculadora, ¿cómo es la interfaz ahora?»
Sí.
Y entonces la genera al vuelo. Lo guay es que puedes tener, para cada tipo de datos, la interfaz perfecta. Tiene cierto sentido si, por ejemplo, tienes un agente de data science: le dices «analiza todos los datos de los clics que he recibido en tal cosa», y el modelo ve esos datos y piensa: «Vale, hay este tipo de datos, así que los represento de esta manera», y genera una UI perfecta para esos datos.
Vale, vale.
Pero bueno, sistemas operativos basados en eso, no sé. Una cosa que me pareció muy interesante, que solo salió de pasada en la Google I/O… bueno, al revés: con estas gafas solo de audio estoy muy intrigado. También hubo una Google I/O for Developers y ahí enseñaron lo fácil que es integrarlas en apps ya existentes. Y me apetece mucho escribir mis propias apps para esas gafas. Por eso seguramente me compre unas cuando salgan, porque quiero programar para ellas. Me gustaría, por ejemplo, escribir una app con la que pueda añadir cosas a OpenStreetMap mejor. Que me imagine que miro algo, mi móvil sabe, vía OpenStreetMap, «ah, este es este banco y le falta tal información», y entonces las gafas me dicen: «¿Este banco tiene respaldo?» Y yo digo: «Sí». Y se guarda. Y miro una casa y me dicen: «¿Cuántas plantas tiene esta casa?» Y digo: «Cuatro». Y se guarda. Eso me parecería muy guay.
Total, a mí también. Pero tengo todavía dos dudas con eso.
Vale.
La primera es que ahí seguramente necesitarías las que llevan pantalla integrada. No es imprescindible, pero lo haría infinitamente más guay.
Sí.
Sin duda.
quién sabe cuándo las habrá.
Pero s‑, sí, quién sabe cuándo saldrán. Y segundo, no, quizá solo hay que pensar un paso más allá.
Ahora,
tienes una cámara.
Sí, yo...
Ahí está el punto. Tienes una cámara. El sistema de tipo agente podría averiguar: vale, sabemos que ciertos datos todavía no están etiquetados en OpenStreetMap.
claro.
Y entonces puede decir: «Vale, ahora mismo estás cerca de esto». Y eso también se puede rastrear bastante bien a nivel geográfico,
Sí.
qué cosas tienes alrededor. Y cuando pases por delante, podría hacer automáticamente los commits de cambios con tu cuenta de usuario, basándose en lo que reconozca por la cámara. O sea, podría tomar la imagen de la cámara y decir: «Vale, Wieland ha pasado por un banco. En este ejemplo, hay ciertos datos aún sin etiquetar», y los deduce directamente de la imagen. Y solo con la información que no pueda sacar de las gafas, porque sea más complicada, por ejemplo medidas que la cámara no pueda estimar con precisión, te diga: «Oye, Wieland, aquí falta algo; si te apetece, podrías rellenarlo ahora».
Exacto. Digamos que, claro, esa fue por supuesto mi primera idea también, pero luego intenté escribirla por encima de forma un poco más realista.
Sí, eso ya es intentar ser realista,
porque el reconocimiento de ese tipo de cosas, por las pruebas que he hecho hasta ahora, históricamente es bastante mierder, la verdad.
Justo.
Pero eso nos lleva genialmente al otro tema que me pareció súperinteresante en la Google I/O y que también mencionaron en la Google I/O for Developers: Gemma 4, los modelos open source de Google. Hay variantes tan pequeñas que pueden ejecutarse en un smartphone.
Mhm.
Gemma 4E 2‑bit y 4E 4‑bit. Y sí, incluso hay, si lo queréis probar, una app de Google en la Play Store que se llama AI Edge Gallery y ahí puedes decir simplemente: «Venga, dale». Y está realmente entrenada para hacer cosas agentizadas, con function calling, tool calling. Son multimodales, entienden imágenes. Así que podéis relajar la vida: es un modelo que corre en vuestro móvil y pesa unos cuatro gigas. O sea, no es tan bestia, y se puede afinar para casos de uso concretos de forma bastante sencilla. Te alquilas una GPU un momento para hacerlo y luego lo exportas. Y ahí le veo muchísimo potencial, porque quizá sí podríamos decir: en mi móvil corre un modelo que he entrenado específicamente para entender si los bancos tienen respaldo y todo lo demás que quiera preguntar con la app.
Sí.
Y luego solo habría, por ejemplo, un pequeño… aun así un pequeño paso de control humano, que también está previsto en OpenStreetMap: siempre tiene que haber una revisión humana. Pero si quieres integrarlo a tope en el flujo, podrías decir: miro simplemente objetos y solo recibo el feedback de «detectado que este banco tiene respaldo».
Sí.
Y si yo no interrumpo en ese momento, entonces se da por bueno. Entonces está correcto.
Sí.
Así que, eh, eso se podría hacer, sí.
Y sería también una pasada si se pudiera anotar eso en vivo en los lugares físicos. Si esas gafas permitiesen que tú puedas adjuntar esa información al propio objeto. Que, digamos, ese pop‑up que dice «aquí he anotado algo» se mueva con tu cabeza, pegado al objeto en cuestión, por ejemplo.
Mhm.
Y podrías decir: «Oh, vale, no hago nada, está bien así». En realidad no sé si las gafas tendrán, si tienen… deberían tener un sensor de inercia. ¿Deberían? Sí. O al menos sería lo lógico. Una brújula, un sensor de orientación, para que las gafas entiendan en qué ejes estoy mirando. Eso no lo sé. Pero vamos, hablando en plata, esos sensores gracias a los smartphones y a los relojes y pulseras de fitness se han vuelto minúsculos. Hablamos de milímetros. Sería bastante wack que no lo incluyeran en las gafas. O sea, me imagino que no lo ponen si piensan: «¿Para qué, para nuestra aplicación?» Me gustaría suponer que no solo se enteran ellos de lo que se desarrolla. Me puedo imaginar perfectamente a Google pensando: «No se me ocurre nada que no se pueda hacer solo con imagen de cámara, geolocalización y la voz del usuario, así que no lo metemos». Y más si no lleva pantalla. Si fuera AR y quisieras que haya cosas flotando en el espacio, entonces sí necesitas sensores de inercia. Claro, porque querrás las anotaciones en AR y no solo, digamos, que te salga un display 2D flotante o una lista con cosas. Esa seguramente no sea la idea, sino combinarlo con AR, que es justo el paso importante y guay. Pero, Jona… Solo necesitaríamos para la UE una base de datos con los datos personales de todo el mundo. ¿Y luego? Ah, claro, ¡y luego! Entonces ya estaría. ¡Pum! [se ríe] Pero Jona, siendo sinceros, con todo lo bestias que son, todo el mundo se tira a por estos modelos gigantes, este rollo de «oh, Google ahora tiene esto» y esa demo tan impresionante en la que abre Google Keep y se pone a hablar y dice: «Ah no, espera, no, eso no» y tal y tal, y lo entiende todo de lujo. Pero a mí me apetecen muchísimo los modelos locales, o al menos modelos en mi móvil, que sería lo ideal, porque como desarrollador de apps, ahora mismo estoy haciendo una app que todavía usa servicios de OpenAI. Y el problema no es solo que a nivel de protección de datos no sea lo más ideal, es que me cuesta dinero. Exacto. Pero sabes que justo hacia ahí se va a desarrollar todo, porque solo tenemos que mirar atrás en la historia y aplicar los mismos patrones. ¿Qué pasó al final con los primeros mainframes? ¿En qué se convirtieron? ¿Qué cargas de trabajo corrían allí que ahora, obviamente, pueden ejecutarse en dispositivos finales? Y del mismo modo se va a desarrollar esto: daremos ese paso bestial hacia lo descentralizado. Eso no significa en ningún momento que los mainframes o los servidores desaparezcan. No. Más bien se van a ir transformando, igual que ahora con las EPUs y las tarjetas de expansión de IA diseñadas específicamente para eso. Eso seguirá evolucionando. Lo que antes corría en los servidores ahora podrá gestionarse también en los dispositivos finales. Como, por ejemplo, en un principio básico, una base de datos con un algoritmo sencillo que la recorra. Todo eso hoy puede hacerse en cualquier smartphone, en cualquier reloj e incluso en la mayoría de tostadoras. Así que, claro. Por eso yo… y por eso también se desarrollará en esa dirección, que la edge‑AI, digamos,
las aplicaciones se van a desarrollar muchísimo, y que muchas cosas que antes, o ahora mismo, corren en un servidor pasarán a correr en modelos locales que solo tienen, ejem, unos pocos [se ríe] miles de millones
de parámetros, claro, sí, exacto. O sea, que, como decías, solo pesan unos cuatro gigas y tienen unos cuantos miles de millones de parámetros y pueden ejecutarse ahí, y que con la optimización de modelos eso basta. Que ni siquiera haga falta que los dispositivos sean diez veces más rápidos, sino que simplemente ajustes los modelos de IA más específicamente a eso y que se vuelvan más eficientes para hacer sus tareas. Y que los servidores sigan existiendo, pero hagan cosas muchísimo más bestias de lo que ya hacen ahora, sí. Y tengo que decir que yo
cada vez noto más cómo se empieza a cumplir un poco mi predicción. Siempre he soñado un poco con que, igual que hoy todo el mundo tiene un router, en el futuro todo el mundo tenga una caja de IA. Y lo veo venir: que cada uno tenga su caja de IA y, no sé, el cuarenta y cinco por ciento de la gente use la de Google, otro cuarenta y cinco por ciento la de Apple y un diez por ciento use algo que se haya montado él mismo o que funcione con Linux. Y está bien. Está bien si podemos hacerlo así. Pero un sistema así, en principio, tampoco dura para siempre. El mejor ejemplo es, otra vez, la historia de cómo se desarrolló el PC: al principio era impensable tener un ordenador en cada hogar. Y luego, en los noventa y tal, se acabó desarrollando hasta que todo el mundo tenía un ordenador en casa, donde podía sentarse a navegar por Internet, escribir documentos, etcétera. Hasta la situación actual de: «Bueno, ahora cada uno tiene descentralizado un dispositivo en el bolsillo con el que puede hacer eso, o en la muñeca».
Sí.
Exacto, y por eso sospecho que, igual que en el gaming tampoco se ha desarrollado hacia tener un PC central de juegos para varios dispositivos y luego hacer streaming por la red local, con un PC ultra tocho que renderiza ocho juegos a la vez mientras cada persona en casa hace algo distinto encima… eso se puede aceptar como el fever dream de un profano, digamos, pero no es la realidad. Al final todo el mundo tiene su propio dispositivo donde corre el juego, o donde, como mucho, hay una API común por dispositivo, por decirlo así.
Sí.
O donde, digamos, podría ser algo tan relativamente abierto como, por ejemplo, Google Health Connect, de lo que hablábamos antes. Que se desarrolle más bien así, en lugar de decir: «Vale, cada uno tiene su servidor de IA en el sótano que cuesta solo quinientos euros».
Sí.
Sí, claro, por mí tampoco hace falta que se desarrolle necesariamente hacia «tienes tu servidor de IA en el sótano». También puede irse perfectamente hacia IA privada en el dispositivo final. A mí lo que me importa es que primero tuvimos los chatbots, ahora tenemos los agentes. Los agentes se están volviendo mainstream, es algo que Google ya ofrece a todos los consumidores. Y si pensamos un poco más allá, me viene a la cabeza que Sam Ortman dijo que su visión es ir incluso más lejos que esto de: «Le doy a mi agente una tarea y se va y la hace». Él siempre dice que su sueño es tener un agente al que simplemente le diga: «Aquí tienes acceso a toda mi vida.
Realiza acciones que mejoren mi vida. No quiero tener que darte instrucciones. Hazlo simplemente en segundo plano».
Sí.
Y eso a mí también me parecería muy, muy guay, pero entonces tiene que ser local y no pertenecer a una empresa cuyo primer pensamiento sea: «¿Cómo puede la mejora de la vida de Wieland hacernos ganar dinero?» Y si mejorar la vida de Wieland no nos da dinero, entonces no se hace. Solo se hace si nos da dinero. Y no, no, Jona, no.
Sí.
Que eso, por favor, no pase.
Uf.
Tiene que ser un modelo local que corra en algún sitio en mi casa y cuyo único incentivo sea ayudarme a mí, y nada más.
Sí.
Pues eso. [se ríe] Pero sí, veremos hacia dónde evoluciona todo. Es un ejemplo muy bueno: he hablado del interés comercial, pero también del tema de la protección de datos, porque esta idea de darle a un agente, por ejemplo, todos mis datos de Health Connect, incluida la actividad sexual, y decirle: «Mira todo lo que puedas medir de mí y de mi vida y dime qué podría hacer mejor para mejorarla», esa idea me encanta. Pero no quiero contárselo a la nube de Google ni a la de OpenAI, sino a un aparato que esté en mi armario y que, en el peor de los casos,
Sí.
pueda garantizar la confidencialidad de los datos a base de bate de béisbol si todo se va al garete.
Exacto, sí.
Eso. Pero sí, por eso.
Y, Wieland, imagínate ir por ahí tan pancho por el mundo, tan tranquilo con tus Google Glasses, y que las gafas, con su workflow agentizado que ya lo detecta todo solo, te digan: «Oh, he visto por tu historial de chat y de compras que dentro de dos días tienes una cita, y también sé que tu reserva de condones está bastante baja. Así que ya te he puesto un pedido en Amazon para que estés perfectamente preparado».
Y yo, por supuesto...
Wieland dice: «Perfecto, de lujo».
Y, por supuesto, ya he preplanificado la actividad sexual en Google Health Connect con «Protection Use = True». Si se retrasa el envío de Amazon, lo cambiaré automáticamente a «False».
Brutal. [se ríe]
[se ríe]
Perfecto. No tengo más comentarios.
Ah, sí.
Vale. [se aclara] Sí.
En fin.
Vale.
Tengo, tengo de hecho todavía una segunda observación-
Vale, por favor.
Sobre este tema. Eh, ya habíamos hablado alguna vez de que también los datos de salud se quieren meter de verdad en los datos de OpenAI en Estados Unidos. No sé si fue en el último episodio de Crunch‑Time o en el anterior, pero ya lo comentamos. Y ahora viene el siguiente paso: están planeando, con el software Plant, que se llama así, hacer que también todos los datos financieros se puedan importar a ChatGPT, de forma que ponga, en plan: «Vale, vamos a hacer ahora un desglose de presupuesto. ¿En qué estoy gastando cuánto dinero?»
Mm.
Y qué puedo optimizar aún en mis finanzas personales. La idea que hay detrás es, claro: ahora mismo ya hay por lo menos doscientas mil personas usuarias de ChatGPT que hacen preguntas de finanzas de forma regular, o sea, sobre sus finanzas personales, y eso estaría súper bien. Pero imagínate todo lo que te podría predecir, por ejemplo que te diga: «Mira, si simplemente no te hubieras comprado uno de esos cafés de Starbucks, ahora podrías permitirte esta otra cosa. Vaya, qué pena»; o: «He visto que el mes pasado te has gastado ciento cincuenta euros en trayectos en patinete eléctrico. Venga, vamos a buscar otra cosa».
Entiendes lo que quiero decir, ¿no? LOL.
Sí.
Eso, eso ya es bastante fuerte integrarlo también, y además tendría simplemente acceso a tu cuenta de Schwab, de Fidelity, a todo lo que tengas en EE. UU., porque al final es, digamos, una especie de API bancaria centralizada.
Sí.
Y también me parece muy raro que hasta ahora todavía casi no exista algo de este calibre.
Jona.
Hasta donde yo sé. ¿Me vas a corregir ahora?
Ay, Jona, es que te tenía que contar algo. No quería ni mencionarlo, pero sobre herramientas financieras y APIs bancarias...
Sí.
Te puedo contar también cómo estuve mirando y sigo mirando. Porque, a ver, tengo que ir con cuidado para no causar demasiados daños de reputación, pero un banco intentó ficharme, quitarme de mi banco actual.
Sí.
Allí me asesoraron muchísimo y durante bastante tiempo, me estuvieron trabajando bien, y me vendieron algo que a mí me parecía muy bien. En concreto presumían de un sistema que automatiza cosas por mí. Venía a decir: «Bueno, según lo que gastes, se puede ahorrar automáticamente una cierta cantidad y, cuando ese importe de ahorro en la cuenta de ahorro remunerada alcanza una determinada cifra, todo lo que se ahorre por encima se mete en el depósito de valores y en parte en una renta o plan de pensiones y etcétera, etcétera. Es todo tan guay». Y yo pensaba: esto mola, eso lo quiero.
Y como alguien a quien, claro, le interesan mucho estas automatizaciones, eso me parece extremadamente guay, poder planear algo así de forma automática.
Sí.
Pero
solo como contexto para vosotros: luego yo también le di a Wieland una recomendación financiera, es decir, que ese banco era más o menos un timo. O sea, la definición de «scam» siempre es un poco complicada, pero así es como se lo describí personalmente, según mi opinión. Y
porque muy a menudo es así, sobre todo cuando uno ya no controla directamente sus propias cuentas —porque al final de eso iba el modelo de cuenta—, sino que todo se reduce, por así decirlo, solo a unos cuantos numeritos en la pantalla que indican qué ha ido a dónde, y en el peor de los casos ellos, claro, quieren seguir ganando dinero todos los meses contigo a través de ese sistema de cuentas. Eso, creo yo, es bastante obvio. Y mi valoración al final fue que probablemente es una trampa financiera enorme, porque luego te dicen: «Mira, aquí en la página ciento veintitrés de lo que firmaste pone que, ah no, si quieres cancelar esto, primero tienes que cumplir estas veinte condiciones», etcétera. O sea, es todo muy complicado, y por eso le recomendé que, de verdad, no lo usara; que no lo hiciera más enrevesado de lo que tiene que ser y que no se dejara engañar solo por eso.
Exacto. Y lo que me pareció fuerte es que siempre insistían en que ese banco había patentado ese sistema, que no existía en ningún otro sitio.
Sí, claro, eso sería… o sea, es algo súper universal. Vamos, que cada banco afirma de sí mismo que es muy distinto a los demás, pero bueno.
Pues eso, Jona, y entonces, resolución del misterio: yo fui a mi propio banco y ahora tengo lo mismo. No completamente solo con las herramientas estándar de mi banco; hay varias cosas que se pueden hacer allí, pero sobre todo lo que he descubierto es que existe una API bancaria universal, Jona.
¿Cómo?
Pero ahora viene lo bueno, ahora viene el giro guay.
Sí.
Que hay bibliotecas, incluso hay bibliotecas de Python con las que puedes hacer eso.
LOL.
Pero para eso tienes que registrar un producto en la banca alemana.
Sí.
Te voy a leer ahora una lista de productos financieros que están registrados en la banca alemana, entre paréntesis, extracto.
Sí.
Trade Republic.
Sí.
Finanzguru.
Wielands Autofinanz.
[ríe]
Mmm, guay.
[ríe]
Sí.
No, no, pero, pero está muy guay.
¿Pue‑puedes decir cómo se llama esa API? ¿Tiene un nombre concreto…?
Pues eso se llama FinTS.
Ah, vale.
Y cuando uno pues…
Eso, eso ya me parecería súper guay, poder decir: «Oh, vale, así podría además automatizar yo mismo directamente alguna que otra cosa más». De eso vas a hablar tú ahora también,
Exacto, esa es un poco la idea. En eso estoy todavía trasteando. Para mí lo importante es poder acceder a mi cuenta a través de una API, por ejemplo poder ver cuánto sobra y luego decir: «Vale, el veinte por ciento de eso al depósito de valores, lo que sea, y el resto a otro sitio, lo que sea». Y con eso se puede. Y lo que quizá también me gustaría hacer es meterle un componente de recompensa, de manera que, si se dice: «Vale, hay dinero disponible en la cuenta para premiarme», entonces, por ejemplo, mi sistema de seguimiento de la salud pregunte: «¿Ha cumplido Wieland hoy todos sus objetivos?»
¿Ha sido Wieland un niño bueno? Sí.
¿Ha hecho Wieland deporte hoy?
Ay, ay,
¿No se ha comido Wieland un Big Mac? Pues si es así, al final del día puedo autorizar una transferencia de cinco euros desde mi cuenta de ahorro a mi tarjeta de crédito para gastos.
Guay.
Y ahí está el único inconveniente. Entiendo por qué lo hacen, porque eso de automatizar tu cuenta es ya un poco fuerte. Ahí no puedo simplemente, por así decirlo, usar el procedimiento de TAN por app.
Sí.
O sea, no puedo simplemente hacer que se lance la operación y que en mi móvil salga un «¿Está bien esto? Sí / no» y ya. Ahí tiene que hacerse un procedimiento TAN. Eso es un poco rollo. Significa que no basta con que en el móvil pulse «sí / no», sino que el móvil me va a mostrar un TAN y yo tengo que hacer llegar ese TAN de vuelta al script de la forma más segura posible, y desde luego no por Telegram.
Sí.
Para que entonces el script pueda usar ese TAN para autorizar. Eso sigue siendo un poco complicado; todavía tengo que aclararme. Pero sí, Jona, se puede. Se puede automatizar. Solo que…
Ahí hay que programar un poco todavía alrededor, haciendo algún rodeo—
hay que—
para, digamos, conectar todavía esas piezas. Y sí, vamos, ya estás vendido si por el camino hay alguna vulnerabilidad explotable, o si el servicio de mensajería por el que lo has mandado está, claro, escuchando absolutamente todo lo que…
Sí.
De eso, en caso de duda, hay que partir.
Sí. O sea, ahí hay que ir con mucho cuidado, pero, Jona, se puede. Es decir, si haces estas cosas raras, funciona también con la mayoría de los bancos. Yo desde luego no diría que mi banco sea precisamente un ejemplo de modernidad. O sea, yo creo que…
Vale.
Quiero decir, de mi banco yo no pienso: «Oh, esto es un neobróker. Oh, es un banco como Revolut, que dice: “No tenemos sucursales, solo app, app, app; todo app, todo digital, IA”». Ni mucho menos; mi banco es bastante tradicional, además.
Sí.
Y, eh, incluso ellos participan en este sistema financiero FinTS. O sea que vuestro banco, seguro, también lo hace.
Exacto, bien.
Era solo una pequeña digresión. Si uno quiere automatizar algo así, se puede hacer perfectamente.
Desde principios de mayo hay algunos fallos muy grandes y graves en el kernel de Linux. Eso ha salido bastante a lo bestia en las noticias, porque en realidad están afectados más o menos casi todos los sistemas que usan Linux, simplemente porque es algo que está de forma fundamental en el propio kernel.
Mmm.
Y ahí hay varios distintos, como por ejemplo Dirty Pipe, Dirty Cow, Dirty Frag y Copy Fail. O sea, hay de verdad un montón, que además son todos bastante parecidos entre sí, digamos.
Sí.
Se llaman así y todos son un pelín diferentes entre sí, cambian en pequeños detalles. No voy a entrar ahora súper en detalle, porque sería bastante bestia. Pero os puedo explicar más o menos cómo funcionan estos exploits: hay cierta interfaz en el kernel que permite escribir cuatro bytes en el page cache. Y, según el exploit, es simplemente otra, una interfaz distinta. Y entonces te preguntas: «Vale, pero cuatro bytes no son tantos».
Vale, puede ser, pero los puedes escribir en cualquier posición que quieras. Y eso significa, claro, que en el mejor de los casos puedes reescribir el archivo passwd o directamente el archivo de «su».
Sí.
De modo que como usuario normal, en cuanto ejecutas ese script, pasas a tener directamente privilegios de root en el sistema. Y claro, eso es muy grave, porque con eso también puedes escapar de contenedores. Porque aunque tengas contenedores de Docker, el page cache se sigue compartiendo, lógicamente.
Sí.
Así es como funciona. No es que cada sistema tenga su propio page cache distinto, sino que realmente puedes aprovechar eso para salirte incluso de servidores que están alojados juntos, y entonces pues rip. Ese page cache existe por un motivo muy claro: sería demasiado lento estar escribiendo siempre todos los datos al disco duro, mover otra vez el cabezal de lectura a la posición correcta y volver a leerlos desde ahí. Todo eso llevaría muchísimo tiempo. Por eso existe el page cache. Los datos se van escribiendo de vuelta al disco por páginas, digamos por bloques de memoria. Eso también te lo explican en la uni: se va volcando de nuevo página a página, y cada cierto tiempo, a intervalos regulares, todo se sincroniza otra vez con el disco, eso es obvio. Pero en este caso, para estos exploits, es muy interesante, porque el sistema ni siquiera se da cuenta de que esas páginas, por así decirlo, están modificadas. Porque el page cache, en el momento en que se hacen ciertas comprobaciones, da completamente igual, ya que esas comprobaciones miran lo que hay en el disco. Es decir, en el disco se comprueba: «Vale, ¿coincide el hash que hemos generado con este bloque de datos del disco duro?», y eso siempre va a cuadrar, pase lo que pase, porque solo has cambiado el page cache y no los datos sobre los que se construye ese caché. Así que todo sigue siendo “válido” hasta que reinicias la máquina o invalidas manualmente esa página concreta del page cache. Eso también se puede hacer en Linux con un comando, obviamente, pero no es algo que hagas así porque sí, solo porque tengas una sospecha; diría que eso es bastante lógico. Total, que la situación está bastante rip ahora mismo, porque afecta, más o menos, a todas las distribuciones desde 2017, y básicamente tienes que instalar una versión nueva con un kernel de Linux más reciente –no sé si es la 6.3.1, o en qué versión van ahora mismo– y actualizar, porque si no, pues rip. Y todos estos exploits se han encontrado, de hecho, con ayuda de IA.
Sí.
Ahí el investigador de seguridad de verdad abrazó la IA a tope y la puso a buscar como loca, pero la IA todavía no es capaz, digamos, de razonar todo el proceso de principio a fin por sí sola. Tan bestia no es aún. Obviamente depende del presupuesto: si dices «vale, aquí tienes, no sé, mil euros de presupuesto de cómputo», seguramente puedes conseguirlo; pero con restricciones de dinero realistas, por así decirlo, la IA eso todavía no lo hace sola. Sigue necesitando apoyo humano, alguien que vaya diciendo: «Vale, ahora investiguemos un poco más en esta dirección, ¿podemos hacer aquí todavía algo más?»; y que sepa: «Ah, espera, aún tenemos esta otra idea». Y así es, digamos, como ha funcionado ahora mismo todo este proceso. Y eso significa también que la predicción, la previsión, ha resultado correcta: que muchas vulnerabilidades de seguridad se van a encontrar usando IA. Muy a menudo está pasando justo ahora con el kernel de Linux, que aparecen un montón de vulnerabilidades más bien pequeñas y poco importantes. Y ahí el propio “man himself”, Linus Torvalds, ha escrito que está totalmente desbordado por la cantidad de issues que se abren, que en realidad casi todos son duplicados unos de otros, pero la gente no se molesta en entender lo que pone allí, qué significa de verdad, ni en mirar si ya hay un fix implementado. Simplemente cogen el output de la IA, lo pegan tal cual en un issue y listo. Y no entienden qué es lo que está pasando, o que en realidad ya es un duplicado de otro issue. Y él dice concretamente:
«La mayoría de los problemas que puedas encontrar con tu IA casi seguro que ya los han encontrado antes otras IAs. A menos que metas una cantidad de dinero realmente enorme, entonces es otra historia. Pero es muy, muy probable que ese problema ya sea conocido de antemano por el ecosistema.»
Sí.
Sí.
Porque justo te quería preguntar si estas, si estas vulnerabilidades también son de las que ha encontrado una IA, porque eso me pareció súper interesante. Por un lado, ver lo lenta que es aquí en Alemania la ola de noticias. Hace dos días hubo en la ZDF, en algún programa, un reportaje sobre el tema: «¿Qué tan peligroso es Claude Mythos?», y yo pensé:
Muchas gracias, ZDF. Qué bien que aquí en Alemania también nos vayamos enterando ya. Yo me hice esa pregunta hace tres semanas, pero bueno, no pasa nada, hablemos del tema. Fue muy interesante y para mucha gente fue quizá como un pequeño momento de despertar, porque, en mi opinión, hay estas tensiones cada vez más extremas entre cosas que están pasando de forma totalmente factual—
Sí.
y gente que dice «IA no es real».
¿Qué quieres decir con que no es real?
Bueno, en inglés se dice eso de Nothing Burger.
Mmm.
O sea, que es todo puro hype. Que en realidad no puede hacer lo que se dice que puede, etcétera, etcétera. Y yo creo que esta ha sido una situación en la que ya puedes decir de forma incuestionable: bueno, no sé, Claude Mythos ha encontrado como mil quinientos zero‑day exploits en una semana, que son exploits reales, que se podrían explotar de verdad.
Sí.
Eh, por eso no sé. O sea, mucha gente ha… en parte puedo entender a la gente que decía que eso es solo puro hype, porque luego, lo que me pareció muy interesante, hubo algunos que, como contraste, dijeron: «Vale, gente, os voy a leer ahora un artículo de noticias», y ahí ponía algo en plan: «Sí, OpenAI ha desarrollado un modelo, pero de momento lo están reteniendo porque dicen que es demasiado peligroso. Podría causar daños súper graves a la sociedad o a los sistemas informáticos y por eso, de primeras, no van a publicar GPT 3.5».
Exacto.
Pues mmm.
Sí, la cuestión es en qué relación está eso.
Sí.
Pero ¿por qué, por qué existen, digamos, estas carcasas vacías? Es bastante obvio. En realidad solo están ahí para, por así decirlo, ir preparando a los accionistas, para que vuelvan a meter más dinero, porque no se trata de lo que va a pasar el año que viene. Ese, digamos, nunca es el objetivo, sino más bien qué se puede conseguir a más largo plazo, pongamos en los próximos diez años, y cómo va a poder la empresa ganar dinero con ello en los próximos diez o veinte años. No es solo: «Ah, vale, ¿cómo pintan las cosas el próximo trimestre?». Sí, ahí también hay a veces saltos, pero nunca es tan profundo. Más bien se mira: «Vale, ¿cómo van a ser, lógicamente, la facturación y la evolución de los ingresos en el futuro?», y no solo el próximo trimestre, el próximo año o los próximos cinco, sino mucho más allá. Y por eso no me parece tan malo, llegado el caso, prometer demasiado, porque luego se olvida más rápido de lo que crees que alguna vez lo prometiste, siempre que mantengas ese flujo constante de información nueva sobre lo que supuestamente va a ser posible pronto, que mantengas la pelota rodando todo el tiempo.
Sí.
Está bien, porque en algún momento sí que va a funcionar seguro. Solo que han infravalorado muchísimo, a propósito, el intervalo de tiempo en el que eso va a ser posible. Dicen: «Ah, vale, esto funciona en un año», pero, de forma realista, son más bien de tres a cinco años hasta que puedas implementar de verdad un concepto así.
Bueno, ya, sí.
Y, claro, puedes decir: «Vale,
GPT 3.5 fue brutal para su época, pero tampoco supuso un daño tan extremo para la sociedad, según cómo definas, claro, «daño para la sociedad».
Sí.
Exacto, ¿ves? Eso es justo lo que quería decir ahora. O sea, GPT 3.5 apenas podía encadenar una frase coherente.
Sí.
¿Me entiendes? Y a partir de ahí hubo gente que hizo el paralelismo y dijo: «Bueno, con GPT 3.5 no has hackeado nada, así que todo esto es seguro, es puro fake». Pero el punto es que sí tiene efectos reales, y por eso se intenta gestionarlo más o menos bien. Por ejemplo, se dice: «Vale, esta tecnología dentro de nada también va a existir en abierto, en open source». Por eso la idea —y OpenAI ya tiene algo así y Google anunció algo parecido en la Google I/O, da igual— es: «Primero vamos con estos modelos a todas las grandes empresas y les escaneamos todos sus sistemas en busca de vulnerabilidades de seguridad, para que, en plan…»
…cuando esta tecnología sea, inevitablemente, accesible para todo el mundo, al menos no pase que mañana hackeen Google, o que mañana hackeen Adobe. Eso sí que sería bastante chungo para la economía mundial.
Sí.
Vale, pero
sí, o sea, me pareció muy loco. Para mucha gente fue, creo, como un pequeño momento de despertar, diría yo, porque, ¿sabes?, podían siempre decir: «Ya, bueno, eso… no sé, un montón de issues de IA en GitHub,
tal y tal, y todo se ahoga en el “slop”, en la basura». Todo este rollo de: «Sí, esto no es nada, es todo humo y, al final, no es nada. Nada de esto tiene un valor económico real, nada de esto supone un riesgo de seguridad real, etcétera, etcétera». Ese es el relato que se repite todo el rato. Y creo que ahora ha sido muy difícil de sostener. ¿Cómo puedes ser tan ignorante y pasar así por alto la situación actual?
Eh.
O valorarla mal, debería decir más bien. O sea-
Eh, «Stankorbium» extremo.
Sí. [se ríe]
Pero Jona, es perfecto cómo aquí
encaja.
Exacto. Pero también tengo que añadir, como disclaimer, eh, que de hecho ya hay gente que afirma haber demostrado que ciertos modelos en los últimos meses han empeorado en parte, o al menos que la gente tiene esa percepción subjetiva. Y ahí está la pregunta: ¿tiene eso que ver con todo lo que te prometen las empresas y, en realidad, los modelos se mantienen igual en cuanto a calidad? ¿O hay de verdad una evolución hacia atrás? Porque muchos también han dicho que la forma en que responde la IA y qué tokens genera al final, todo eso refleja totalmente la calidad, y que la cantidad de tokens que se generan o se devuelven se ha manipulado mucho. O sea, que por ejemplo ahora hay mucho más material de relleno en el output que antes, de modo que hoy en día casi tienes que añadir un «oye, sé breve» para obtener una salida parecida a la que esperabas originalmente.
Mmm.
También hay mucha gente que argumenta en esa dirección, y lo puedo entender perfectamente, porque subjetivamente yo también tengo un poco la sensación de que eso está pasando.
Jona, ahí entramos ya en un terreno del que en realidad no quería hablar, pero en el fondo me apetece. Llevo en realidad dos episodios queriendo soltar este, este pequeño… no es un rant, pero este pequeño hot take mío.
Hazlo
A saber: quien no usa un modelo de IA de pago, de facto no está en condiciones de hacer una valoración correcta de lo que la IA puede hacer hoy en día.
Sí.
Y eso me parece, me parece, me parece una pena por varios motivos. O sea, me parece, me parece… por eso ya he soltado el hot take. Ahí estoy, ese es el punto donde nadie está de acuerdo conmigo. Yo soy, básicamente, el que dice que, a un nivel filosófico muy elevado, estaría a favor de que no existiera ningún ChatGPT gratuito.
Ajá.
Sino que creo que le hace daño a la sociedad y a la industria en conjunto que, en la práctica, haya dos tipos de IA muy distintos a los que tiene acceso el consumidor. Está la que es gratis, que usa el noventa y seis por ciento de la gente y a partir de la cual se forman su opinión de qué puede hacer la IA.
Exacto.
Y luego están los que pagan por ello y reciben algo muchísimo mejor y por eso tienen una idea mucho más clara. Eso lo noté hace poco, aquí en la radio.
O sea, eso es totalmente cierto, pero creo, creo que no invalida mi hipótesis. Sí que invalida, desde luego, el argumento de: «Ah, bueno, no es tan guay como todos prometían». Claro, si no pagas nada por ello, ni una mensualidad ni, ya ni te cuento, por prompt; porque obviamente, si pagas diez euros, cien euros o incluso cientos de euros por prompt, el resultado es exageradamente bestia, con todo lo que ya puedes conseguir hoy en día con IA. Pero creo que mi argumento quizá siga siendo válido.
Exacto. No, creo que se puede explicar precisamente así. Mi teoría sería que, al principio, para construir el hype, por ejemplo también los usuarios gratuitos recibieron lo guapo, aunque no pagaran. Y ahora, que poco a poco las empresas de IA se dicen: «Vale, esto en realidad cuesta una burrada. Incluso con la gente que paga doscientos dólares al mes perdemos dinero»,
se plantean que quizá deberían empezar a hacer que la gente que literalmente no paga nada reciba, quizá, un poco menos de inteligencia, you know?
Creo que esa podría ser una explicación de por qué la mayoría de los que notan eso son precisamente los usuarios gratuitos. Simplemente ya no reciben el cien por cien de lo que sería posible.
Sí.
Y por eso a ellos les parece peor, porque es peor.
Sí.
Exacto. Eh, pero quería volver a eso un momento. Lo he notado, ese contraste. Me ha quedado clarísimo en qué burbuja vivo. Así que, Jona, como pequeña confesión para ti: este mes, para probar, me he pillado el ChatGPT de cien euros.
Guay.
O sea, no me he cogido el de doscientos euros. Tengo, tengo ChatGPT Pro, pero ahí puedes elegir: quieres el de cien euros, donde tienes cinco veces más cuota, o el de doscientos, donde tienes veinte veces más. Y me lo he pillado porque, programando con Codex, siempre llegaba a mis límites y pensaba: «Vale, ahora sí que me compensaría de verdad tener más cuota».
Sí.
Pero con el quíntuple me basta de sobra. No llego al límite, así que no necesito el veinte veces más. Y ese contraste con… estábamos aquí en la radio y una, una, una chica de aquí de la emisora contaba: «Pues nada, le pedí a ChatGPT que me pusiera una cita en formato APA».
Sí.
Y la cagó por completo.
Sí.
En una tarea extremadamente sencilla y obvia.
Sí.
Y entonces dijimos algo así como: «Claro, eso la IA no lo puede. Eso no va». En contraste con eso, Codex me escribe cada semana cientos de miles de líneas de código sin errores.
Sí.
Es un contraste brutal. La persona media tiene, con razón, la impresión de que no puedes dejar que ChatGPT te escriba ni una frase sin que probablemente la cague.
Sí.
Porque la persona media solo conoce la versión gratuita, que es una mierda.
Sí.
Y eso me parece una pena por varios motivos. Desde un punto de vista social, me da pena que la mayor parte de la población no entienda qué tecnología tan guay existe y para qué se podría usar. Desde una perspectiva más doomer podrías decir que la mayoría de la sociedad no se entera de lo jodidos que estamos todos.
Sí.
Porque piensan: «Ese cacharro ni siquiera ha sido capaz de escribir una frase bien; no me va a quitar el trabajo».
Sí.
Y no se dan cuenta de que, si pagas, hay cosas que perfectamente te pueden quitar el trabajo. Y a mí personalmente también me da mucha pena, porque eso hace que la percepción de lo que yo hago con IA esté súper distorsionada.
Mmm.
Porque pasa que, cuando le digo a la gente, por ejemplo: «Oye, estoy experimentando con montar los vídeos de Crunch Time con IA»,
Sí.
la gente piensa en su ChatGPT gratuito, en cómo en tres frases comete siete errores, y me dicen: «Wieland, por favor, déjalo. Eso no va a funcionar. ¿Eh? Eso la IA no lo puede hacer. ¡Si no puede ni escribir una frase sin meter la pata!», dicen, basándose en su recuerdo del ChatGPT gratuito.
Sí.
[suspira] Claro, de mis amigos también he recibido contraargumentos. Me parece absolutamente bien que exista ese acceso gratuito, en el sentido de que me gusta que más gente tenga acceso a esta herramienta.
Sí.
Y quien no se lo puede o no se lo quiere permitir —ahí, como dije, estoy yo mismo un poco dividido— al menos tiene alguna opción. Por otro lado, al final volvemos a mi argumento de fondo: el problema no es la IA, es el capitalismo. O sea, si todo el mundo tuviera acceso a un sistema muy bueno, yo estaría totalmente a favor. Y también de decir: «Vale, puedes tener gratis algo que no es tan bueno, pero al menos tienes algo». Sí. Pero creo que ahí, [suspira] Internet y el, digamos, capitalismo de Internet, que empezó a tope a principios de los 2010, han acabado metiendo las manos en la IA, porque al principio, hace tiempo, Sam Altman decía algo como: «Tío, nuestra IA… sé que estáis acostumbrados a que en Internet todo sea gratis y se financie con publicidad. Pero la IA es tan increíblemente cara que eso no funciona. Por eso no vamos a usar ese modelo de negocio: no vamos a poner anuncios y no va a haber versión gratuita. Estamos haciendo aquí un producto por el que, por favor, vais a pagar».
Sí.
—igual que hacéis con cualquier otro producto.
Sí.
Porque, en serio, yo siempre lo comparo —es una comparación súper tonta—, pero cuando quiero explicarle a la gente ChatGPT y que yo uso la API de OpenAI, siempre lo comparo con la leche, concretamente con la Müllermilch. Y digo algo así: «Vale, en la Müllermilch hay, no sé si es verdad, que no nos demande nadie por difamación, pero pongamos que hay cincuenta mil conservantes y potenciadores de sabor. Pero eso no significa que, si yo como cliente B2B compro leche a Müller para producir la ‘leche Wieland’,…»
Sí.
—si ahora compro esa leche B2B directamente a la lechera Müller, esa leche no lleva potenciadores de sabor ni conservantes ni nada. Es buena. Probablemente yo, a mi leche Wieland, le meta conservantes y potenciadores de sabor o, en el caso de ChatGPT, te rastree, te ponga anuncios, venda tus datos. Pero solo porque la lechera Müller, digamos, también fabrica la Müllermilch, hay que separar entre el producto B2B y el producto B2C. Y por eso siempre lo comparo con lo siguiente: imagínate —es casi imposible imaginárselo, pero en Internet y con los productos digitales es lo normal—, imagínate que en la tienda hubiera una Müllermilch gratis y otra por la que tienes que pagar.
Sí.
Y la gratuita es una mierda.
Sí.
O sea, es claramente mucho peor.
Es básicamente agua con un poco de sabor a leche o yo qué sé, vaya.
Y ahora imagínate qué pasaría. El noventa y cinco por ciento de la gente cogería la Müllermilch gratuita y diría: «Pero Wieland, ¿eres tonto? ¿Por qué pagas por eso, eh?». Y luego viene el siguiente punto, donde la propia lechera Müller se dispara en el pie. Si yo digo: «A mí me gusta la Müllermilch, yo pago por ella», ellos contestarían: «Mira, Wieland, yo siempre bebo la Müllermilch gratis. Sabe tan mal que incluso gratis la tomo a regañadientes. Ni de coña pagaría por esa mierda», porque ni se les pasa por la cabeza que, como se llaman las dos Müllermilch, haya alguna diferencia. «Si las dos se llaman Müllermilch, ¿qué estás contando, Wieland?».
Sí.
«Claro que no voy a pagar por eso». Y del mismo modo, la gente me dice: «Wieland, ChatGPT no es capaz ni de escribir una frase bien. Ni loco pagaría por eso». Porque obviamente no les entra en la cabeza que no sería así si… Perdón, estoy rajando demasiado.
Exacto. Y tampoco entienden que, si una empresa invirtiera mil euros al mes, o sea doce mil al año, en forma de IA, ya podría ahorrarse perfectamente un puesto de trabajo. O sea-
Sí.
—la única pregunta es, claro, cuál. [se ríe] Pero si tu experiencia es solo con el ChatGPT gratuito o, yo qué sé, con el Copilot gratuito o lo que sea, entonces es normal que no lo puedas entender, porque piensas: «Bueno, IA, bah, eso no quita trabajos». Pero tienes que entender que la alternativa es pagarle a una persona treinta a cincuenta mil euros al año, o incluso más, en algunos casos. Y ese es, en teoría, el presupuesto que tienes para las peticiones a la API
y todo lo demás. Que, digamos, con la IA, con lo buena que es y lo bien que se puede adaptar, tendrías que poder rebajarlo muchísimo, de alguna manera. O sea, eso es… sí.
Pero sí, Jona, como decía, aunque lo vuelvas a mencionar con lo de los empleos, creo que ahí simplemente hay
niveles increíbles de copium, que lo puedo entender, porque el ser humano es así. Cuando tiene algo que le da esperanza… Ya ves, Wieland y sus hot takes. Ya estoy deseando ver los comentarios en YouTube. Creo que se puede comparar un poco con el populismo: también es ese rollo de «algo me da esperanza». En plan, mi vida es una mierda. ¿Por qué? Los solicitantes de asilo. Si no estuvieran, todos mis problemas estarían resueltos, y eso me da esperanza, porque no significa «el mundo es complejo y quizá los problemas ni siquiera se pueden resolver», sino «sé una cosa por la que mi vida es una mierda y contra eso voy a luchar ahora».
Y eso, obviamente, no se puede sacar ahora completamente de contexto respecto a todo lo que has dicho hasta ahora.
[se ríe]
¿Sabes? Igual que con eso, pienso que, cuando le dices a alguien, una y otra vez: «Oye, mira, la IA…» y yo digo: «Dentro de poco va a ser capaz de hacer la mayor parte del trabajo de la humanidad y como sociedad deberíamos plantearnos cómo vamos a gestionarlo»,
Sí.
Eso sería importante. Y luego salen estudios de estos súper famosos que dicen que el noventa y cinco por ciento de los proyectos de IA en empresas fracasan. Y la gente se lanza a eso y dice: «Mira, mira, ¿ves? No puede ser verdad. Esa cosa no me va a quitar el trabajo». Y luego lees el paper y piensas: «Vale, es que definen fracaso como que no ha aumentado los ingresos o que no lo han considerado útil». Pero que una empresa o-
Ah, ese es entonces el umbral para considerarlo un fracaso. Ajá, vale.
O sea, ¿no? Definieron fracaso como «no lo seguimos después de la fase de prueba». Y yo pienso: vale, no sé exactamente cómo será en las empresas, pero Jona, el noventa y cinco por ciento de mis proyectos fracasan si lo defines como «pruebo algo, veo que no tiene el efecto que quería y lo dejo».
Tiene que aumentarte la facturación. Sí, claro.
O aumentar mis ingresos. O haberme aportado algún beneficio en mi vida. Si no, nada. Pero, oye, eso lo hacen las empresas constantemente. Las empresas también lo hacen seguro un montón de veces: dicen «Vale, probamos esto, intentamos desarrollar algo un poco, lo hacemos una o dos semanas y, si no funciona, pues no lo seguimos».
Sí, exacto.
Pero en ese estudio eso cuenta como proyecto de IA fracasado.
Bueno, eso es, digamos, bastante estricto.
Y ahí es donde la gente se agarra a eso, y lo entiendo, porque obviamente no quieres creerlo cuando alguien te dice: «Oye, por cierto, llevas veinte años trabajando y, dentro de tres, el mundo va a estar completamente patas arriba».
Sí.
Entonces, claro, te agarras a todo lo que diga: «Bah, ese solo está soltando humo».
Sí.
Todos los que hablan de IA solo sueltan humo.
Sí.
Hablando de modelos de suscripción caros, en los que, desde luego, no hace falta ver el sentido de pagar: Plex también acaba de subir otra vez sus precios, y me parece absolutamente demencial que se haya llegado a esos niveles de coste. Están subiendo el acceso de por vida a Plex, que estaba, no sé si ahora mismo en doscientos cincuenta dólares, a setecientos cincuenta. O sea, lo triplican. Y el motivo es que el tío ha dicho: «Bueno, en realidad ya no queremos ofrecer esto así más tiempo», o sea, básicamente el clásico movimiento de Adobe: en realidad solo queremos ofrecer modelos de suscripción, donde pagas todos los meses una y otra vez. Y ahí es RIP total, porque es un software para hacer streaming a otros dispositivos de vídeos que ya tienes en tu propio servidor, obviamente, y para eso no hace falta pagar dinero, y desde luego no setecientos cincuenta euros, encima del hardware y de todo el montaje, del tiempo que te lleva ponerlo en marcha. Podrías usar simplemente una solución muy buena de código abierto en su lugar, y es una maravilla.
Si, o sea, si alguien tiene necesidad de algo así. Y claro, claro, solo como pequeño aviso legal: por supuesto tenéis que haber comprado previamente esos vídeos, pero luego en Alemania sí que podéis haceros copias privadas para uso propio. Es decir, todo lo que ahí pasa es totalmente legítimo, vaya.
Sí.
Lol. Y eso es otra más, como si no tuviéramos ya, como si por parte de la población no hubiera ya suficiente odio contra los modelos de suscripción.
Sí.
Jona, ahí sí que lo hemos clavado otra vez.
Exacto.
Por así decirlo. Hemos grabado un episodio maravilloso, lleno de info muy tocha, eh, lleno de cosas sobre nuestros proyectos privados, lo que estamos haciendo ahora mismo, lo que, eh, hacemos con tecnología y, por supuesto, sobre lo que las grandes empresas tech están haciendo ahora mismo con la tecnología. Y, Jona, hasta nos hemos marcado unos cuantos rantcitos muy majos sobre el capitalismo tardío y ese mundo de 'watchshops', de tiendas‑vigilancia, en el que quizá, presuntamente, dentro de nada vayamos a vivir todos. Ha sido un episodio clásico, cargado de momentazos. Si alguien no lo ha pillado entero y piensa: eso ha estado tan bien que me lo quiero escuchar completo; acabo de entrar, acabo de sintonizar, o lo quiero recuperar después… ¿dónde puede hacerlo, Jona?
Para eso, lo mejor es que vayáis a radio-unique.de. Allí encontraréis, por supuesto, todas las noticias de nosotros como radio de estudiantes, pero deberíais pinchar en los episodios correspondientes de Crunch Time. Desde ahí podéis volver a escuchar en cualquier momento todas las entregas. Si no, también podéis buscar en YouTube o en Spotify 'Die Crunch Time'. Nuestro pódcast lo tenemos además en formato RSS. Eso significa que solo tenéis que ir a podcast.radio-unique.de. Ahí podéis guardaros directamente los enlaces RSS de todos los, eh, pódcast e importarlos en el lector de pódcast que uséis, o encontrar ahí mismo los enlaces a YouTube y Spotify, etcétera.
Y si uno quiere estar totalmente al día y, y, o quizá solo tiene una radio analógica en la que con una ruedecita se ajusta un número de FM.
Uy.
¿Dónde se puede escuchar entonces la Crunch Time, la próxima vez?
El episodio ochenta y uno de la Crunch Time llegará en realidad el 28 de junio. Es, como todos los meses, el cuarto domingo, y entre las dieciocho y las diecinueve horas tenéis que sintonizar en FM, en ciento dos coma siete megahercios, o, si preferís, en DAB+ en el paquete 5B. Para eso, eso sí, tenéis que estar en la zona de Chemnitz. Si no, podéis entrar en radio-unique.de y darle al reproductor web. Allí podréis vivir la Crunch Time en directo el 28 de junio entre las dieciocho y las diecinueve horas.
Así que tenéis todas las opciones abiertas para seguir esta, las últimas y las futuras Crunch Time. Hasta entonces, que os vaya bien.
Chao.
[Música]
Esto fue
Crunch Time, una producción de Radio UNiCC.
Zuletzt aktualisiert am 1
سلام و خیلی خوش اومدید، شنوندههای عزیزمون پشت گیرندههاتون و هر جایی که هستید. به برنامه «کرانچتایم» خوش اومدید. این قسمت هشتادم پادکست فنی ماست، که من، ویلاند، توش همراهتونم.
و من، جونا هستم.
هر چهارمین یکشنبهٔ ماه تازهترین خبرها و تجربهها رو از دنیای فناوری و از زندگی خصوصی خودمون در دنیای DIY و کارهای دستساز براتون تعریف میکنیم. دوباره چند تا موضوع و پروژهٔ جذاب براتون آماده کردیم و این دفعه هم، مناسب شمارهٔ هشتاد. معمولاً برای عددهای رُند و یککم عجیب کلی برنامههای عجیبوغریب میچینیم، ولی بهنظرم این بار همینجوری هم خیلی باحاله. قسمت هشتادمون یک قسمت کلاسیکه، با موضوعاتی از دنیای تکنولوژی و همینطور چیزهایی از کارهای DIY خصوصی خودمون.
رادیو یونیسیسی تقدیم
[موسیقی] برنامهٔ «کرانچتایم»
[موسیقی] با جونا و ویلاند.
و از همونجا میخوام مستقیم شروع کنم با، ام، آره، یه موضوعی که تو قسمت قبلی هم قولش رو داده بودم، که این بین یه کم بیشتر باهاش ور رفتم و الان میتونم براتون تعریف کنم که چقدر از Google Health Connect خوشم اومده، چون واقعاً یه چیز...
[میخندد]
واقعاً خیلی باحاله. جونا، I have been cookin' so hard. یعنی شدیداً درگیرش بودم. واقعاً خیلی خوبه. خب، باید اول یه کم همهتون رو همسطح کنم: اصلاً Google Health Connect چیه، چرا من اینقدر دوستش دارم و چرا به نظرم باید همتون ازش استفاده کنین؟
دقیقاً.
خب، ام، بر خلاف چیزی که از یه شرکت تکنولوژی غولپیکر انتظار داری، Google Health Connect در اصل یک رابط (interface) روی گوشیهای اندرویدیست که اجازه میده اپهای مختلف سلامتی و پزشکی با هم حرف بزنن. کل ماجرا خیلی ساده حل شده؛ در عمل مثل یه جور، آره، فقط یه دیتابیسه که روی هر گوشی بهصورت محلی (لوکال) وجود داره و اپها میتونن بگن تو این دیتابیس بنویس یا ازش بخون. برای این هم یه جور زیرسیستمِ سطحِ دسترسی وجود داره. یعنی، شاید اول باید بگم که تا اندروید ۱۴ این یه اپِ جداگانهست که باید نصبش کنی، و از اندروید ۱۴ به بعد جزئی از خودِ سیستمعامل اندرویده.
و تا جایی که من فهمیدم یعنی اینکه مثلاً همین تعداد قدمهایی که خودِ گوشی شمرده، میتونه مثلاً به اپهای بیمهٔ درمانی هم فرستاده بشه. اونجا هم که چند تا اپِ معروف هست که...
هوم.
اممم، همونها که، حالا مثلاً، به ازای تعداد روزهایی که ــ البته با همین گوشی ــ دههزار قدم رفتی، چند سنتی بهت میدن. این هم از طریق همین API کار میکنه؟
فکر میکنم که...
یا در واقع یه چیز کاملاً دیگهست؟
فکر میکنم که از اون طریق هم کاملاً میتونه کار کنه. من خودم شخصاً برای اون استفادهش نکردم، ولی از نظر تئوری همهاش ممکنه. چون، برام مهمه تأکید کنم که این، خب، بخشی از Google Play Services نیست و اصلاً هم با اکانت گوگلت سینک نمیشه، چون میتونم تصور کنم خیلیها اونجا یهکم نگران میشن. اصلاً نمیتونی به هیچ شکلی با حساب گوگلِت همگامش کنی. حداکثر کاری که میتونی بکنی اینه که بگی بهطور خودکار یه فایل ZIP از همهٔ دادهها توی یک اپِ ابریِ دلخواه اکسپورت کنه؛ هر اپِ کلادی که روی گوشیات نصبه رو میتونی انتخاب کنی، طبیعتاً گوگلدرایو هم یکیشونه. ولی دیگه، این صرفاً یه اکسپورت خودکاره؛ خودِ دادهها همهاش روی گوشی میمونه و...
بهجز همون اکسپورته دیگه. نمیشه اون رو هم لوکال انجام داد، طوری که مثلاً یه فایل ZIP رو مستقیم یهجایی روی خود دستگاه بریزه؟ چون وقتی میگی، خب، من حق دارم ببینم چه دادههایی ذخیره شده و غیره، اگه بعدش همهش خودکار بره توی یه سرویس ابریِ تصادفی، عملاً اون کل اکوسیستمِ قشنگِ حریمخصوصی یهکم دور زده میشه. میشه این رو کاملاً لوکال هم انجام داد یا نه؟
ببین، ام، قضیه اینه که، راستش... فکر نمیکنم. الان نمیتونم مثلاً فقط یه فایل روی خودِ گوشی بسازم، ولی خب، در عوض این امکان رو داری که، اولاً میتونی مثلاً Nextcloud رو هم انتخاب کنی بهعنوان اپی که قراره اون فایل توش اکسپورت بشه.
آها، خب، پس اینطوری دیگه کموبیش خیالم راحته. یعنی بعیده کسی فقط برای این کار بشینه Nextcloud راه بندازه.
آره.
ولی یعنی، در اصل، امکانش هست.
دقیقاً. و چیزی که، همونطور که گفتم، خیلی باحاله اینه که این فقط یه دیتابیس روی گوشیته که میتونی خیلی ساده، مثلاً، براش اپ بنویسی که باهاش کار کنه و تمام. دیگه مثل بقیهٔ چیزهای گوگل نیست که، چه میدونم، اگه بخوام یه چیزی بسازم که با YouTube کار کنه، باید توی کنسول Google Cloud یه اپ تعریف کنم و براش App Secret بگیرم، بعد یکی توی گوگل باید چک کنه که اصلاً حق دارم این کار رو بکنم یا نه و...
و بعدش هم تو بدترین حالت فقط به بیست درصدِ کل داکیومنتیشن اصلاً دسترسی داری.
اونم قسمت بعدی ماجراست.
و بعد کلی فیچرِ دیگه هم هست که...
آره.
ــ که عملاً اصلاً نمیتونی بهشون دسترسی داشته باشی، یا از نظر تئوری میتونی، ولی اصلاً خبرت ازشون نیست چون هیچجا درستوحسابی بهصورت عمومی مستند نشدهن.
آره.
دقیقاً همین مسخرهبازیها.
و ام، کلِ این سیستم فقط یه سامانهٔ دیتابیس روی گوشیته که یه اپ میتونه خیلی ساده درخواست بده که: «من میخوام این نوع دادهها رو بخونم و اون نوع دادهها رو بنویسم.»
عالیه.
و ام، اینجا یه تمایز مهم وجود داره. دو نوعِ عمده داده توش هست. فقط یکی از این دو نوع ــ حداقل در آلمان ــ همونه که عملاً میبینی، چون حدس میزنم بهخاطر قوانین اتحادیهٔ اروپا و قوانین مربوط به تجهیزات پزشکی، فعلاً یهسری محدودیت هست که باعث شده اون یکی نوع هنوز اینطوری استفاده نشه. یا شاید هم من اصلاً از هیچکدوم از اپهایی که اون نوع رو استفاده میکنن، استفاده نمیکنم. خب، اولین دستهٔ بزرگ رو ــ که اسمش هم یککم گیجکنندهست ــ بهش میگن Health Data، و منظورش واقعاً همهٔ چیزهاییست که میتونی ردیابی (ترک) کنی. و هر بار که این صفحهٔ دسترسیها (Permissions) رو نگاه میکنم، برام عجیبه که چقدر چیز مختلف رو میشه ترک کرد. ام، در مورد همون شفافیتی که گفتی، اینکه بدونی کی به چی دسترسی داره: توی، حالا یا خودِ اپ Health Connect، یا توی تنظیمات سیستم زیرِ بخش Health Connect، میتونی دقیق ببینی کدوم اپها اخیراً بهش سر زدهن و چه نوع دادههایی رو اجازه دارن بخونن یا بنویسن و غیره. ام، خلاصه این Health Data همون چیزهاییست که معمولاً با ترکِ سلامتی ربط میدیم. من هم واقعاً نشستم مفصل باهاش ور رفتم. یه اپ هم هست که توی Play Store نیست، بلکه باید از سایت دولوپرهای گوگل، بهصورت APK دانلودش کنی؛ اسمش Health Connect Toolboxـه و با اون واقعاً یه دسترسی تقریباً خام (raw) به دیتابیس داری، یعنی میتونی این درخواستها رو شبیهسازی کنی و ببینی داخلش چی ذخیره شده. بههمین خاطر هم دقیقاً میدونم چه چیزهایی رو میشه وارد کرد. از بدیهیترینها شروع میشه، مثل تعداد قدمها، بعدش مثلاً ضربان قلب، بعد میتونی وزن، جرمِ استخوانها رو وارد کنی، جرمِ عضلات رو هم ــ ام، نه، جرمِ عضلات رو دقیقاً نمیتونی؛ و این خیلی عجیبه. این تنها، تنها انتقادیه که تا حالا بهش پیدا کردم: با اینکه نسبت به کلی دادهٔ دیگهای که هست، این یه دادهٔ خیلی رایج محسوب میشه، ولی امکان ثبت مستقیمش نیست. من مجبورم دوربرو حسابش کنم، چون Health Connect میتونه جرمِ کل استخوانها و جرمِ بقیهٔ چیزهایی که نه استخواناند و نه عضله رو ذخیره کنه، و از روی اونها میتونی جرمِ عضلات رو برگردونی و حساب کنی.
اِه، این دیگه چه منطقی داره؟
میتونی البته تغذیه رو هم ترک کنی، مصرف مایعات رو هم همینطور، وزنات رو میتونی ترک کنی؛ همشون فقط دادهپوینت هستن. طبیعتاً موضوعات مربوط به سلامتِ زنان رو هم میشه اونجا ترک کرد؛ مثلاً، خونریزی قاعدگی، ام، ترشحاتِ سرویکس، همهاش قابل ثبته. و چیزى که ــ در گیومه ــ بامزهش میکنه، و میبینم الان کامنتها توی ذهنم ردیف میشن، اینه که بهصورت صریح، زیرمجموعهٔ «سلامت زنان»، یعنی چیزی که من بهعنوان مرد معمولاً ترک نمیکنم ولی یه زن شاید بخواد، یه نوع رکوردِ Health Data به اسم Sexual Activity هم هست.
آره.
که اونجا بهعنوان پارامتر ــ فقط یک پارامتر برای Sexual Activity وجود داره و اون هم اینه که ‘Protection Used’، یعنی اینکه از محافظت استفاده شده یا نه، true یا false.
ها؟ ولی این همینطوری خیلی عادی توی دیتابیس نوشته میشه. یعنی، خب، از یه طرف کاملاً منطقیه که این چیزها اونجا هستن، چون میتونی، حالا با ترکیبِ همهٔ این دادهپوینتها با مثلاً اندازهگیری دما، چرخهٔ قاعدگی رو پیشبینی کنی. ولی از طرف دیگه یهکم عجیبه که بگی خب، حالا من هر روز اینجور فعالیتها رو ترک میکنم، یا هر روز قوامِ ترشحاتم رو ثبت میکنم. یهکم ویرده، ولی میشه انجامش داد و به اون الگوریتمِ پیشبینی کمک میکنه. فقط برای این گفتم که یه کانتکست داشته باشن، برای همهٔ کسایی که شاید براشون یهخورده عجیب بهنظر میرسه.
یه اپ هم هست که بهطور خاص برای ترکِ سلامتِ زنان ساخته شده و توش میتونی همون Sexual Activity رو هم ثبت کنی. ولی نمیدونم با Google Health Connect سازگاره یا نه و آیا باهاش سینک میکنه یا نه.
ولی میتونه باشه.
میتونه؛ اونجا روزهایی که اینطور اتفاقها هست یه قلب کوچیک میاد روی اون روز. یعنی اگه سکس داشته باشی، همون روز یه قلب میخوره. بیخیال، در هر حال، ام، همهٔ این چیزها اونجا هست و بههمین خاطر هم...
«من محالِ اینها رو با گوگل سینک کنم.» نه بابا، اصلاً روی خود گوشیته. یعنی تا حدی پیش رفتن که واقعاً نمیتونی با گوگل همگامش کنی. اینکه «نه، من همچین کاری نمیکنم، خیلی ناامنه.» هیچ چیز ناامنی توش نیست، رو خودِ گوشیته.
و چیز باحالی که این دیتابیس فراهم میکنه، و منو خیلی شوکه کرده و فوقالعاده بهنظرم مفیده ــ چیزی که اصلاً از یه غول تکنولوژی انتظار ندارم ــ اینه که واقعاً اینترآپِرابیلیتی بین همهٔ جور اپ مختلف رو ممکن میکنه.
واقعاً رفتاری غیرمعمول براشونه. این رو باید واقعاً دوباره صراحتاً گفت.
آره، برام واقعاً عجیبه.
آره.
دقیقاً. جونا، من همین الان از داخل Health Connect Toolbox ــ همون که میتونه همهچیز رو بخونه ــ یه لیست سریع از همین Health Data درآوردم، ببین چیها توشه. مثلاً داریم: کالریِ سوزاندهشدهٔ فعال، ارتفاعِ طیشده، تعداد طبقات بالا رفته، دادههای شدتِ فعالیت، سرعت، مجموعِ کالریِ سوزاندهشده، توان (قدرت)، حداکثر جذبِ اکسیژن (VO₂max)، تعداد هلدادنِ ویلچر، قدمها، ورزش، برنامههای تمرینی، مسافت. بعد اینجا چیزهایی مثل ضربانِ قلب در حالت استراحت، سطح اشباعِ اکسیژنِ خون، دمای پوست، قند خون، و، ام، بله، جایی هم خواب، کلی شاخصِ بدنی و ویتالپارامترها. حتی تمرینهای مدیتیشن/ذهنآگاهی رو هم میتونی ترک کنی.
آره، واو.
این بهنظرم واقعاً خیلی خفنه. و از این جهت برام جالبه که، حالا، استدلالی که میخواستم بکنم کمکم دوباره یادم میاد؛ چون میگم، yeah, like، میدونم، خب، ترکِ سلامتِ زنان و Sexual Activity و اینها اوکیه. ولی خب، like، من بهعنوان یه مرد هم شاید بخوام این رو ترک کنم تا مثلاً بتونم یهسری همبستگیها رو برای خودم مشخص کنم.
آره.
خب، و همینطور، منظورم اینه که یه دلیلی داره که میتونی اون پارامترِ Protection Used رو مشخص کنی و ذخیرهاش کنی. من بعدش از چند تا زن دوروبرم پرسیدم که، like، این دقیقاً چه فایدهای داره؟ یکیشون گفت: «خب، وقتی پریود عقب میافته، میتونی سریع نگاه کنی ببینی آخرین بار کی سکسِ بدون محافظت داشتم؟ ممکنه باردار شده باشم؟» و...
آره، و بعد، حالا بهقولی، برای خودش تخمین بزنه...
آره.
ــ که چقدر احتمال، بهقولی، وجود داره، دقیقاً.
بعد من هم با خودم میگم: خب، شاید من هم دوست داشته باشم برای خودم یادداشت کنم و بعداً بتونم ببینم آخرین باری که سکسِ بدون محافظت داشتم کی بوده.
خب، یه سؤال: این، این بعدش فقط برای اینه که آدم جلوی خودش پُز بده و حال کنه؟ یا چرا؟ [میخندد]
یعنی، اه، نه، من فکر میکنم این در واقع – حالا، ببین، ما الان یهکم از خود موضوع اصلی دور میشیم، ولی اشکال نداره – اصولاً یعنی که میشه اونجور تحلیلهای خیلی بنیادی روی وضعیت سلامت انسان رو تقریباً، میخوام بگم، تا حد زیادی بهصورت خودکار انجام داد. این البته اصلاً به این معنی نیست که همهٔ پزشکهای عمومی یکباره بیکار میشن، اصلاً بحث این نیست، ولی باعث میشه که، بگیم، خیلی چیزها رو مستقیم و شاید هم خیلی زودتر بشه تشخیص داد. چون در حالت عادی هیچکس نمیشینه بگه «اوه، بذار اول این چهار تا دیتاست مختلف رو با هم ترکیب کنم تا تأیید کنم که اون یک بیماری عجیبغریب رو ندارم». منظورم رو میفهمی؛ بیماریای که خودش رو فقط توی یهسری پارامتر خاص نشون میده. در حالی که اینجا میشه همین رو مستقیم درآورد، تا وقتی که دادهٔ کافی توی این سیستم خوراک داده شده باشه، و تا وقتی که یه اپلیکیشن هم وجود داشته باشه که اجازه داره همهٔ اینها رو تحلیل و پردازش کنه–
آره.
– اونوقت میشه این رو واقعاً خیلی خفن پیاده کرد، طوری که کلاً سلامتِ بشریت یهجوری بهتر بشه. و این یهخورده همون چیزیه که من… و اینجا یه پل خیلی خوب میزنیم به چیزی که من – من اسمش رو گذاشتم «سیستم سلامت» خودم، عملاً.
آها، خیلی هم قشنگ.
چیزی که من با این سیستم سلامتِ خودم، که تازگیها برای خودم درستش کردم، یهکم میخوام بهش برسم همینه. و برای این کار Google Health Connect واقعاً کلیدیه، چون من هیچوقت نمیتونستم – و راستش اصلاً هم نمیخوام – همهٔ اجزای این سیستم رو از یک سازنده بگیرم؛ چون اینجوری قفل شدن توی یه اکوسیستم برام خیلی وحشتناکه. یعنی، من، مثلاً، یه ساعت فیتنسترَکر دارم، خب، اون یه اپ خودش رو داره. یه ترازوِ هوشمند هم دارم، یعنی ترازوای که فقط بهخاطر وصل بودنش «اسمارت» نیست، بلکه واقعاً یه ترازوئه که کلی شاخص بدن رو هم اندازه میگیره؛ مثل درصد چربی، درصد عضله و از این جور چیزها.
میتونه از روی همهٔ این دادهها حتی محاسبه کنه که متابولیسم پایهٔ من، یا همون مصرف کالری پایهام، چقدره. و، اه، بعدش یه دستگاه فشار خونِ هوشمند هم دارم که این دادهها رو ثبت میکنه. و همهٔ این اپها با همدیگه هیچجور سازگاری و اتصال مستقیمی ندارن.
آره.
خودِ اپها منظورمه. و من، اه، یه اپ دیگه هم دارم که باهاش تغذیهم رو ترک میکنم، که خودم هم… یعنی، جونا، فقط همین یه اپ رو در نظر بگیر؛ این یه اپ متنبازه، در واقع بر پایهٔ Open Nutri Tracker ساخته شده، ولی من خودم این اپ رو بهطرز وحشتناکی گسترش دادم. خودش بهصورت پیشفرض هیچ اتصال مستقیمی به Health Connect نداره، ولی در نهایت فقط یه دیتابیسه؛ ماژول درست رو ایمپورت میکنی و بعدش همهچیز راه میافته.
آره، خیلی خوبه.
ام، و همهٔ اینها اگر همینجوری میموندن، با هم سازگار نمیشدن و من عمراً نمیتونستم جمعشون کنم. بعدشم خودم، اه، یه اپ تمرینی نوشتم که یه برنامهٔ تمرین قدرتی مشخص رو باهاش انجام میدم و اون هم با Google Health Connect کار میکنه. همهٔ اینها میریزند توی Google Health Connect. بعد من یه اپ داشبورد هم برای خودم نوشتم که همهٔ این دادهها رو از Google Health Connect میخونه و بینشون رابطه پیدا میکنه و مثلاً چیزهایی از این جنس میگه که: «خب، همهٔ پارامترهای ممکن طوریان که من باید چربی از دست داده باشم».
آره.
«آیا واقعاً این اتفاق افتاده؟ اگر آره، عالیه. اگر نه، اینجا یه سری پارامتر هست که میشه دستکاریشون کرد.» مثلاً میگیم: «خب، پس احتمالاً اون محاسبهای که میگه من موقع دویدن چند کالری میسوزونم درست نیست؛ بیایم یهکم تنظیمش کنیم».
آره.
و همهٔ اینها فقط به لطف Google Health Connect کار میکنه.
خیلی خفنه.
و چیزی که علاوه بر اون وجود داره، بخش دومِ بزرگِ دادههای Google Health Connectه. این بخش یهکم عجیب نامگذاری شده؛ یعنی یه بخش به اسم Health Data داری و اون یکی اسمش هست Medical Resource. و اون دومی واقعاً، بگم، یهکم جدیتره، چون واقعاً میره سراغ چیزهای پزشکی. توی ترجمهٔ آلمانی، اون اولی میشه چیزی مثل فیتنس و وِلنِس – همون بخشی که ما الان راجع بهش با ترکِرها و اینها حرف زدیم – و اون یکی واقعاً مربوط به چیزهای کاملاً پزشکی و دکتریه.
یعنی در اصل گزارشهای آزمایشگاه و چیزهای مربوط به دکتر و اینها، دقیقاً.
اونجا مثلاً داریم: آلرژیها، ویزیتهای دکتر، اطلاعات مربوط به پزشکها، بیماریها، واکسیناسیونها، نتایج آزمایشگاهی، داروها، پروسیجرهای پزشکی، دادههای شخصی، بارداری، علائم حیاتی، و بعد یه دسته دیگه هم هست به اسم «شرح حال اجتماعی». من هم، خب، با Health Connect Toolbox رفتم نگاه کردم ببینم، اوکی، چه چیزهایی میتونه توی «شرح حال اجتماعی» باشه؛ یه سری نمونهٔ JSON بهعنوان مثال داشت. توی انگلیسی بهش میگن Social History، که ما تو آلمانی بهش میگیم Sozialanamnese. بعد همهٔ دوستهام که این رو دیدن گفتن: [میخندد] «چه واژهٔ احمقانهای، Sozialanamnese!» [میخندد] مثلاً یه نمونه برای شرح حال اجتماعی این بود که نوشته بود: «در کودکی در معرض دود سیگارِ دیگران بوده است».
خب، صبر کن یه لحظه.
آره.
این... این جمله برای من دوباره خیلی، خیلی حالوهوای «واچداگز» داشت، همونجوری که تو الان تعریفش کردی. یعنی کاملاً همون فاز بود... [میخندد]
این از همون جملههای خفنیه که دقیقاً تو بازی Watch Dogs میبینی.
آره، دقیقاً. بعد مثلاً: «اوه بله، اینجا برادرتون...
الان داره با فلان چیز معامله میکنه» یا یه چیز تو این مایهها. آره.
ولی همونطور که گفتم، این دیگه یه مقولهٔ جداست و من تا حالا هیچ اپی ندیدم که ازش استفاده کنه، بهجز اپهایی که خودم نوشتم، چون در اصل فقط یه دیتابیسه. ولی واقعاً یهکم معادل اون پروندهٔ الکترونیک بیمار محسوب میشه؛ همون چیزی که تو آمریکا بهطور معمول دارن و اینجا هم الان به اسم پروندهٔ الکترونیک بیمار داریم. ام، و من در عمل یکی از این بخشها رو توی سیستم خودم برای خودم استفاده میکنم، و اون هم بحث مصرف داروست. اونجا یهکم پیچیده میشه، چون همونطور که گفتم در اصل برای استفادهٔ پزشکها طراحی شده، نه برای اینکه خودت رو پایش کنی. برای همین اصلاً یه نوع رکوردی که بگه «من این دارو رو الان مصرف کردم» وجود نداره.
یه نوع رکورد داری که میگه «این دارو نسخه شده و باید به این شکل مصرف بشه»، و یه تایپ دیگه داده که عملاً میگه «پرستار الان این دارو رو به من تحویل داده که بخورمش». و توی داکیومِنتیشن خیلی تأکید میکنن که از دید، خب، یهجور فلسفهٔ پزشکی، فرق هست بین اینکه «به من دارو داده شده که الان مصرفش کنم» و اینکه «من واقعاً الان مصرفش کردهام».
آره.
ولی من برام مهم نیست. [میخندد]
آره.
من همون، اه، همون رکوردِ Medication Administration رو مینویسم و خودم میدونم که تو اپ من معنیاش اینه که «من دارو رو خوردهام»، نه اینکه «به من داده شده که یکی دیگه...»
یکی اومده خونهات و بهت داده.
آره، دقیقاً همین. و این واقعاً خیلی خیلی باحاله. و با همهٔ این چیزها من اونجا… ببین، فقط میخوام یه نگاه خیلی کوچیک بدم. قبلاً گفتم که با این سیستم میفهمم واقعاً وقتی باید وزن کم کنم، کم میکنم یا نه. ولی یهسری چیزهای صرفاً راحتی هم هست. مثلاً وقتی اپ من ازم میپرسه: «هی، داروهات رو خوردی؟» من معمولاً، اه، بعد از بیدار شدن از خواب میخورمشون، هرچند از لحاظ تئوری مجبور نیستم، ولی اغلب بعد از بیدار شدن میخورم. و وقتی اپ رو یه وقتی وسط روز باز میکنم، ازم میپرسه: «هی، امروز داروهات رو خوردی؟»
آره.
و وقتی بزنم «بله»، بهم دو تا گزینه میده: «میخوای یه ساعت دقیق وارد کنی یا اینکه بعد از بیدار شدن بود؟»
آره.
اگه گزینهٔ «بعد از بیدار شدن» رو بزنم، از روی دادههای Google Health Connect میخونه که ترکِر من خوابم رو چطور ثبت کرده، یعنی کی خواب بودم و کی بیدار شدم. و از این طریق میشه حساب کرد که تقریباً چه ساعتی دارو رو خوردهام، حتی اگه خودم یادم نباشه دقیقاً کی بوده، چون بالاخره یه موقعی بیدار شدهام. و من میدونم که–
این خیلی، خیلی خفنه. بهعنوان یه حاشیهٔ کوچیک: من خودم هم در واقع از همون «احتمالِ خواب بودن» که تقریباً هر گوشی بهعنوان یه پیشبینی میده، استفاده میکنم، و توی Home Assistant ازش بهعنوان تریگر استفاده میکنم که آخر شب یهبار همهچیز جمعوجور بشه. یعنی مثلاً چک کنه همهٔ چراغها خاموش باشن و الی آخر؛ و همینطور بقیهٔ کارهای نگهداری سیستم رو هم اجرا کنه، اینکه یهسری هلسپر بولیَن رو فعال یا غیرفعال کنه و از این جور چیزها.
همونطور که گفتم، این...
این، این واقعاً خیلی، خیلی کاربردیه.
این فوقالعاده کاربردیه و برای همین توی اپ داشبورد من هم اینطوری پیاده شده که بهمحض اینکه اپ داشبورد رو باز میکنم – چون راه سادهای وجود نداره که بگی «خب حالا همهچیز رو تو یه فایل اکسپورت کن» – همین که بازش میکنم و روی شبکهٔ محلی خودم هستم، اپ داشبورد هرچی داده داره رو برای یه سرور تو خونهم میفرسته. و اون سروره با این دادهها یهسری کارهای باحال میکنه که من هنوز دارم روشون کار میکنم. میتونم یهکم اسپویل کنم: ام، در آینده قرار نیست فقط کمک کنه غذام رو ترک کنم، بلکه قراره برام برنامههای غذایی پیشنهادی هم بچینه.
واو.
بر اساس همین دادهها، که بهصورت داینامیک عوض میشن؛ بسته به اینکه امروز چی کار کردهام، چقدر کالری سوزوندهام، چقدر آب مصرف کردهام و از این دست چیزها.
دقیقاً. و بهنظرم این دیگه واقعاً دیوونهکنندهست، چون میتونی خیلی جلوتر از این هم فکر کنی. مثلاً میتونی بگی: اوه، اوکی، چه چیزهایی خریدی که بشه وارد سیستم کرد؟ یا اینکه تقویم فعلیات چطوریه، برنامهات امروز چیه؟ و تو میتونی از قبل پیشبینی کنی که مثلاً چقدر احتمال داره وقتی میرسی خونه دیگه حال و حوصلهٔ این رو نداشته باشی که یه چیز مفصل بپزی–
آره.
–بعد از اینکه رسیدی خونه؟ این دیگه…
دقیقاً.
–کاملاً انسانی و، اه، طبیعیه که آدم بگه «خب، اوکی، پس بهتره برای همچین حالتی از قبل یه چیزی آماده داشته باشم». یا اینکه، بگم، خود این هم توی محاسبهها در نظر گرفته بشه؛ مثلاً اینطور نشه که ساعت هشت شب شده و اپ بیاد برات مفصلترین مهمونی ممکن رو پیشنهاد بده، در حالی که تو احتمالاً دیگه اعصاب و وقتش رو نداری. کلی ویژگی از این جنس هست که میشه توی این نوع پیشبینیها هم دخالتشون داد.
دقیقاً.
این واقعاً وحشیانهست. فقط یه یخچال هوشمندِ گرونقیمت کم داریم که محتویاتش رو هم ترک کنه.
من... من اصلاً حوصلهٔ اون رو ندارم. یعنی بهش فکر کردهام، سالهای سال هر چند وقت یهبار نشستم با خودم حساب کردم که «چطوری میتونم بدون اینکه از شدت کارهای سازماندهی بمیرم، یه یخچال هوشمند بسازم که بدونه توش چی داره؟» و هیچوقت به جایی نرسیدم، ولش کردم. من این کار رو با «چی تو یخچال دارم» نمیکنم، بلکه ترجیح میدم بگم مثلاً من الان یه دفعهای این لیموناد رو خریدم، بعدش – خیلی ساده – ترک میکنم که «این رو الان خوردم» و بر اساس همون، برنامهم بهصورت داینامیک تنظیم میشه که امروز دیگه چی باید یا نباید بخورم.
آره، دقیقاً. و تو حداقل میتونی همهٔ رسیدهات رو ترک کنی و اونها رو هم وارد سیستم بکنی. آره.
همونطور که گفتم، اونجا هم Open Food Facts هست؛ اپهای من خیلی باهاش کار میکنن. خود Open Nutri Tracker رو هم با یهسری قابلیت تجهیز کردم که مستقیماً از توش بتونم به Open Food Facts و همینطور به Open Prices داده اضافه کنم. ام، چون وگرنه اصلاً این کار رو نمیکردم؛ من دو تا اپ جدا باز نمیکنم که توی دوتا رابط کاربری مختلف ور برم. من فقط بارکد رو اسکن میکنم و اپ بهم میگه: «صبر کن ویلاند، اینجا هنوز یهسری داده کمه. میخوای قبل از اینکه بفرستیمش، سریع اینها رو پر کنی؟» من هم میگم آره، بعد ارسال میکنم و تیک میزنم که «این رو نوشیدهام».
آره، خیلی خوبه.
و با این کار همهچیز جلو میره. بعد یه چیز سومِ کوچیک هم هست که توی Health Connect ذخیره میشه. اینها در واقع اون سه تا نقطهٔ ریز دادهان که برای خوندنشون واقعاً یه نوع مجوزِ اضافهٔ جداگانه هم لازم داری. و این از نظر نحوهٔ دسترسی خیلی جالبه: یعنی اگر یه اپ اجازه داشته باشه، میتونه از همهٔ اپهای دیگه هم داده بخونه. همیشه هم ثبت میشه که چه کسی – یعنی کدوم اپ – اون رکورد رو نوشته؛ این عملاً یه متاتگ استاندارده. میتونه اسم دستگاه هم ثبت بشه و اینکه نوع ثبت چی بوده؛ مثلاً manually recorded، یا automatically recorded، یا inferred. و من فقط این ایده برام خیلی بامزه بود که از نظر تئوری ممکنه یه رکوردی داشته باشی که – برمیگردیم به حالوهوای Watch Dogs – مثلاً میگه: Device Type: Amazon Echo، Recording Type: manually recorded، Activity Type: sexual activity. [میخندد]
ما قبلاً هم یه قسمتِ چرت با یه عنوان مشابه این داشتیم، یادته.
از نظر مدل داده، کاملاً امکانش هست که همچین ورودیای ظاهر بشه.
یس.
ام، و یعنی هر اپی که اجازهٔ خوندن داره، میتونه از همهٔ اپهای دیگه هم بخونه. هر اپ فقط میتونه برای خودش داده بنویسه و پاک کنه، اون هم فقط روی دادههای خودش؛ یعنی هیچ اپی اجازه نداره – و اصلاً نمیتونی همچین مجوزی بدی – که رکوردهای اپهای دیگه رو پاک کنه. چیز باحالِ دیگهٔ دادههای Health Connect اینه که میتونی دادهٔ تجمیعی درخواست کنی و اون موقع، ام، خودش هوشمندانه از چند اپ مختلف قاطی میکنه و حساب میکنه. هرچند باید بگم – چون خودت هم قبلاً یهکم اشاره کردی – که این خیلی هم خوب کار نمیکنه، مخصوصاً سر قدمها. من مدتها داشتم با داشبوردم زندگی میکردم که مدام به من میگفت: «ویلاند، تو خیلی خفنی. هر روز اینقدر قدم میزنی، عالیه، این خودش یه جلسه تمرین حساب میشه، لازم نیست امروز تمرین عضله انجام بدی.» من هم با خودم میگفتم: «من واقعاً اینقدر خفنم؟» [میخندد] ام، و بعد معلوم شد که هم به گوشیم اجازه دادهام قدمها رو بنویسه و هم اپِ ترکِرِ فیتنسم داره قدمها رو مینویسه. و در اصل این سیستم باید خیلی خفن باشه و بتونه این رو دربیاره و بفهمه که اگر دو تا اپ میگن توی یه بازهٔ زمانی من قدم زدهام، اینها رو نباید با هم جمع بزنه.
آره، آره.
بلکه باید اینطوری حساب کنه؛ ولی درست کار نمیکرد و برای همین من کلاً به گوشیم ممنوعیت دادم که اصلاً تو بخش قدمها چیزی ننویسه و الان فقط اپِ فیتنسترَکره که قدمها رو ثبت میکنه.
آره، چون در غیر این صورت اصلاً کل ایده این بود که دقیقاً بتونی این دادهها رو با هم ادغام کنی؛ چون یهسری آدمها واقعاً برای اهداف فیتنس، ترکِر رو مثلاً به پا میبندن یا جاهای دیگه. یعنی عملاً، واقعاً، نقطهدادههای خیلی خفنتر و مطمئنتری داری؛ وقتی میگی خب، هم گوشیت هست، هم ساعت هوشمندت هست، و بعضیها هم که همونطور که گفتم مثل یه پابند تقریباً میبندن به پا. پس در تئوری سیستم باید از پسش بر بیاد، ولی خب…
برای همین… ولی بهجز اون، بقیهاش واقعاً خیلی خفنه. توی API یه تابع خیلی ساده هم هست که میتونی بگی: «لطفاً قدمهای تجمیعی رو از فلان زمان تا فلان زمان برام بخون، با همهٔ حذفِ مواردِ تکراری و اینها.» واقعاً خفنه. و، و نکتهٔ بعدی اینه که اپها بهصورت پیشفرض فقط میتونن حداکثر سی روز به عقب نگاه کنن؛ ولی میتونی یه مجوز اضافه بدی که برای همیشه به گذشته دسترسی داشته باشن. و چیزی که توی همین دستهٔ سومِ خاص قرار میگیره، GPX-Trackهاست، که من رو خیلی ذوقزده کرد، چون همیشه برام خیلی اعصابخوردکن بود که برای یه پروژهٔ دیگه دوست داشتم همهٔ مسیرهای پیادهرویهام – یعنی خود روتها – رو ضبط کنم و بعد با دادههایی مثل ضربان قلب و غیره ترکیب و تجمیعشون کنم.
آره.
و توی اپ خودِ فیتنسترَکر من این اصلاً درست جواب نمیداد؛ اگر خیلی خوششانس بودم میتونستم یه GPX-Track مزخرف بگیرم، اون هم فقط وقتی که مسیرم رو با کلادش همگام میکردم. که بهنظرم واقعاً افتضاح بود. ولی خود Trackهای تمرینت توی Health Connect یه نوع دیتاتایپ مستقل هستن که میتونی با همون مجوز جداگانه از دستهٔ سوم روشون بنویسی، و بعد هر اپی که اجازهٔ خوندن داره میتونه بخونتشون. برای همین خودم یه اکسپورتر کوچیک نوشتم.
خیلی خفنه.
و با این دیگه کلی کار باحال در سر دارم. خلاصه، آره، یعنی، اوه بچهها، Google Health Connect واقعاً بهشدت خفنه.
ویلاند، نمیتونی تصور کنی واقعاً چقدر هایپ شده بودم وقتی همین چند وقت پیش، ام، یادداشتهای انتشار، همون چِینجلاگ رو میخوندم. شاید یهکم کار عجیبی باشه که آدم این کارو بکنه و همزمان اینقدر ذوقزده بشه.
من هم همین کارو میکنم.
اوکی.
ولی سؤال اینه، حالا دقیقاً دربارهٔ کدوم نرمافزار؟
اونجا منظورم واقعاً خود ESPHome بود.
اوکی.
چون اونجا، ام، تو نسخه، حالا بذار دروغ نگم، 2026.5.0b1، یعنی یه نسخهٔ بتا–
اوکی
مستقیم خوندم که: «اوه، آره، یه بندهخدایی که من فقط از روی مخفف گیتهابش میشناسم…»
هوم
بهقولمعروف، بالاخره تونسته بود کدش رو مِرج کنه؛ واقعاً تو نسخهٔ فعلی، یعنی پشتیبانی Zigbee.
اوکی.
الان توی ESPHome هم هست؛ خیلی راحت کار میکنه.
اوکی.
قبلاً واقعاً فقط شدیداً محدود بود به یه چیپ واحد که خیلیها اصلاً ازش استفاده نمیکنن، همون چیپ NRF. ولی الان برای چیزهایی که خیلی رایجترن هم جواب میده، یعنی طبیعتاً ESP32‑C6 و همینطور H2. اینها بهصورت پیشفرض خودشون پشتیبانی Zigbee دارن.
هوم.
یعنی الان میتونی عملاً همهٔ پروژههات رو مستقیم با همین چیپها تجهیز کنی. این خودش خیلی باحاله، چون میتونی سنسورها و ورودیهای باینری و بقیهٔ ورودیها رو خیلی راحت روی Zigbee مَپ کنی. در عین حال، هنوز هم تمام قابلیتهای اون کتابخونههای خارجی رو داری و میتونی مثل همیشه کل ماژولهای سنسورت رو هم اضافه و ادغام کنی. من الان واقعاً نشستم دارم نرمافزارم رو یهکم بازنویسی میکنم و باهاش ور میرم، ببینم چی میشه. چون اولین تلاش با اون کامپوننت خارجی، که میشد باهاش فورکهای دیگه رو هم مستقیم بهعنوان کامپوننت اضافه کرد، چندان موفق نبود. از نظر فنی، در اصل تا حالا هم این کار شدنی بود، ولی فقط با یه کامپوننت خارجی، و برای من عملاً هیچوقت درست کار نکرد. هیچوقت دقیق نفهمیدم دقیقاً کجا میلنگید. ولی الان، بهقولمعروف، دیگه فایناله؛ توی مینبرانچ مِرج شده، فقط توی برنچ بتا نیست. و من سرِ این موضوع حسابی هایپم، چون تا حالا عملاً فقط میشد از وایفای استفاده کنی؛ خیلی ساده بگم، فقط وایفای داشتی. و کلِ دو تا دستگاه بیشتر نیستن که با ESPHome سازگار باشن و در عین حال بتونن اترنت داشته باشن؛ فکر کنم فقط از WaveShare و یه سازندهٔ دیگه، که واقعاً ماژولهای ESP32 دارن که میتونی با اترنت وصلشون کنی. تئوریکاً اون هم جواب میده، ولی بقیهٔ وقتها عملاً همیشه اینطوری بود که خب، همهچیز رو با وایفای وصل میکردی. من هم الان یه حسگر حضور برای خودم سرِهم و برنامهریزی کردم؛ عالی کار میکنه.
اوه، چه باحال.
بذار اینطوری بگم، واقعاً یه چیز حسابی پلاگاَندپلیه. لازم نیست دیگه Arduino IDE رو باز کنی و بگی که مثلاً توی loop این دستورها رو بنویسم و فلان دستورها رو حتماً صدا بزنم تا راه بیفته؛ نه، اصلاً. قضیه خیلی سادهتره؛ فقط یه فایل YAML مینویسی، میریزی روی ESP32 و تمام. خودش همینجوری کار میکنه. حتی برای آدمهای کاملاً خنگ هم عالیه، اگر بخوام خیلی ساده بگم.
خیلی هم خوب. [میخندد] همهٔ بینندههامون الان میرن نصبش میکنن.
همین الان دانلودش میکنن. [میخندد]
باحاله. آره، یعنی اول کار یهکم توهینآمیز بود.
نه، نه، نه.
باحاله.
یعنی برای تازهکارها فوقالعاده مناسبه. واقعاً فقط چند خط توی ادیتور متنت مینویسی، آپلودش میکنی و دیگه لازم نیست هیچچیز رو به C یا چیزی شبیه اون بنویسی؛ فقط از یه زبان تعریفمحور، همون دکلراتیو، استفاده میکنی و تمام، و بهاصطلاح چیز زیادی نیست که خراب بشه.
هوم.
و این واقعاً خیلی خفنه.
این خیلی باحاله.
و با این کار میشه واقعاً کلی پول هم صرفهجویی کرد، چون میتونی مثلاً حسگر حضور یا سنسورهای دیگهٔ خودت رو سرِهم کنی، مخصوصاً الان که اگر بخوای مثلاً سنسورهای خاصتری بسازی…
…پارامترهای خاصی رو ترک کنی. مثلاً، ام، غلظت CO₂ هوا خودش یه موضوع سختیه، چون بین قیمت سنسور و اینکه خروجیات چقدر خوب و دقیق باشه، یه همبستگی مستقیم وجود داره. این واقعاً اعصابخوره، چون هیچ ترفند خاصی هم براش وجود نداره.
آره.
هیچ ترفندی نیست؛ یعنی اینجوری نیست که بگی مثلاً یه سنسور دو یورویی یا سه یورویی هست که خیلی هم خفنه. همچین چیزی وجود نداره؛ قیمت تقریباً خطی بالا میره. اون سنسورهای دو یورویی، در بدترین حالت، عملاً دارن عددها رو اختراع میکنن، چون یه چیز دیگه رو اندازه میگیرن و از روی اون فقط مقدار CO₂ رو استنتاج میکنن و یه جور تخمین سرانگشتی میزنن. در عوض، دور و بر سی یورو میتونی یه سنسور نسبتاً معقول بگیری؛ مثلاً همون SCD40 که خیلی هم توصیه میشه. و از اونطرف، هرچقدر دلت بخواد، تا دهها هزار یورو هم میتونی برای اندازهگیری CO₂ خرج کنی و طبیعتاً نتیجههاشون فوقالعادهست؛ ولی عملاً هیچ شورتکاتی برای رسیدن به نتایج خیلی خفن وجود نداره.
اوکی.
و با همین میتونی سنسورهای واقعاً خفنی رو خیلی راحت به Home Assistant یا هر سیستم دیگهای وصل کنی، و این خودش خیلی حال میده، چون من مثلاً برای خودم یه سنسور نشتی آبِ سیمدار هم واقعاً درست کردم.
اوکی.
میتونی از Shelly، یعنی از خودِ سنسور نشتی آبشون، یه جور کابل که در اصل شبیه کابل صداست بخری که روکش بیرونیش تا حدی هادیه و برق رو رد میکنه. این خودش یه محصول خیلی خیلی جالبه؛ در اصل یه جور کابل افزایشی برای اندازهگیری مقاومته. یعنی اون، اون… [گلو صاف میکند]
خودِ اون حسگر آب اینطوری کار میکنه که تو فقط مقاومت بین دو تا تماس فلزی رو اندازه میگیری.
آره.
و اگر هم دقت خیلی بالا نخوای، که اینجا همینطوره چون فقط میخوای بدونی آب هست یا نه، این سطح دقت کاملاً کفایت میکنه. میتونی این رو با یه مقاومت ساده پیادهسازی کنی؛ یعنی بین این کابل و منبع تغذیهٔ ESP32ت یه تقسیمکنندهٔ ولتاژ بسازی و اون نقطهٔ تقسیم ولتاژ رو برداری و با ADC خودت ولتاژی رو که اونجا میافته اندازه بگیری. بعد هم با همون فرمول تقسیم ولتاژ، قضیه رو برعکس میکنی و میفهمی که…
آها.
…در واقع داری مقاومت رو اندازه میگیری.
اوکی، آره.
خب.
آره، من بودم، من…
میتونی خیلی راحت کارهای سادهٔ الکترونیک انجام بدی و سرانگشتی بفهمی که تقریباً چه مقاومتی اونجا داری. توی این کابل حسگر هم نکتهٔ جالبش اینه که من فهمیدم حدود یک مگااهم یه مرز خیلی خوبه؛ یعنی بهقولمعروف، اگر بالاتر از اون باشه یعنی آبی در کار نیست و اگر پایینتر باشه یعنی رو کابل آب هست. و این در اصل یه کابل صوتیه، که شاید باید همون اول میگفتم، چون واقعاً از جک ۳٫۵ میلیمتری استفاده میکنه.
اوکی.
و فقط از Tip و Sleeve اون استفاده میکنه، همین. و تو میتونی دقیقاً هرطور دلت خواست ازش استفاده کنی. خودم دقیق نمیدونم با Ring چی کار کردن؛ نمیدونم اصلاً وصل نیست یا به یکی از اون دوتای دیگه وصل شده، واقعاً مطمئن نیستم اونجا چه خبره. [گلو صاف میکند] ولی میتونی خیلی راحت ازش استفادهٔ ثانویه بکنی و خودت اندازهگیری رو انجام بدی. مزیت این کابل اینه که فقط یه نقطهٔ کوچیک رو اندازه نمیگیره، بلکه روی کل دو متر یا یک و نیم متر طول کابل میتونی وجود آب رو حس کنی. و حتی میتونی مثلاً کانتکتهای در رو هم بهش وصل کنی، که دیگه هیچکدومشون هم باتری جداگانه لازم ندارن؛ چون تو دنیای اسمارتهوم همیشه این مشکل هست که: خب، این هفته باید باتری کدوم سنسور رو عوض کنم؟ اگر یه کم اغراق کرده باشم.
آره، آره.
یعنی دیگه لازم نیست اینجا برای هر چیزی یه قطعهٔ خیلی خاص داشته باشی، اگر بدترین حالت رو در نظر بگیریم. با این روش میتونی تا حدی از این موضوع فرار کنی؛ کافیه یه ESP32 رو یه جای مرکزی گذاشته باشی و همهٔ سنسورهایی رو که تو اون فضا لازم داری، بیاری و به همونجا وصل کنی. اینطوری همهچیز خیلی سرراست و راحت میشه.
آره یونا، ما فقط 'we have been cooking' نبودیم. فقط اینطور نبود که همش مثل جوونها بگیم داریم لاگاین میکنیم و داریم 'میپزیم'، بلکه همین چند وقت پیش کنفرانس Google I/O بود، همون کنفرانس گوگل که میآیند تعریف میکنند چقدر خفناند و قراره چه چیزهایی رو همینزودها معرفی کنن و کردهان. و صادقانه بگم: holy moly، امسال واقعاً باید بهش میگفتی Google AI/O. یعنی-
[میخندد] آره.
فقط در مورد هوش مصنوعی بود.
یعنی...
فقط همین.
آره.
یعنی، خب، یـ... یعنی-
یعنی اون چیزی که من مثلاً شنیده بودم این بود که میخوان خود نوار جستوجوی گوگل رو کمکم تبدیل کنن به یه جور ابزار همهکاره، یه یونیورسالتول بهقول خودمون. و اینکه خیلی هم عجیب بود که مثلاً اون، اون چیزاشون رو – فکر کنم اسمش 'Google Books' یا یه همچین چیزی بود – رو جداگانه توی یه ایونت دیگه از نظر فنی لانچ کرده بودن؛ که اون رو هم یه خورده قبلش گذاشته بودن. انگار توی این ریلیز سایکل یه چیز عجیب غریبی شده بود که درست قبل از این یکی، یه چیز دیگه رو هم
توضیح داده بودن.
دقیقاً، آره، این هم یکی از اون چیزهای اصلی بود که میخواستیم دربارهش حرف بزنیم. کلی چیز معرفی شد، همهاش هم خفن و دیوونهکننده، ولی راستش دیگه کمکم خستهکننده هم میشه، چون در نهایت میتونی خلاصهاش کنی به اینکه تقریباً هر چیزی که یک محصول گوگله، یا برای اون سابسکرایبرهای اولترای گوگل یه جور قابلیت 'بش همهچیز زندگیت رو بگو، خودش برات ردیف میکنه' میگیره، یا اینکه هر باکس جستوجویی تبدیل میشه به یه نوار ایجنتی. همونطور که درست گفتی، خیلی هم به خودشون افتخار میکردن که بعد از بیش از بیست سال، حالا کارکرد نوار سرچ گوگل عوض میشه. و اینجوری، بهنظرم، گوگل میخواد یهکم بازار رو برای خودش قبضه کنه، چون فکر کنم شروع کرده بودن میترسیدن که مردم بهجای اینکه چیزها رو 'گوگل' کنن، همون چیزی رو که میخواستن گوگل کنن، مستقیم تو ChatGPT بنویسن.
آره.
و خب، گوگل هم حالا میخواد سهم خودش رو از این داستان بگیره، با اینکه میگه: 'نوار جستوجوی ما هم همونه در عمل.' یعنی فراتر از این مود AI جداست؛ خودت میتونی هرچی رو تو همون سرچبار بنویسی و اون میشه شروع یه گفتوگو با Gemini. طبیعتاً خیلی هم چشمگیر بود، Gemini Omni، مدلی که ادعا میکنن از همهچیز به همهچیز میتونه نگاشت کنه؛ همون چیزی که یه زمانی با GPT‑4.0 به ما قولش رو داده بودن، یادته، اون O تو اسمش قرار بود مخفف Omni باشه.
آره.
یعنی از هر ورودی به هر خروجی میتونه بره. حتی میتونه ویدیوهایی بسازه که میگن از نظر فیزیکی هم خیلی درست و grounded هستن. این واقعاً دیوونهکنندهست، ولی در کنار اون، همهچی یهجوری داره ایجنتمحور میشه. تو یوتوب هم قراره این قابلیت باشه که توی نوار سرچ، دیگه صرفاً دنبال ویدیو نگردی، بلکه مثلاً بنویسی: 'برام توضیح بده چطور دوچرخهسواری کنم.' بعد خود سرچ از یوتوب استفاده میکنه که برات یه مونتاژ از ویدیوهای مرتبط بسازه یا مثلاً بگه: 'بیا اینجا کلیک کن' و خودش ویدیو رو دقیقاً از اون ثانیهای باز کنه که اون بخش رو میبینی و بعد بگه 'حالا اینجا رو کلیک کن که این یکی رو ببینی.' یعنی، آره.
اوه واو،
و دومین نکته اینه که عملاً همهچی قراره ایجنتمحور بشه. گوگل میخواد یه چیزی هم لانچ کنه که در پسزمینه برایت کار انجام بده. خیلی، خیلی عجیب و خیلی ایجنتی فکر شده؛ تمرکزش اینه که: 'هرچی دلت میخواد برای گوگل تعریف کن، خودش یهجوری برات انجامش میده.'
آه، آره.
ولی در کنارش، اون عینکهای هوشمند رو هم دوباره معرفی کردن، و من راستش خود اسمگذاری و مارکتینگش رو خیلی عجیب دیدم. سال پیش توی Google I/O همین عینکهای هوشمند رو معرفی کرده بودن، یادته؟ دربارشون صحبت کرده بودیم.
آره.
آره، اینکه Google Glasses برگشته. و امسال تو همین Google I/O گفتن: 'راستی، اون Smart Glasses اصلی هنوز بعداً قراره بیان، ولی ما فعلاً یه مشتق ازش رو امسال پاییز میدیم بیرون، به اسم Audio‑only Glasses.' یعنی عینکهایی که فقط صوتیان. دقیقاً مثل همون عینکهای نمایشیاند، میکروفن دارن، دوربین هم دارن – اینکه دوربین دارن توی پریزنتیشن چند بار اصلاً واضح گفته نشد – ولی در اصل همون قابلیتهای بقیهٔ Smart Glasses رو دارن، فقط روی شیشهٔ عینک دیسپلی ندارن.
آره، آره.
و بعد یه دمو نشون دادن که توش یه خانومی روی استیج ایستاده بود و گفت: 'هی Gemini، من میخوام برم همونجایی که دفعهٔ قبل رفته بودم کوهنوردی، یعنی…' در واقع فقط گفت: 'میخوام برم همونجا که دفعهٔ پیش با دوستم رفته بودم کوهنوردی.' و بعد Gemini جواب داد… ببخشید یونا، همه تو سالن کیف کرده بودن، ولی من اون قسمت رو شدیداً دیستوپیایی دیدم. لطفاً اصلاً نریم سمت همچین چیزهایی.
آره.
بعد عینک خودش از طرف خودش شروع میکنه گفتن که–
آره.
که گوگل باهاش میخواست نشون بده چقدر این چیز خفن و واجبه برای زندگیات. عینک میگه: 'البته، من تو رو به قلهٔ فلانفلان میبرم، همونجایی که دفعهٔ قبل با سارا رفتی کوهنوردی. معمولاً تو این ساعت همیشه از کافهٔ مورد علاقهات یه قهوه میخوری. برات همون قهوه رو همین الآن سفارش بدم و طوری مسیربابیکنم که تو راه از اونجا رد بشی؟'
نه!
و اون خانوم هم میگه: 'آره.' بعد عینک میگه: 'خیلی خب، من یک سفارش DoorDash برای پیکاپ برات ثبت کردم و حالا طوری هدایتت میکنم که وقتی میرسی، قهوهات آماده باشه.'
داداش.
من اصلاً دوست ندارم عینکم یههو بگه: 'راستی، تو معمولاً این موقع روز میری مکدونالد یه چیزی میخوری. برات همون همیشگیات رو همین الآن سفارش بدم؟'
[میخندد]
بعدش هم کلاً، نمیدونم، این کل قضیهٔ سرویسهای سفارش غذا منو خیلی ترگر میکنه، چون همیشه با خودم میگم: 'هیچکی واقعاً از پس این هزینهها برنمیآد.' [میخندد] یعنی من تو زندگیم حاضر نیستم، مثلاً اینجا معادلش میشه یه سفارش Lieferando ثبت کنم,
آخه این، چون، چون واقعاً گرون درمیآد—
یعنی همینجوری راحت و روتین.
آره دیگه، هزینهاش وحشتناک ــ یعنی خیلی خیلی بیشتر از اینه که همونو تو خود مغازه بخری. هی کارمزد این، کارمزد اون، فی روی فی، سرویس فی، سرویس چارج و از این چیزها.
بعد عینک هم خیلی راحت ازم میپرسه: 'اوه، قهوه میخوای؟ خب، من یه قهوه برات دوازده یورو سفارش دادم، برو فقط بردار.'
آره.
حالا نمیگم فاجعهاست، مثل این نیست که یههو برام یه دست کتوشلوار سیوپنجصد دلاری بخره، ولی واقعاً هیچ حوصلهاش رو ندارم.
آره، ولی خب این عملاً میشه جایگزین همون دستیار شخصی. از یه نظر همینطوره. ولی لازم هم نیست حتماً تا اون حد بری جلو که هی چیزهای پولی برات بخره؛ مثلاً اگه بگی 'باشه، این دیگه تو رنج قیمت من نیست' که همینطوری خیلی کژوال برات یه دست کتوشلوار سفارش بده و مستقیم از API دادههای بدنیات سایزت رو بکشه بیرون و بگه: 'خب، حالا میدونم دقیقاً با چه اندازههایی باید برات سفارش بدم.' بعد تو هم کتوشلوارت رو تحویل میگیری و خب، باحاله. معلومه یه سطح دیگهس؛ ولی حتی در سطح پایه اینکه بتونی بگی: 'بیا برام پیدا کن چه اقامتگاههایی به سبک جاهایی که معمولاً میمونم میخوره' و اون هم بگه: 'باشه، اینجا سه چهار تا گزینهست' و تو بگی: 'آره، از نظر ظاهر و قیمت باحال بهنظر میرسه.' بعد سیستم از همین بازخورد یاد بگیره، اونوقت دیگه اون فاز 'اوه، الان باید بشینم کلی وقت بذارم تو اینترنت دنبالش بگردم' رو نداری؛ میذاری خودش برات انجام بده.
آره.
و اینطوری در طول روز دوباره کلی وقت پس میگیری.
قطعاً، قطعاً. فقط همون، یعنی فقط همین بخشِ این مصرفگرایی افسارگسیخته… میدونم، تو خودم هم تناقضه که از همهٔ چیزهای هوش مصنوعی خیلی خوشم میآد، ولی همین مصرفگرایی وحشی رو اینقدر مسخره و اعصابخُردکن میدونم. یعنی-
آره، من هم همینطور، ولی لازم نیست اصلاً تا اون حد بری. مجبور نیستی تو اون ابعاد ازش استفاده کنی.
آره.
ولی مشکل اینه که با این کار دوباره یه جور بردار حمله برای خودت باز میکنی؛ نهفقط چون داری کلی دادهٔ بیشتر به اشتراک میذاری، بلکه چون خیلی آسیبپذیرتر نسبت به تبلیغات میشی.
آره.
چون در بدترین حالت، بین یهسری شرکتها و همون شرکتی که عینک یا هوش مصنوعیاش رو ساخته، یه همکاری مستقیم شکل میگیره.
آره.
و دیگه همونجا ریپ شدیم.
دقیقاً همینه که میگم. مخصوصاً اون جایی که نشون دادن: 'اوه، میتونی خرید کردن رو جذابتر کنی بدون اینکه خودت لازم باشه چیزی رو سرچ کنی.' وقتی اون دمو رو دیدم، با خودم گفتم: 'خدایا، حالا من یه کلاه حصیری میخوام که دقیقاً اینجور و اونجور باشه و ایجنت آنقدر باهوشه که بفهمه این محصول همهٔ خواستههای من رو برآورده میکنه.' و من میگم: 'خب، از کجا بدونم یه محصول ارزونتر نیست که همون نیازها رو هم جواب میده؟' و بعد… [ناله میکند]
بههرحال. این قسمت واقعاً یهکم رو مخ بود، ولی خب معلومه، انتظارش رو باید داشت؛ چون در نهایت گوگل یه شرکته که اساساً روی تبلیغات بنا شده. این روشنه.
آره.
یه اعلام دیگه هم بود که من برام جالب بود و فکر میکنم یهکم نشون میده جهت حرکت کجاست؛ اینجا دیگه خیلی فانتزی و آیندهنگر میشه. توی جستوجوی گوگل قرارِ بهزودی این امکان باشه که وقتی یه چیزی میپرسی، خود گوگل زندهزنده برایت یه جور رابط توضیحدهنده یا شبیهسازی رو برنامهنویسی و اجرا کنه. این باحاله و برام جالبه ببینم به کجا میرسه. چون من تازه یه چیزی کشف کردم به اسم OpenUI.com، و اگه در موردش فکر کنی واقعاً عجیبه. ایدهش اینه – و الان براش یه نتورک هم ساختن – میدونی، الان که اینهمه هایپ دور و بر OpenClaw و اینه و همه میخوان یه Claw Agent داشته باشن.
آره، و گوگل هم داره سعی میکنه یه نسخهٔ مخصوص خودش از این قضیه دربیاره.
آره، ولی ایده اینه که یک سیستمعامل OpenClaw‑OS با همین OpenUI.com ممکن میشه. قضیه اینه ــ گوش کن یونا، این واقعاً دیوونهکنندهست. نمیدونم تکنولوژی واقعاً تو این جهت میره یا نه؛ از یه طرف منطقیه، از یه طرف برای منِ برنامهنویس پیر خیلی ولخرجانه و عجیب میاد. فرض کن OpenUI فقط یه استاندارده که میتونی با هر LLMای ازش استفاده کنی؛ در اصل یه زبان توصیفیه که مثل زبان برنامهنویسی بهنظر میرسه و رابط کاربری رو توصیف میکنه. و تو با محدود کردن نحویِ پیشبینی توکن بعدی، مجبورش میکنی فقط یهسری ساختار مجاز رو بهعنوان خروجی چاپ کنه. مدل زبانی تو باید این زبان توصیف UI رو تولید کنه و بعد یه رندرر مخصوص اون رو به رابط واقعی تبدیل کنه. حالا ایده اینه که یه سیستمعامل مبتنی بر OpenClaw، بهجای اینکه خروجیاش متن باشه و فقط ابزار صدا بزنه، همیشه تو هر لحظه توصیف رابط فعلی رو بهعنوان خروجی میده. این یعنی-
اوه، این عملاً مثل یه اتومات بزرگ میشه، از یه نظر.
دقیقاً. بهش میگن کاربر الآن روی این دکمه کلیک کرده، و بعد مدل باید بهعنوان پاسخ بعدی توصیف کنه که حالا رابط کاربری چه شکلی شده.
آره آره، و این در واقع یه ماشین حالت غولپیکره، بهنوعی. و بعدش، میشه گفت، گام بعدی میاد.
آره.
و تا اون لحظه هم یادش مونده که چی شده. ولی فکر میکنم این تا حالا افراطیترین نمونهٔ 'با توپ به گنجشک شلیک کردن' تو کل تاریخ فناوریه.
آره.
من حداقل اینجوری ادعا میکنم، یعنی...
و تازه نه فقط بهعنوان یه اپلیکیشن، بلکه بهعنوان سیستمعامل.
آره آره، این دیگه واقعاً یه، یه همچین… لول.
بهعنوان سیستمعامل. یعنی دیگه اینطوری نیست که مثلاً روی منو کلیک کنی و بعد روی 'باز کردن ماشینحساب' و یه برنامهٔ جداگانه تو پسزمینه اجرا بشه؛ بلکه فقط به LLM گفته میشه: 'خب، کاربر الان روی باز کردن ماشینحساب کلیک کرده؛ حالا رابط کاربری باید چه شکلی باشه؟'
آره.
بعدش هم مدل همینجا زندهزنده اون رابط رو میسازه. نکتهٔ خفن اینه که میتونی برای هر نوع نمایش داده، یه UI مناسب همزمان بسازی. برای همین مثلاً اگه یه ایجنت دیتا ساینس داشته باشی، منطقیه که بگی: 'بیا همهٔ دادههای کلیکهایی که روی فلان چیز گرفتهام رو تحلیل کن.' بعد مدل دادهها رو میبینه و با خودش میگه: 'آها، دادهها اینشکلیان، پس من باید اینطوری نشونشون بدم' و یه رابط کاربری میسازه که برای همین دادهها تقریباً ایدهآله.
اوکی، اوکی.
ولی اینکه کل یه سیستمعامل روی اون ایده ساخته بشه، نمیدونم. یه چیزی که من خیلی برام جذاب بود – که البته فقط حاشیهای تو Google I/O مطرح شد، یعنی تو نسخهٔ مخصوص دولوپرها – همین Audio‑only Glasses بود. اونجا نشون دادن که چقدر راحت میشه این عینکها رو حتی تو اپهای موجود هم اینتگریت کرد. و من واقعاً انگیزه گرفتم؛ دوست دارم خودم براشون اپ بنویسم. برای همین احتمالاً وقتی بیان، یکیشون رو میخرم که براش اپ بسازم. مثلاً دلم میخواد یه اپ بنویسم که باهاش راحتتر بتونم تو OpenStreetMap چیزها رو ثبت کنم. تصورم اینه که فقط به یه چیز نگاه کنم، گوشیم بفهمه تو OpenStreetMap این همون نیمکته و فلان اطلاعاتش هنوز خالیه. بعد عینک ازم بپرسه: 'این نیمکت تکیهگاه داره؟' من بگم: 'آره.' و اون اطلاعات ثبت بشه. بعد به یه خونه نگاه کنم و بگه: 'این خونه چند طبقهست؟' من بگم: 'چهار.' و همونجا تو نقشه وارد بشه. این بهنظرم خیلی باحاله.
دقیقاً، من هم خیلی حال میکنم باهاش. ولی در اینباره دو تا نگرانی دارم.
اوکی.
یکی اینکه احتمالاً واقعاً به اون مدلِ با صفحهنمایش داخل شیشه احتیاج داری؛ نه اینکه بدونش نشه، ولی با اون صد برابر خفنتر میشه.
آره.
شکّی توش نیست.
که اصلاً معلوم نیست کی قراره بیان.
ولی ــ آره، کی میدونه کی واقعاً عرضه میشن. و دوم اینکه، نه، شاید فقط باید یه قدم جلوتر فکر کنیم.
حالا،
تو یک دوربین داری.
آره، منـ...
نکته دقیقاً همینه. تو یه دوربین داری. سیستم ایجنتمحور میتونه خودش بفهمه: 'خب، ما الآن میدونیم یهسری دادهها تو OpenStreetMap هنوز تگ نشدهان.'
میدونه.
و بعد میتونه بگه: 'اوه، خب، تو الان معلومه تو همین نزدیکی هستی.' و از نظر جغرافیایی هم میشه اینها رو خیلی خوب کراول کرد,
آره.
که بفهمه چه چیزهایی دور و برت هست. و وقتی از کنارشون رد میشی، میتونه خودش بهصورت خودکار با اکانت کاربری خودت اون تغییراتی رو که از روی تصویر دوربین تشخیص داده، مستقیم کامیت کنه. یعنی میتونه تصویر دوربین رو بگیره و بگه: 'خب، ویلند اتفاقی از کنار یه نیمکت رد شد؛ طبق دیتابیس هنوز یهسری اطلاعاتش تگ نشده.' بعد خودش فقط از روی تصویر اینها رو دربیاره، و فقط برای چیزهایی که از طریق عینک نمیتونه مستقیم بفهمه – چون سختتره، مثلاً اندازههایی که دوربین دقیق نمیتونه تخمین بزنه – اونجا بگه: 'ببین، اینجا هنوز یهچیزهایی کمه، ویلند. اگه حال داشتی، خودت میتونی الان دستی اضافهاش کنی.'
دقیقاً. یعنی بگم، این طبیعتاً اولین ایدهای بود که خود من هم داشتم، ولی بعد سعی کردم یهکم واقعبینانهترش کنم.
آره، این دیگه کاملاً همون فازِ واقعبینانهست,
چون باید بگم تشخیص چنین چیزهایی، حداقل تو آزمایشهایی که من تا حالا کردم، از نظر تاریخی واقعاً شِت بوده.
موجهه.
ولی همین ما رو خیلی خوب میرسونه به اون موضوع دیگهای که تو Google I/O خیلی برام جالب بود و تو نسخهٔ دولوپرها هم معرفیاش کردن؛ یعنی Gemma 4، مدلهای متنباز گوگل. یه سری واریانت ازش هست که آنقدر کوچیکن که روی خود گوشی موبایل میتونن اجرا بشن.
هوم.
Gemma، مثلاً 4 E دو B I T و E چهار B I T. و حتی ــ اگه بخواید امتحانش کنید ــ یه اپ خود گوگل تو Play Store هست به اسم AI Edge Gallery که میتونی فقط بگی 'اوکی، شروع کن' و… این مدلها واقعاً برای رفتار ایجنتی، برای Function Calling و Tool Calling هم آموزش دیدن. مولتیمودالن، تصویر رو هم میفهمن. یعنی ریلکس، این یه مدله که روی خود گوشیات میدوه و فقط حدود چهار گیگابایت حجمه؛ آنقدرها هم سنگین نیست. ولی میتونی برای سناریوهای خاص فاینتیونش کنی، اون هم نسبتاً راحت؛ یه مدت کوتاه یه GPU اجاره میکنی، فاینتیون رو انجام میدی و بعد میتونی مدل رو اکسپورت کنی. و من اینجا کلی پتانسیل میبینم، چون اونوقت واقعاً میتونی بگی روی گوشی من یه مدل داره میچرخـه که اختصاصاً آموزش دادهام بفهمه آیا یه نیمکت تکیهگاه داره یا نه، و هر سؤال تصویری دیگهای که تو اپ میخوام ازش بپرسم.
آره.
بعدش فقط یه قدم کوچیک دیگه میمونه ــ البته هنوز طبق قوانین OpenStreetMap باید همیشه یه مرحلهٔ تأیید انسانی وجود داشته باشه. ولی اگه بخوای واقعاً این رو تا ته توی فلو جا بدی، میتونی بگی من فقط به اشیا نگاه میکنم و فقط یه فیدبک میگیرم مثل اینکه: 'تشخیص داده شد این نیمکت تکیهگاه دارد.'
آره.
و اگه من اون لحظه دخالتی نکنم یا قطعش نکنم، یعنی اوکیه؛ یعنی تشخیصش درسته.
آره.
آره، خب، میشه همچین کاری کرد. بله.
این هم خودش خیلی خفن میشه اگه بشه بهصورت زنده این اطلاعات رو به خود مکانهای فیزیکی هم الحاق کرد. اگه این عینکها اجازه بدن که تو این اطلاعات رو واقعاً به خود شیء بچسبونی؛ طوری که مثلاً اون پاپآپی که میگه 'اوکی، من اینجا یه چیزی رو حاشیهنویسی/annotate کردم' عملاً همراه حرکت سرت با همون شیء جابهجا بشه.
هوم.
و تو میتونی بگی: 'اوه، من الان دیگه دخالتی نمیکنم، همین اوکیه.' راستش من حتی نمیدونم این عینکها حتماً حسگر اینرسی دارن یا نه. باید داشته باشن؟ احتمالاً آره، یا حداقل منطقیه که داشته باشن؛ یه قطبنما، یه سنسور جهتیابی که عینک بفهمه دقیقاً تو کدوم محور داری نگاه میکنی. من واقعاً نمیدونم دارن یا نه. ولی خب، خیلی ساده بخوایم بگیم، این جنس سنسورها بهخاطر گوشیهای هوشمند و فیتنسترکرها الان فوقالعاده کوچیک شدن؛ در حد چند میلیمتر. خیلی ضایع میشه اگه تو خود عینک نباشن. البته میتونم تصور کنم که نگذاشته باشنشون چون با خودشون گفتن: 'برای کیساستفادهای که ما مدنظر داریم، به چه دردی میخوره؟' و خب احتمالاً فقط خود ما نیستیم که ایدهٔ توسعه براش داریم، ولی میتونم خیلی راحت تصور کنم گوگل بگه: 'چیزی به ذهنمون نمیرسه که نشه فقط با تصویر دوربین، لوکیشن و ورودی صوتی کاربر پیادهاش کرد، پس ولش کن، نمیذاریم.' مخصوصاً وقتی دیسپلی هم نداره؛ وگرنه اگه AR باشه و قرار باشه چیزها تو فضا شناور بشن، اونوقت به سنسور اینرسی نیاز داری. چون تو میخوای واقعاً بهصورت AR annotate کنی، نه اینکه فقط یه نمایش دوبعدی ساده مثل یه لیست جلوت ظاهر بشه. ایدهاش اینه که با AR ترکیب بشه، که اتفاقاً همون قدم مهم و باحاله. ولی یونا ــ فقط کافیه برای اتحادیهٔ اروپا یه دیتابیس واحد از دادههای شخصی همهٔ آدمها داشته باشیم. و بعد چی؟ آها، بعدش! اونجاست که میترکه. بوم. [میخندد] خب، ولی یونا، جدی بخوام بگم، با همهٔ اینکه همه دارن روی این مدلهای خیلی بزرگ شیرجه میزنن، روی این فاز که 'اوه، گوگل حالا این رو داره' و اون دمو که واقعاً هم خیلی ایمپرسیو بود، اینکه مثلا Google Keep رو باز میکنه و شروع میکنه ورّاجی کردن: 'آه نه صبر کن، نه، این نه، اون یکی' و همهاش رو هم قشنگ میفهمه… من خودم واقعاً بیشتر حال میکنم با مدلهای لوکال؛ یا حداقل مدلی که روی خود گوشیام اجرا بشه. چون برای من بهعنوان یه توسعهدهندهٔ اپ – الان دارم یه اپ مینویسم که هنوز از سرویسهای OpenAI استفاده میکنه – مشکل اصلیام فقط پرایوسی نیست؛ اینه که هر درخواستش برام پول درمیآد. درسته. و میدونی، دقیقاً به همون سمتی هم حتماً حرکت میکنیم، چون کافیه یه نگاه به تاریخ بندازیم و همون الگوها رو دوباره اعمال کنیم. آخرش سرِ اون ابرکامپیوترهای قدیمی چی اومد؟ چهطور دگرگون شدن؟ چهجور ورکلودهایی اون موقع فقط روی اونها میشد اجرا کرد که الان بهراحتی روی دیوایسهای نهایی میچرخن. اینجا هم همین میشه: یه حرکت شدید بهسمت توزیعشده و غیرمتمرکز. این اصلاً معنیاش این نیست که سرورها و مینفریمها از بین میرن؛ نه، فقط تکامل پیدا میکنن، مثل همین الان که کلی EPU و کارتهای شتابدهندهٔ مخصوص AI داریم. کارهایی که قبلاً فقط روی سرور انجام میشد، الان میتونه واقعاً روی خود دستگاهها هم مدیریت بشه؛ مثلاً در سادهترین حالت یه دیتابیس و یه الگوریتم ساده روش. این چیزها الان روی هر گوشی، هر ساعت هوشمند، و حتی روی بیشتر توسترها هم قابلاجراست، واقعاً. برای همین من ــ و بهنظرم مسیر هم دقیقاً به این سمت میره که این Edge‑AI، بهاصطلاح،
کاربردها خیلی شدید رشد کنن؛ طوری که خیلی چیزهایی که قبلاً ــ یا حتی الان ــ روی سرور اجرا میشن، برن روی مدلهای لوکال که فقط، امم، چند تا [میخندد] میلیارد تا پارامتر دارن…
طبیعتاً، آره، دقیقاً. یعنی همونطور که گفتی، این مدلها مثلاً فقط چهار گیگابایت حجم دارن و چند میلیارد پارامتر، و میتونن روی خود دیوایس اجرا بشن و با یهکم بهینهسازی مدل همین کافیه. لازم نیست خود دستگاهها ده برابر قویتر بشن؛ فقط باید خود مدلهای هوش مصنوعی رو هدفمندتر فاینتیون کنیم و کاری کنیم تو انجام وظایفشون کارآمدتر بشن. سرورها هم سر جاشون میمونن، فقط میرن سراغ کارهای خیلی سنگینتر از چیزی که الان انجام میدن. و باید بگم من
خودم هر روز بیشتر حس میکنم اون پیشبینیای که داشتم کمکم داره عملی میشه. من همیشه یهکم رویاپردازی میکردم که 'همونطور که الان همه مودم/روتر تو خونه دارن، در آینده هرکسی یه جعبهٔ هوش مصنوعی خواهد داشت.' و واقعاً دارم میبینم که داریم به این نقطه نزدیک میشیم که بگیم: هرکی یه KI‑Box داره و، نمیدونم، مثلاً ۴۵ درصد مردم از باکس گوگل استفاده میکنن، ۴۵ درصد از باکس اپل، و ده درصد هم از یه چیزی که خودشون ساختن یا روی لینوکسه. و اشکالی هم نداره؛ تا وقتی که این انتخاب واقعاً وجود داشته باشه، اوکیه. ولی چنین سیستمی هم لزوماً برای همیشه پایدار نمیمونه. بهترین مثالش همین تاریخ شکلگیری PCهاست؛ اولش اصلاً غیرقابل تصور بود که تو هر خونهای کامپیوتر شخصی باشه. بعد تو دههٔ نود و اینها بهجایی رسیدیم که عملاً هر خانواده یه کامپیوتر خونگی داشت که میشد باهاش نشست پای اینترنت، سند نوشت و غیره. و حالا رسیدیم به وضعیت فعلی که، خب، هرکسی بهصورت غیرمتمرکز یه دیوایس تو جیبش داره ــ یا روی مچ دستش ــ که همون کارها رو براش انجام میده.
آره.
دقیقاً، و برای همینه که حدس میزنم اینجا هم مسیر همون باشه؛ همونطور که تو دنیای گیم هم عملاً به اون سناریویی که یه PC مرکزی خیلی قوی داشته باشی که برای چند تا دیوایس مختلف تو خونه بازی رندر کنه و بعد تو شبکهٔ داخلی استریم بشه نرسیدیم. این تصویر که یه کامپیوتر هیولا داشته باشی که همزمان هشت تا بازی رو رندر کنه و هر نفر تو خونه یه کار متفاوت روش بکنه، بیشتر یه 'رویای تبدارِ' یه غیرمتخصصه تا واقعیت. در عمل آخرش این شد که هرکس دیوایس خودش رو داره که بازی روش اجرا میشه، یا نهایتاً برای هر دستگاه یه API مشترک تعریف میکنی.
آره.
یعنی جایی که سیستم شاید به همون اندازه باز باشه که مثلاً Google Health Connect هست، که قبلاً راجعبهش حرف زدیم؛ بیشتر به اون سمت میره تا اینکه بگیم 'هرکسی یه سرور KI تو زیرزمین خونهاش داره که مثلاً فقط ۵۰۰ یورو قیمتشه.'
آره.
آره، معلومه. از نظر من هم اصلاً لازم نیست حتماً به سناریوی 'سرور KI تو زیرزمین' ختم بشه؛ خیلی هم خوبه اگه بره سمتِ هوش مصنوعی خصوصی روی خود دیوایس. حرفم بیشتر اینه که… قبلاً فقط چتبات داشتیم، بعد رسیدیم به ایجنتها و الان ایجنتها دارن میشن جریان اصلی؛ چیزی که گوگل مستقیماً به همهٔ مصرفکنندهها عرضه میکنه. اگه یه کم جلوتر رو تصور کنیم، یاد حرف سم آلتمن میافتم که میگفت ویژناش اینه که حتی از این فراتر بریم که 'من یه کار به ایجنتم میسپرم و میره انجامش میده'؛ اون همیشه میگه رویای من اینه که یه ایجنت داشته باشم که بهش بگم: 'اینجا دسترسی کامل به کل زندگی منه.'
'کارهایی انجام بده که کیفیت زندگی من رو بهتر کنه. من نخوام مدام بهت دستور بدم؛ تو خودت تو پسزمینه این کارها رو بکن.'
آره.
من هم همچین چیزی رو فوقالعاده میدونم، ولی اون موقع حتماً باید این سیستم لوکال باشه و متعلق به یه شرکتی نباشه که اولین فکرش اینه: 'چطور میتونیم بهتر شدن زندگی ویلند رو تبدیل کنیم به پول برای خودمون؟' و اگه یه بهبود تو زندگی من برای اونا پول نسازه، انجامش نمیدن؛ فقط وقتی انجام میدن که براشون سود داشته باشه. و نـ ــ نه، یونا، نه، اینو نمیخوام.
آره.
لطفاً نذاریم همچین چیزی اتفاق بیفته.
اوف.
این باید یه مدل لوکال باشه که یهجایی پیش خودم اجرا میشه و تنها انگیزهاش کمککردن به منه، نه چیز دیگه.
آره.
همین. [میخندد] ولی خب، ببینیم آخرش به کجا میرسه. این خودش یه مثال خیلی خوبه؛ من الان داشتم از منافع تجاری حرف میزدم، ولی بحث حریم خصوصی هم هست. اینکه مثلاً همهٔ دادههای Health Connect من، شامل بخش Sexual Activity، رو بدم دست همهٔ این ایجنتها و بگم: 'هرچی میتونی در مورد من و زندگیام اندازه بگیر رو نگاه کن و بگو چی کار کنم که زندگیم بهتر بشه.' من اصلاً دوست ندارم اینها رو به Google Cloud یا OpenAI Cloud بگم؛ میخوام این رو به یه دستگاهی بگم که توی کمد خونهام روشنه و در بدترین حالت میتونم با یه چوب بیسبال
آره.
عملاً با خرد کردنش مطمئن بشم محرمانه موندن دادهها حفظ شده، اگه همهچیز خراب شد.
دقیقاً، آره.
آره، خلاصه، بهخاطر همینه.
و ویلند، تصور کن خیلی راحت و کژوال داری بیرون راه میری، زندگیت رو با این Google Glasses میچرخونی و عینک، با همین ورکفلوِ ایجنتی که خودش همهچیز رو اتوماتیک چک میکنه، یههو بهت بگه: 'اوه، من از روی تاریخچهٔ چتهات و سابقهٔ خریدت فهمیدم که دو روز دیگه قراره بری دیت، و همینطور دقیقاً میدونم که ذخیرهٔ کاندومت الان خیلی پایینه. برای همین من از قبل یه سفارش Amazon برات گذاشتم که کامل تجهیز باشی.'
و من هم طبیعتاًـ
ویلند میگه: 'عالی، چه باحال.'
و من هم طبیعتاً تو Google Health Connect از قبل بخش Sexual Activity رو با گزینهٔ Protection Use روی True برنامهریزی کردهام. اگه تحویل Amazon عقب بیفته، خودش بهطور خودکار میره روی False.
خفن. [میخندد]
[میخندد]
عالی. من هیچ نظری دیگهای ندارم.
آه بله.
باشه. [آهِ کوتاه] بله.
خب، آره.
باشه.
راستش، من در واقع یک نکتهٔ دوم هم دارم—
باشه، لطفاً، لطفاً.
در این موضوع... خب، قبلاً هم صحبت کرده بودیم که در آمریکا قرار است دادههای سلامت هم وارد مجموعهٔ دادههای OpenAI شوند. فکر میکنم در آخرین یا یکی از اپیزودهای قبل از آن Crunch‑Time هم این را بررسی کرده بودیم. حالا قدم بعدی مطرح شده: آنها با نرمافزاری به اسم «Plant» برنامهریزی میکنند تا تمام دادههای مالی را هم بشود به ChatGPT وارد کرد، طوری که عملاً بنویسد: «باشه، بیایید یک تفکیک بودجه انجام دهیم. برای هر مورد چقدر پول خرج میکنی؟»
هوم.
و حالا چه چیزهایی را میتوانم در امور مالی شخصیام بهبود دهم؟ ایدهٔ پشت ماجرا این است که الان حداقل دویستهزار کاربر ChatGPT مرتباً سوالات امور مالی شخصی میپرسند و این واقعاً جذابه. اما نکته این است که سامانه چه پیشبینیها و توصیههایی میتواند بدهد؛ مثلاً ممکن است بگوید: «آه، اگر یک بار کمتر قهوهٔ استارباکس میخریدی، حالا میتوانستی آن چیز دیگر را بخری. حیف شد!» یا: «دیدم ماه گذشته صد و پنجاه یورو برای سفرهای اسکوتر برقی خرج کردهای. بیایید یه گزینهٔ دیگر امتحان کنیم.»
میفهمی چی میگم؟ لول.
آره.
این واقعاً تا حدی ترسناکِ که اینها رو هم وارد کنند، چون در آمریکا میتواند به حسابهای Schwab یا Fidelity و انواع اطلاعات مرتبط با آنها دسترسی پیدا کند؛ عملاً شبیه یک API بانکی مرکزی است.
آره.
برای من هم خیلی عجیب است که تا حالا این موضوع در این مقیاس اصلاً وجود نداشته.
جونا.
تا جایی که من میدانم. الآن میخوای منو اصلاح کنی؟
اوه، جونا، یه چیز داشتم که باید میگفتم. راستش نمیخواستم واردش بشم، اما دربارهٔ ابزارهای مالی و APIهای بانکی—
آره.
میتونم برات تعریف کنم که چطور دارم نگاه میکنم و پیگیرم. باید کمی مواظب باشم که به کسی لطمه نزنم یا بدنامش نکنم، اما یه بانک سعی کرد منو برای خودش جذب کنه.
آره.
خیلی طولانی باهام حرف زدند و پیگیریام کردند و با چیزی تبلیغ میکردند که من خوشم اومد: سیستمی که برام اتوماسیون انجام میداد. تقریباً گفتند: «ببین، بسته به میزانی که خرج میکنی، یه مبلغی خودکار پسانداز میشه و وقتی این پسانداز در حساب روزشمار به عدد مشخصی رسید، همهٔ مازاد بهطور خودکار به پرتفوی منتقل میشه و بخشی هم به حساب بازنشستگی و امثال آن اختصاص پیدا میکنه.» اینها همه خیلی باحالن و من از چنین چیزی استقبال میکنم.
بله، و بهعنوان کسی که طبیعتاً به اینگونه اتوماسیونها علاقهمنده، واقعاً عالیه که بتونی همچین چیزی رو برنامهریزی کنی.
آره.
اما
فقط برای زمینهسازی: من به وایلند هم یه توصیهٔ مالی دادم و گفتم که این بانک تا حدودی یک اسکم هست. تعریف دقیقِ اسکم همیشه سخته، اما من اینطور شخصاً بهش گفتم.
چون اغلب اوقات قضیه اینطوریه، مخصوصاً وقتی که خودِ آدم دیگر حسابهایش را مستقیم کنترل نمیکند — چون بحث سر یک مدل حسابی بود — و همهچیز فقط چند عدد روی صفحه میشود که نشان میدهد چه مقدار کجا رفته. در بدترین حالت آنها میخواهند از همین سیستم حساب هر ماه از تو درآمد کسب کنند؛ این هم منطقی است. برداشت من این بود که احتمالاً این میتواند یک تلهٔ مالی بزرگ باشد، چون بعداً خواهند گفت: «نگاه کن صفحهٔ ۱۲۳ از چیزی که امضا کردی؛ اگر بخواهی این را فسخ کنی، اینجا بیست شرط وجود دارد که اول باید رعایت کنی» و امثال اینها. این همیشه پیچیده است، بنابراین من بهش توصیه کردم که کار را لازم نیست پیچیدهتر از آنچه هست بکند و اجازه ندهد که با این ترفندها سَرِش کلاه برود.
دقیقاً. چیزی که منو متعجب کرد این بود که دائم تأکید میکردند این بانک این سیستم را پتنت کرده است؛ انگار که چنین چیزی هیچجا دیگر وجود ندارد.
آره، این ادعاها خیلی کلیه. تقریباً هر بانکی سعی میکنه خودش رو متفاوت وانمود کنه، ولی خب این موضوع زیاد غیرمعمول نیست.
آره جونا، و بعدش روشن شد: من رفتم بانک خودم و الان هم همین قابلیتها رو دارم. نه کاملاً با ابزارهای پیشفرض بانک، بعضی جاها کارهایی میشه کرد، ولی چیزی که بیشتر متوجه شدم این بود که یک API بانکی جهانی وجود داره، جونا.
چی؟
اما حالا بخش باحالِ ماجرا میآد؛ پیچشِ جذابش اینه.
آره.
کتابخانههایی وجود داره، حتی کتابخانههای پایتون، که باهاش میتونی این کارها رو بکنی.
لول.
اما برای این کار باید یک محصول را در انجمن اعتباری آلمان ثبت کنی.
آره.
الان یه نمونهٔ فهرست از محصولات مالی که در انجمن اعتباری آلمان ثبت شدهاند رو میگم (خروجی).
آره.
Trade Republic.
آره.
Finanzguru.
Wielands Autofinanz.
[میخندد]
هوم، عالی.
[میخندد]
آره.
نه، نه، اما خب، واقعاً باحاله.
میتونی بگی اسم این API چیه؟ آیا اسم مشخصی داره؟
خب، اسمش FinTS هست.
آها، خوب.
و اگر آدم بخواهد—
این موضوع واقعاً فوقالعادهست که بتونی بگی: «اوکی، میشه مستقیم خودت هم یه فرآیند اضافی اتوماتیک کنی.» تو هم در ادامه در این باره صحبت میکنی.
دقیقاً؛ این همون ایدهست و من الان دارم روش کار میکنم. برای من مهمه که از طریق API بتونم به حسابم دسترسی داشته باشم، مثلاً ببینم چقدر پول باقی مونده و بعد بگم: «باشه، بیست درصدش رو بفرست به پرتفوی، مقداری رو اینجا بذار، بقیه رو اونجا منتقل کن.» با این API میشه این کارها رو انجام داد. همچنین شاید بخوام یه لایهٔ پاداشی هم اضافه کنم؛ یعنی اگر پول کافی روی حساب برای پاداش وجود داشته باشه، سیستم سلامتیم ممکنه بپرسه: «آیا وایلند امروز همهٔ اهدافش رو انجام داده؟»
آیا وایلند پسر خوبی بود؟ آره.
وایلند امروز ورزش کرد؟
آی، آی،
وایلند Big Mac نخورد؟ خب، اگه اینطوره، در پایان روز من میتونم یه انتقال پنج یورویی از حساب روزشمارم به کارت اعتباری مصرفیام مجاز کنم.
باحال.
خب، امم، تنها ایرادش همینه. من میفهمم چرا این کار رو میکنند، چون «حساباتو اتوماتیک کن» یهجورایی شدیدِ. یعنی من نمیتونم صرفاً با روش App‑TAN همهچی رو انجام بدم.
آره.
یعنی نمیتونی فقط کار رو راه بندازی و یه پیام روی گوشیت بیاد که «اوکی؟ بله/نه»؛ در واقع باید فرایند TAN انجام بشه. این کمی ناراحتکنندهست؛ یعنی فقط کفایت نمیکنه که روی گوشیات بگی «بله/نه»، بلکه گوشیات یک TAN نمایش میده که من باید اون رو بهصورت امن — مثلاً نه از طریق تلگرام — به اسکریپت برگردونم تا اسکریپت بتونه ازش استفاده کنه.
آره.
تا اسکریپت بتونه اون TAN رو برای مجوز استفاده کنه. این هنوز کمی سخته و باید روش کار کنم، اما بله، جونا، این امکان وجود داره. میشه این کار رو خودکار کرد؛ فقط لازمه روش کمی بیشتر کار بشه.
باید یهجورایی دور زد و کمی برنامهنویسی خلاقانه انجام داد—
باید—
که بخشها رو هم، بهقول خودم، به هم کانکت کنی. و آره، نه، واقعاً بد میشه اگر در مسیر یه اکسپلویت باشه یا اینکه سرویس پیامرسانیای که ازش استفاده میکنی، همهچیز رو شنود کنه و...
آره.
که در صورت شک باید این را فرض کرد.
آره. یعنی واقعاً باید مواظب بود، اما جونا، انجامپذیره. اگر کسی بخواد همچین چیزهایی رو اجرا کنه، در اکثر بانکها میتونه. من نمیگم بانک من خیلی مدرنِ، ولی فکر میکنم این امکان وجود داره.
باشه.
من وقتی به بانک خودم فکر میکنم، فکر نمیکنم که یک نئوبروکر باشه، مثل بانکی که میگه شعبه نداریم و همهچیز اپه و همهچی دیجیتاله و مبتنی بر هوش مصنوعیه. بانک من خیلی سنتیه.
آره.
خب، حتی اونها هم در این سیستم مالی FinTS شرکت دارند. پس قطعا بانک شما هم این قابلیت رو داره.
درسته، خوب.
پس این فقط یک انحراف کوچک بود. اگر کسی بخواد چنین چیزی رو خودکار کنه، میشه انجام داد.
از اوایل ماه مه چند باگ بزرگ و جدی در کرنل لینوکس کشف شدهاند. این موضوع در خبرها خیلی پررنگ شد، چون عملاً تقریباً همهٔ سیستمهایی که از لینوکس استفاده میکنند بهنوعی تحت تأثیر قرار گرفتهاند؛ علت هم این است که مشکل پایهای و مربوط به خود کرنل است و بنابراین تأثیر آن گسترده است.
اوهوم
و چند نوع مختلف دارند، مثلاً «Dirty Pipe»، «Dirty Cow»، «Dirty Frag» و «Copy Fail». در واقع تعداد زیادی از این ضعفها وجود دارد که از نظر مکانیزم تا حدودی شبیه یکدیگرند، میشود گفت—
آره
که به این اسمها نامگذاری شدهاند و هرکدام کمی با دیگری تفاوت دارند. من الآن وارد جزئیات فنی عمیق نمیشوم چون واقعاً پیچیده و سنگین میشود. ولی بهطور کلی اکسپلویتها اینطور کار میکنند که یک رابط مشخص در کرنل وجود دارد که اجازه میدهد چهار بایت در Page Cache نوشته شود. بسته به نوع اکسپلویت، این رابط ممکن است فرق کند. و حالا ممکن است کسی بپرسد: «خُب، چهار بایت که خیلی چیز زیادی نیست، پس چه فایدهای دارد؟»
بله، ممکن است کم بهنظر برسد، اما این چهار بایت را میتوان در هر جای دلخواه نوشت. این یعنی که در بهترین حالت میشود فایلهای حساس مثل /etc/passwd یا فایلهای مربوط به دسترسی سوپر یوزر را بهسادگی بازنویسی کرد.
آره
بهطوری که یک کاربر عادی بلافاصله بعد از اجرای چنین اسکریپتی میتواند دسترسی روت روی سیستم بهدست بیاورد. و بله، این بسیار خطرناک است چون با همین روش میشود از داخل کانتینرها بیرون زد. چون اگر کانتینرهای داکر داشته باشید، Page Cache معمولاً بهطور منطقی بین فرآیندهای میزبان و کانتینرها به اشتراک گذاشته میشود.
آره
خب، دقیقاً همینطور است. قضیه این است که همهٔ سیستمها الزاماً یک مشکل کاملاً متفاوت ندارند؛ بهعبارت دیگر با این ضعفها میتوان روی سرورهای میزبانیشده هم فرار از محیط ایزوله انجام داد و به میزبان دسترسی پیدا کرد. در آن حالت واقعاً کار تمام است. Page Cache اساساً به این دلیل وجود دارد که نوشتن و خواندن مستقیم از دیسک دائم و هر بار بسیار کند است: هد دیسک باید جابهجا شود تا به موقعیت درست برسد و دادهها خوانده یا نوشته شوند، و اگر همیشه این کار را انجام میدادیم، سرعت سیستم بسیار پایین میآمد. بنابراین کرنل از یک حافظهٔ میانی به نام Page Cache استفاده میکند که دادهها را صفحهبهصفحه نگه میدارد و بعداً آنها را در فواصل زمانی مشخص دوباره روی دیسک مینویسد. این موضوع را هم در دانشگاه یاد میگیرند: اطلاعات معمولاً صفحهبهصفه بازنویسی میشوند و سپس بهصورت منظم flush میگردند.
اما نکتهٔ مهم این است که در مورد این اکسپلویتها سیستم اغلب متوجه نمیشود که این صفحات تغییر کردهاند. زیرا بسیاری از چکها آنچه را که روی دیسک است بررسی میکنند — یعنی وقتی هشِ بخشی از داده تولید میشود، آن را با محتوای روی دیسک تطبیق میدهند — و چون در این حمله فقط Page Cache دستکاری شده و محتوای پایهای روی دیسک بدون تغییر مانده است، آن چکها همچنان پاس میشوند. این وضعیت تا زمانی که سیستم ریاستارت نشود یا آن صفحهٔ خاص از Page Cache بهصورت دستی invalid نشود ادامه دارد. در لینوکس میشود با یک دستور این صفحات کش را پاک یا invalid کرد، ولی معمولاً آدمها این کار را بهطور معمول و بدون دلیل انجام نمیدهند — مگر اینکه شک عمیقی به وجود آمده باشد — که این هم منطقی است.
بنابراین نتیجهاش این میشود که سیستم واقعاً در وضعیت خطرناکی قرار میگیرد: تغییراتی که فقط در Page Cache اعمال شدهاند میتوانند رفتار برنامهها یا محتوای فایلها را تغییر دهند بدون اینکه ابزارهای معمولی متوجه شوند، تا زمانی که یا دیسک بازنویسی شود یا سیستم ریبوت گردد. این مشکل تقریباً توزیعهای مختلف لینوکس را از حدود سال ۲۰۱۷ به اینسو تحت تأثیر قرار داده و برای رفع آن معمولاً باید به نسخهٔ جدیدتری از کرنل ارتقا داد — ممکن است مثلاً نسخهای مثل ۶٫۳٫۱ یا بالاتر لازم باشد — وگرنه وضعیت سیستم همچنان خطرناک باقی میماند. و نکتهٔ عجیب و نگرانکننده این است که همهٔ این اکسپلویتها عملاً با کمک هوش مصنوعی کشف شدهاند.
آره
در واقع پژوهشگر امنیتی واقعاً هوش مصنوعی را قبول کرد و با جدیت از آن استفاده نمود تا بهشدت بهدنبال آسیبپذیریها بگردد. اما در حال حاضر هوش مصنوعی هنوز آنقدر پیشرفته نیست که بتواند از ابتدا تا انتهای فرایند کشف و استخراج یک اکسپلویت را بهطور کامل و بدون دخالت انسان انجام دهد. تا حد زیادی نتیجه به منابع و بودجه هم بستگی دارد؛ اگر به مدل منابع زیادی بدهی — مثلاً بودجهٔ قابلتوجهی خرج کنی — احتمالاً میتوانی کاری پیشرفتهتر انجام دهی، اما در شرایط معمول و با محدودیتهای مالی متداول، مدلها به کمک و هدایت انسان نیاز دارند. معمولاً یک محقق انسانی خروجیهای مدل را میگیرد، مسیرهای جدیدی برای جستجو مشخص میکند، ایدههای جدید مطرح مینماید و دوباره به مدل دستور میدهد در همان جهت عمیقتر جستجو کند. این چرخهٔ انسان-ماشین است که در عمل به نتایج منتهی شده است.
این وضعیت همچنین نشان میدهد که پیشبینیها دربارهٔ افزایش کشف آسیبپذیریها با کمک هوش مصنوعی درست بودهاند. بهویژه در کرنل لینوکس، بهطور مداوم تعداد زیادی از ضعفهای کوچک و کماهمیت ظاهر میشوند و هوش مصنوعی در شناسایی چنین مواردی بسیار موثر است. اما همین موضوع باعث شده حجم issues باز شده بهطرز چشمگیری افزایش یابد؛ لینوس توروالدز خودش نوشته که در حال حاضر از حجم زیاد مشکلات و گزارشها تحتفشار قرار گرفته و احساس overwhelm میکند، چرا که بسیاری از آن مسائل در واقع تکراریاند و افراد بررسی نمیکنند که آیا مشکل قبلاً گزارش یا حتی رفع شده است یا خیر. در بسیاری موارد خروجیِ یک مدل بهسادگی در یک issue انداخته میشود و افراد بعدی هم بدون بررسی دقیق، آن را قبول میکنند. این باعث میشود افرادی که روی پروژه کار میکنند زمان زیادی را صرف غربالکردن، بررسی و مرتبسازی مسائل کنند. پس میشود گفت که در شرایط عملی هنوز نقش انسان برای پالایش، اعتبارسنجی و پیادهسازی اصلاحات کاملاً حیاتی است.
«بیشتر مشکلاتی که تو با هوش مصنوعیات میتوانی پیدا کنی بهاحتمال زیاد قبلاً هم توسط دیگر هوشهای مصنوعی پیدا شدهاند. مگر اینکه واقعاً پول زیادی خرج کنی؛ در آن صورت قضیه فرق میکند. ولی خیلی، خیلی محتمل است که این مشکل از قبل شناخته شده باشد.»
آره
آره
راستش میخواستم ازت بپرسم که آیا اینها هم آسیبپذیریهایی هستند که توسط هوش مصنوعی کشف شدهاند، چون برایم خیلی جالب بود. از طرفی هم تعجب کردم از کندی موج خبری اینجا در آلمان؛ مثلاً دو روز پیش توی ZDF یک گزارش پخش شد با موضوع «چقدر Claude Mythos خطرناک است؟» که من اول به خودم گفتم...
ممنون ZDF. خوشحالم که اینجا در آلمان هم این موضوع را دارند پوشش میدهند. من خودم این سؤال را سه هفته پیش مطرح کرده بودم، اما مهم نیست، بیایید دربارهاش صحبت کنیم. این خیلی جالب بود و برای بسیاری از افراد شاید یک لحظهٔ بیداری بود، چون به نظرم تنشهایی وجود دارد که روزبهروز بین چیزهایی که عملاً اتفاق میافتند و...
آره
-و آدمهایی که میگویند هوش مصنوعی واقعی نیست.
منظورت از «نه واقعی» چیه؟
خب، در انگلیسی به این جور موارد اصطلاحاً 'nothing burger' میگویند.
اوهوم
یعنی اینکه همهاش فقط هیاهو و تبلیغات است؛ میگویند این توانایی را ندارد و الی آخر. و من فکر میکنم این یک موقعیت بوده که حالا دیگر بهطور غیرقابل انکاری میتوان گفت: مثلاً اگر — حالا نمیدانم دقیقاً چهطور — Claude Mythos ظرف یک هفته حدود هزار و پانصد اکسپلویت Zero‑Day پیدا کرده باشد، و آنها اکسپلویتهایی واقعی باشند که عملاً بتوان ازشان سوءاستفاده کرد، این دیگر چیزی نیست که بشود ساده از آن گذشت.
آره.
امم، به همین خاطر نمیدونم. واقعاً میتونم آدمهایی رو درک کنم که میگن همهاش هیپه؛ چون جالب بود که بعضیها در مقابل گفتن: «ببینید، من الآن یه خبر میخونم» و بعد گفتن: «اوپنایآی یه مدل ساخته که فعلاً منتشرش نمیکنن چون میگن خیلی خطرناکه. ممکنه واقعاً به جامعه یا سیستمهای کامپیوتری آسیب شدید بزنه و برای همین فعلاً GPT‑3.5 رو منتشر نمیکنن.»
درسته.
خب، امم.
آره، سؤال اینه که اینها نسبت به هم چه نسبتی دارن.
آره.
ولی چرا، چرا این پوستههای تهی وجود دارن؟ این که واضحِ. طبیعیِ که اینها در اصل برای آمادهکردن سهامداران و تشویقشون به سرمایهگذاری بیشتر هستن؛ چون بحث نه دربارهی سال بعده. نکتهٔ اصلی اینه که اونا به چشمانداز بلندمدت نگاه میکنن — مثلاً چه چیزی در ده سال آینده ممکنه قابلدستیابی باشه و شرکت چطوری در ده یا بیست سال آینده ازش درآمد کسب کنه. هدف این نیست که بگیم «اوکی، وضعیت در فصل بعد چیه؟»؛ هرچند گاهی جهشهایی هم هست، اما اینقدر عمیق نیست. در عوض نگاه میکنن درآمد و روند فروش در بلندمدت چی میشه، نه فقط فصل بعد یا یکسال یا پنجسال، بلکه خیلی طولانیتر. و من فکر میکنم وعدههای بزرگ دادن در چنین شرایطی لزوماً بد نیست، چون خیلی زود فراموش میشه چه قولی داده شده وقتی جریان مداوم اخبار دربارهی قابلیتهای آینده رو همیشه حفظ میکنی — وقتی توپ رو همیشه به حرکت میذاری.
آره.
این اشکالی نداره چون در نهایت قطعاً جواب میده؛ فقط اونها بازهی زمانیای رو که این ممکن میشه خیلی کم برآورد کردن، عمداً کمتر از واقعیت گفتن. میگن «اوکی، این تو یک سال کار میکنه»، اما واقعبینانهتر سه تا پنج سال طول میکشه تا چنین مفهومی عملی بشه.
خب، آره.
و طبیعتاً میشه گفت: «باشه،»
GPT‑3.5 برای اون زمان واقعاً فوقالعاده بود، ولی بهعنوان یه ضربهی خیلی عظیم برای جامعه نباید نگاهش کرد — بستگی داره آسیب اجتماعی رو چهجوری تعریف کنی.
آره.
ولی درسته، میفهمی؟ همینو میخواستم بگم. GPT‑3.5 در حدی بود که فقط بهزحمت میتونست یه جملهی منسجم بسازه.
آره.
میبینی؟ بعضیها نتیجهگیری کردن و گفتن: «خب، با GPT‑3.5 که کاری نشده، پس امنه؟ همهاش ساختگیه.» اما وقتی این فناوری اثر واقعی داره، سعی میکنن باهاش مسئولانه برخورد کنن؛ مثلاً میگن «خب، این تکنولوژی بهزودی متنباز هم میشه.» اوپنایآی هم به نوعی این ایده رو دنبال کرده و گوگل هم تو Google I/O چیزهایی اعلام کرد. خلاصه هدف اینه که اول برن سراغ شرکتهای بزرگ با این مدلها و اونها رو برای آسیبپذیریها اسکن کنن، طوریکه...
وقتی این فناوری ناگزیر برای همه در دسترس شد، حداقل گوگل یا ادوبی فردا هک نشن. این برای اقتصاد جهانی واقعاً فاجعهبار میبود.
آره.
خب، اما...
آره، من فکر میکنم وحشتناک بود. برای خیلیها یه جور لحظهٔ بیداری کوچیک بود، چون میدونی، قبلاً همیشه میتونستن بگن «یه عالم issue توی گیتهاب هست».
و همهچی توی آشفتگی غرق شده؛ روایت اینه که «آره، همهچی هیچه، کلی سروصدا میشه اما در نهایت هیچکدوم ارزش اقتصادی واقعی ندارن و خطر امنیتی واقعی ندارن» و این همون داستانیه که همیشه پخش میشه. و فکر میکنم حالا دیگه خیلی سخته کسی بتونه این وضعیت فعلی رو اینقدر سادهانگارانه نادیده بگیره — چطور میتونن اینقدر نسبت به واقعیات بیاطلاع باشن؟
اِم.
یا بهتره بگم، اشتباه ارزیابی کردن. یعنی—
اِم، یه بوی خیلی بد.
آره. [میخندد]
اما جونا، عالیه که اینجا...
درست.
درسته. ولی باید یه نکتهٔ احتیاطی هم بگم: بعضیها نشون دادن که بعضی مدلها طی ماههای اخیر تا حدی ضعیفتر شدن، یا حداقل خیلیها احساس ذهنیِ اینو دارن. سؤال اینه آیا این بهخاطر وعدههایی هست که شرکتها دادن در حالی که کیفیت مدلها عملاً ثابت مونده، یا واقعاً یه پسرفت وجود داشته؟ چون خیلیها به نحوهٔ پاسخدادنِ KI و اینکه چه توکنهایی تولید میشه اشاره کردن — این دقیقاً با کیفیت خروجی و تعداد توکنها رابطه داره و ظاهراً خیلی دستکاری شده؛ مثلاً الان خروجیها پر از متنِ پرکنندهست نسبت به قبل، تا جایی که الآن باید دائم بگی «خلاصه باش» تا خروجی همونی بشه که انتظار داشتی.
اُمم.
خیلیها هم اینطوری استدلال میکنن که من قطعاً میفهمم؛ خودم هم یه کم این حس رو دارم.
جونا، میرسیم به یه بخش که واقعاً نمیخواستم واردش شم، ولی خب دلم میخواد. از دو قسمت پیش میخوام یه نظر جنجالیِ کوچیکم رو بگم — نه رَنتِ کامل، ولی یه هاتتیک.
بگو.
یعنی اینکه کسی که از مدلهای پولی استفاده نکنه، عملاً قادر نیست قضاوت درستی دربارهٔ تواناییهای فعلیِ هوش مصنوعی بکنه.
آره.
و من این رو از چند جهت تأسفآور میدونم. بههمین خاطر اون هاتتیک رو گفتم. خلاصه اینکه، از یک منظر فلسفی من معتقدم نباید ChatGPT رایگان وجود داشته باشه.
هوم.
بلکه بهنظرم به جامعه و صنعت کلی آسیب میزنه که دو نوع کاملاً متفاوت از KI به مصرفکننده عرضه بشه: یکی رایگان که حدود نودوشش درصد مردم استفاده میکنن و از روش برداشتشون رو دربارهٔ اینکه «KI چی میتونه بکنه» شکل میدن.
درسته.
و بعد آدمهایی هستن که پول میدن و یه چیز خیلی خیلی بهتر میگیرن، بنابراین آگاهیشون خیلی عمیقتره. من اخیراً اینو اینجا توی رادیو حس کردم.
آره، این کاملاً درستِ، ولی فکر میکنم این حرف کل فرضیهٔ من رو بیمعنی نمیکنه. قطعاً دلالتِ «خب، اینقدرها هم که همه قول دادن خوب نیست» رو تضعیف میکنه. البته اگه پول ندی — چه ماهیانه چه برای هر پرامپت — چون وقتی مثلاً ده یا صد یورو برای هر پرامپت خرج کنی، نتایج واقعاً بسیار قوی میشن. با این حال فکر میکنم استدلال من هنوز میتونه برقرار بمونه.
دقیقاً، نه، من فکر میکنم میشه این رو اینجوری توضیح داد: نظریهٔ من اینه که اوایل برای ایجاد هَیپ، حتی کاربران رایگان هم تجربهٔ خیلی خوبی داشتن، با اینکه پولی پرداخت نکرده بودن. حالا شرکتها کمکم میفهمن «خب، این واقعاً پرهزینهست؛ حتی با مشتریهایی که دویست دلار در ماه میدن هم داریم ضرر میکنیم»...
ولی شاید باید شروع کنن که به آدمهایی که عملاً هیچ پولی نمیدن، یه مقدار هوشِ کمتر بدن. میفهمی چی میگم؟
فکر میکنم این میتونه توضیحی باشه برای اینکه چرا عمدتاً کاربران رایگان این افت کیفیت رو حس میکنن؛ چون دیگه صد درصدِ امکانات ممکن رو دریافت نمیکنن.
آره.
و بهخاطر همین براشون بدتر بهنظر میرسه چون واقعاً بدتره.
آره.
دقیقاً. امم، خواستم دوباره برگردم به این موضوع؛ این تضاد برام واضح شد که تو چه حبابی دارم زندگی میکنم. یه اعتراف کوچیک برای تو، جونا: این ماه برای امتحان نسخهٔ صد یورویی ChatGPT رو خریدم.
عالی.
من نسخهٔ دویست یورویی نگرفتم. ChatGPT Pro رو دارم که میتونی انتخاب کنی صد یورو و پنجبرابر سهمیه بگیری یا دویست یورو و بیستبرابر؛ من صد یورویی رو گرفتم چون موقع برنامهنویسی با Codex همیشه به محدودیت میخوردم و فکر کردم منطقیه سهمیهٔ بیشتر بگیرم.
آره.
ولی با پنجبرابر کاملاً کافیه، مرز نمیزنم و بیستبرابر لازم ندارم. و این تضاد — ما اینجا تو رادیو نشسته بودیم و یه خانمی گفت: «من از ChatGPT خواستم یه ارجاع رو به فرمت APA تبدیل کنه».
آره.
و واقعاً خرابکاری کرد.
آره.
برای یک کار خیلی ساده و بدیهی.
آره.
و بعد ما گفتیم: «خب، پس KI از عهدهش برنمیاد.» در مقابل، Codex هر هفته صدها هزار خط کد بدون خطا برای من مینویسه.
آره.
این یه تضاد عجیبوغریبه. آدم متوسط حق داره اینطور برداشت کنه که نمیتونی از ChatGPT بخوای حتی یه جمله بنویسه بدون اینکه احتمالاً خرابکاری کنه.
آره.
چون آدم معمولی فقط نسخهٔ رایگان رو میشناسه و اون معمولاً افتضاحه.
آره.
و از چند جهت این موضوع ناراحتکنندهست. از منظر اجتماعی ناراحتم که اکثریت مردم نمیفهمن چه تکنولوژیِ جذابی وجود داره و چهطور میشه ازش استفاده کرد. و از منظر بدبینتر میشه گفت اکثریت جامعه درک نمیکنن که وضعمون چقدر میتونه بدتر بشه.
آره.
چون اونا فکر میکنن این چیز حتی یه جمله رو درست نمیتونه بنویسه؛ پس شغل منو ازم نمیگیره.
آره.
و اونا متوجه نیستن که وقتی پول میدی، واقعاً قابلیتهایی هستن که میتونن شغلت رو حذف کنن. و شخصاً خیلی ناراحتم چون این برداشت باعث تحریف کار من با KI میشه.
هوم.
مثلاً وقتی به مردم میگم: «هی، من دارم با KI آزمایش میکنم که ویدیوهای Crunch‑Time رو برش بدم»،
آره.
اونها یاد تجربهٔ ChatGPT رایگان میافتن که تو سه جمله کلی اشتباه میکرد و میگن: «ویلند، این کار نمیکنه. هوش مصنوعی که نمیتونه حتی یه جمله بدون خطا بنویسه.» — و این استدلال رو با خاطرهشون از نسخهٔ رایگان توجیه میکنن.
آره.
خب، [آه] طبیعیه که از دوستام هم استدلال مخالف شنیدم. من کاملاً موافقم که دسترسی رایگان باشه؛ یعنی خوبه که افراد بیشتری به این ابزار دسترسی داشته باشن.
آره.
و کسی که نمیتونه یا نمیخواد پول بده، همونطور که گفتم من هم دو دل هستم؛ حداقل یه گزینه براش هست. اما در نهایت به نکتهٔ اصلی من میرسیم: مشکل خودِ KI نیست، مشکل سرمایهداریه. یعنی اگر همه به یک سیستم خیلی خوب دسترسی داشتن، من موافق بودم. و میتونی بگی «خب، پس یه نسخهٔ رایگان نهچندان خوب هست، ولی حداقل چیزی هست.» اما به نظرم اینترنت و اون چیزی که میگیم «سرمایهداری اینترنت» که اوایل ۲۰۱۰ شروع شد، متأسفانه KI رو در چنگال خودش گرفت. اوایل سام آلتمن میگفت: «آره، میدونیم شما عادت دارید همهچیز رایگان باشه و از طریق تبلیغات تامین بشه. اما KI خیلی گرونه و این مدل کار نمیده. پس ما اینو بهعنوان مدل کسبوکار نمیسازیم؛ تبلیغ نمیذاریم و نسخهٔ رایگان هم نمیذاریم. ما محصولی میسازیم که شما براش باید پول بدید.»
آره.
— مثل کاری که برای هر محصول دیگه هم انجام میدید.
آره.
راستش من همیشه این رو با یه قیاس توضیح میدم، هرچند قیاس احمقانهست: وقتی میخوام به کسی بگم ChatGPT چیه و اینکه من از OpenAI API استفاده میکنم، مثلاً با شیر مقایسهش میکنم — با Müller‑Milch. میگم «فرض کن توی Müller یه عالم نگهدارنده و تقویتکننده طعم باشه — شاید درست نباشه، نمیدونم — ولی این دلیل نمیشه که وقتی من بهعنوان مشتری B2B شیر Wieland تولید میکنم...»
آره.
وقتی من از کارخانهٔ Müller شیر B2B میخرم، اون شیر نگهدارنده و تقویتکننده نداره و کیفیتش خوبه. شاید من توی شیر Wieland نگهدارنده بریزم یا در مورد ChatGPT ممکنه شما رو ردیابی کنن، تبلیغ نشون بدن یا دادههاتون رو بفروشن. اما فقط چون Müller هم شیر Müller تولید میکنه، نباید بین محصول B2B و B2C قاطی بشه. بههمین خاطر همیشه این مثال رو میزنم: تصور کن توی فروشگاه یه شیر Müller رایگان باشه و یه شیر دیگه که باید براش پول بدی.
آره.
و نسخهٔ رایگان واقعاً افتضاحه.
آره.
پس واضحاً خیلی بدتره.
مثل یه آب با کمی طعم شیر یا هرچی، آره.
حالا تصور کن چی میشه: نودوپنج درصد مردم شیر رایگان Müller رو انتخاب میکنن و میگن «ویلند، تو دیوانهای؟ چرا براش پول میدی؟» و بعد شرکت هم خودش رو در گِل میکوبه—مردم میگن «من همیشه شیر رایگان رو میخورم، خیلی بدِ؛ هیچوقت براش پول نمیدم، چون هر دو اسمش Müller هست، پس چرا باید پول بدم؟»
آره.
طبیعتاً من براش پول نمیدم. و اطرافیانم هم همینو میگن: «ویلند، ChatGPT حتی یه جمله درست نمیتونه بنویسه؛ هیچوقت براش پول نمیدم.» چون براشون مشخص نیست که اگر... ببخشید، زیاد رَنت کردم.
درسته. و اونا نمیفهمن که اگر یه شرکت هزار یورو در ماه، یعنی دوازدههزار یورو در سال، برای KI هزینه کنه، احتمالاً میتونه یه موقعیت شغلی رو حذف کنه.
آره.
فقط سؤال اینه کدومش؟ [میخندد] ولی اگه تجربهات فقط ChatGPT رایگان یا مثلاً Copilot رایگان باشه، طبیعیه که نتونی درک کنی و بگی «نه، KI که شغلها رو نمیگیره.» ولی باید بدونی جایگزین چیه: مثلا به یه نفر ممکنه در سال سی تا پنجاههزار یورو یا حتی بیشتر پول بدی؛ این در واقع بودجهایه که میتونی برای درخواستهای API خرج کنی...
و غیره. چیزی که میگم اینه که با KI و با توجه به اینکه چقدر قدرتمنده و چقدر خوب خودش رو وفق میده، طبیعتاً از نظر هزینه میتونه خیلی کمتر از پرداخت حقوق یه نیروی انسانی دربیاد. یا دستکم اینطوره.
ولی درسته جونا، همونطور که گفتی، وقتی بحث شغل و کار میشه، من فکر میکنم اینها صرفاً...
سطح نفوذ انکار و امیدواریِ مردم واقعاً فوقالعادهست، که میفهمم چرا؛ آدم دنبال چیزی میگرده که بهش امید بده. میشه این رو شبیه پوپولیسم دونست: یه چیز به آدم میگه «همهچیز سادهس، مشکل مشخصه» و این بهش امید میده چون دیگه نگه نمیداره که دنیا پیچیدهست و بعضی مشکلات شاید راهحل ساده نداشته باشن—بلکه یه مقصر مشخص میتونه باشه که بتونی براش بجنگی.
و این رو نمیتونیم کاملاً از بقیهٔ حرفهایی که زدی جدا کنیم.
[میخندد]
میفهمی، من هم همینو میگم: وقتی پیوسته میگی «هی، KI قراره بهزودی بخش عمدهای از کار انسانها رو انجام بده و ما باید بهعنوان جامعه بفکر راهحل باشیم»، ...
آره.
خب، این مهمه. بعدش اون مطالعات معروف میان که میگن ۹۵٪ پروژههای KI تو شرکتها شکست میخورن و مردم میگن «ببین، پس راست نمیگه، KI شغل منو نمیگیره.» ولی وقتی مقاله رو میخونی میبینی شکست رو اینطوری تعریف کردن که پروژه بعد از فاز آزمایشی درآمد افزایش نداد یا برامون مفید نبود. اما اینکه یه شرکت یا—
اه، پس این آستانه براشون معنیِ شکست داره. آها، اوکی.
یعنی آره، اونا شکست رو چنین تعریف کردن که بعد از فاز تست ادامه ندادن. من دقیقاً از درون شرکتها خبر ندارم ولی جونا، ۹۵٪ پروژههای خودم هم شکست میخورن: یه چیزی رو امتحان میکنم، نتیجه نمیده و بعد رهاش میکنم.
باید درآمدت رو افزایش بده. آره، درست.
یا حداقل درآمد منو بالا ببره یا اینکه برام یه فایدهای تو زندگی داشته باشه؛ اگه نه ادامه نمیدیم. اما خب، شرکتها این کارو دائم انجام میدن؛ میگن «خب، یه چیز رو امتحان میکنیم یکی دو هفته، اگه جواب نداد کنار میذاریم.»
آره، درسته.
ولی تو این مطالعه اینو بهعنوان شکستِ پروژهٔ KI حساب کردن.
خب، این یه تعریف خیلی سختگیره.
خب، مردم هم سریع میپُرن و من هم میفهمم؛ چون طبیعیه که نخواهی باور کنی وقتی یکی میگه «هی، تو بیست ساله کار میکنی؛ سه سال دیگه دنیا کاملاً برعکس میشه.»
آره.
بعد طبیعیه که چنگ بزنی به هر چیزی که بگه «اه، اون فقط حرف میزنه.»
آره.
اونایی که در مورد KI حرف میزنن همهش فقط حرف میزنن.
آره.
راستی دربارهٔ مدلهای اشتراک گرون که واقعاً دلیلی برای پرداخت ندارن: Plex هم دوباره قیمتهاشو بالا برد و من واقعاً از اینکه اوضاع هزینهها به این حد رسیده شگفتزدهم. دسترسی مادامالعمرشون از چیزی مثل ۲۵۰ دلار به ۷۵۰ دلار رسیده؛ یعنی سه برابر شده. دلیلش این بوده که مدیر گفته «نه، در واقع ما نمیخواستیم این رو همیشه عرضه کنیم» — حرکت کلاسیک ادوبی — و حالا میخوان فقط مدل اشتراک ماهیانه داشته باشن که هرماه پول بگیرن. و این مسخرهست چون این نرمافزار برای استریم ویدیوهایی هست که قبلاً روی سرور خودت هستن و منطقی نیست علاوه بر هزینهٔ سختافزار و زمان راهاندازی، ۷۵۰ دلار هم بدی. بهعلاوه میتونی از یه راهحل متنباز خیلی خوب استفاده کنی و اوضاع عالیه.
اگر کسی واقعاً به چنین چیزی نیاز داشته باشد — و فقط بهعنوان یک تذکر: طبیعتاً شما باید قبلاً آن ویدئوها را خریده باشید؛ بعد از خرید در آلمان مجازید نسخهٔ خصوصی از آنها تهیه کنید. به این معنی که کاری که الآن اتفاق میافتد از نظر حقوقی کاملاً موجه است، اما خب، این توضیح صرفاً جهت اطلاع است و نه مشاورهٔ حقوقی.
آره.
هاها. و این هم یکی دیگر؛ انگار که مردم از قبل بهاندازهٔ کافی نسبت به مدلهای اشتراکی ناراضی یا حتی متنفر نبودهاند.
آره.
جونا، ما اینبار هم واقعاً عالی عمل کردیم.
درسته.
بهطوری که میشود گفت، ما یک قسمت فوقالعاده ضبط کردیم؛ یک اپیزود پُر از اطلاعاتِ قوی و جالب. پر از اطلاعات دربارهٔ پروژههای شخصیِ خودمان، دربارهٔ کارهایی که همین الآن انجام میدهیم و دربارهٔ نحوهٔ کارمان با تکنولوژی، و طبیعتاً بحثهایی هم دربارهٔ کاری که شرکتهای بزرگ فناوری همین الآن با تکنولوژی انجام میدهند داشتیم. و جونا، حتی چند رانت کوتاه و جذاب هم داشتیم — چند انتقاد تند دربارهٔ «سرمایهداری مرحلهٔ پایانی» و دربارهٔ آن دنیای تهدیدآمیزِ Watchshops که احتمالاً بهزودی ممکن است تبدیل به واقعیتی شود که همهٔ ما در آن زندگی خواهیم کرد. این یک قسمت کلاسیک بود، پُر از لحظات عالی. اگر همهٔ اینها را نشنیدهاید و الآن میگویید «خیلی خوب بود؛ دوست دارم کاملش را گوش کنم»، یا الآن فقط وارد شدید یا میخواهید بعداً دوباره گوش کنید — کجا میتوان این کار را انجام داد، جونا؟
برای این منظور بهترین کار این است که به radio-unique.de بروید. آنجا همهٔ مقالات خبری ما بهعنوان رادیوی دانشجویی قابل دسترس است، اما بهتر است به بخش مخصوص اپیزودهای «Crunch Time» مراجعه کرده و روی قسمتهای موردنظر کلیک کنید. در آن بخش میتوانید هر زمان که خواستید، تمام قسمتها را دوباره گوش دهید یا از ابتدا پخش کنید. همچنین میتوانید در YouTube یا Spotify عبارت «Die Crunch Time» را جستوجو کنید تا کانالها و اپیزودها را پیدا کنید. ما پادکستمان را نیز بهصورت RSS عرضه کردهایم؛ کافی است به podcast.radio-unique.de سر بزنید، لینکهای RSS را بردارید و در اپلیکیشن پادکست مورد علاقهتان وارد کنید. همانجا هم لینکهای مستقیم YouTube و Spotify و دیگر منابع را خواهید یافت.
و اگر کسی واقعاً تازهوارد باشد یا شاید فقط یک رادیوی آنالوگ داشته باشد که با یک نوار لغزنده باید عدد فرکانس FM را تنظیم کند، تکلیف چیست؟
اوهاوه.
پس دفعهٔ بعد Crunch Time را کجا میتوان شنید؟
هشتاد و یکمین قسمت Crunch Time دقیقاً در ۲۸ ژوئن پخش میشود. مثل همیشه این برنامه در چهارمین یکشنبهٔ هر ماه است و شما باید بین ساعت ۱۸ تا ۱۹ یا روی موج UKW فرکانس ۱۰۲٫۷ مگاهرتز را تنظیم کنید و گوش دهید، یا از طریق DAB+ در باکت ۵B آن را دریافت کنید. البته برای دریافت امواج رادیویی باید در محدودهٔ Chemnitz باشید. در غیر این صورت میتوانید به radio-unique.de مراجعه کرده و روی وبپلیر کلیک کنید؛ آنجا هم میتوانید در تاریخ ۲۸ ژوئن بین ساعت ۱۸ تا ۱۹ Crunch Time را بهصورت زنده دنبال کنید.
پس همهٔ راهها برایتان باز است تا این اپیزود و قسمتهای گذشته و آیندهٔ Crunch Time را دنبال کنید. تا آن زمان، مراقب خودتان باشید.
خداحافظ.
[موسیقی پایانی]
همین بود.
برنامهٔ کرانچ تایم، تولیدی از رادیو UNiCC.
Zuletzt aktualisiert am 1
नमस्कार और आप सभी प्यारे सुनने वालों का तहे दिल से स्वागत है। क्रंच टाइम में आपका हार्दिक स्वागत। यह हमारे टेक-पॉडकास्ट का 80वां एपिसोड है, और मैं, वीलैंड, आपके साथ।
और मैं जोना हूँ।
हम हर महीने के चौथे रविवार को आपको टेक की दुनिया और हमारे निजी DIY-हैंडमेड प्रोजेक्ट्स की ताज़ा खबरें सुनाते हैं। इस बार भी हमने आपके लिए कुछ मज़ेदार चीज़ें तैयार की हैं और यह सब हमारी 80वीं कड़ी के अनुरूप है। आम तौर पर गोल या अजीब संख्याओं पर हम कुछ बड़ा सोच लेते हैं, पर मुझे लगता है कि यह इस बार सरल और कूल रहेगा। हमारी 80वीं कड़ी एक क्लासिक एपिसोड होगा जिसमें टेक के विषय और हमारे निजी DIY काम शामिल होंगे।
रेडियो UNiCC प्रस्तुत
[संगीत] द क्रंच टाइम
[संगीत] जोना वीलैंड के साथ
तो मैं यहीं से सीधे शुरू करना चाहूंगा, हाँ, एक ऐसे विषय से जिसका मैंने पिछले एपिसोड में जिक्र किया था और जिस पर मैंने तब से थोड़ा और काम किया है, इसलिए अब मैं आप लोगों को बताना चाहता हूँ कि मैं Google Health Connect को कितना शानदार मानता हूँ, क्योंकि यह बस—
[हँसता]
यह बस जबरदस्त है। जॉना, मैंने इस पर खूब मेहनत की है। यह वाकई बहुत अच्छा है। पहले मैं आप सबको बेसिक बात समझा दूँ: Google Health Connect क्या है, मैं इसे क्यों इतना बढ़िया समझता हूँ और आप सबको इसे क्यों इस्तेमाल करना चाहिए?
बिलकुल।
खैर, बड़े टेक कंपनी के ढर्रे से थोड़ा अलग तरीके से, Google Health Connect एक इंटरफ़ेस है जो Android फ़ोनों पर चलता है और इसकी वजह से अलग‑अलग हेल्थ‑ऐप्स आपस में डेटा साझा कर सकते हैं। इसे संचालित करने का तरीका बहुत सिंपल है — आधारभूत रूप में यह हर फोन पर लोकली मौजूद एक तरह का डाटाबेस है, जहाँ ऐप्स को सीधे लिखने और पढ़ने की अनुमति दी जाती है। इसके ऊपर एक तरह का सब‑परमिशन‑सिस्टम भी रहता है। शायद पहले मुझे यह बताना चाहिए था कि Android 14 से पहले यह एक अलग ऐप के रूप में होता था जिसे आपको इंस्टॉल करना पड़ता था, जबकि Android 14 के बाद यह सीधे ऑपरेटिंग सिस्टम, यानी Android का हिस्सा बन गया है।
और जैसा मैंने अब समझा है, इसका मतलब तो यह निकलता है कि फोन द्वारा रिकॉर्ड की गई कदम‑गिनती जैसी चीजें उदाहरण के तौर पर बीमा कंपनियों की ऐप्स को भी भेज दी जा सकती हैं। और वैसे वहां कुछ जाने‑माने ऐप्स भी हैं जिनके बारे में हम पहले से सुनते आए हैं—
हम्म।
अरे, जैसे कुछ ऐप्स होती हैं जो आपको उन दिनों के लिए थोड़े‑से पैसे देती हैं जिनमें आपने फोन से दस हज़ार कदम पूरे किए थे—क्या यह भी इस API के ज़रिये संभव होगा?
तो मैं सोचता—
क्या यह असल में कुछ और ही है?
तो मेरा मानना है कि हाँ, यह निश्चित रूप से उसी तरह काम कर सकता है। मैं व्यक्तिगत रूप से अभी तक इसे उस यूज़‑केस के लिए इस्तेमाल नहीं किया, लेकिन सिद्धान्ततः यह सब संभव है। मेरे लिए बात जोर देकर कहने लायक यह है कि यह न तो Google Play‑सर्विसेज का हिस्सा है और न ही आपके Google‑अकाउंट के साथ सिंक्रोनाइज़ होता है। और मुझे पता है कि बहुत से लोग इस बात को लेकर चिंतित होंगे। आप सच में इसे अपने Google‑अकाउंट से कनेक्ट तक नहीं कर सकते। सबसे ज़्यादा जो आप कर पाएँगे वह यह है कि आप सेटिंग में कहें कि ये डेटा ऑटोमैटिक‑ली किसी भी क्लाउड‑ऐप में ZIP फाइल के रूप में export कर दिया जाए। आप वह कोई भी क्लाउड‑ऐप चुन सकते हैं जो आपके फोन पर इंस्टॉल है; उदाहरण के तौर पर Google Drive भी चुना जा सकता है। पर समझिए कि वह भी केवल एक स्वचालित एक्सपोर्ट है। मूल रूप से सारा डेटा फोन पर लोकली स्टोर होता है और—
लेकिन उस एक्सपोर्ट को क्या आप पूरी तरह लोकली कर सकते हैं? यानी क्या डेटा सीधे फोन पर ZIP‑फाइल बनकर ही कहीं स्टोर हो सकता है और किसी क्लाउड‑प्रोवाइडर तक न पहुँचे? क्योंकि अगर आपके पास यह अधिकार है कि आप देख सकें कौन‑सा डेटा सेव है, और फिर वही डेटा अपने‑आप किसी भी क्लाउड में चला जाए, तो वह पूरा पारदर्शिता‑तंत्र खत्म हो जाता है। क्या यह पूरी तरह लोकल ही रखा जा सकता है?
तो बात यह है कि—मैं नहीं जानता। मैं व्यक्तिगत रूप से सोचता हूँ कि नहीं। आप सीधे फोन पर एक फाइल खुद से क्रिएट नहीं कर सकते, पर एक विकल्प मौजूद है। सबसे पहले तो आप किसी क्लाउड‑ऐप को चुन सकते हैं, जैसे उदाहरण के तौर पर Nextcloud, जिसे आप एक्सपोर्ट‑डेस्टिनेशन के रूप में सेट कर सकते हैं।
ओह समझा, बेहतरीन, तो यह काफी हद तक सहज लगता है। सिर्फ इसलिए Nextcloud ही सेट करने वाला शायद कोई नहीं होगा।
हाँ।
पर इसका मतलब यह है कि सिद्धांततः यह संभव है।
बिलकुल। जैसा मैंने कहा, जो मुझे सबसे अच्छा लगता है वह यह है कि यह बस आपके फोन पर की‑डेटाबेस है जिससे कोई भी ऐप डायरेक्ट काम कर सकती है और पसंद के मुताबिक बनाई जा सकती है। यह किसी बड़े क्लाउड‑एपीआई की तरह नहीं है जहां आपको हर बार गूगल क्लाउड में एक ऐप बनानी पड़ती है, एक App Secret लेना पड़ता है और फिर गूगल को चेक करना पड़ता है कि क्या आप ऐसा करने योग्य हैं। उदाहरण के लिए अगर आपको YouTube‑इंटरेक्शन चाहिए तो वही झंझट होता है — आपको गूगल के पेपरवर्क और परमिशन के लिए जाना पड़ता है, और कोई व्यक्ति गूगल की तरफ से कंफर्म करता है कि आप वाकई कर सकते हैं या नहीं। इसका मतलब यह भी हुआ कि डेवलपर्स को आसानी से लोकली ऐप्स बनाकर टेस्ट करने की आज़ादी मिल जाती है बिना किसी केंद्रीय‑समीक्षा या लंबे अनुमोदन‑चक्र के। छोटे‑टीम या एकल डेवलपर भी Health Connect से सीधे फोन‑डेटाबेस को रीड/राइट कर सकते हैं।
और फिर बदतर हाल में आप दस्तावेज़ों के मात्र बीस प्रतिशत हिस्से तक ही पहुँच पाएँगे।
यह अगला मुद्दा है।
और फिर वहाँ बहुत से फीचर भी हैं—
हाँ।
—जिन तक आप बिल्कुल पहुँच नहीं पाते या जिन तक पहुंच संभव है पर आपको पता नहीं होता, क्योंकि उन पर कहीं उपयोगी बाहरी दस्तावेज़ीकरण नहीं है।
हाँ।
बिलकुल, पूरा वही झंझट।
और, मतलब, यह सब बस आपके फोन पर की एक डेटाबेस‑सिस्टम है जहाँ कोई ऐप सीधे अनुरोध कर सकती है: 'मैं इन‑इन डाटा‑टाइप्स को पढ़ना चाहता/चाहती हूँ और इन‑इन डाटा‑टाइप्स को लिखना चाहता/चाहती हूँ।'
परफेक्ट।
अरे, एक जरूरी फर्क है जिसकी तरफ ध्यान देना चाहिए। इस सिस्टम में दो बड़े‑बड़े प्रकार होते हैं। और जो चीज अभी जर्मनी में दिखाई देती है वह सिर्फ़ एक प्रकार ही है — मुझे लगता है कि इसका कारण EU‑नियम और मेडिकल‑डिवाइस कानून हैं, इसलिए कुछ चीजें वहां अभी लागू नहीं हो पाईं; या फिर शायद मैं बस उन ऐप्स का इस्तेमाल नहीं कर रहा जो दूसरी श्रेणी को यूज़ करते हैं। पहला और बड़ा हिस्सा कुछ हद तक उलझन भरे नाम के साथ आता है: उसे Health Data कहा जाता है, और यह असल में वे सारी चीजें कवर करता है जिन्हें आप सामान्यतया ट्रैक करते हैं।
मैं बार‑बार उस परमिशन‑स्क्रीन को देखकर हैरान रह जाता हूँ — सचमुच की चीजें जो आप ट्रैक कर सकते हैं वह अजीब और बहुत विस्तृत हैं। और यदि आप पारदर्शिता की बात करें तो, जैसा मैंने कहा, आप Health Connect ऐप में या अपने सिस्टम‑सेटिंग्स के अंदर देख सकते हैं कि किस‑किस ऐप ने हाल ही में एक्सेस किया है और वे किस‑किन डेटा‑टाइप्स को पढ़ या लिख सकते हैं आदि।
मैंने इस विषय पर गहराई से जाँच की है। Play Store पर यह टूल नहीं मिलता लेकिन Google Developer साइट पर एक ऐप है जिसे आप APK के रूप में डाउनलोड कर सकते हैं — इसका नाम Health Connect Toolbox है। यह टूलबॉक्स आपको डेटाबेस का रॉ‑एक्सेस देता है, जिससे आप असल में उस लोकल डेटाबेस को सिम्युलेट करके देख सकते हैं कि अंदर क्या क्या स्टोर है। इससे मुझे अच्छे‑खासे अंदाज़े मिल गए कि किन‑किन प्रकार के रिकॉर्ड इसमें सम्भव हैं और डेवलपर्स किस तरह के डेटा एंट्री कर सकते हैं।
और यह जो Health Data श्रेणी है, वह बिल्कुल रोज़मर्रा के ट्रैकर‑डेटा से शुरू होती है — जैसे स्टेप्स — पर वहाँ हार्ट‑रेट, वजन, हड्डियों का मास और मसल‑मास जैसी मापें भी मौजूद हैं। विचित्र बात यह है कि मसल‑मास को आप सीधे दर्ज नहीं कर सकते। यह मेरे लिए सबसे बड़ा आश्चर्य और एक सीधा आलोचनात्मक‑पॉइंट था: यह इतना कॉमन डेटा‑पॉइंट होने के बावजूद वह फील्ड सीधे उपलब्ध नहीं है। इसलिए मुझे उसे अनुमानित तरीके से निकालना पड़ता है — क्योंकि Health Connect कुछ चीजें अलग‑अलग तरीके से स्टोर करता है, जैसे कि हड्डियों का कुल मास और साथ ही 'न हड्डी और न मसल' के अन्तर्गत आने वाली चीज़ों का मास भी, और उन स्टोर्ड वैल्यूज़ से आप पीछे की गणना करके मसल‑मास का अनुमान लगा सकते हैं।
इस तरह की खोज से स्पष्ट होता है कि यह सिस्टम कितनी बारीकी से और किस हद तक डाटा रख सकता है — इसलिए जब आप परमिशन‑स्क्रीन देखते हैं तो आप सोचेंगे कि कितनी सारी, कभी‑कभी अजीब‑सी मेट्रिक्स वहां मौजूद हैं।
अच्छा, तो इसका क्या तात्पर्य होता है?
आप वहां पोषण, खाने‑पीने की प्रविष्टियाँ, तरल सेवन और अपना वजन ट्रैक कर सकते हैं — कुल मिलाकर ये सभी डेटा‑पॉइंट्स हैं। साथ ही महिला‑स्वास्थ्य की चीजें भी ट्रैक की जा सकती हैं, जैसे मासिक धर्म का बहाव और सर्वाइकल‑स्लाइम। और जो बात मुझे हैरानी में डालती है, वह यह है कि महिला‑स्वास्थ्य के अंतर्गत एक उप‑श्रेणी के रूप में Health Data Record का एक प्रकार 'Sexual Activity' के नाम से मौजूद है। यह देखकर लोगों की प्रतिक्रियाएँ आ सकती हैं।
हाँ।
Sexual Activity का केवल एक पैरामीटर है: Protection Used — true या false। यही एकमात्र जानकारी स्टोर होती है।
है? पर वह जानकारी डेटाबेस में इतनी casually तरह से मौजूद है। पर हाँ, यह भी बिलकुल तार्किक है कि ऐसी चीजें वहाँ क्यों रखी जाती हैं — आप इन सभी डेटा‑पॉइंट्स को, साथ में तापमान रिकॉर्ड्स इत्यादि को मिलाकर, किसी महिला के साइकल की भविष्यवाणी कर सकते हैं। पर मैं इसे थोड़ा अजीब भी मानता हूँ अगर लोग रोजाना ऐसी गतिविधियाँ दर्ज करें या हर दिन अपनी श्लैमिक स्थिति यानी कंसिस्टेंसी की एंट्री दें। यह सच में थोड़ा विचित्र है, पर यह किया जा सकता है और इसका उद्देश्य यही है कि ये डेटा‑इकाइयाँ किसी प्रेडिक्शन‑एल्गोरिद्म को मदद दें। बस मैं यह संदर्भ दे रहा हूँ उन लोगों के लिए जिन्हें यह बात अजीब लग सकती है।
तो एक ऐप है जो महिला‑स्वास्थ्य ट्रैक करती है, और उसमें Sexual Activity रिकॉर्ड की जा सकती है। मुझे नहीं पता कि वह Google Health Connect के साथ कंपैटिबल है या क्या वह इसको सिंक करती है।
हाँ, हो सकता है।
हो सकता है — उस दिन पर वहाँ एक छोटा‑सा दिल का आइकन दिखाई देता है। यानी अगर किसी दिन सेक्स होता है तो उस तारीख़ पर एक हृदय चिह्न लग जाता है। खैर। किसी भी हाल में, वहाँ ये सारी चीजें मौजूद हैं और इसी वजह से—
'मैं यह कभी Google के साथ सिंक नहीं करूँगा।' — नहीं, यह तो फोन पर ही रहता है। आप इसे असल में Google के साथ सिंक तक नहीं कर सकते। 'मैं ऐसा कभी नहीं करूँगा, यह मेरे लिए बहुत असुरक्षित है।' इसमें कोई असुरक्षा नहीं है; यह आपके फोन पर ही रहता है।
और सबसे बढ़िया बात यह है कि यह डेटाबेस अलग‑अलग ऐप्स के बीच इंटरऑपरेबिलिटी को संभव बनाता है — जो मुझे किसी बड़ी टेक कंपनी से उम्मीद नहीं होती। और यह सच में मुझे बेहद उपयोगी और आश्चर्यजनक लगता है।
यह वाकई असामान्य है। सच में, इसे हमें अभी सीधे तौर पर जोर देकर कहना चाहिए।
हाँ, यह मेरे लिए कमाल है।
हाँ।
बिलकुल। जॉना, मैंने Health Connect Toolbox से जल्दी‑सा Health Data के भीतर उपलब्ध चीजों की एक झलक ली, क्योंकि वह सब कुछ पढ़ सकता है। इसमें है: सक्रिय रूप से जलाई गई कैलोरीज़, चढ़ाई/ऊँचाई, चढ़े गए फ्लोर/सीढ़ियाँ, गतिविधि‑तीव्रता के डाटा, गति, कुल जली हुई कैलोरीज़, पावर/पर्फोर्मेंस, अधिकतम ऑक्सीजन उपभोग (VO2max), व्हीलचेयर‑पुशेस, कदम, खेल/कसरत, प्रशिक्षण‑योजनाएँ और दूरी। इसके अलावा वहाँ विश्राम हृदय‑दर, ऑक्सीजन संतृप्ति, त्वचा‑तापमान, ब्लड‑शुगर आदि हैं, साथ ही नींद, विविध शारीरिक मान और अन्य विटल पैरामीटर भी। आप यहाँ तक कि माइंडफुलनेस‑एक्सरसाइज़ भी ट्रैक कर सकते हैं।
हाँ, वाह।
यह मुझे सचमुच बहुत प्रभावशाली लगता है। और हाँ, यही चीज़ मुझे रोचक लगती है — अब मेरी तर्क‑श्रृंखला वापस आने लगी है। मुझे मालूम है कि महिला‑स्वास्थ्य और Sexual Activity को ट्रैक करना कुछ लोगों को अजीब लगेगा, ठीक है। पर मैं एक पुरुष के तौर पर भी ऐसा रिकॉर्ड रखना चाह सकता हूँ ताकि कुछ संबंधों/परस्पर निर्भरताओं को उभारा जा सके।
हाँ।
और हाँ, इसका एक कारण भी है कि Sexual Activity में 'Protection Used' जैसा पैरामीटर मौजूद होता है और उसे सेव भी किया जा सकता है। मैंने अपने आस‑पास कुछ महिलाओं से पूछा कि इसका क्या तर्क है। एक ने कहा: 'अगर पीरियड लेट हो जाए तो आप जल्दी से देख लें कि आख़िरी बार आपने अनप्रोटेक्टेड सेक्स कब किया था — क्या प्रेग्नेंसी की सम्भावना है?' और—
हाँ, और तब आप यह अंदाज़ा लगा सकते हैं—
हाँ।
कि यह कितना संभावित हो सकता है, सही में।
मैं सोचता हूँ: ठीक है, शायद मुझे भी यह रुचि हो सकती है कि मैं रिकॉर्ड रखूँ और बाद में देख सकूँ कि आख़िरी बार कब मैंने अनप्रोटेक्टेड सेक्स किया था।
ठीक है, पर एक सवाल: क्या यह बस खुद को दिखाने के लिए है? या फिर कोई और वजह है? [हँसता]
अरे, नहीं, मुझे लगता है कि—असल में आप इसके बारे में कह सकते हैं—अब मैं... हम थोड़ा विषय से हट रहे हैं, चिंता मत करो। पर सिद्धांततः इसका मतलब यह होगा कि इंसान की सेहत के बारे में जो बुनियादी विश्लेषण होते हैं, उन्हें आप सीधे, कहें तो, काफी हद तक ऑटोमेटेड तरीके से कर सकते हैं। इसका यह बिलकुल मतलब नहीं है कि सारे हाउस‑डॉक्टर बेकार हो जाएंगे—यह तो सवाल ही नहीं है—पर आप कई चीजें पहले ही पहचान पाएँगे, क्योंकि वरना कोई यह नहीं कहेगा: “पहले मैं चार अलग‑अलग डेटा‑सेट मिलाकर वेरिफाई करूँ कि मेरी वह अजीब बीमारी तो नहीं है।” समझ रहे हो न? जो जो बातें अब अलग‑अलग पैरामीटर में दिखती हैं, उन्हें आप सीधे पहचान सकते हो, बशर्ते सिस्टम में पर्याप्त डेटा फीड किया गया हो और ऐसी कोई ऐप हो जिसे यह सब एनालाइज़ करने की अनुमति हो—
हाँ।
इसे आप बहुत असरदार तरीके से लागू कर सकते हैं ताकि कुल मिलाकर इंसानियत ज्यादा स्वस्थ हो जाए। यही कुछ हद तक मेरा मकसद भी है और यह मेरी—एक बढ़िया कड़ी है—मैं इसे लगभग अपना 'स्वास्थ्य‑सिस्टम' कहता हूँ।
ओह, समझ गया, बहुत बढ़िया।
मैं अपने स्वास्थ्य‑सिस्टम से जो हासिल करना चाहता हूँ, उसके लिए Google Health Connect बिलकुल की—क्योंकि मैं कभी नहीं चाहूँगा कि इस पूरे सिस्टम के सभी हिस्से किसी एक निर्माता से आख़िर हों; उससे लॉक‑इन बहुत ज़्यादा हो जाएगा। तो Jona, मेरे पास एक फिटनेस‑ट्रैकर घड़ी है, उसकी अपनी एक ऐप है। मेरे पास एक स्मार्ट तराज़ू है — मतलब ऐसा तराज़ू जो सिर्फ कनेक्टेड होने की वजह से स्मार्ट नहीं है, बल्कि बॉडी‑वैल्यूज़ भी नापता है, जैसे फैट प्रतिशत, मसल मास वगैरह।
यह मेरी सारी داده से यह भी निकाल सकती है कि मेरा बेसल कैलोरी‑खर्च कितना है। और मेरे पास एक स्मार्ट ब्लड‑प्रेशर‑डिवाइस भी है जो ये डेटा कैप्चर कर सकता है। और ये सारी ऐप्स एक‑दूसरे के साथ कम्पैटिबल नहीं हैं।
हाँ।
स्वतः नहीं। और मेरे पास एक ऐप है जिससे मैं अपना आहार ट्रैक करता हूँ—यह ओपन‑सोर्स है, Open Nutri Tracker पर बेस्ड, जिसे मैंने बहुत आगे बढ़ाया है। इस ऐप में डिफ़ॉल्ट रूप से Health Connect कनेक्शन नहीं है, पर यह बस एक डेटाबेस है: सही मॉड्यूल इम्पोर्ट करो और काम शुरू हो जाता है।
हाँ, बहुत अच्छा।
और अगर ये सब आपस में कम्पैटिबल न होते तो मैं कभी यह सब नहीं कर पाता। मैंने एक ट्रेनिंग‑ऐप भी बनाई है जो मुझे कुछ वेट‑ट्रेनिंग कराती है—वैसा ही जैसा Google Health Connect में मिलता है—और ये सब एक साथ Google Health Connect में फ्लो कर जाता है। फिर मैंने एक डैशबोर्ड‑ऐप बनाया जो Health Connect से ये सारी डाटा पढ़ता है, सम्बन्ध निकालता है और कुछ सुझाव देता है, जैसे: 'ठीक है, कई पैरामीटर ऐसे हैं कि तुम्हें फैट कम करना चाहिए।'
हाँ।
क्या वह वास्तव में हुआ? अगर हाँ तो अच्छा; अगर नहीं, तो यहाँ कुछ पैरामीटर हैं जिन्हें हम ट्यून कर सकते हैं। उदाहरण के लिए: 'ठीक है, तो हो सकता है कि जो कैलोरी‑बर्न का कैलकुलेशन है दौड़ते समय वह सही ना हो—तो हम उसे थोड़ा एडजस्ट कर लेते हैं।'
हाँ।
और यह सब सिर्फ Google Health Connect की वजह से ही काम कर पाता है।
शानदार।
और एक और बात यह है कि Google Health Connect डेटा का एक दूसरा बड़ा हिस्सा भी है—नामकरण थोड़ा अजीब है। एक हिस्से को Health Data कहा गया है और दूसरे को अब Medical Resource। और यह वाकई थोड़ा अलग‑सा है क्योंकि एक तरफ Fitness और Wellness‑टाइप के डेटा हैं (जैसे फिटनेस‑ट्रैकर्स) और दूसरी तरफ वास्तव में चिकित्सकीय/डॉक्टरी चीजें हैं।
यानि असल में लैब‑रिपोर्ट्स और चिकित्सकीय जानकारियाँ, बिल्कुल।
उसी में परमिशन सिस्टम भी अलग है। अगर किसी ऐप के पास लिखने का अधिकार है तो वह मेडिकल डेटा पर लिख सकती है, जबकि आप किसी ऐप को सिर्फ कुछ खास केटेगिरीज़ का पढ़ने का अधिकार दे सकते हैं। वहाँ कई रोचक चीजें हैं: एलर्जी, डॉक्टर‑विजिट्स, डॉक्टरों के बारे में डेटा, रोग, टीकाकरण, लैब‑नतीजे, दवाइयाँ, मेडिकल प्रक्रियाएँ, पर्सनल डेटा, गर्भावस्था, वाइटल‑पैरामीटर और एक श्रेणी 'सोशल‑एनैम्नेसिस' यानी Social History भी है। मैंने Health Connect Toolbox में JSON‑उदाहरण देखे और मेरे सभी दोस्त जिन्होंने उसे देखा वे हँसते हुए बोले: 'ये तो पूरा बेवकूफी है—Social History!' [हँसता] लेकिन उदाहरण के तौर पर Social History में लिखा जा सकता है कि बचपन में तुम पैसिव सिगरेट‑धुएँ के संपर्क में रहे थे।
ठीक है, एक पल रुको।
हाँ।
यह बात मेरे लिए भी फिर से बहुत 'Watch Dogs' वाली लगी, जैसा तुमने इसे पेश किया—वह पूरी तरह से Watch Dogs‑कोडेड लग रहा था। [हँसता]
यह वही तरह की चीज़ है जो Watch Dogs में दिखती।
हाँ, सही। फिर कुछ ऐसा होगा कि: 'ओह हाँ, यहाँ—तुम्हारा भाई...
वर्तमान में XY से निपट रहा है' या कुछ ऐसा। हाँ।
लेकिन जैसा कहा, यह अलग किस्म की चीज़ है और मैंने कभी कोई ऐप नहीं देखी जो इसे यूज़ करे—सिवाय मेरी खुद की ऐप्स के—क्योंकि यह बस एक डेटाबेस है। यह कुछ हद तक इलेक्ट्रॉनिक पेशेंट‑रिकाॅर्ड के बराबर है, जैसा अमेरिका में है और हमारे यहाँ भी होता है। और सच में मैं इनमें से एक फीचर अपने सिस्टम में इस्तेमाल करता हूँ—दवा लेने के रिकॉर्ड के रूप में। वहाँ थोड़ी परेशानी है: यह असल में चिकित्सकीय चीजों के लिए है, न कि 'मैंने खुद मापा' के लिए। इसलिए वहाँ कोई रिकॉर्ड‑टाइप नहीं है जो सीधे कहे: 'मैंने दवा ली।'
वहाँ यह रिकॉर्ड होता है कि दवा निर्धारित की गई है और किस तरह ली जानी चाहिए, और एक डाटाटाइप होता है जो बताता है कि नर्स ने यह दवा दी ताकि उसे लिया जाए। पर डॉक्युमेंटेशन में वे इस बात पर ज़ोर देते हैं कि चिकित्सा‑दर्शनिक नज़रिए से 'मुझे दवा दी गई' और 'मैंने दवा ली' में फर्क है।
हाँ।
पर मुझे इससे फर्क नहीं पड़ता। [हँसता]
हाँ।
मैं बस Medication Administration Record भर देता हूँ और मेरी ऐप में यह दिखता है कि 'मैंने ली'—न कि 'मुझे दी गई'—
किसी ने तुम्हारे घर आकर यह तुम्हें दी थी।
हाँ, बिल्कुल। और यह वाकई बहुत जबरदस्त है। मैं बस एक छोटा सा झलक देना चाहता था। मेरे पास ऐसे डिवाइस हैं जिनकी मदद से, अगर ज़रूरत पड़ी तो मैं वज़न कम भी कर सकता हूँ। और कुछ चीज़ें तो सिर्फ सुविधा के लिए हैं। जैसे अगर मेरी ऐप मुझसे पूछे: 'अरे क्या तुमने दवाई ली?'—मैं अक्सर इन्हें उठने के बाद लेता हूँ, हालाँकि थ्योरी में जरूरी नहीं पर प्राय: मैं उठते ही ले लेता हूँ। और अगर दिन में कहीं भी मैं ऐप खोलूँ और वह मुझसे पूछे: 'आज तुमने दवा ली?'—
हाँ।
और जब मैं 'हाँ' दबाता हूँ तो मुझे विकल्प मिलता है: क्या तुम एक समय दर्ज करना चाहोगे या यह उठने के बाद हुआ था?
हाँ।
अगर मैं 'उठने के बाद' चुनता हूँ तो वह Google Health Connect के डेटा से पढ़ता है कि मेरे ट्रैकर ने मेरी नींद कैसे रिकॉर्ड की थी। इससे यह गणना की जा सकती है कि मैंने दवा कब ली, भले ही मुझे याद न हो, क्योंकि किसी वक्त मैं जाग चुका था। और मैं जानता—
यह बहुत बढ़िया है। एक छोटी‑सी बात के तौर पर: मैं सच में अपने फोन की 'स्लीप‑प्रोबेबिलिटी' प्रेडिक्शन का भी इस्तेमाल करता हूँ—जो हर फोन किसी तरह देता है—और उसे Home Assistant में ट्रिगर के रूप में यूज़ करके दिन के अंत में कई चीज़ें ऑटोकर देता हूँ। जैसे चेक करना कि सभी लाइटें बंद हैं या नहीं, और बाकी मेंटेनेंस‑टास्क चलाना, कुछ बूलियन‑हेल्पर्स को ऑन/ऑफ करना आदि।
जैसा कहा, तो यह—
यह वाकई बहुत‑बहुत उपयोगी है।
यह बेहद काम का है और इसलिए मेरी डैशबोर्ड‑ऐप में यह भी है कि जैसे ही मैं उसे खोलता हूँ—क्योंकि वहाँ कोई आसान 'एक्सपोर्ट' का तरीका नहीं है—मेरी डैशबोर्ड सब कुछ बता देती है जो उसके पास है, बशर्ते मैं लोकल‑नेटवर्क पर उस सर्वर से जुड़ा होऊँ। और सर्वर तब उसके साथ कुछ मज़ेदार काम करता है जिन पर मैं अभी भी काम कर रहा हूँ। एक छोटा सा फोर्शैडो दे दूँ: भविष्य में यह सिर्फ मेरा खाना ट्रैक करना ही नहीं करेगा, यह मुझे डायनामिक तरीके से बदलते हुए सुझाए गए आहार‑प्लान भी देगा।
वाह।
यह सब डायनामिक रूप से बदलेगा, यह इस बात पर निर्भर करेगा कि आज मैंने क्या किया, कितनी कैलोरी खर्च की, कितना पानी पिया आदि।
बिलकुल। और मैं सोचता हूँ यह काफी क्रेज़ी है क्योंकि आप बहुत आगे तक सोच सकते हो: आपने क्या खरीदा है—उसे भी शामिल कर सकते हैं—या आपका कैलेंडर क्या कहता है? और आप पहले से अनुमान लगा सकते हैं कि कितनी संभावना है कि अब तुम्हें बड़ा खाना पकाने का मन नहीं होगा—
हाँ।
—जब तुम घर आ चुके हो? यह तो—
बिलकुल।
यह पूरी तरह मानवीय और सामान्य है कि आप कहें: 'ठीक है, तो उसके लिये कुछ पहले से तैयार रखा गया है।' या यह भी ध्यान में लिया जाए कि आप देख ही नहीं रहे हैं—'अरे, अब तो आठ बज चुके हैं और ऐप तुम्हें सब से बड़ा खाना सुझा रही है'—और तब आप कह सकते हो कि 'नहीं, अब मन नहीं है'। ऐसे बहुत से फीचर हैं जिन्हें आप इन भविष्यवाणियों में जोड़ सकते हैं।
बिलकुल।
यह तो वाकई ज़बरदस्त है। अब बस एक महँगा स्मार्ट फ्रिज चाहिए जो अंदर की सामग्रियाँ ट्रैक करे।
मैं उस पर उत्साहित नहीं हूँ। मैंने इस पर सोचा तो है—कई सालों से कभी‑कभार यह विचार आता रहा कि बिना किसी भारी organisatorischen झंझट के कोई स्मार्ट फ्रिज कैसे बनाऊँ जो जानता हो कि उसमें क्या है—पर मैं कभी सफल नहीं हुआ और मैंने इसे छोड़ दिया। मैं 'फ्रिज में क्या है' वाली राह नहीं अपनाऊँगा। बल्कि मैं ऐसे काम करूँगा कि जैसे मैंने अभी अचानक यह सोडा खरीदी और पी ली—मैं बस उसे ट्रैक कर लूँगा और इससे प्लान डायनामिक रूप से एडजस्ट हो जाएगा कि आज मुझे क्या खाना चाहिए या नहीं।
हाँ, सही। और तुम कम से कम अपनी सारी रसीदें भी ट्रैक करके सिस्टम में डाल सकते हो। हाँ।
जैसा कहा, Open Food Facts के साथ भी मेरी ऐप्स अच्छी तरह काम करती हैं। मैंने Open Nutri Tracker में ऐसी सुविधाएँ डाली हैं कि मैं सीधे Open Nutri Tracker से Open Food Facts और Open Prices में योगदान कर सकूँ। वरना मैं दो‑अलग ऐप्स खोलकर किसी इंटरफेस में हाथ नहीं घुसेड़ता—मैं बस स्कैन करता हूँ और ऐप कहती है, 'रुको, Wieland, यहाँ कुछ डेटा गायब है, क्या तुम इसे भरकर भेजना चाहोगे?' और मैं भरकर भेज देता हूँ—हाँ, मैंने इसे पी लिया।
हाँ, बहुत अच्छा।
और इसके साथ ही सब काम हो जाता है। फिर Health Connect में एक तीसरी छोटी चीज भी है—ये कुछ छोटे‑से डेटा प्वाइंट्स हैं जिन्हें लिखने/पढ़ने के लिए एक अलग परमिशन चाहिए होती है। और एक्सेस के हिसाब से यह दिलचस्प है: अगर किसी ऐप को पढ़ने की अनुमति है तो वह अन्य सभी ऐप्स से पढ़ सकती है। साथ ही हमेशा रिकॉर्ड होता है कि कौन‑सी ऐप ने यह लिखा—यह एक स्टैण्डर्ड मेटा‑टैग की तरह होता है। डिवाइस का नाम दर्ज हो सकता है और यह भी कि एंट्री किस तरह की है: manually recorded, automatically recorded, inferred। और मुझे यह आइडिया मज़ेदार लगा कि सैद्धान्तिक रूप से ऐसा एंट्री आ सकता है—फिर से Watch Dogs वाला सीन—उदाहरण के लिए Device Type: Amazon Echo, Recording Type: manually recorded, Activity Type: sexual activity। [हँसता]
वैसा ही एक बेतुका एपिसोड पहले भी था जिसका नाम कुछ ऐसा ही था।
यह डेटा‑मॉडल की वजह से संभव है कि ऐसा एंट्री आ सकता है।
हाँ।
और हर ऐप, अगर उसे पढ़ने की अनुमति है, तो दूसरी सभी ऐप्स से पढ़ सकती है। वह अपने लिए लिख सकती है और केवल अपने लिए डिलीट कर सकती है—किसी अन्य ऐप की एंट्री हटाना आप किसी को भी नहीं दे सकते। और Health Connect का कूल फ़ीचर यह है कि आप Aggregate Data माँग सकते हैं और यह विभिन्न ऐप्स के डेटा को स्मार्टली मिलाकर देता है। पर, जैसा तुमने पहले कहा, यह स्टेप्स के मामले में अभी उतना अच्छा काम नहीं करता। काफी समय तक मेरा डैशबोर्ड मुझे बताता रहा: 'Wieland, तुम कमाल हो—तुम हर दिन इतने कदम चल रहे हो कि यह ट्रेनिंग माना जाएगा, आज तुम्हें मसल‑ट्रेनिंग करने की ज़रूरत नहीं है।' और मैं सोच रहा था: 'क्या मैं सच में इतना कमाल हूँ?' [हँसता] फिर पता चला कि मैंने अपने फोन को भी स्टेप्स लिखने की अनुमति दे रखी थी और मेरी फिटनेस‑ट्रैकर ऐप भी स्टेप्स लिख रही थी। असल में सिस्टम यह समझकर समायोजित कर सकता है कि अगर दो ऐप्स ने एक ही समय अवधि में स्टेप्स लिखी हैं तो उन्हें जोड़ना नहीं चाहिए—पर अभी यह सही तरह से काम नहीं कर रहा।
हाँ, हाँ।
तो मैंने अपने फोन को स्टेप्स लिखने से रोक दिया और अब केवल मेरी फिटनेस‑ट्रैकर ऐप ही स्टेप्स लिखती है।
हाँ, क्योंकि असल में तो मकसद यही था कि आप अलग‑अलग सोर्सेज के डेटा को फ्यूज़ कर सको—कुछ लोग ट्रैकर पैर पर पहनते हैं ताकि उन्हें फिटनेस‑मोटिवेशन/सटीक डेटा मिल सके। फोन, स्मार्टवॉच और पैर‑ट्रैकर वगैरह होने पर सही तरह से समेकन तो होना चाहिए, बस अभी कुछ दिक्कतें हैं।
इसलिए, हाँ, यह संभव है और बाकी सब वास्तव में बहुत बढ़िया है। API में एक फ़ंक्शन है: 'कृपया किसी प्रारम्भ‑समय से अंत‑समय तक के aggregated steps पढ़ो, कुल मिलाकर समेकित करके'—यह बहुत अच्छा है। और एक और बात, ऐप्स सामान्यत: सिर्फ पिछले 30 दिनों तक की जानकारी देख सकती हैं; आप अतिरिक्त परमिशन दे कर उन्हें हमेशा का ऐक्सेस दे सकते हैं। और तीसरी खास कैटेगरी में GPX‑ट्रैक्स भी आते हैं। मुझे यह बहुत पसंद आया क्योंकि मैं किसी और प्रोजेक्ट के लिए अपनी वॉक/हाइक की रूट रिकॉर्ड करना चाहता था और उसे हार्ट‑रेट जैसे डेटा के साथ ओवरले और एग्रीगेट करना चाहता था।
हाँ।
मेरे फिटनेस‑ट्रैकर की ऐप में यह ठीक से नहीं हो पाता था। अगर किस्मत अच्छी रहती तो मुझे कोई सा‑न‑सा GPX‑ट्रैक मिलता था पर वह भी घटिया था क्योंकि मैं उसे केवल क्लाउड‑सिंक करने पर ही एक्सपोर्ट कर पाता था—यह मुझे बिलकुल पसंद नहीं आया। लेकिन ट्रेनिंग‑ट्रैक्स Health Connect में एक डाटाटाइप हैं जिन्हें आप तीसरी कैटेगरी की अलग परमिशन के साथ लिख सकते हैं और फिर कोई भी ऐप जिनके पास पढ़ने का अधिकार है उन्हें पढ़ सकती है। इसलिए मैंने अपना छोटा‑सा एक्सपोर्टर बना लिया।
बहुत बढ़िया।
और इसके साथ मेरे पास और भी मस्त योजनाएँ हैं। सच में, दोस्तों, Google Health Connect वाकई में कमाल का है।
Wieland, तुम कल्पना भी नहीं कर सकते कि मैं असल में कितना उत्साहित था, जब मैंने हाल ही में, उह्म, रिलीज नोट्स और चेंजलॉग पढ़े। शायद यह थोड़ा अजीब गतिविधि है—इसे पढ़कर इतने ज़ोर से खुश होना।
मैं भी करता हूँ।
ठीक।
पर सवाल यह है: किस सॉफ़्टवेयर की बात हो रही है?
वह असल में ESPHome के बारे में था।
ठीक।
दरअसल मैंने, उह्म, उस वर्ज़न में देखा, सही से कहूं तो 2026.5.0b1, यानी एक बीटा वर्ज़न—
ठीक।
मैंने सीधे पढ़ा: 'ओह हाँ, एक ऐसा बंदा है, जिसे मैं GitHub के शॉर्ट-नेम से काफी पहले से अच्छे से जानता हूँ—'
हम्म।
मैं कहूँगा कि उसने आखिरकार अपना कोड मर्ज करवा लिया। वास्तव में यह अब मेन वर्ज़न में आ गया है — यानी Zigbee सपोर्ट।
ठीक।
ESPHome में। अब यह बस चल जाता है।
ठीक।
पहले यह काफी सीमित था और केवल एक ही चिप तक सिमटा हुआ था, जिसे बहुत कम लोग इस्तेमाल करते हैं — वो NRF चिप। मगर अब यह उन चिप्स के लिए भी काम करने लगा है, जो कहीं ज़्यादा आम हैं, जैसे कि अब ESP32C6 और H2। इनमें डिफ़ॉल्ट तौर पर सीधे Zigbee सपोर्ट आता है।
हम्म।
और इसका मतलब यह है कि अब तुम अपने प्रोजेक्ट्स को भी सीधे इसी के साथ सुसज्जित कर सकते हो। और यह वास्तव में बहुत शानदार है क्योंकि अब तुम आसानी से उन सभी सेंसरों और बाइनरी इनपुट्स को Zigbee के जरिए मैप कर सकते हो — यानी मोशन सेंसर, डोर/विंडो कॉन्टैक्ट, रिले‑टाइप आउटपुट्स और साधारण डिजिटल इनपुट्स आदि। साथ ही तुम्हारे पास अब भी उन सभी बाहरी लाइब्रेरीज़ और उनके फीचर्स का लाभ बना रहता है, मतलब तुम अपनी प्रयोगी मॉड्यूल्स और ड्राइवर्स, जैसे कि तापमान या CO₂ मॉड्यूल आदि, वैसे ही जोड़ सकते हो जैसे पहले होते थे। मैं अभी अपनी सॉफ़्टवेयर को थोड़ा‑सा री-राइट कर रहा हूँ ताकि वह नए Zigbee सपोर्ट को ठीक से हैंडल कर सके और किसी भी नई कॉन्फ़िगरेशन के अनुरूप हो। असल में पहला ट्राय था बाहरी कंपोनेंट के जरिए — जिसके ज़रिये दूसरे फोर्क्स को सीधे एक कस्टम कंपोनेंट के रूप में जोड़ना संभव था — पर मेरे मामले में वह प्रयास खासा सफल नहीं रहा। तकनीकी रूप से वह रास्ता पहले से मौजूद था, पर वह केवल एक्सटर्नल कंपोनेंट के जरिए ही होता था और मेरे सेटअप पर वह कभी काम नहीं किया। मैंने काफी ट्रबलशूट किया पर कभी हमें पता नहीं चला कि असल में किस वजह से वह फेल हुआ। लेकिन अब यह, कहें तो, फ़ाइनल हो चुका है। इसे मेन ब्रांच में मर्ज कर दिया गया है और अब यह सिर्फ बीटा ब्रांच तक सीमित नहीं है। मैं इसके बारे में बहुत उत्साहित हूँ क्योंकि अब तक तुम ज़्यादातर मामलों में केवल Wi‑Fi का ही उपयोग कर पाते थे। ESPHome‑संगत डिवाइसेज़ में से केवल कुछ ही ऐसे थे जिनमें ईथरनेट का विकल्प था — शायद केवल WaveShare और किसी एक‑दो अन्य निर्माता के बोर्ड ही वास्तविक रूप से ESP32‑टाइप और ईथरनेट सपोर्ट करते थे। यह सैद्धांतिक रूप से संभव था पर आम तौर पर लोग Wi‑Fi पर ही निर्भर रहते थे। मैंने अपनी तरफ से एक प्रेजेंस‑सेन्सर खुद बनाया और प्रोग्राम भी कर लिया है — यह अब बखूबी काम कर रहा है।
ओह, बढ़िया।
मैं कहूँगा कि यह वाकई में बेहद प्लग‑एंड‑प्ले जैसा है। तुम्हें अब Arduino IDE खोलने की ज़रूरत नहीं है और यह नहीं लिखना पड़ता: 'ठीक है, मैं अब loop में ये सारे कमांड डालूँ ताकि यह चल पड़े' — बल्कि यह बिलकुल सरल है। तुम बस अपनी YAML फ़ाइल बनाते हो, उसे ESP32 पर अपलोड करते हो और हो गया। यह बस काम करता है। यह उन लोगों के लिए भी बेहतरीन है जिनको ज़्यादा टेक्निकल जानकारी नहीं है। बस इतने आसान तरीके से समझ लो।
बहुत बढ़िया। [हँसते] सब दर्शक इसे इंस्टॉल कर लें।
सीधा डाउनलोड। [हँसते]
कूल। हाँ, अच्छा, यह थोड़ा अपमानजनक लग रहा है।
नहीं, नहीं, नहीं।
कूल।
यानी यह बेहद शुरुआती‑दोस्ताना है। तुम बस अपने टेक्स्ट‑एडिटर में कुछ पंक्तियाँ लिखते हो, उसे अपलोड करते हो और C जैसी किसी भाषा में कोड नहीं लिखनी पड़ती। बस अपनी डिक्लेरेटिव भाषा का इस्तेमाल करो और हो गया — गलत होने की जगह कम है, ऐसा मैं कहूँगा।
हम्म।
और यह वाकई शानदार है।
यह कमाल है।
और इससे बहुत पैसा बचाया जा सकता है, जब तुम अपना खुद का प्रेजेंस‑सेन्सर या दूसरे सेंसर खुद इकट्ठा कर बनाते हो, खासकर अगर तुम्हें कुछ ज़्यादा स्पेशल
या तो तुम किसी वेरिएबल को ट्रैक करना चाहो। उदाहरण के तौर पर हवा में CO₂ का स्तर भी एक मुश्किल मामला है, क्योंकि वहाँ कीमत और रिज़ल्ट की गुणवत्ता के बीच आम तौर पर सीधा संबंध होता है। यह बहुत झंझट वाला है क्योंकि कोई छोटा सा ट्रिक नहीं है।
हाँ।
कोई जादू नहीं है — दो या तीन यूरो का कोई कमाल का CO₂‑सेंसर नहीं मिल जाएगा जो बिल्कुल सही नतीजे दे। यह सब सीधा‑सीधा स्केल करता है। सस्ते दो‑यूरो वाले सेंसर अक्सर अलग चीज़ें नापते हैं और वहाँ से CO₂‑आंकड़े मात्र अनुमान होते हैं; वे अक्सर 'पी‑माल‑दाउमन' अंदाज़े लगाते हैं। जबकि तीस यूरो के आसपास के सेंसर अपेक्षाकृत ठीक नतीजे देते हैं। उदाहरण के तौर पर अक्सर सिफारिश किया जाने वाला सेंसर SCD40 है। और फिर यहाँ से लेकर बहुत महंगे सेटअप्स तक सब मौजूद हैं — CO₂ मापने के लिए आप हजारों यूरो तक खर्च कर सकते हैं। और हाँ, जब आप इतने पैसे खर्च करते हो तो नतीजे शानदार होते हैं, पर इसका मतलब यह नहीं कि कोई छोटा‑सा शॉर्टकट मौजूद है जिससे कम पैसे में वही स्पीड मिल जाए।
ठीक।
और इसके ज़रिये तुम सचमुच शानदार सेंसरों को आसानी से अपने Home Assistant या किसी भी अन्य सिस्टम से जोड़ सकते हो, और यह काफी शानदार है। उदाहरण के लिए मैंने खुद एक वाटर‑लीक सेंसर तार के साथ बनाया और उसे प्रोग्राम भी किया।
ठीक।
वहाँ Shelly से, असल में उनके वाटर‑लीक सेंसर के लिए तुम एक तरह का ऑडियो केबल खरीद सकते हो, जिसकी बाहरी आवरण आंशिक रूप से विद्युत प्रवाह कर सकती है। यह एक बहुत ही दिलचस्प प्रोडक्ट है। यह मूलतः रेसिस्टेंस नापने की एक तरह की एक्सटेंशन है। यानी कि, (खाँसी)
वाटर‑डिटेक्टर ऐसे काम करता है: तुम बस दो धातु संपर्कों के बीच का रोध नापते हो।
हाँ।
और यदि तुम्हें बहुत प्रीसीज़न की ज़रूरत नहीं है — जो इस केस में ऐसा ही है क्योंकि यहां केवल यह पता लगाना है कि पानी है या नहीं — तो इसे सादे रेसिस्टेंस से भी किया जा सकता है। तुम बस एक सिंपल वोल्टेज‑डिवाइडर बना लेते हो, केबल के एक पिन और ESP32 की पॉवर सप्लाई के बीच। फिर उस वोल्टेज‑डिवाइडर के मिड‑पॉइंट को अपने ADC से मापो और ADC से मिलने वाले वोल्टेज के आधार पर तुम वोल्टेज‑डिवाइडर के फॉर्मूले का उपयोग करके उस रेसिस्टेंस को निकाल सकते हो। फिर उसी से यह पता चल जाता है — पानी है या नहीं।
आहा।
और तुम रेसिस्टेंस नाप सकते हो।
ठीक। हाँ।
तो।
हाँ, मैं था, मैं था।
तुम सच में कुछ बेसिक इलेक्ट्रॉनिक्स कर के बस मोटा‑मोटा अंदाज़ा लगा सकते हो कि वहां कितना रेसिस्टेंस है। मतलब Pi‑mal‑Daumen अंदाज़ा कि ठीक कितना प्रतिरोध है। खासकर उस सेंसर‑केबल के मामले में यह मजेदार है। मैंने रिसर्च करके देखा कि लगभग एक मेगाओम एक बहुत अच्छा थ्रेसहोल्ड है — उससे ऊपर होने पर आमतौर पर पानी नहीं माना जाता और उससे नीचे होने पर केबल पर पानी मौजूद माना जाता है। और हाँ, यह जो केबल है वह एक ऑडियो केबल है; शायद मुझे यह पहले बता देना चाहिए था, क्योंकि यह असल में 3.5 मिमी की जैक जैसी चीज़ है।
ठीक।
यह केबल टिप और स्लीव का ही उपयोग करता है — यानी टिप और स्लीव के बीच का सिग्नल। तुम इसे वैसे इस्तेमाल कर सकते हो जैसा चाहो। मैं ठीक नहीं जानता कि रिंग का क्या रोल है; शायद वह अलग से जुड़ा न हो या किसी दूसरे कंडक्टर के साथ कनेक्ट हो — इसमें मैं पक्का नहीं हूँ। फिर भी इसे आसानी से दूसरे मकसदों के लिए यूज़ किया जा सकता है और खुद से मापा जा सकता है। इस केबल का बड़ा फायदा यह है कि यह सिर्फ एक प्वाइंट पर पानी नापने तक सीमित नहीं रहता, बल्कि तुम करीब दो मीटर या डेढ़ मीटर जितनी लंबाई पर पानी का पता लगा सकते हो। इसके अलावा तुम इससे दरवाज़े के कॉन्टैक्ट भी जोड़ सकते हो, जो अलग‑बैटरी नहीं मांगेंगे; और Smart Home में यह एक आम झंझट, 'कौन सी बैटरी बदलनी है', को कम कर देता है।
हाँ, हाँ।
तो फिर, केवल किसी खास डिवाइस की ज़रूरत पड़ सकती है, कम‑से‑कम सबसे बुरे हाल में। पर इसे तुम इससे टाल भी सकते हो: कहीं घर के अंदर एक सेंट्रल ESP32 लगा दो और उस कमरे के सारे सेंसर वहीं पर कनेक्ट करा दो, ताकि सब सिग्नल वहीं एकत्रित हो जाएँ। यह तरीका काफी आरामदायक और सहज भी होता है।
हाँ, जोना, हम सिर्फ़ 'we have been cooking' ही नहीं कर रहे थे। न सिर्फ़ हम, जैसा कि आजकल के लोग कहते हैं, 'लॉगिन' कर रहे थे और 'कुकिंग' कर रहे थे, बल्कि हाल ही में Google I/O हुआ था — Google की वही कॉन्फ़्रेंस जहाँ वे अपने आप को बहुत शानदार बताकर बताते हैं क्या निकला और आगे क्या आने वाला है। और सच कहूँ तो, Holy Moly, इस बार यह वाकई एक तरह की Google AIO जैसी चीज़ थी। तो—
[हँसता है] हाँ।
यह सब बस AI के बारे में ही था।
तो—
बिलकुल बस।
हाँ।
तो, मतलब— यानि—
जो मैंने सुना, उदाहरण के तौर पर, वह यह था कि Google की सर्च-बार अब धीरे-धीरे एक तरह का यूनिवर्सल टूल बनती जा रही है। और यह थोड़ा अजीब लगा कि उन्होंने कुछ चीज़ें — क्या उनका नाम Google Books था शायद — अलग किसी इवेंट पर रिलीज़ कर दीं। तकनीकी तौर पर ऐसा लगा कि रिलीज़ साइकिल में कुछ गड़बड़ी हुई थी, जैसे उसके ठीक पहले किसी और चीज़ की घोषणा हो गई हो…
बताया था।
बिलकुल, हाँ, यही एक बड़ी बात थी जिस पर हमें बात करनी थी। वहाँ इतनी सारी बातें थीं कि सब कुछ बहुत कूल और असरदार लग रहा था। सच कहूँ तो यह अब थोड़ा थकाने लगा है, क्योंकि मूल बात यह है कि हर Google‑प्रोडक्ट अब या तो Google के अल्ट्रा‑सब्सक्राइबर्स के लिए 'बस सब कुछ बता दो' जैसे फीचर पाता है, या हर सर्च बॉक्स एजेंट की तरह काम करने लगता है। आपने सही कहा — वे गर्व से बता रहे हैं कि बीस साल बाद अब सर्च बॉक्स की फंक्शन बदल रही है। और Google इस तरह से बाज़ार पर कुछ हद तक कब्ज़ा करना चाहता है, शायद क्योंकि उन्हें थोड़ी चिन्ता है कि लोग अब जो पहले गूगल करते थे, वह सवाल ChatGPT जैसे सिस्टम में डालना शुरू कर रहे हैं।
हाँ।
और इसलिए Google अब इस हिस्से को भी लेना चाहता है — जैसे वे कह रहे हैं, 'हमारी सर्च-बार भी वही है।' यह सिर्फ AI मोड से आगे जाकर उस सर्च-बॉक्स को एक बातचीत की शुरुआत बनाता है, जहाँ तुम कुछ टाइप करते हो और वह Gemini के साथ एक संवाद शुरू हो जाता है। सचमुच प्रभावित करने वाला है — Gemini Omni, वह मॉडल जो सबकुछ कर सकता है। ठीक वैसा जैसा GPT‑4.0 के साथ वादा किया गया था; याद हो, उस में O का मतलब Omni था।
हाँ।
और वह सब कुछ से सब कुछ कर सकता है — वीडियो जनरेट कर सकता है जो भौतिक रूप से grounded दिखने चाहिए। यह वाकई जबरदस्त है, पर बाकी चीज़ें भी थोड़ा एजेंटिक हो जाती हैं। YouTube में भी अब एक फ़ीचर है जहाँ तुम सीधे लिखते हो, 'मुझे साइकिल चलाना समझाओ,' और सर्च YouTube से संबंधित क्लिपों का एक संकलन दिखा देता है — या कहता है 'इसे क्लिक करो,' और वही वीडियो सही सेकंड से चलने लगता है जहाँ वह चीज़ दिखती है। बस, यही।
ओह वाह,
और दूसरी बात यह है कि सब कुछ एजेंटिक होता जा रहा है। Google अब ऐसी चीज़ लॉन्च करना चाहता है जो तुम्हारे लिए बैकग्राउंड में काम करे। यह बहुत ही एजेंटिक है — मूल फोकस बस इतना है: 'Google को कुछ बता दो, और वह तुम्हारे लिए वो काम कर देगा।'
आह, हाँ।
पर हाँ, मुझे मार्केटिंग वर्डिंग थोड़ी अजीब लगी जब उन्होंने फिर से उन स्मार्ट ग्लासेस की घोषणा की। पिछले साल भी Google I/O में स्मार्ट ग्लासेस की घोषणा हुई थी — हम याद करते हैं, हमने उस पर बात की थी।
हाँ।
हाँ, Google Glasses वापस आ रहे हैं। और इस Google I/O में उन्होंने बताया: 'वैसे, स्मार्ट ग्लासेस अभी थोड़ी देर बाद आएँगे, पर हम एक डेरिवेटिव अभी इस पतझड़ में जारी कर रहे हैं — ऑडियो‑ओनली ग्लासेस।' वे बाकी वाले ग्लासेस की तरह ही हैं; इनमें माइक्रोफोन और कैमरा होता है — यह अक्सर लोगों को साफ़ समझ नहीं आया कि इसमें कैमरा भी है। बाकी सुविधाएँ वही हैं जो दूसरे स्मार्ट ग्लासेस में थीं, बस इसमें ग्लास में डिस्प्ले नहीं है।
हाँ, हाँ।
और वहाँ एक डेमो हुआ जहाँ एक महिला मंच पर खड़ी हुई और बोली: 'Hey Gemini, मैं उस जगह जाना चाहती हूँ जहाँ मैं हाल ही में वॉक पर गई थी...' — असल में उसने बस कहा: 'मैं उसके पास वापस जाना चाहती हूँ जहाँ मैं हाल ही में अपनी दोस्त के साथ पैदल चली थी।' और फिर Gemini ने जवाब दिया — मुझे माफ करना, जोना, सबको यह बहुत पसंद आया — पर मुझे वह हिस्सा बहुत डिस्टोपियन लगा। कृपया ऐसा मत करना।
हाँ।
फिर वे ग्लासेस अपने आप बोलने लगते हैं —
हाँ।
—जिससे Google दिखाना चाहता है कि यह कितना शानदार है और कि तुम्हें इसकी ज़रूरत है। ग्लासेस कहती हैं: 'बिलकुल, मैं तुम्हें उस ब्ला‑ब्ला पीक तक नेविगेट कर दूँगी जहाँ तुम सारा के साथ गये थे। तुम आम तौर पर इस समय अपने पसंदीदा शॉप से कॉफ़ी लेते हो — क्या मैं वह कॉफ़ी अभी ऑर्डर कर दूँ और तुम्हें उसी रास्ते से ले जाऊँ ताकि तुम समय पर पहुँच जाओ?'
अरे!
और फिर वह महिला कहती है: 'हाँ।' और तब कहा जाता है: 'ठीक है, मैंने DoorDash पर पिक‑अप ऑर्डर दे दिया है और अब मैं तुम्हें इस तरह नेविगेट करूँगी कि तुम उसी समय वहाँ पहुँचो जब वह तैयार हो जाएगा।'
भाई।
मैं नहीं चाहता कि मेरी ग्लासेस मुझसे कहें: 'वैसे, तुम आमतौर पर इस समय McDonald's पर खाते हो — क्या मैं तुम्हारा युज़ुअल मील वहीं से ऑर्डर कर दूँ?'
[हँसता है]
और जैसा मैंने कहा, खाने की डिलीवरी सर्विसेज के मामले में मैं हमेशा बहुत तंग‑हुआ रहता हूँ — मैं सोचता हूँ: 'यह कोई भी बर्दाश्त नहीं कर सकता।' [हँसता है] मतलब मैं कभी नहीं जाऊँगा और यहाँ हमारे लिए यह Lieferando ऑर्डर देने जैसा ही है।
उम्, क्योंकि यह कीमत बहुत बढ़ा देता है, क्योंकि यह महँगा पड़ता है—
मैं बस ऐसे casually कह रहा हूँ।
हाँ, यह तो बहुत ही ज़्यादा खर्चीला होता है — दुकान में जाकर सीधे खरीद लेने से बहुत महँगा। वहाँ हमेशा फीस होती है, फिर फीस, फिर सर्विस‑फी और सर्विस‑चार्ज — यही चक्र चलता रहता है।
और फिर मेरी ग्लासेस मुझसे पूछेंगी: 'अच्छा, उसे एक कॉफ़ी चाहिए? ठीक है, मैंने तुम्हारे लिए 12 यूरो की कॉफ़ी ऑर्डर कर दी है — जा कर उठा लो।'
हाँ।
कोई—मतलब यह उतना बड़ा नहीं है जैसे मैं 3500 डॉलर का सूट खरीद लूँ, पर मुझे ऐसा बिलकुल नहीं करना है।
हाँ, पर यह तो, मैं कहूँगा, व्यक्तिगत असिस्टेंट का एक तरह का स्थानापन्न है। किसी हद तक वह तो है, पर ज़रूरी नहीं कि इसे इतनी हद तक ले जाया जाए कि हर चीज़ मुफ्त या पेड‑फीचर के तौर पर चलने लगे। तुम कह सकते हो 'यह मेरे बजट में नहीं है' और फिर casually किसी सूट के लिए ऑर्डर करना भी संभव है — और एजेंट सीधे तुम्हारे बॉडी‑डाटा API से माप ले लेगा और कहेगा: 'ठीक है, मुझे अब पता है किस साइज में क्या मंगवाना है।' फिर तुम अपना सूट पाओगे और सब बढ़िया होगा। हाँ, यह अलग चीज़ें हैं, पर बुनियादी तौर पर इतना आसान हो जाएगा कि तुम कहोगे: 'मेरे स्टाइल के हिसाब से मुझे कुछ आवास दिखाओ, जैसा मैं आमतौर पर रहता/रहती हूँ,' और सिस्टम कहेगा: 'ठीक है, ये तीन‑चार ऑप्शन हैं,' और तुम कहोगे: 'हाँ, दिखने और दाम के हिसाब से ये ठीक हैं।' और सिस्टम उससे सीख लेता है और तुम्हें कभी यह झंझट नहीं करना पड़ता कि इंटरनेट पर जाकर खुद टाइम लगा लो — तुम बस उसे ऐसा करने दे देते हो।
हाँ।
और इस तरह दिन में तुम्हें फिर से काफी समय मिल जाता है।
बिलकुल, बिलकुल। पर जैसा मैंने कहा, इस Ramp— यानी इस चीज़ का विरोधाभास मेरे लिए है: मुझे ये AI चीज़ें बहुत अच्छी लगती हैं, पर वही rampant consumerism मुझे बहुत बेवकूफ़ी जैसा लगती है।
हाँ, मैं भी ऐसा ही सोचता हूँ, पर ज़रूरी नहीं कि इसे इतनी दूर तक ले जाया जाए। इसे इस स्तर तक इस्तेमाल करना अनिवार्य नहीं है।
हाँ।
पर समस्या यह है कि तुम एक नया attack‑vector अपने ऊपर खोल देते हो: तुम सिर्फ ज़्यादा डेटा साझा नहीं करते, बल्कि विज्ञापनों के लिये भी कहीं ज़्यादा संवेदनशील बन जाते हो।
हाँ।
क्योंकि, शक की स्थिति में, कुछ कंपनियाँ उस कंपनी के साथ साझेदारी कर सकती हैं जिसने तुम्हारी स्मार्ट ग्लासेस या वह KI बनाया है।
हाँ।
और तब सीधे सब कुछ खत्म हो जाता है।
यह बिल्कुल वही है जो मैं कह रहा हूँ। खासकर जब मैंने यह देखा कि 'तुम शॉपिंग को और मज़ेदार बना सकते हो बिना खुद सर्च किए' — उस डेमो को देखकर मेरी प्रतिक्रिया थी: 'ओह मेरे भगवान, मैं एक स्ट्रॉ‑हैट चाहता हूँ और मैं चाहता हूँ कि उसमें ये‑ये‑ये बातें हों, और एजेंट इतना स्मार्ट है कि वह बतायेगा कि यह प्रोडक्ट मेरी सारी शर्तें पूरा करता है।' और मैं सोच रहा था: 'ठीक है, पर कैसे पता चलेगा कि कहीं कोई सस्ता विकल्प नहीं जो वही काम कर दे?' … [आह भरता है]
ठीक है। यह मुझे थोड़ी नाखुशी देता है, पर यह स्पष्ट था कि यह आएगा — आखिरकार Google एक ऐसी कंपनी है जो मूल रूप से विज्ञापन पर ही आधारित है। यह तो साफ़‑साफ़ समझ आता है।
हाँ।
एक और घोषणा भी थी जो मुझे दिलचस्प लगी और जो मुझे लगता है दिशा दिखाती है। यह काफी भविष्यवादी है: Google सर्च में जल्द ही यह संभावना आएगी कि जब तुम कुछ पूछो, तो Google लाइव, कैसे कहें, Explainer‑UI या सिमुलेशन जैसा कुछ प्रोग्राम कर सके। और यह कूल है। मुझे यह देखना रोचक लगा कि यह कहाँ जाता है। हाल ही में मैंने OpenUI.com जैसी चीज़ देखी — यह सच में अजीब है जब तुम इसके बारे में सोचते हो। मूल आइडिया यह है कि वहाँ अब एक नेटवर्क बन चुका है। तुम जानते हो, Open Claw का हाइप और सब — और अब हर कोई एक Claw‑एजेंट चाहता है।
हाँ, और Google भी अब वहाँ अपना ही कुछ घुमाने की कोशिश कर रहा है।
हाँ, पर एक Open Claw‑OS को यह OpenUI.com सक्षम करेगा। सुनो, जोना, यह वाकई पागल आइडिया है। मुझे नहीं पता कि टेक्नोलॉजी उस दिशा में जाएगी या नहीं — यह समझ में आता है पर दूसरी ओर यह कुछ हद तक फिज़ूलखर्ची भी लगती है। मेरे जैसे पुराने प्रोग्रामर के लिए यह अजीब है: कल्पना करो, Open UI बस एक स्टैण्डर्ड है जिसे तुम किसी भी LLM के साथ इस्तेमाल कर सकते हो — यह सिर्फ़ एक डिस्क्रिप्शन‑प्रोग्रामिंग‑लैंग्वेज है जिसे तुम नेक्स्ट‑टोकन प्रिडिक्शन पर साइन्टैक्टिकली एन्फोर्स करते हो ताकि सिर्फ़ कुछ ही चीज़ें अगली बार प्रिंट हों। यह एक विवरणात्मक भाषा है जो UI को बताती है और दिखने में एक प्रोग्रामिंग भाषा जैसी है। तुम्हारा LLM इस UI‑डिस्क्रिप्शन को आउटपुट करेगा और एक खास renderer उसे रेंडर करेगा। अब आइडिया यह है कि Open Claw‑बेस्ड ऑपरेटिंग सिस्टम अपने टूल‑फंक्शन्स के साथ टेक्स्ट के बजाय हमेशा उस समय का UI‑डिस्क्रिप्शन आउटपुट करे। यानी—
ओह, यह किसी हद तक एक बड़ा स्टेट‑मशीन जैसा है।
बिलकुल। कहा जाता है कि यूज़र ने अभी इस बटन पर क्लिक किया, और अगली प्रतिक्रिया में यह बताएगा कि UI अब कैसा दिखता है।
हाँ हाँ, और यह सचमुच एक तरह का स्टेट्स‑ऑटोमेटा है। और फिर अगला कदम आता है।
हाँ।
और यह अब तक की हुई सारी चीज़ें याद रखता है। पर मुझे लगता है कि यह अब तक का सबसे ज़्यादा ओवरकिल उदाहरण है — तोप से गौरैया मारने जैसा।
Ja.
मैं ऐसा ही कहूँगा। तो...
और यह सिर्फ़ एक एप्लिकेशन नहीं बल्कि एक ऑपरेटिंग सिस्टम की तरह है।
हाँ हाँ, यह बस एक तरह का— हाहा।
एक ऑपरेटिंग सिस्टम के रूप में मतलब यह कि जब तुम मेन्यू में जाकर 'कैल्कुलेटर खोलो' क्लिक करोगे, तो पारंपरिक ऐप बैकग्राउंड में नहीं चलेगा; बल्कि LLM को कहा जाएगा: 'यूज़र ने कैल्कुलेटर खोलने पर क्लिक किया — अब UI कैसा है?'
हाँ।
और फिर वह ऑन‑द‑फ्लाई जनरेट कर देता है। मज़ेदार बात यह है कि हर तरह के डेटा के लिए तुरंत उपयुक्त UI मिल सकता है — उदाहरण के तौर पर, अगर तुम्हारे पास एक Data Science एजेंट है, तो तुम कह सकते हो: 'मेरे क्लिक‑डेटा का विश्लेषण करो,' और वह देख कर तय करेगा कि किस तरह का UI सबसे अच्छा होगा और उसे जनरेट कर देगा।
ठीक है, ठीक है।
पर मैं इस तरह के ऑपरेटिंग सिस्टम्स पर तो नहीं जानता। एक चीज़ जो मुझे खासकर Google I/O में रोचक लगी — और Developers I/O में उन्होंने भी बताया — वह थी ऑडियो‑ओनली ग्लासेस। मैंने देखा कि इन्हें मौजूदा ऐप्स में कितना आसान तरीके से इंटीग्रेट किया जा सकता है। और इससे मुझे खुद के लिए ऐप्स लिखने की इच्छा हुई — इसलिए शायद जब ये आएँगे मैं उन्हें खरीद लूँगा। मैं खुद एक ऐप बनाना चाहता हूँ जिससे मैं OpenStreetMap में चीज़ें सीधे दर्ज कर सकूँ: मैं किसी चीज़ को बस देखूँगा, मेरा फ़ोन पहचान लेगा 'यह बेंच है और यहाँ जानकारी गायब है,' और ग्लासेस मुझसे पूछेंगे: 'क्या इस बेंच में बैकलैस्ट है?' और मैं कहूँगा 'हाँ,' और वह सेव हो जाएगा। मैं किसी घर को देखूँगा और वे पूछेंगे: 'यह कितनी मंज़िल का है?' मैं जवाब दूँगा 'चार,' और वह भी दर्ज हो जाएगा। यह मेरे हिसाब से कूल होगा।
सही है, मुझे भी अच्छा लगेगा। पर मेरे दो संदेह हैं।
ठीक है।
पहली बात, तुम्हें शायद वह मॉडल चाहिए होगा जिनमें इंटीग्रेटेड स्क्रीन हो। जरूरी नहीं, पर इससे अनुभव बहुत बेहतर होगा।
हाँ।
इसमें कोई सवाल नहीं।
किसे पता कब ये आएँगी।
पर, हाँ, कौन जाने कब ये उपलब्ध होंगी। और दूसरी बात — शायद हमें बस एक कदम आगे सोचना होगा।
अब,
तुम्हारे पास एक कैमरा है।
हाँ, मैं—
यही पॉइंट है। तुम्हारे पास कैमरा है। एजेंटिक सिस्टम यह पता लगा सकता है: 'ठीक है, हमें पता चला कि OpenStreetMap में कुछ डेटा अभी टैग नहीं हैं।'
मालूम।
और वह तब कह सकता है: 'ठीक है, तुम अब पास में हो,' और इसे भौगोलिक रूप से क्रॉल करना भी काफी आसान है—
हाँ।
—कि वहाँ पास क्या‑क्या है। और जब तुम वहाँ से गुजरते हो, तो यह अपने आप तुम्हारे अकाउंट से वे चेंजेस कमिट कर सकता है जो उसने कैमरा के ज़रिए पहचाने। मतलब यह कैमरा इमेज को ले कर कहता है: 'ठीक है, Wieland किसी बेंच के पास से गुज़रा है; वहाँ कुछ डेटा टैग नहीं है' और फिर वह उसे इमेज से भर देता है—सिर्फ उन जानकारियों के लिए पूछेगा जो कैमरा से साफ़ नहीं निकलती, जैसे कुछ मीट्रिक माप जो ठीक‑ठीक नहीं आ पाएँ। तब वह बोलेगा: 'हाँ Wieland, यहाँ कुछ कमी है — अगर तुम चाहो तो तुम इसे अभी भर सकते हो।'
बिलकुल। यही मेरी पहली सोच भी थी, पर फिर मैंने इसे असलियत के हिसाब से थोड़ा realist तरीके से सोचा।
हाँ, यह सच में ज़्यादा रियलिस्टिक है।
क्योंकि ऐतिहासिक तौर पर उन तरह की पहचानें, जो मैंने अपने एक्सपेरिमेंट्स में देखीं, वे काफी खराब रही हैं — मुझे यह मानना होगा।
ठीक कहा।
पर यह हमें Google I/O की दूसरी दिलचस्प बात की ओर ले जाता है — उन्होंने Developers I/O में जो बताया उसमें Gemma 4 जैसे Open‑Source मॉडल शामिल थे। कुछ वेरिएंट इतने छोटे हैं कि वे सीधे स्मार्टफोन पर चल सकते हैं।
हम्म।
Gemma — हाँ, E‑4 2‑बिट और E‑4‑बिट जैसे वेरिएंट्स। और हाँ, अगर आप यह आज़माना चाहते हैं तो Google Play Store में 'AI Edge Gallery' नाम की एक ऐप मौजूद है जहाँ आप सीधे शुरू कर सकते हैं। यह वास्तव में एजेंटिक काम, फंक्शन‑कॉलिंग और टूल‑कॉलिंग के लिए ट्रेन किया गया है; ये multimodal हैं और इमेज भी समझ सकते हैं। तो रिलैक्स कर लो — यह एक ऐसा मॉडल है जो आपके फ़ोन पर चलता है और आकार में करीब चार गिगाबाइट है। इतना भारी नहीं, पर आप इसे किसी विशेष उपयोग के लिए फाइन‑ट्यून कर सकते हैं और यह अपेक्षाकृत आसान भी है: थोड़ी देर के लिए GPU रेंट करो, मॉडल फाइन‑ट्यून करो और export कर लो। मुझे इसमें बहुत पोटेंशियल दिखता है, क्योंकि तुम सच में अपने फ़ोन पर वही मॉडल चला सकते हो जिसे तुमने खास तरीके से ट्रेन किया है — जैसे बेंच की बैकरेस्ट पहचानने वाला मॉडल।
हाँ।
तो एक छोटा‑सा बिंदु — OpenStreetMap में वैसे भी यह माना जाता है कि हमेशा एक मानवीय चेक होना चाहिए। पर अगर तुम इसे फ़्लो में बहुत गहराई से डालना चाहते हो तो तुम बस ऑब्जेक्ट्स को देख कर 'पहचान हुआ: इस बेंच में बैकरेस्ट है' जैसा फीडबैक पाना चाहोगे।
हाँ।
और अगर मैं बीच में हस्तक्षेप नहीं करता तो यह ठीक रहेगा — तब यह सही होगा।
हाँ।
तो, हाँ, यह किया जा सकता है।
यह सच में कमाल होगा अगर तुम इसे फिजिकल लोकेशनों पर लाइव एनोटेट कर सको — और अगर ग्लासेस यह अनुमति दें कि तुम उस ऑब्जेक्ट के साथ जानकारी एनोटेट कर सको, और वह पॉप‑अप जो कहता है 'मैंने यहाँ कुछ एनोटेट किया' वो तुम्हारे सिर के साथ मूव करे।
हूँ।
और तुम कह सकोगे: 'ओह, मैं इसमें कोई दखल नहीं देना चाहता — यह ऐसे ही ठीक है।' मुझे सच में नहीं पता कि ग्लासेस में इनर्शिया‑सेंसर होंगे या नहीं। क्या होने चाहिए? हाँ। या कम‑से‑कम होना चाहिए — एक कम्पास या ओरिएंटेशन‑सेंसर ताकि ग्लासेस समझ सकें कि तुम किस दिशा में देख रहे हो। मुझे यह भी शक है कि वे सोचेंगे, 'हम किस काम के लिए इसे जोड़ें?' पर मैं कल्पना कर सकता हूँ कि यदि वे सोचते हैं कि कैमरा इमेज, जियो‑लोकेशन और यूज़र की वॉइस इनपुट से सब कुछ कवर हो जाएगा, तो वे इन सेंसरों को नहीं डालेंगे। खासकर जब डिस्प्ले नहीं है — वरना AR में चीज़ें कमरे में उड़ती दिखानी होंगी और उसके लिए इनर्शिया सेंसर चाहिए होंगे। तुम तो चाहोगे कि यह AR‑एनोटेटेड हो न कि सिर्फ़ 2D‑डिस्प्ले या सूची की तरह दिखे। AR के साथ मिलाकर यह असल में बड़ा और ज़्यादा दिलचस्प कदम होगा। पर — फिर जोना — तब हमें पूरी EU के लिए हर व्यक्ति का पर्सनल‑डेटा‑बेस चाहिए होगा। और फिर? फिर क्या होगा? … बम। [हँसता है] सच कहूँ तो, जोना, हर कोई इन बड़े मॉडलों पर कूद पड़ा है और कह रहा है 'ओह, Google ने अब यह,' और डेमो वाकई इम्प्रेसिव था — उसने सिर्फ़ Google Keep खोला और बात करना शुरू किया, 'अरे नहीं, रुको, वह नहीं,' और सिस्टम सब कुछ समझ रहा था। पर मुझे लोकल मॉडल चाहिए — या कम से कम मेरे फोन पर रन होने वाला मॉडल — क्योंकि एक ऐप‑डेवलपर के नाते मैं अभी एक ऐप बना रहा हूँ जो अभी OpenAI सेवाओं का इस्तेमाल करता है, और समस्या सिर्फ़ प्राइवेसी नहीं है, यह मुझे पैसा भी लगता है।
अनुप्रयोग अब बहुत आगे बढ़ेंगे — बहुत कुछ जो पहले सर्वर पर चलता था, अब लोकल मॉडल्स पर चलने लगेगा।
बिलकुल — जैसे तुम कह रहे थे, वे मॉडल सिर्फ़ चार गिगाबाइट के हों और कुछ अरब पैरामीटर के हों, और मॉडल‑ऑप्टिमाइज़ेशन से यह काफी काम चल सकता है। इससे ज़रूरी नहीं कि हर डिवाइस बहुत तेज़ हो — बल्कि मॉडल्स को स्पेशिफिक हिसाब से ट्रिम किया जाएगा और वे ज़्यादा एफिशिएंट हो जाएँगे; सरवर फिर भी रहेंगे पर वे ज़्यादा भारी काम संभालेंगे।
मैं भी देख रहा हूँ कि मेरी भविष्यवाणी कुछ‑कुछ सच होती जा रही है। मैंने हमेशा सोचा था कि जैसे हर घर में राउटर होता है, भविष्य में हर किसी के पास एक AI‑बॉक्स होगा। और मुझे लगता है यह आ रहा है: एक बड़ा हिस्सा Google का होगा, एक हिस्सा Apple का और बाकी कुछ लोग अपना बनाते हैं या Linux‑आधारित विकल्प रखते हैं। इससे कोई दिक्कत नहीं है। पर यह सिस्टम हमेशा स्थिर नहीं रहेगा — इतिहास देखें: बड़े मैनफ्रेम कैसे छोटे‑छोटे डिवाइसेज़ में बदल गए। जो वर्कलोड पहले मैनफ्रेम पर था, अब एंड‑डिवाइसेज़ पर आ सकता है। और यही डीसेंट्रलाइज़ेशन होगा — इसका मतलब यह नहीं कि सर्वर गायब हो जाएंगे पर वे विकसित होंगे, जैसे EPUs और स्पेशल AI कार्ड्स के साथ हो रहा है। जो काम पहले सर्वर पर होता था, अब एंड‑डिवाइसेज़ पर मैनेज किया जा सकेगा। बेसिक तरीके से एक साधारण डेटाबेस और एक सिंपल एल्गोरिद्म — यह आज किसी स्मार्टफोन, स्मार्टवॉच और कई स्मार्ट‑टूथ डिवाइस पर चल सकता है। इसलिए मुझे लगता है कि Edge‑AI की दिशा में विकास तेज़ होगा।
हाँ।
और इसलिए मेरा अनुमान है कि गेमिंग जैसा मॉडल भी वैसा नहीं हुआ जहाँ एक सेंट्रल गेमिंग‑पीसी पूरे घर को सर्व करता — हर किसी के पास अपना डिवाइस रहा। इसी तरह, AI भी अंततः या तो लोकल मॉडल्स पर या व्यक्तिगत KI‑बॉक्स पर घूमेगा, न कि सब कुछ एक ही पकेट में।
हाँ।
मुझे कोई पेरिश नहीं कि लोग अपने KI‑सर्वर बगल में रखें — पर मैं चाहूँगा कि निजी KI एंड‑डिवाइस पर ज्यादा चले। हमें याद रखना चाहिए कि हमने पहले चैटबॉट्स देखे, फिर एजेंट्स आए, और अब एजेंट्स मैनस्ट्रीम हो रहे हैं — Google इसे कंज्यूमर‑स्तर पर ला रहा है। सोचो कि Sam Altman की विज़न में—न सिर्फ़ एजेंट को टास्क देना बल्कि उसे पूरा लाइफ़‑एक्सेस देना ताकि वह खुद ही बैकग्राउंड में काम कर सके।
हाँ।
और यह ठीक भी है कि एजेंट्स लोकल हों — पर अभी ये बड़े मॉडल और क्लाउड‑सर्विसेज ज्यादा दिखती हैं। मैं चाहता हूँ कि यह निजी, लोकल, और यूज़र‑केंद्रित रहे।
हां, ऐसे कामों को ऑटोमेटिक रूप से करना चाहिए — बिना हर चीज़ के लिए मुझे निर्देश देने के।
हाँ।
और यही मुझे भी सबसे ज़्यादा पसंद आएगा — पर वह मॉडल लोकल होना चाहिए और किसी कंपनी का नहीं, जिसकी प्राथमिकता यह सोचना हो कि 'Wieland की लाइफ़ बेहतर होने से हमें पैसा कैसे मिलेगा?' अगर उससे पैसा नहीं बनेगा तो वे इसे नहीं करेंगे। नहीं, जोना, नहीं।
हाँ।
यह बिल्कुल नहीं होना चाहिए।
उफ़।
यह किसी लोकल मॉडल का काम होना चाहिए जो मेरे पास चलता हो और जिसका सिर्फ़ एक ही प्रेरक तत्त्व हो — मेरी मदद करना, दूसरों से पैसा कमाना नहीं।
हाँ।
चलो देखते हैं कि चीज़ें कहाँ जाती हैं। मैंने कमर्शियल इंटरेस्ट की वजह से कुछ बातें कही हैं, पर प्राइवेसी भी बड़ा कारण है; मैं अपनी सारी Health‑Connect‑डाटा और सेक्सुअल‑एक्टिविटी जैसी चीज़ें किसी Cloud को नहीं देना चाहूँगा। मैं चाहूँगा कि यह मेरे घर में रखा एक डिवाइस ही जाने — और अगर सब कुछ गड़बड़ हो जाए तो मेरे पास वह चीज़ बचाने के तरीके हों।
हाँ।
जो डिवाइस मेरे पास रखा होगा वह दिक्कत में मेरे डेटा की secrecy बनाए रख सकेगा — और ज़रूरत पड़ी तो मैं ब्रेकेट... खैर।
बिलकुल, हाँ।
तो, बस यही बात।
और, Wieland, सोचो कि तुम बाहर घूम रहे हो और ग्लासेस तुम्हारे लिए एजेंटिक‑वर्कफ़्लो चला रहा है और अचानक कहता है: 'अरे, मैंने देखा कि तुम्हारी चैट‑हिस्ट्री और खरीदारी के हिसाब से तुम्हारा डेट दो दिनों में है और तुम्हारे कंडोम का स्टॉक कम है — मैंने Amazon पर एक ऑर्डर रख दिया है।'
और मैं भी—
Wieland कहेगा: 'परफेक्ट, बढ़िया।'
और मैंने Google Health Connect में पहले से Sexual Activity को Protection Use True के रूप में रिकॉर्ड रखा है — अगर Amazon की डिलीवरी देरी हो गई तो मैं उसे ऑटोमैटिकली False कर दूँगा।
बढ़िया। [हँसता है]
[हँसता है]
परफेक्ट। मेरे पास कोई और टिप्पणी नहीं।
ओह हाँ।
ठीक है। [गला साफ़ करते हुए] हाँ।
ठीक है।
ठीक।
दरअसल मेरे पास सच में एक और टिप्पणी है—
हाँ, बताइए, बताइए।
इसी विषय पर। उhm, हम पहले भी बात कर चुके थे कि अमेरिका में स्वास्थ्य‑संबंधी डेटा भी OpenAI के डेटासेट में शामिल किए जाने की बात हो रही है। मुझे याद है कि हमने यह पिछले या उससे पहले के Crunch‑Time एपिसोड में छुआ था। और अब अगला कदम आ रहा है। वे, उस 'Plant' नामक सॉफ़्टवेयर के साथ, सारे वित्तीय डेटा को ChatGPT में इम्पोर्टेबल बनाने की योजना बना रहे हैं। ताकि सीधे कहा जा सके: 'ठीक है, अब हम बजट ब्रेकडाउन करते हैं — तुम किस चीज़ पर कितना खर्च कर रहे हो?'
हम्म।
और मैं यह जानना चाहता हूँ कि मैं अपनी व्यक्तिगत फाइनैंस में अब और क्या ऑप्टिमाइज़ कर सकता हूँ। और विचार यही है कि अब कम‑से‑कम दो लाख ऐसे यूज़र्स हैं जो नियमित रूप से ChatGPT से निजी वित्त के बारे में पूछते हैं — और यह वाकई बहुत शक्तिशाली हो सकता है। लेकिन हाँ, जो प्रेडिक्शन्स मिल सकते हैं वे दिलचस्प होंगे; जैसे यह कहना कि: 'हाँ, तुम शायद स्टारबक्स की कॉफ़ी थोड़ी कम पीते तो अब तुम दूसरी चीज़ ले पाते। अफसोस।' या: 'ओह मैंने देखा कि तुमने पिछले महीने ई‑स्कूटर पर 150 यूरो खर्च किए। चलो, कुछ और ट्राय करते हैं।'
तो, समझे न कि मैं क्या कहना चाहता हूँ। हाहा।
हाँ।
ये तो वाकई काफी अजीब और गहरा है कि इसे जोड़ दिया जाए। मतलब इसका सीधा ऐक्सेस होगा तुम्हारे Schwab या Fidelity अकाउंट्स तक और अमेरिका के और भी कई खाते — सब कुछ सीधे पहुँचा जा सकेगा, क्योंकि यह मूलतः एक तरह की केंद्रीय बैंक‑API जैसा सिस्टम है।
हाँ।
जो मुझे बहुत अजीब लगता है कि अब तक यह चीज़ इस पैमाने पर मौजूद ही नहीं है।
जोना।
जहाँ तक मुझे पता है। तुम मुझे अब गलत साबित करोगे?
ओह, जोना, मुझे कुछ बताना था। मैं यह बात उठाना नहीं चाहता था, पर वित्तीय टूल्स और बैंक‑APIs के बारे में—
हाँ।
मैं यह भी बता सकता हूँ कि मैं किस तरह से देख रहा था और अब भी देख रहा हूँ। खैर, मुझे थोड़ा संभलकर बोलना होगा ताकि मैं किसी की छवि खराब न कर दूँ, पर बात यह है कि एक बैंक ने मुझे अपने पास खींचने की कोशिश की।
हाँ।
उन्होंने मुझे बहुत लंबा और बार‑बार कंटैक्ट किया, और उन्होंने वही बात प्रमोट की जो मुझे अच्छी लगी। उन्होंने एक सिस्टम का विज्ञापन किया जो मेरी तरफ़ से ऑटोमेशन करता है। उन्होंने कहा: 'देखो, यह, उhm, इस पर निर्भर करेगा कि तुम कितना खर्च करते हो — एक निर्धारित राशि अपने आप बचाई जाएगी और जब यह बचत एक तय सीमा तक तुम्हारे Tagesgeld खाते में पहुँच जाएगी, तो जो भी उससे ऊपर बचा होगा उसे स्वतः ही डिपो में ट्रांसफर कर दिया जाएगा और आंशिक रूप से रिटायरमेंट आदि में चला जाएगा। यह सब बहुत कूल है।' मेरा मानना है, यह वाकई कूल है और मैं इसे पसंद भी करूँगा।
हाँ, और मैं ऐसे ऑटोमेशन में रुचि रखने वाला व्यक्ति होने के नाते इसे बेहद आकर्षक पाता हूँ — ऐसी चीज़ों को पहले से प्लान करना अच्छा लगता है।
हाँ।
लेकिन
सिर्फ़ संदर्भ के लिए: मैंने वीलैंड को वास्तव में एक वित्तीय सलाह दी, कि मेरी राय में यह बैंक अधिक‑कम एक स्कैम जैसा है। 'स्कैम' की परिभाषा तो हमेशा कठिन होती है, पर मैंने यही अपनी निजी राय के तौर पर उन्हें बताई।
कई बार ऐसा होता है, खासकर तब जब यह खाते‑मॉडल हो और आप अपने ही खातों को स्वयं नियंत्रित न कर पाएं — सब कुछ बस स्क्रीन पर कुछ नंबर रह जाता है जो यह दर्शाते हैं कि पैसा किस तरफ़ गया। और सबसे बुरी स्थिति में वे महीने‑दर‑महीने इसी खाते‑सिस्टम से आपकी जेब काटना चाहेंगे। यह, मेरा ख्याल है, तार्किक भी है। और नतीजा यह हो सकता है — मेरी राय में — कि यह एक बड़ी वित्तीय जाल बन जाए, क्योंकि वे बाद में कहेंगे: 'पर देखो यहाँ पन्ना 123 में जो तुमने साइन किया है, वहाँ लिखा है कि अगर तुम इसे बंद करना चाहो तो तुम्हें 20 शर्तें पूरी करनी होंगी,' वगैरह। यह हमेशा मुश्किल होता है, और मैंने उन्हें सलाह दी कि इसे ज़रूरी से ज़्यादा जटिल मत बनाओ और खुद को ऐसे सौदों में फँसने मत दो।
बिलकुल। और जो मुझे सबसे अजीब लगा वह यह था कि वे बार‑बार जोर दे रहे थे कि इस बैंक ने इस सिस्टम का पेटेंट करा रखा है। ऐसा कहीं और नहीं मिलता।
हाँ, यह कहना थोड़ा टोक-सा होगा — पर यह असल में बहुत सामान्य सा दावा है। हर बैंक अपने बारे में बताती है कि वह दूसरों से अलग है, लेकिन हाँ।
हाँ, जोना, और फिर खुलासा यह हुआ कि मैं अपनी बैंक के पास गया और पाया कि मेरे पास भी कुछ वैसा ही है। बिल्कुल नहीं कि यह सब सिर्फ़ बैंक के इन‑बिल्ट टूल्स से पूरा हो गया हो — वहाँ कुछ सीमाएँ हैं — पर जो मैंने प्रमुख रूप से देखा वह यह है कि एक सार्वभौमिक बैंक‑API है, जोना।
क्या?
पर अब आ रहा है एक बढ़िया ट्विस्ट।
हाँ।
वहाँ कुछ लाइब्रेरीज़ मौजूद हैं — यहाँ तक कि Python की लाइब्रेरीज़ भी हैं जिनके ज़रिये तुम यह कर सकते हो।
हाहा।
लेकिन इसके लिए तुम्हें जर्मनी की क्रेडिट‑इंडस्ट्री में एक प्रोडक्ट रजिस्टर कराना होगा।
हाँ।
मैं अब तुम्हें कुछ वित्तीय प्रोडक्ट्स की एक सूची बताऊँगा जो जर्मनी की क्रेडिट‑इंडस्ट्री में रजिस्टर्ड हैं — संक्षेप में एक चयन।
हाँ।
Trade Republic।
हाँ।
Finanzguru।
Wielands Autofinanz।
[हँसता]
हम्म, बढ़िया।
[हँसता]
हाँ।
नहीं, नहीं, पर यह तो बढ़िया है।
क्या तुम बता सकते हो कि यह API क्या कहलाती है? क्या इसका कोई ठोस नाम है—
इसे FinTS कहा जाता है।
आह, ठीक।
और अगर कोई इसे—
यह मुझे वाकई आकर्षक लगेगा कि हम कह सकें: 'ओह ठीक है, सीधे तौर पर हम और भी चीज़ों को खुदसे ऑटोमेट कर सकते हैं।' तुम अभी इसी पर बात करने वाले हो।
बिलकुल, यही आइडिया है। मैं भी अभी इसे बना रहा हूँ। मेरे लिए अहम बात यह है कि मैं API के ज़रिये अपने खाते तक पहुँच सकूँ — उदाहरण के लिए देख पाऊँ कि कितना बाकी है — और फिर कह सकूँ: 'ठीक है, बीस प्रतिशत डिपो में, बाकी कहीं और,' वगैरह। और मैं शायद थोड़ा रिवॉर्ड‑मैकेनिज्म भी जोड़ना चाहूँगा, कि अगर खाते में पैसे उपलब्ध हों तो किसी तरह का इनाम दिया जाए और मेरा हेल्थ‑सिस्टम पूछे: 'क्या वीलैंड ने आज अपने सारे लक्ष्य पूरे किए?'
क्या वीलैंड एक अच्छा लड़का रहा? हाँ।
क्या वीलैंड ने आज कसरत की?
ओह ओह,
क्या वीलैंड ने बिग‑मैक नहीं खाया? और अगर हाँ, तो शर्त के मुताबिक मैं दिन के अंत में अपने Tagesgeld खाते से पाँच यूरो की एक ट्रांसफर अपनी कंज़म्प्शन‑क्रेडिट‑कार्ड पर ऑथराइज़ कर सकता हूँ।
जबरदस्त।
तो हाँ, पर एक ही कमी है। मैं समझता हूँ कि वे ऐसा क्यों कर रहे हैं — अपने खाते को ऑटोमेट करना थोड़ा भारी हो सकता है। इसलिए मैं बस App‑TAN जैसा सादा 'हाँ/नहीं' तरीका नहीं अपनाना चाहूँगा।
हाँ।
मतलब मैं इसे ऐसे नहीं कर सकता कि कोई ट्रिगर हो और मेरे फोन पर बस 'ठीक है? हाँ/नहीं' आए। वहाँ TAN‑प्रक्रिया होनी चाहिए। यह थोड़ा दुखद है। इसका मतलब यह है कि मुझे TAN किसी तरह से हासिल करनी होगी — फोन पर सिर्फ़ हाँ कहना काफी नहीं है — बल्कि मेरा फोन एक TAN दिखाएगा जिसे मुझे सुरक्षित तरीके से, न कि Telegram के ज़रिये, स्क्रिप्ट को वापस भेजना होगा।
हाँ।
ताकि स्क्रिप्ट उस TAN को ऑथराइज़ेशन के लिए उपयोग कर सके। यह अभी थोड़ा जटिल है और मुझे इसमें और काम करना होगा। पर हाँ, जोना, यह संभव है। इसे ऑटोमेट किया जा सकता है। बस—
इसके लिए थोड़ा सा चतुराई से प्रोग्रामिंग करनी पड़ेगी—
करना होगा—
कि तुम्हें इन हिस्सों को, यूँ कहें, ठीक से कनेक्ट करना होगा। और सच कहूँ तो यह काफी रिस्की है: अगर रास्ते में कोई एक्सप्लॉइट हो या जिस मैसेंजर से तुम डेटा भेज रहे हो वह हर चीज़ सुन रहा हो, तो वह बड़ी समस्या बन सकती है — जो—
हाँ।
जिसकी स्थिति में संदेह हो तो हमें यही मान लेना पड़ता है।
हाँ। तो सच में ध्यान रखना होगा, पर जोना, यह चलता है। अगर कोई ऐसा प्रयोग करना चाहे तो यह ज्यादातर बैंकों पर काम करता है। मैं यह नहीं कहूँगा कि मेरी बैंक मॉडर्निटी में अग्रणी है, पर यह संभव है — मेरी राय में—
ठीक।
यानी मैं यह नहीं सोचता कि मेरी बैंक कोई Neo‑Broker है या Revolut जैसी बैंक जो कहती है 'हमारे पास शाखाएँ नहीं, बस ऐप है, सब डिजिटल, AI' — मेरी बैंक काफी पारंपरिक है।
हाँ।
और हाँ, मेरी बैंक भी इस Finanz‑FinTS सिस्टम में भाग लेती है। तो आपकी बैंक भी निश्चित रूप से यही कर रही होगी।
बिलकुल, ठीक।
तो यह सिर्फ़ एक छोटा सा तिरछा विषय था। अगर कोई इसे ऑटोमेट करना चाहे, तो हाँ, इसे किया जा सकता है।
मई की शुरुआत से लिनक्स कर्नल में कुछ बड़े और गंभीर बग सामने आए हैं। ये खबरें काफी जोरशोर से चलीं क्योंकि व्यवहार में लगभग हर उस सिस्टम को प्रभावित किया गया जो लिनक्स चला रहा है — यह समस्या कर्नल के भीतर इतनी मूलभूत है कि कई सिस्टम बिना पैच के असुरक्षित बने रहते हैं।
हम्म।
और वहाँ अलग-अलग तरह की कमजोरियाँ हैं, जैसे उदाहरण के लिए, उह, 'Dirty Pipe', 'Dirty Cow', 'Dirty Frag' और 'Copy Fail'। यानी कि वास्तव में कई कमजोरियाँ हैं जो एक-दूसरे से काफी मिलती-जुलती हैं, इसलिए मैं कहूँगा—
हाँ।
उन नामों के साथ ही हर एक कमजोरी थोड़ी-बहुत अलग होती है। मैं यहाँ अब बहुत गहराई में नहीं जाऊँगा क्योंकि वह काफी भारी होगा। लेकिन समझाने के लिए: एक्स्प्लॉयट्स लगभग इस तरह काम करते हैं कि कर्नल में एक ऐसी इंटरफ़ेस होती है जहाँ Page Cache में चार बाइट्स लिखना संभव हो जाता है। हर एक्स्प्लॉयट के हिसाब से वह इंटरफ़ेस थोड़ी अलग होती है। और अब कोई सोच सकता है: 'ठीक है, चार बाइट्स — यह तो बहुत कम है।' लेकिन सावधान रहें, जितना छोटा दिखे उतना ही खतरनाक हो सकता है।
हाँ, ऐसा हो सकता है, पर आप इन चार बाइट्स को किसी भी मनचाही जगह पर लिख सकते हैं। और इसका मतलब है कि आप /etc/passwd या su जैसी फ़ाइलें बदलकर सिस्टम में पहुँच हासिल कर सकते हैं।
हाँ।
इसका मतलब है कि एक सामान्य यूजर यह स्क्रिप्ट चलाते ही सीधे रूट अधिकार प्राप्त कर सकता है। और यह बहुत गंभीर है क्योंकि इससे कंटेनरों से भी बाहर निकलना संभव हो जाता है — क्योंकि Docker कंटेनरों में Page Cache अक्सर साझा होता है।
हाँ।
तो, काम करने का यही तरीका है। हर सिस्टम बिल्कुल अलग तरीके से प्रभावित नहीं होता; बल्कि आप इससे होस्टेड सर्वरों पर भी बाहर निकल सकते हैं और फिर स्थिति बहुत खराब हो जाती है। Page Cache इसलिए मौजूद है क्योंकि यदि हर बार हर डेटा को सीधे डिस्क पर लिखना और पढ़ना पड़े तो यह बहुत धीमा हो जाएगा — डिस्क के हेड को बार-बार सही पोजीशन पर ले जाना पड़ेगा, जो व्यवहार में असंभव रूप से समय लेने वाला है। इसलिए ऑपरेटिंग सिस्टम Page Cache का उपयोग करता है और डेटा को पन्नों (pages) के रूप में मेमोरी में रखता है और बाद में नियमित अंतराल पर इन्हें डिस्क पर वापस लिखता है। यह आमतौर पर पेज-वार बैक किया जाता है, जैसा कि यूनिवर्सिटी में भी पढ़ाया जाता है। समय-समय पर ये पेज डिस्क पर वापस लिखे जाते हैं और सामान्य स्थितियों में यह पूरी तरह काम करता है। पर इन एक्सप्लॉयट्स के मामले में दिलचस्प बात यह है कि सिस्टम अक्सर यह नहीं पहचानता कि कुछ पेज मॉडिफाइड हुए हैं। जो चेक सिस्टम करता है वह डिस्क पर मौजूद डेटा को देखता है — Page Cache में किए गए अस्थायी बदलावों को नहीं। यानी अगर आपने केवल Page Cache बदल दिया और असली डिस्क डेटा को नहीं छुआ, तो डिस्क पर मौजूद हैश या चेकसम वही रहेगा जिसे सिस्टम स्वीकार कर रहा है। इसलिए चेक पास हो जाते हैं और सब कुछ वैसा ही माना जाता है, भले ही मेमोरी में बदलाव हो। यह स्थिति तब तक बनी रहती है जब तक आप सिस्टम को रीबूट नहीं करते या मैन्युअली उस Page-Cache पेज को इनवैलिडेट नहीं करते। Linux में ऐसा एक कमांड होता है जिससे Page Cache साफ़ किया जा सकता है, पर यह casually नहीं किया जाता क्योंकि सामान्यत: संशय तब ही उठता है जब कुछ सिरे से अजीब लगे। और इसका मतलब यह भी है कि यह समस्या काफी व्यापक है: यह लगभग सभी डistroब्यूशनों को 2017 से प्रभावित करती है। समाधान यही है कि आप नया, पैच किया हुआ Linux कर्नल संस्करण (शायद 6.3.1 या जो भी लेटेस्ट हो) ले कर सिस्टम अपग्रेड करें, वरना सिस्टम वास्तव में खतरे में है। और हाँ — ये एक्सप्लॉयट्स असल में काफी हद तक AI की मदद से पाए गए थे।
हाँ।
वह सिक्योरिटी रिसर्चर ने सचमुच AI को अपनाया और उसे बड़े पैमाने पर खोज करने के लिए इस्तेमाल किया। पर अभी की AI इतनी विकसित नहीं है कि वह पूरी प्रक्रिया शुरू से अंत तक खुद से पूरी तरह सोचे। यह इतना उन्नत नहीं है। काफी कुछ बजट पर भी निर्भर करता है — अगर तुम कहते हो 'ठीक है, मैं तुम्हें हजार यूरो दूँगा', तो शायद कुछ काम निकल आए, पर असल दुनिया की सीमित संसाधनों में AI अकेले सब कुछ नहीं कर पाती। AI को अभी भी मानवीय सहायता चाहिए: एक इंसान जो दिशा तय करे, जो कहे 'ठीक है, हम इस तरह और आगे देखें — क्या और कुछ किया जा सकता है?' और जो इंसान समझे कि 'ओह, यह एक और आइडिया है'। ठीक ऐसे ही इस बार काम हुआ। और इसका मतलब यह भी है कि भविष्यवाणी सही थी कि बहुत सारी सुरक्षा कमजोरियाँ अब AI की मदद से खोजी जाएँगी। बहुत बार यह Linux कर्नल में भी हो रहा है, जहाँ कई छोटी और कम महत्वपूर्ण कमजोरियाँ आती रहती हैं। Linus Torvalds ने खुद लिखा कि वह इन Issues की भारी संख्या से पूरी तरह अभिभूत हैं — बहुत बार ये बस एक-दूसरे के डुप्लिकेट होते हैं, पर लोग यह नहीं देखते कि पहले क्या लिखा गया, उसका क्या मतलब है, या पहले से कोई फ़िक्स मौजूद है। इसके बजाय वे अक्सर बस AI का आउटपुट सीधे Issue में पेस्ट कर देते हैं और समझ लेते हैं कि काम हो गया। वे समझते ही नहीं कि असल में क्या हो रहा है या कि यह किसी और Issue का डुप्लिकेट है। और उन्होंने खासकर यह भी कहा:
'जो ज्यादातर, उह, समस्याएँ आप अपनी AI से खोज पाएंगे, वे बड़ी गारंटी के साथ पहले से ही अन्य AI द्वारा खोजी जा चुकी होंगी। सिवाय इसके कि अगर आप बहुत ज्यादा पैसा खर्च करें, तब बात कुछ और होगी। पर बहुत अधिक संभावना है कि यह समस्या पहले से ही जानी-पहचानी है।'
हाँ।
हाँ।
मैं तो तुमसे पहले ही पूछना चाहता था कि क्या ये कमजोरियाँ AI ने ढूँढीं — मुझे यह बहुत दिलचस्प लगा। और एक और बात यह है कि यहाँ जर्मनी में यह खबरें कितनी धीमी पहुंचती हैं। उदाहरण के लिए, दो दिन पहले ZDF पर एक रिपोर्ट आई थी: 'Claude Mythos कितना खतरनाक है?' — और मैंने सोचा कि…
धन्यवाद, ZDF। अच्छा है कि हमें यहाँ जर्मनी में भी यह खबरें मिल रही हैं। मैंने यह सवाल तीन हफ्ते पहले उठाया था, पर कोई बात नहीं — चलो बात करते हैं। यह बहुत रोचक था और कई लोगों के लिए शायद एक तरह का जागरण पल था, क्योंकि मेरी राय में ऐसे घटनाओं और वास्तविकता के बीच तनाव लगातार बढ़ रहा है —
हाँ।
और लोग कहते हैं कि AI असली नहीं है।
तुम 'असली नहीं' से क्या मतलब लेते हो?
अच्छा, अंग्रेज़ी में इसे 'nothing burger' कहा जाता है।
हम्म।
मतलब यह सब बस हाइप है — कुछ लोग कहते हैं कि यह वैसा नहीं कर सकता जैसा कहा जाता है। पर मेरे लिए यह एक ऐसी स्थिति थी जहाँ आप निस्संदेह कह सकते हैं कि, मान लो, Claude Mythos ने किसी हफ्ते में डेढ़ हज़ार Zero-Day एक्सप्लॉयट्स ढूँढ लिए, जो असल में exploitable थे।
हाँ.
उम, इसलिए मैं नहीं जानता। कई लोगों ने — और मैं उन्हें किसी हद तक समझ सकता हूँ — कहा कि यह सिर्फ हाइप है। पर मुझे रोचक लगा कि कुछ लोगों ने इसके विपरीत कहा: 'हाँ दोस्तों, मैं आपको अभी एक न्यूज़ आर्टिकल पढ़कर सुनाता हूँ,' और फिर कहा: 'OpenAI ने एक मॉडल बनाया है, लेकिन वे इसे अभी रोक कर रख रहे हैं क्योंकि यह बहुत खतरनाक हो सकता है। यह समाज या कंप्यूटर सिस्टम को बड़ा नुकसान पहुँचा सकता है, इसलिए वे फिलहाल GPT‑3.5 जारी नहीं करेंगे।'
सही।
तो, ह्म...
हाँ, यही तो सवाल है कि यह किस अनुपात/संबंध में है।
हाँ.
पर क्यों — आखिर ये जो खाली खोल जैसी चीज़ें हैं, वे क्यों मौजूद हैं? यह तो बिल्कुल साफ़ है। असल में ये ज़्यादातर शेयरहोल्डरों को तैयार करने के लिए होती हैं ताकि वे फिर और पैसा डालें। बात यहाँ सिर्फ अगले साल क्या होगा की नहीं है; मुद्दा लंबी अवधि का होता है — मैं कहूँ तो अगले दस या बीस साल में कंपनी इससे कैसे पैसे कमाएगी। यह केवल 'अगला क्वार्टर' देखने जैसा नहीं है। हाँ, कभी‑कभी छोटे उछाल दिखते हैं, पर इतना गहरा नहीं। लोग ज़्यादातर यह देखते हैं कि भविष्य में राजस्व का ट्रेंड कैसा रहेगा — न कि सिर्फ अगले क्वार्टर या अगले पाँच साल। और मुझे इसमें इतना बुरा भी नहीं लगता कि कभी‑कभी ज़्यादा वादा कर दिया जाता है, क्योंकि अगर आप लगातार नई‑नई बातें बताते रहो कि अब क्या‑क्या जल्द संभव होगा और उस जानकारी का प्रवाह बनाए रखो, तो लोग भूल जाते हैं कि पहले क्या वादा किया गया था। जब आप बॉल को लगातार घुमाते रहते हैं, तो पुराने दावे जल्दी धँस जाते हैं।
हाँ.
क्या यह ठीक है क्योंकि यह आखिरकार काम कर ही जाएगा। बस उन्होंने जिस समयावधि में यह संभव होगा, उसे बहुत कम आँका, शायद जानबूझकर कम आँक लिया — कहा जाता है, 'ओह हाँ, यह एक साल में काम करेगा,' जबकि असल में तीन से पाँच साल लगते हैं, तब जाकर कोई ठोस कॉन्सेप्ट लागू किया जा सकता है।
हाँ, हाँ.
और ज़ाहिर है, आप कह सकते हैं: 'ठीक है,'
GPT‑3.5 उस समय के लिए बहुत जबरदस्त था, पर शायद यह समाज के लिए इतना भी बड़ा नुकसान नहीं था — यह इस बात पर निर्भर करता है कि आप 'समाजिक नुकसान' को कैसे परिभाषित करते हैं।
हाँ.
पर बिलकुल, समझ रहे हो? यही मैं भी कह रहा था। GPT‑3.5 बस‑बस एक संगत वाक्य बना पाता था।
हाँ.
समझ रहे हो? तब लोगों ने तुलना करके कहा: 'ठीक है, GPT‑3.5 से तुमने कुछ हैक तक नहीं किया — तो अब यह सुरक्षित है? सब फर्जी है।' पर मेरा मतलब है, क्योंकि इसका असल प्रभाव भी है, लोग इसे संभालने की कोशिश कर रहे हैं। कहा जा रहा है कि यह टेक्नोलॉजी जल्दी ही ओपन‑सोर्स हो जाएगी। OpenAI के पास भी ऐसी बातें थीं और Google ने भी I/O में कुछ कहा — पर मुख्य बात यह है कि उनका लक्ष्य अब यह है कि पहले वे इन मॉडलों को बड़ी कंपनियों के पास लेकर जाएँ और उनमें सुरक्षा‑खामियों के लिए स्कैन करें, ताकि...
जब यह तकनीक आखिरकार सभी के लिये उपलब्ध हो जाएगी, तो कम से कम यह सुनिश्चित करना होगा कि कल Google हैक न हो या Adobe हैक न हो — यह वैश्विक अर्थव्यवस्था के लिए काफी बुरा होगा।
हाँ.
तो, पर...
हाँ, मैंने यह अजीब पाया। यह कई लोगों के लिए एक छोटा‑सा जागरण मोमेंट था, क्योंकि वे हमेशा कह सकते थे: 'देखो, इतने सारे GitHub इश्यूज़ हैं...'
और सब कुछ इस तरह: 'हाँ, यह सब कुछ नहीं है; इतना शोर और अंत में कुछ भी असली नहीं — इनमें से किसी का असली आर्थिक मूल्य नहीं है, इनमें से किसी में असली सुरक्षा‑खतरा नहीं है' आदि। यह वही नैरेटिव है जो बार‑बार फैलाया जाता है। और मुझे लगता है कि अब इस स्थिति को इतने अज्ञान से नज़रअन्दाज़ करना मुश्किल हो गया है — इसे कैसे इतना अजीब तरीके से गलत आँका जा सकता है?
उह.
या कहूँ तो गलत आकलन कर रहे हैं। तो—
उह, एक तरह का एक्सट्रीम 'स्टैंकॉर्बियम'.
हाँ। [हँसता है]
लेकिन Jona, परफेक्ट, जैसा कि यहाँ...
खुलता है।
सही। पर एक डिस्क्लेमर के रूप में मुझे यह भी जोड़ना होगा कि कुछ लोगों ने दलील दी है — और मैंने भी देखा है — कि कुछ मॉडल पिछले कुछ महीनों में आंशिक रूप से खराब हुए हैं या कम से कम लोगों को ऐसा सब्जेक्टिव अनुभव हुआ है। सवाल यह है कि क्या यह इसलिए है क्योंकि कंपनियाँ जो वादा कर रही थीं वह वक्त के साथ मेल नहीं खा रहा, और मॉडल असल में समान ही हैं? या सचमुच कोई रिर्सवेशन (rückwärtsentwicklung) हो रही है? कई लोगों ने नोट किया है कि AI कैसे जवाब देती है और किस प्रकार के टोकन जेनरेट होते हैं — यह पूरी तरह गुणवत्ता और आउटपुट की लंबाई से जुड़ा होता है — और ऐसा लगता है कि आउटपुट में अब काफी भराव (फिलर) आ गया है बनिस्पत पहले के। इसलिए आजकल तुम्हें अक्सर 'ओह, संक्षेप में कहो' जैसा निर्देश देना पड़ता है ताकि आउटपुट वैसा हो जैसा उम्मीद होती थी।
हम्म।
ऐसे बहुत से लोग हैं जो इसी तरफ तर्क देते हैं, और मैं इसे समझ सकता हूँ क्योंकि मुझे भी सब्जेक्टिवली कुछ‑न‑कुछ ऐसा ही महसूस होता है।
Jona, अब हम उस हिस्से की तरफ आ रहे हैं — मैं असल में इसके बारे में नहीं बोलना चाहता था, पर मन कर रहा है। मैं पिछले दो एपिसोड से यह छोटा‑सा, कोई रैंट नहीं पर मेरा छोटा 'हॉट टेक' रखना चाहता था।
करो।
और वो यह कि जो कोई भी पेड AI‑मॉडल इस्तेमाल नहीं करता, वह असल में आज की AI की क्षमताओं का सही आकलन करने में सक्षम नहीं है।
हाँ.
और मुझे यह कई मायनों में दुखद लगتا है। इसलिए मैंने अपना हॉट‑टेक भी पेश किया है। यही मेरा मुद्दा है — लोग मुझसे सहमत नहीं होते। मैं वही व्यक्ति हूँ जो दार्शनिक स्तर पर कहता है कि मेरे हिसाब से मुफ्त ChatGPT नहीं होना चाहिए।
हम्म।
मेरा मानना है कि यह समाज और उद्योग दोनों के लिये नुकसानदेह है कि उपभोक्ताओं के पास दो बिल्कुल अलग किस्म की AI हैं। एक मुफ्त है जिसे लगभग 96% लोग इस्तेमाल करते हैं और उसी से वे तय करते हैं कि AI क्या कर सकती है।
सही।
और फिर ऐसे लोग हैं जो पैसे देते हैं और बहुत, बहुत बेहतर सिस्टम पाते हैं, इसलिए उनकी समझ काफी गहरी होती है। मैंने यह हाल ही में रेडियो पर महसूस किया।
हाँ, यह बिलकुल सही है, पर मुझे नहीं लगता कि इससे मेरा अंदाज़ा बेअसर हो जाता है। यह उस दावे को तो नहीं खारिज करता कि 'यह उतना अच्छा नहीं है जितना वादा किया गया था'। बेशक अगर तुम इसके लिए पैसा नहीं देते — मासिक भुगतान या प्रति‑प्रॉम्प्ट चार्ज — पर अगर तुम दस यूरो, सौ यूरो या प्रति‑प्रॉम्प्ट सौ यूरो तक खर्च कर रहे हो, तो नतीजे बेहद दमदार होते हैं और आज की AI से तुम जो हासिल कर सकते हो वह बहुत शक्तिशाली है। फिर भी मेरा तर्क शायद अभी भी कायम है।
बिलकुल — मेरी थ्योरी यह हो सकती है कि शुरू में हाइप बनाने के लिए मुफ्त यूज़र्स को भी अच्छा अनुभव दिया गया था, ताकि लोग आकर्षित हों। अब जब AI‑कंपनियाँ यह महसूस कर रही हैं कि यह बहुत महँगा है, तो वे कह रही हैं: 'हाँ, हम उनके साथ भी नुकसान उठा रहे हैं जो 200 डॉलर महीने देते हैं।'
पर शायद हमें यह शुरू कर देना चाहिए कि जो बिल्कुल कुछ भी भुगतान नहीं करते, उन्हें थोड़ी‑सी कम 'इंटेलिजेंस' मिले। समझे?
मुझे लगता है यह एक स्पष्टीकरण हो सकता है कि क्यों अधिकतर जो फर्क महसूस करते हैं वे मुफ़्त उपयोगकर्ता होते हैं — क्योंकि उन्हें अब वह 100% नहीं मिल रहा जो तकनीकी रूप से संभव होता था।
हाँ.
और इसलिए उन्हें यह घटिया सा लगता है क्योंकि यह असल में घटिया है।
हाँ.
बिलकुल। मैं बस फिर लौटना चाहता था — मैंने यह अंतर महसूस किया और समझ में आया कि मैं किस तरह की बबल में रहता हूँ। एक छोटी‑सी कबूलियत, Jona: मैंने इस महीने आज़माने के लिए वो 100‑यूरो वाला ChatGPT ले लिया है।
बढ़िया।
मैंने 200‑यूरो वाला नहीं लिया। मैंने ChatGPT Pro लिया, जहाँ तुम चुन सकते हो — 100 यूरो में पाँच गुना कोटा या 200 यूरो में बीस गुना। मैंने 100‑यूरो वाला इसलिए लिया क्योंकि Codex के साथ प्रोग्रामिंग करते समय मैं अक्सर लिमिट तक पहुँच जाता था और लगा कि ज़्यादा कंटिंगेंट लेना वाजिब होगा।
हाँ.
पर पाँच गुना मेरे लिए पूरा पर्याप्त है — मैं लिमिट तक नहीं पहुँचता, इसलिए बीस गुना की जरुरत नहीं। और यह कंट्रास्ट बड़ा है — हम रेडियो पर बैठे थे और एक महिला ने बताया: 'हाँ, मैंने ChatGPT से कहा कि एक सिटेशन को APA में बदल दो।'
हाँ.
और उसने उसे पूरा गड़बड़ कर दिया।
हाँ.
एक बहुत ही आसान, स्पष्ट काम में।
हाँ.
और हमने कहा: 'हाँ, यह AI नहीं कर सकती, यह काम नहीं करेगा.' जबकि दूसरी तरफ Codex मेरे लिए हफ्तों में सैकड़ों हज़ार पंक्तियाँ बग‑रहित लिखता है।
हाँ.
यह एक बड़ा कंट्रास्ट है। औसत इंसान को सही ही लग सकता है कि ChatGPT एक वाक्य भी बिना गड़बड़ी के नहीं लिख पाता।
हाँ.
क्योंकि औसत इंसान मुफ्त वर्ज़न को ही जानता है, और वह घटिया है।
हाँ.
और मुझे यह कई कारणों से दुखद लगता है। समाजिक रूप से यह दुख की बात है कि ज़्यादातर लोग यह नहीं समझते कि यह कितनी शानदार टेक्नोलॉजी हो सकती है और किस बात के लिए इस्तेमाल हो सकती है। और एक डूमर‑विजन से कहा जाए तो अधिकांश समाज यह नहीं समझता कि हम सब कितने मुश्किल हालात में हैं।
हाँ.
क्योंकि वे सोचते हैं कि यह चीज एक वाक्य तक ठीक से नहीं लिख सकती — 'तो यह मेरी नौकरी नहीं छीन सकती'।
हाँ.
वे यह नहीं समझते कि यदि तुम पैसे दे कर सही टूल लेते हो, तो ऐसे काम हैं जो तुम्हारी नौकरी ले सकते हैं। और व्यक्तिगत तौर पर मुझे यह बहुत दुखद लगता है क्योंकि इससे मेरे AI‑काम की धारणा बहुत विकृत हो जाती है।
हूँम।
यह होता है कि जब मैं लोगों से कहता हूँ: 'यार, मैं क्रंच‑टाइम वीडियो AI से एडिट कर के देख रहा हूँ,' तो...
हाँ.
तो लोग अपने मुफ्त ChatGPT के अनुभव के बारे में सोचते हैं — जो तीन वाक्यों में सात गलतियाँ कर देता है — और फिर बोलते हैं: 'Wieland, प्लीज़ ऐसा मत करो। यह काम नहीं करेगा। क्या? AI ऐसा नहीं कर सकती। यह एक वाक्य भी बिना गलती के नहीं लिख सकती,' — और वे मुफ्त ChatGPT की अपनी याददाश्त का हवाला देते हैं।
हाँ.
तो, [आह भरता है] मुझे दोस्तों से इसके खिलाफ तर्क भी मिले। मैं यह मानता हूँ कि मुफ्त पहुँच होना अच्छी बात है — कम से कम इससे लोगों के पास यह उपकरण पहुँचता है।
हाँ.
और जो इसे वहन नहीं कर सकते या नहीं करना चाहते — मैं स्वयं भी कुछ हद तक बटवारे में हूँ — उन्हें कम से कम एक विकल्प मिलना चाहिए। पर मेरी मूल बात यही है: समस्या AI नहीं है, समस्या पूँजीवाद है। अगर सभी को एक अच्छा सिस्टम मुफ्त मिलता, तो मैं भी इसके पक्ष में होता। और यह ठीक है कि मुफ्त में कुछ उतना अच्छा नहीं मिल सकता, पर कम से कम कुछ मिलता है। पर मैंने यह देखा है — [आह भरता है] — इंटरनेट और इंटरनेट‑कैपिटलिज्म, जिसने 2010 के शुरुआती दशकों में तेज़ी पकड़ी, उसने दुर्भाग्य से AI को उसी ढांचे में ढक लिया। शुरुआत में Sam Altman ने कहा था: 'हमें पता है कि आप इंटरनेट पर हर चीज़ मुफ्त और विज्ञापन से चलते देखने के आदी हैं। लेकिन AI बहुत महँगी है, यह विज्ञापन से नहीं चलेगी। इसलिए हम विज्ञापन‑आधारित नहीं करेंगे और मुफ्त वर्ज़न नहीं देंगे। हम ऐसा प्रोडक्ट बनाएँगे जिसके लिए आप भुगतान करेंगे...'
हाँ.
-ठीक वैसे ही जैसे आप किसी भी दूसरे उत्पाद के लिए करते हैं।
हाँ.
सच कहूँ तो मैं हमेशा इस तुलना को करता हूँ — यह थोड़ी बेवकूफाना हो सकती है — पर जब मैं लोगों को ChatGPT समझाता हूँ और मैं OpenAI API इस्तेमाल करता हूँ, तो मैं इसे दूध से तुलना करता हूँ, खासकर Müllermilch से। मैं कहता हूँ: 'ठीक है, Müllermilch में शायद पचास हज़ार कंजर्वेटिव और फ्लेवर‑एडिटिव हों — और मैं नहीं जानता कि यह कितना सही है — पर इसका मतलब यह नहीं कि जब मैं B2B‑कस्टमर की तरह दूध लूँगा...'
हाँ.
'...अगर मैं Müller डेयरी से B2B‑दूध लूँ तो उसमें कोई फ्लेवरर या कंजर्वेटिव नहीं होगा — वह साफ़ होगा। सम्भवतः मैं अपनी Wieland‑मिल्क में कुछ कंजर्वेटिव या फ्लेवर जोड़ दूँगा, या ChatGPT के मामले में तुम्हें ट्रैक करूँगा, विज्ञापन दिखाऊँगा, तुम्हारे डेटा बेचूँगा। पर सिर्फ इसलिए कि Müller भी कंज्यूमर‑मिल्क बनाती है, इसका मतलब यह नहीं कि B2B और B2C एक ही चीज़ हैं। इसलिए मैं अक्सर इसे दूध से समझाता हूँ — इंटरनेट और डिजिटल सामान में यह सामान्य है। कल्पना करो कि दुकान में एक मुफ्त Müller‑मिल्क है और एक ऐसी जो तुम्हें खरीदनी पड़े।'
हाँ.
और मुफ्त वाली वाकई घटिया होती है।
हाँ.
अर्थात वह स्पष्ट रूप से काफी खराब होती है।
यह तो बस पानी जैसा है जिस पर थोड़ा दूध का स्वाद है या कुछ, हाँ।
अब सोचो क्या होगा: 95% लोग मुफ्त Müllermilch लेंगे और कहेंगे: 'Wieland, क्या तुम पागल हो? तुम इसके लिए पैसे क्यों दे रहे हो?' और अगर मैं कहूँ 'मुझे Müller‑मिल्क पसंद है, मैं इसके लिए भुगतान करूँगा', तो लोग कहते होंगे: 'मैं हमेशा मुफ्त Müller‑मिल्क ही पीता हूँ — वह तो घटिया है, और मुफ्त होने पर भी मैं मुश्किल से लेता हूँ। मैं कभी भी इसके लिए पैसे नहीं दूँगा। दोनों का नाम तो Müller‑milch ही है — तुम क्या चाहते हो, Wieland?'
हाँ.
बेशक मैं इसके लिए पैसे नहीं दूँगा। और मेरे लोग भी मुझे कहते हैं: 'Wieland, ChatGPT एक वाक्य भी सही लिख नहीं पाता — मैं कभी इसके लिए पैसे नहीं दूँगा।' क्योंकि उन्हें यह समझ ही नहीं आता कि अगर... माफ करना, मैं अब ज़्यादा रैंट कर रहा हूँ।
सही। और वे यह भी नहीं समझते कि अगर कोई कंपनी AI में महीने के 1000 यूरो, यानी सालाना 12,000 यूरो निवेश करे, तो वह पहले ही एक पद की बचत कर सकती है।
हाँ.
—प्रश्न बस यह है कि कौन सा पद बचेगा। [हँसता है] पर अगर तुम्हारा अनुभव मुफ्त ChatGPT या मुफ्त Copilot ही रहा है, तो तुम यह समझ नहीं पाओगे; तुम कहोगे 'नहीं, AI नौकरी नहीं ले सकती'। पर तुम्हें यह समझना होगा कि विकल्प अक्सर यह है कि किसी व्यक्ति को सालाना तीस से पचास हज़ार यूरो या उससे ज़्यादा देना। और सिद्धांततः यही वह बजट है जो API‑कॉल्स पर खर्च किया जा सकता है।
आदि। और जो कुछ तुम AI से करवा सकते हो और यह कितना बढ़िया है और कितनी अच्छी तरह अनुकूल हो सकती है, वह कई मामलों में लागत में काफी प्रतिस्पर्धी हो सकता है। या कुछ ऐसा ही।
पर ठीक है Jona, जैसा तुम फिर से कह रहे हो, नौकरियों के सवाल पर — मुझे लगता है कि लोग बहुत 'कोपियम' में हैं, और मैं इसे समझ सकता हूँ क्योंकि इंसान वैसे ही होता है।
अगर किसी को कोई चीज़ उम्मीद देती है तो वह उस पर टिके रहता है। मैं भी कहता हूँ, 'ओह, Wieland के हॉट‑टेक्स, मैं यूट्यूब कमेंट्स का इंतज़ार कर रहा हूँ' — इसे आप पॉपुलिज़्म से जोड़ सकते हैं: किसी चीज़ को दोष देना इंसान को उम्मीद देता है। 'मेरी ज़िन्दगी खराब है, क्यों? शरणार्थी हैं; अगर वे न हों तो मेरी सारी समस्याएँ हल हो जाएँगी' — यह सरल समाधान देता है बजाय इस बात के कि दुनिया जटिल है और समस्याएँ सुलझाना आसान नहीं।
और इसे तुम बिलकुल ही उनके पहले कहे हुए से अलग करके नहीं ले सकते।
[हँसता है]
समझ रहे हो? मैं भी सोचता हूँ कि जब बार‑बार लोगों को बताया जाए: 'यार, AI जल्द ही मानव काम का बड़ा हिस्सा कर लेगी और हमें इसके लिए समाज के तौर‑तरीके सोचने चाहिए,' तो यह बात महत्वपूर्ण है।
हाँ.
और यह ज़रूरी है। पर फिर ऐसी मशहूर स्टडी आती है कि 95% AI‑प्रोजेक्ट कंपनियों में फेल होते हैं, और लोग उस पर लपक पड़ते हैं और कहते हैं: 'देखो, यह सच नहीं हो सकता, यह मेरी नौकरी नहीं लेगा।' पर अगर तुम पेपर पढ़ो तो पता चलता है कि उन्होंने 'फेल' को इस तरह परिभाषित किया कि उसने राजस्व नहीं बढ़ाया या वे इसे उपयोगी नहीं मानते थे।
आह, तो यही थ्रेशोल्ड है कि इसे असफल माना गया। आह, ठीक है.
अर्थात उन्होंने विफलता को इस तरह परिभाषित किया कि टेस्ट‑फेज के बाद इसे आगे नहीं बढ़ाया गया। और मैं सोचता हूँ — मेरे भी कई प्रोजेक्ट फेल होते हैं — मैं कुछ आजमाता हूँ, यह काम नहीं करता तो छोड़ दे देता हूँ।
उन्हें तुम्हारा राजस्व बढ़ाना होगा। हाँ, बिलकुल.
या मेरे राजस्व को बढ़ाना होगा, या यह मेरे जीवन में कोई फायदा लाएगा — नहीं तो हम आगे नहीं बढ़ाएँगे। पर कंपनियाँ अक्सर यही करती हैं: 'ठीक है, हम इसे आज़माएँगे, एक‑दो हफ्ते देखें, और अगर नहीं चलता तो छोड़ देंगे।'
हाँ, सही.
पर इस स्टडी में इसे AI‑प्रोजेक्ट के 'फेल' के रूप में गिना गया।
ना, यह तो काफी सख्त परिभाषा है।
और फिर लोग उस पर कूद पड़ते हैं — मैं समझ सकता हूँ, क्योंकि तुम इसे नहीं मानना चाहोगे अगर कोई कहे: 'तुम बीस साल से काम कर रहे हो, पर तीन साल में सब कुछ उलट जाएगा'.
हाँ.
तो तुम स्वाभाविक रूप से उन हर बातों पर कूद पड़ते हो जो कहती हैं: 'अरे, यह बस बोल रहा है।'
हाँ.
वे सब बस बकवास कर रहे हैं जो AI के बारे में बोलते हैं।
हाँ.
जहाँ तक महँगे सब्सक्रिप्शन मॉडलों की बात है, जिन पर पैसे देना बिल्कुल समझ में नहीं आता — Plex ने भी हाल ही में अपनी कीमतें बढ़ा दीं और यह मुझे बिल्कुल बुरा लगा कि कीमतें इतनी बढ़ गईं। उन्होंने लाइफटाइम‑एक्सेस की कीमत, जो शायद पहले ~250 डॉलर थी, अब 750 डॉलर कर दी — यानी तीन गुना। और उस बंदे ने कहा: 'नहीं यार, हम इसे ऐसे लंबे समय तक ऑफर नहीं रखना चाहते, हम क्लासिक Adobe‑जैसा मॉडल अपनाना चाहते हैं — सिर्फ सब्सक्रिप्शन जहाँ हर महीने भुगतान होता रहे।' और इससे बहुत बुरा असर पड़ा है, क्योंकि Plex तो सिर्फ एक सॉफ्टवेयर है जो तुम्हारे अपने सर्वर पर मौजूद वीडियो को दूसरे डिवाइस पर स्ट्रीम करने का काम करता है — इसके लिए साफ़ तौर पर 750 डॉलर और हार्डवेयर के ऊपर और खर्च करना समझ में नहीं आता। सेट‑अप का समय और मेहनत भी अलग है। तुम आराम से कोई अच्छी ओपन‑सोर्स समाधान भी इस्तेमाल कर सकते हो, जो मुफ़्त और शानदार है।
अगर किसी को ऐसी ज़रूरत है — और हाँ, सिर्फ़ एक डिस्क्लेमर के तौर पर: आपको वे वीडियो पहले से खरीदने होंगे; फिर आप जर्मनी में अपनी निजी प्रतियाँ बना सकते हैं। यानी जो वहाँ हो रहा है, वह पूरी तरह वैध और स्वीकार्य है।
हाँ।
हाहा। और यह फिर एक और ऐसा मामला है — जैसे कि जनता में पहले से ही सब्सक्रिप्शन‑मॉडल्स के प्रति हमें काफी नफ़रत न हो।
हाँ।
जोन, इस बार भी हमने जबरदस्त काम किया।
सही।
जैसा कहा जा सकता है। हमने एक शानदार एपिसोड रिकॉर्ड किया, जो भरपूर जानकारी से भरा था — हमारे निजी प्रोजेक्ट्स के बारे में, कि हम अभी क्या कर रहे हैं, तकनीक के साथ किस तरह काम कर रहे हैं और बेशक यह कि बड़ी टेक‑कंपनियाँ तकनीक के साथ अभी क्या कर रही हैं। और जोना, हमारे पास लेट‑स्टेज कैपिटलिज़्म पर कुछ छोटे पर बढ़िया रैंट्स भी थे और उस संभावित 'Watchshops'‑दुनिया पर चर्चा भी हुई, जिसमें हम सब शायद जल्द ही रहने लगेंगे। यह एक क्लासिक एपिसोड था, शानदार पलों से भरा हुआ। अगर किसी ने यह सब नहीं सुना है और सोचता है 'यह तो बहुत अच्छा था, मैं इसे पूरा सुनना चाहूँगा' — चाहे अभी बस जुड़ा हो या बाद में दोबारा सुनना चाहे — तो जोना, हम इसे कहाँ सुन सकते हैं?
इसके लिए सबसे अच्छा है कि आप radio-unique.de पर जाएँ। वहाँ आपको हमारे स्टूडेंट‑रेडियो के सारे न्यूज़‑आर्टिकल मिलेंगे, और Crunch‑Time के संबंधित एपिसोडों पर क्लिक करना चाहिए। वहाँ से आप किसी भी समय सारी एपिसोड फिर से सुन सकते हैं। इसके अलावा आप YouTube या Spotify पर 'Die Crunch Time' भी खोज सकते हैं। हमारा पॉडकास्ट असल में RSS फॉर्मैट में भी उपलब्ध है — यानी आप podcast.radio-unique.de पर जाकर सभी पॉडकास्ट के RSS‑लिंक सेव कर सकते हैं और उन्हें सीधे अपने पसंदीदा पॉडकास्ट‑रीडर में जोड़ सकते हैं; वहाँ आपको सीधे YouTube और Spotify के लिंक वगैरह भी मिलेंगे।
और अगर आप बिल्कुल नए श्रोता हों, या शायद आपके पास सिर्फ़ एक एनालॉग रेडियो हो जहाँ स्लाइडर से कोई FM संख्या सेट करनी पड़ती है...
उफ़!
तो फिर Crunch Time अगली बार सुनने के लिए आप कहाँ ट्यून कर सकते हैं?
Crunch Time का इक्यासीवाँ एपिसोड 28 जून को आएगा। जैसा कि हर महीने होता है, यह चौथा रविवार है, और उस दिन शाम 18:00 से 19:00 के बीच आपको या तो UKW पर 102.7 मेगाहर्ट्ज़ पर ट्यून करना होगा या DAB+ के बुकेट 5B में सुनना होगा। इसके लिए ज़रूरी है कि आप केम्निट्ज़ के इलाके में हों। अन्यथा आप radio-unique.de पर जाकर वेबप्लेयर खोलकर भी सुन सकते हैं — वहाँ आप 28 जून को शाम 18:00 से 19:00 तक Crunch Time को लाइव सुन पाएँगे।
तो आपके पास सभी विकल्प खुले हैं — इस एपिसोड, पिछली और आने वाली Crunch Time को फॉलो करने के लिए। तब तक, अपना ख्याल रखना।
बाय।
[आउट्रो-म्यूज़िक]
यही था।
क्रंच टाइम, रेडियो UNiCC का एक विशेष उत्पादन।
Zuletzt aktualisiert am 1
Всем большой привет у ваших приёмников, рады, что вы нас слушаете. Добро пожаловать в «Crunch Time». Это восьмидесятый выпуск нашего техно‑подкаста, в котором я, Виланд,
И я, это Йона.
рассказываем вам каждое четвёртое воскресенье месяца о самых свежих вещах из мира технологий и из нашей личной жизни, где мы всё делаем своими руками и что‑нибудь мастерим. Мы снова подготовили для вас кучу классных тем — и в этот раз, в честь номера восемьдесят, тоже есть кое‑что особенное. Обычно, когда у нас получается какой‑нибудь круглый или просто странный номер выпуска, мы устраиваем какие‑нибудь безумные спецформаты, но сейчас, как по мне, и так получилось очень круто. Наш восьмидесятый выпуск будет таким классическим выпуском: темы из мира техники и, э‑э, темы из нашего личного DIY‑творчества.
Радио UNiCC представляет
[Музыка] подкаст «Crunch Time»
[Музыка] с Йоной и Виландом.
И как раз с этого я бы хотел сразу начать, э-э, да, с темы, о которой я уже говорил в прошлом выпуске, над которой я ещё немного посидел, и поэтому теперь могу вам просто рассказать, насколько офигенным я считаю Google Health Connect, потому что это просто…
[смех]
Это просто офигенно. Йона, я так жёстко заморочился. Это реально очень круто. Но мне нужно сначала вас всех немного ввести в курс дела. Что такое Google Health Connect, почему я так им восхищаюсь и почему вам всем стоит им пользоваться?
Именно.
Короче, э-э, в очень нетипичной для большого технокорпа манере Google Health Connect — это такой интерфейс на Android‑телефонах, который позволяет разным, эм, медицинским и фитнес‑приложениям общаться друг с другом. Всё это устроено максимально просто: по сути это такая, ну, просто база данных, которая хранится локально на каждом телефоне, и приложения могут, грубо говоря, говорить системе: записать что‑то в базу или прочитать что‑то из базы. Там есть ещё, как бы, подсистема прав доступа. И, наверное, надо сначала сказать: до Android 14 это было просто отдельное приложение, которое ты должен был установить, а начиная с Android 14 это уже часть самой операционной системы Android.
И как я это сейчас понял, это значит, что, например, вот эти шаги, которые телефон насчитал, могут, например, дальше передаваться в приложения медицинских страховых компаний. Там же есть парочка известных…
Угу.
Э-э, которые, ну, выплачивают тебе, скажем, какие‑то центы за количество дней, в которые ты сделал по десять тысяч шагов именно с этим телефоном. Это тоже через этот API работает?
Ну, я думаю…
…или это на самом деле вообще что‑то совсем другое?
Ну, я думаю, что это вполне могло бы тоже через него работать. Я лично именно для этого его не использовал, но теоретически всё такое возможно. Потому что, и это мне важно подчеркнуть, это, скажем так, не часть Google Play Services и оно вообще никак не синхронизируется с твоим Google‑аккаунтом, потому что, ну, я могу себе представить, что у многих тут сразу возникают опасения. Ты в принципе не можешь привязать это к своему Google‑аккаунту. Максимум, что ты можешь сделать, — это сказать, что нужно автоматически выгружать ZIP‑файл со всеми данными в какое‑нибудь облачное приложение, и там ты можешь выбрать любой облачный сервис, который установлен на телефоне, в том числе, конечно, Google Drive. Но это реально просто автоэкспорт. Все данные живут локально на телефоне и…
Ну, кроме вот этого экспорта. Его можно как‑то локально сделать, чтобы прямо на устройстве куда‑нибудь сохранить ZIP‑файл? Потому что если мы говорим, что у человека есть право посмотреть, какие данные вообще хранятся и так далее, а они у тебя потом автоматически улетают сразу к какому‑нибудь облачному провайдеру, то, скажем так, вся эта красивая экосистема чуть‑чуть ломается. Можно ли это сделать полностью локально?
Ну, э-э, дело в том, что я не… то есть, я так не думаю. Я не могу просто создать файл где‑нибудь в файловой системе телефона, но тут есть нюанс. Во‑первых, ты можешь, конечно, выбрать, скажем, ту же Nextcloud как приложение, в которое всё это будет выгружаться.
А, ну тогда это более‑менее окей. Настраивать Nextcloud только ради этого, наверное, всё равно никто не будет.
Да.
Но это, это значит, в принципе так можно.
Вот. Но, эм, что тут, как я уже сказал, тоже круто: это просто база данных на твоём телефоне, под которую ты можешь, грубо говоря, написать любое приложение, которое с ней работает, и всё. Это не какая‑нибудь история в стиле других гугловских сервисов: если я хочу сделать что‑нибудь, что взаимодействует с YouTube, мне нужно идти в Google Cloud Console, заводить там приложение, получать App Secret, и потом кто‑то в Google должен ещё проверить, нормально ли то, что я собираюсь делать, и…
И в худшем случае у тебя вообще есть доступ только примерно к двадцати процентам всей документации.
Это как раз следующее.
А ещё там же есть куча функций—
Да.
—к которым нельзя получить доступ, или к которым теоретически можно, но ты просто о них не знаешь, потому что это нигде внятно снаружи не задокументировано.
Да.
Вот весь этот цирк.
А здесь всё это просто система базы данных на твоём телефоне, где приложение может просто запросить, что оно хочет, условно, читать вот такие типы данных и записывать вот такие типы данных.
Идеально.
И, эм, тут есть одно важное различие. Есть две большие категории этих данных. В Германии, скажем так, по сути видна только одна из них, потому что, я подозреваю, из‑за законодательства ЕС и законов о медицинских изделиях там пока ещё есть всякие ограничения, из‑за которых вторую категорию просто не используют. Или, возможно, я просто не пользуюсь ни одним из приложений, которое её использует. Первая большая категория называется, довольно сбивающе с толку, Health Data, и под ней понимаются реально все штуки, которые можно трекать. И каждый раз, когда я смотрю на этот экран прав доступа, я снова офигеваю с того, сколько всего там вообще можно отслеживать. Важный момент про прозрачность, о которой ты говорил: в самой Health‑Connect‑апке или в настройках системы в разделе Health Connect можно прямо посмотреть, какие приложения в последнее время обращались к данным и какие типы данных они могут читать или записывать и так далее. Эти Health Data — это всё, что мы обычно и ассоциируем с трекингом здоровья. Я этим, как уже сказал, довольно плотно занимался. Есть одно приложение, его нельзя просто так скачать из Play Store, оно лежит на сайте Google для разработчиков в виде APK. Называется Health Connect Toolbox, и с помощью него у тебя по сути есть такой raw‑доступ к базе: ты можешь эмулировать разные запросы и смотреть, что именно там хранится. Поэтому я и знаю, что туда вообще можно записывать. Начинается всё с самых простых вещей — шаги, но дальше идут, эм, частота сердцебиения, можно записывать вес, массу костей, массу мышц… точнее, нет, вот как раз мышечную массу — нельзя. Это прям странно. Это единственный, единственный минус, который я нашёл: при том, что на фоне всех остальных доступных показателей это довольно типичный параметр, его там просто нет. Мне приходится его косвенно высчитывать, потому что Health Connect умеет, во‑первых, хранить массу всех костей, а во‑вторых — массу всего, что не кости и не мышцы, и уже от этого можно обратно посчитать мышцы.
А, и какой в этом вообще смысл?
Можно, конечно, и питание отслеживать, трекать потребление жидкости, можно трекать свой вес. Это всё просто отдельные точки данных. Разумеется, туда же входят и темы женского здоровья: менструальные кровотечения, цервикальная слизь — всё это можно отмечать. И что мне здесь, в кавычках, забавно, уже вижу комментарии, что именно как подпункт раздела женского здоровья, то есть как что‑то, что я как мужчина, наверное, трекать не буду, а женщина, может быть, захочет, там есть тип записи Health Data под названием Sexual Activity.
Да.
И у него, у этого типа, есть ровно один параметр — Protection Used, то есть использовалась ли защита, да или нет.
Подожди, но это же вот так просто, между делом, лежит в базе данных. То есть, ну, с одной стороны, абсолютно логично, зачем всё это там: по этим разным точкам данных вместе с измерением температуры можно, грубо говоря, предсказывать цикл. Но всё равно немного странно, что ты, условно, ежедневно отмечаешь такие активности или каждый день записываешь консистенцию слизи. Это, ну, немного кринжово звучит, но так можно делать, и это реально помогает этому алгоритму предсказания. Это просто, так сказать, контекст для всех, кому это сейчас кажется немного странным.
Есть такое приложение, которое как раз занимается трекингом женского здоровья, и в нём можно тоже отмечать Sexual Activity. Я не знаю, совместимо ли оно с Google Health Connect и синхронизирует ли это туда.
Но теоретически могло бы.
Могло бы: там в календаре в этот, в этот, в этот день просто рисуется сердечко. То есть, если у тебя был секс, в этот день стоит такое сердечко. Неважно. Во всяком случае, э-э, там есть вот все эти вещи, и поэтому…
«Я бы никогда в жизни не стал это синхронизировать с Гуглом». Нет, оно же на телефоне. То есть это как раз тот редкий случай, когда ты вообще никак не можешь это синхронизировать с Google. Типа: «Я бы ни за что так не сделал, это слишком небезопасно». Там нет ничего небезопасного, всё лежит у тебя на телефоне.
И самое классное, что эта база данных даёт, и что я считаю просто офигенно крутым и полезным, чего я вообще не ожидал бы от крупной технокорпорации, — это то, что она обеспечивает интероперабельность между всеми, всеми возможными приложениями.
Для такой крупной компании это реально нетипично. Это прям нужно ещё раз отдельно подчеркнуть.
Да, меня это просто поражает.
Да.
Да. Йона, я тут быстренько открыл Health Connect Toolbox, которая может читать вообще всё, и посмотрел список этих Health Data, что там есть. У нас есть: активно сожжённые калории, преодолённый подъём, количество пройденных этажей, данные об интенсивности активности, скорость, всего сожжённые калории, мощность, максимальное потребление кислорода, толчки инвалидной коляски, шаги, виды спорта, тренировочные планы, дистанция. И дальше там есть другие штуки: пульс в покое, насыщение крови кислородом, температура кожи, уровень сахара в крови и, эм, дальше пошло‑поехало — сон, разные показатели тела, витальные параметры. Можно даже трекать упражнения на осознанность, медитации.
Да, вау.
Это, по‑моему, просто жесть. И вот поэтому мне всё это так интересно. Сейчас, короче, я начинаю вспоминать свою исходную мысль: ну, типа, я понимаю, да, женское здоровье, трекинг Sexual Activity — окей. Но, типа, я как мужчина, может быть, тоже хочу это трекать, чтобы какие‑то взаимосвязи увидеть.
Да.
И, ну, есть же причина, по которой там вообще можно указать и сохранить этот параметр Protection Used. Я, собственно, спрашивал у знакомых женщин, типа: «А в чём смысл?» И мне отвечали: «Ну, если вдруг задерживается менструация, можно быстро посмотреть, когда у меня в последний раз был незащищённый секс — может, я беременна?» И…
Да, и тогда можно, скажем, прикинуть…
Да.
…насколько это, так сказать, вероятно, да.
И я такой думаю: окей, но, может, и мне тоже интересно где‑нибудь записывать и потом посмотреть, когда у меня в последний раз был незащищённый секс.
Окей, но вот вопрос: это всё просто затем, чтобы понтоваться перед самим собой? Или зачем вообще? [смеётся]
Ну, эм, нет, я думаю, это… мы сейчас, конечно, немного уходим от темы, но в принципе это бы означало, что такие фундаментальные анализы состояния здоровья человека можно проводить более‑менее автоматически, прямо на лету. Это, разумеется, не значит, что семейные врачи станут не нужны, вообще не об этом речь. Но это значит, что систему можно настроить так, чтобы она всё это распознавала сама и, возможно, гораздо раньше, чем сейчас. Потому что обычно же никто не говорит: «О, дай‑ка я сначала объединю вот эти четыре разных дата‑сета и скрещу их, чтобы проверить, что у меня нет какой‑нибудь странной болезни», которая проявляется именно в таких параметрах. Ты понимаешь, о чём я. Вместо этого всё могло бы происходить автоматически, постоянно, если в систему заливается достаточно данных. То есть, пока туда подкачиваются данные, их можно сразу же прогонять через такие проверки, и при этом всё, что от нас требуется, — это чтобы существовало приложение, которое имеет право всё это собирать и анализировать…
Да.
—можно было бы всё это офигенно развернуть так, чтобы человечество в целом стало здоровее. И это как раз примерно то, чего я… и это супер‑подводка к моему — я его так и называю — собственному «здоровьесистеме», условно моей системе здоровья.
А, понятно, очень круто.
То есть чего я вообще хочу добиться своим этим личным «здоровьесистемой», которую я сейчас себе собрал. И для этого Google Health Connect — просто ключевой элемент, потому что я бы никогда не смог, да и не хотел бы, чтобы все части этой системы были от одного производителя, это был бы слишком жёсткий вендор‑локин. Короче, Jona, у меня есть фитнес‑трекер‑часы, у них своё приложение. У меня есть умные весы — не просто потому, что они в интернете, а потому что это весы, которые ещё и меряют параметры тела и всё такое: процент жира, мышечную массу и так далее.
Она по всем этим данным даже считает мой базовый расход калорий. И, э‑э, дальше у меня есть ещё умный тонометр, который тоже всё это записывает. И все эти приложения вообще никак друг с другом не совместимы.
Да.
По умолчанию — нет. И ещё у меня, эм, есть отдельное приложение, в котором я отслеживаю своё питание. Jona, одно только это приложение — оно с открытым исходником, основано на Open Nutri Tracker, — я так жёстко допилил. У него из коробки нет никакой интеграции с Health Connect, но по сути это просто база данных: подключаешь нужный модуль — и поехали.
Да, очень красиво.
Эм, и всё это само по себе вообще бы не стыковалось, и я бы никогда не смог всё связать вручную. Поэтому я ещё написал себе тренировочное приложение, которое задаёт мне программу силовых упражнений и, опять же, пишет всё в Google Health Connect. И все эти данные стекаются в Google Health Connect. А потом я сделал себе дашборд‑приложение, которое читает оттуда все данные и строит между ними связи и, условно, говорит что‑нибудь вроде: «Окей, по всем параметрам выходит, что я должен сейчас терять жир».
Да.
Произошло ли это на самом деле? Если да — отлично. Если нет, вот набор параметров, которые можно подкрутить. Например, мы говорим: «Окей, тогда, значит, расчёт того, сколько калорий я сжигаю при беге, скорее всего, неверный, давай его чуть‑чуть подправим».
Да.
И всё это работает только благодаря Google Health Connect.
Круто.
И есть ещё вторая большая часть данных Google Health Connect. Она, как я уже говорил, чуть странно организована: одна часть называется Health Data, а другая теперь называется Medical Resource. И вот вторая уже посерьёзнее, потому что там речь реально идёт… То есть по‑немецки первая категория — это «Фитнес и велнес», туда входят все наши фитнес‑трекеры и всё такое. А вторая — это уже чисто медицинская история, то есть вещи, которые связаны именно с врачами и лечением.
То есть по сути анализы, врачебное.
Там, например, по‑другому устроены права доступа. Если приложение имеет право записи, оно может записывать все медицинские данные, а вот на чтение ты можешь выдать доступ только к отдельным категориям. И там есть довольно интересные штуки: аллергии, визиты к врачу, данные о врачах, диагнозы, прививки, лабораторные результаты, лекарства, медицинские процедуры, персональные данные, беременность, витальные параметры и ещё такая категория под названием «Sozialanamnese». То есть по сути всё, что обычно хранится в электронной карте пациента. Я, естественно, полез в Health Connect Toolbox смотреть: окей, что же там можно задать в качестве, эм, социального анамнеза, какие есть JSON‑примеры. В английской документации это называется Social History, по‑немецки — «Sozialanamnese». И все мои друзья, которые это видели, такие: [смеётся] «Ты идиот, конечно, “Sozialanamnese”». [смеётся] Им само это слово показалось таким официально‑дурацким, что они не могли перестать ржать. Например, один из примеров записи в этом социальном анамнезе: «В детстве подвергался воздействию пассивного табачного дыма».
Окей, подожди сейчас секунду.
Да.
Эта… вот эта формулировка для меня снова звучала и ощущалась прям дико по‑Watch Dogs, в том виде, как ты это сейчас подал. То есть это уже опять такое… [смеётся]
Это прям такая фраза, которую увидел бы в Watch Dogs где‑нибудь на экране.
Да, именно. Типа: «О да, вот, ваш брат…»
…«сейчас там барыжит чем‑то» или что‑то такое. Да.
Но, как я сказал, это уже совсем другая лига, и я ещё ни разу не видел стороннее приложение, которое бы это использовало, кроме, конечно, моих собственных. Для них это просто база данных. Фактически это такой аналог электронной медицинской карты, как в США, или нашей электронной карты пациента, — всё это стандартные медицинские записи: диагнозы, назначения, протоколы процедур и так далее, просто в едином формате. И модель данных там, соответственно, заточена под клинику, а не под человека, который сам за собой следит. И одну из этих сущностей я действительно использую у себя в системе — приём лекарств. Там всё чуть сложнее: поскольку, как я говорил, это рассчитано именно на врачебные данные, а не на самозапись, там нет типа записи с простым смыслом «я принял лекарство».
Там есть запись о том, что лекарство выписано, с указанием, как его надо принимать, и есть отдельный тип данных, который, по сути, означает: медсестра только что выдала мне вот это лекарство, чтобы я его принял. И в документации они прям подчёркивают, что с медико‑философской точки зрения есть разница между «мне дали лекарство, чтобы я его сейчас принял» и «я его действительно уже принял».
Да.
Но мне на это всё равно. [смеётся]
Да.
Я просто пишу туда этот, эм, Medication Administration Record и знаю, что в моём приложении это означает: я принял лекарство, а не что кто‑то мне его принёс.
Кто‑то пришёл к тебе домой и вручил их тебе.
Да, именно так. И вот это реально дико удобно. И за счёт всех этих штук у меня там… Я хочу дать только маленький такой взгляд внутрь. Я уже рассказывал про устройство, с помощью которого я отслеживаю, худею ли я, когда должен худеть. Но есть и просто штуки для удобства. Например, когда моё приложение спрашивает меня: «Эй, ты принял свои лекарства?» Обычно я пью их после того, как проснусь, хотя теоретически не обязан, но почти всегда так. И когда я где‑то в течение дня открываю приложение, оно спрашивает: «Эй, ты сегодня уже принимал лекарства?» — особенно если я сам уже не помню, делал я это или нет.
Да.
И если я нажимаю «Да», то получаю выбор: ввести конкретное время или отметить, что это было после пробуждения?
Да.
Если я жму «После пробуждения», приложение берёт из данных Google Health Connect, как трекер зафиксировал мой сон, во сколько я спал и проснулся. И по этому можно вычислить, когда именно я принял лекарства, даже если я уже не помню, во сколько это было, я просто знаю, что проснулся и выпил их.
Это очень, очень круто. Небольшое ответвление: я, например, тоже использую эту, эм, вероятность сна, которую сейчас почти любой телефон считает как прогноз, — я реально использую её как триггер в Home Assistant, чтобы в конце дня запускать всякое «уборочное». То есть проверить, что везде выключен свет и так далее, и параллельно прогнать все остальные задачи по обслуживанию: включить или выключить какие‑нибудь булевы хелперы и прочие такие штуки, которые у меня заведены для всяких автоматизаций.
Как я уже говорил, это…
Это, это очень, очень удобно.
Это безумно удобно, и поэтому в мой дашборд я встроил ещё одну вещь: как только я его открываю, он, поскольку нет нормального способа просто сказать «экспортни всё в файл», берёт и отправляет все имеющиеся у него данные, если я в локальной сети, на мой домашний сервер. А сервер уже делает с ними всякие прикольные штуки, над которыми я ещё работаю. Немного заспойлерю: в будущем это должно не только помогать мне трекать еду, но и автоматически подбирать рекомендованные планы питания под мою текущую нагрузку и состояние.
Вау.
На основе планов, которые будут динамически меняться в зависимости от того, что я сегодня делал, сколько калорий потратил, сколько воды выпил и так далее.
Да, именно. И это, по‑моему, просто безумие, насколько далеко можно это развивать. Можно же учитывать, какие продукты ты покупал и что у тебя есть, или как выглядит текущий календарь. И тогда система сможет заранее прикинуть, насколько вероятно, что ты придёшь домой и у тебя не будет сил и желания готовить что‑то сложное, особенно после насыщенного дня на работе или учёбе.
Да.
—после того, как ты пришёл домой? Это же…
Именно.
—абсолютно человеческая, нормальная вещь, когда ты такой: «Ну окей, тогда лучше пусть на такой случай уже что‑то будет заготовлено заранее». Или чтобы это, скажем, тоже учитывалось в расчётах: чтобы система не смотрела просто: «Ага, уже восемь вечера», и не предлагала тебе в этот момент самый огромный пир на свете. Потому что, скорее всего, у тебя на это просто нет настроения. То есть можно, например, добавить кучу подобных фич, которые тоже будут учитываться в таких прогнозах о еде.
Именно.
Это, конечно, жесть. Не хватает только дорогущего «умного» холодильника, который ещё и содержимое отслеживает.
Вот этого я как раз не хочу. Я много лет периодически думал, как бы мне сделать «умный» холодильник, который сам знает, что в нём лежит, и при этом не умереть от организационной нагрузки. Я так ничего внятного и не придумал и плюнул на эту идею. Я не хочу городить систему «что у меня в холодильнике», а скорее делаю по‑другому: вот я, допустим, спонтанно купил себе эту лимонадку, выпил её — я просто заношу в трекер, что я её выпил, и на лету подстраивается план того, что мне сегодня ещё можно или нельзя есть с точки зрения калорий и баланса.
Да, именно. И ты можешь хотя бы все свои чеки, конечно, тоже сканировать и подкидывать в систему как дополнительный источник. Да.
Да, и тут в ход идёт Open Food Facts — с ним мои приложения тоже тесно работают. Я дописал в Open Nutri Tracker функции, чтобы можно было прямо из него добавлять данные в Open Food Facts и в Open Prices. Потому что иначе я бы просто этим не занимался: я не буду открывать два разных приложения и ковыряться в каких‑то интерфейсах. Я просто сканирую штрих‑код, и приложение говорит: «Стоп, Wieland, тут не хватает вот таких‑то данных. Хочешь быстро ввести их перед отправкой?» Я говорю «да», ввожу — и отправляю, что я это выпил.
Да, очень красиво.
И вот так всё это вместе работает. И есть ещё третья, небольшая часть того, что хранится в Health Connect. Это такие мелкие точечные данные, для которых тоже нужен отдельный тип разрешения. И вот там как раз очень интересно устроен доступ: если приложение получило права, оно может читать данные, записанные любыми другими приложениями. При этом в каждой записи всегда указано, какое приложение её создало — это стандартный мета‑атрибут. Там же может быть указан тип устройства и пометка, как была создана запись: вручную, автоматически или выведена алгоритмом (inferred). И меня просто дико развеселила мысль, что теоретически может существовать запись — мы опять возвращаемся к Watch Dogs — где, скажем, тип устройства: Amazon Echo, тип записи: manually recorded, тип активности: sexual activity. [смеётся] — то есть колонка, по сути, сама «задокументировала», что у тебя была сексуальная активность, и всё это аккуратно лежит в твоём медицинском трекере.
У нас же уже была какая‑то дурацкая серия с похожим названием.
Да‑да, само модель данных позволяет, чтобы такая запись там в принципе могла появиться.
Да.
Итак: любое приложение, которое имеет право чтения, может читать записи, созданные всеми остальными. Писать и удалять оно может только свои собственные данные: приложение никогда не может удалить записи, сделанные другими, и такого разрешения просто не существует. И ещё классная штука в Health Connect — можно запрашивать агрегированные данные, и тогда он умно стягивает их из разных приложений. Но тут, как ты уже намекал, есть нюансы: работает это не идеально, особенно со счётом шагов. У меня долгое время мой дашборд говорил: «Wieland, ты вообще бог. Ты делаешь так много шагов каждый день, это же тренировка, ты столько ходишь, можешь даже силовую сегодня пропустить». А я такой: «Неужели я и правда настолько крут?» [смеётся] А потом выяснилось, что я разрешил телефону тоже записывать шаги, и приложение от фитнес‑трекера их тоже писало. И теоретически система должна быть суперумной и понимать, что если два приложения говорят, что я в одно и то же время шёл, эти шаги нельзя просто складывать. Они даже в теории должны уметь вычитать дубли и определять основное устройство, но на практике это, увы, сработало не так, как обещано.
Да, да.
Но работает это, увы, криво, и поэтому я просто запретил телефону вообще писать шаги в Health Connect — теперь это делает только приложение от моего фитнес‑трекера.
Да, потому что по идее вся эта система как раз и задумана затем, чтобы можно было такие данные как раз сливать и объединять. Есть же люди, которые ради спорта реально носят трекер, скажем, на ноге или на поясе. То есть у тебя, по сути, получается куча более крутых и надёжных, скажем так, точек данных: у тебя есть телефон, есть смарт‑часы, а кто‑то ещё носит браслет где‑нибудь на щиколотке, почти как электронный браслет‑«кандалы». И вот всё это в идеале должно было бы нормально сводиться в одну картину. Но, да, понятно, что на практике выходит по‑разному, особенно если устройства разных производителей, с разной точностью.
Тем не менее в остальном всё это реально очень круто. В API есть функция: можно сказать «дай мне агрегированные шаги с такого‑то по такой‑то момент, уже с учётом всех вычитаний и всего остального». Очень удобно. И ещё важная штука: по умолчанию приложения могут смотреть только 30 дней в прошлое по любым данным. Можно выдать дополнительное разрешение, чтобы им был доступ ко всей истории. И к этой третьей особой категории как раз относятся GPX‑треки. Это мне показалось просто офигенным, потому что раньше меня дико бесило, что для одного моего проекта я хотел иметь записи всех своих походов именно как маршруты и накладывать на них данные, например, о пульсе и так далее, и потом собирать по ним всякую статистику, графики нагрузок, высоты и прочее.
Да.
А в приложении моего фитнес‑трекера это было невозможно: в лучшем случае я мог вытащить какой‑нибудь чёртов GPX‑трек, и то через раз, причём только если синхронизировался с их облаком, чтобы получить маршрут, по которому я шёл. Меня это страшно бесило. А в Health Connect сами тренировочные треки — это просто ещё один тип данных, который любое приложение может записывать, если ему выдано отдельное разрешение из той самой третьей категории. И потом любые приложения, у которых есть права чтения, могут их спокойно использовать. Так что я просто написал свой маленький экспортёр.
Очень круто.
Вот, и у меня ещё куча идей, что с этим делать. Короче, люди, Google Health Connect — это офигенно.
Виланд, ты себе не представляешь, насколько я был реально захайплен, когда я тут недавно, эм, читал релиз‑ноты, эти заметки об изменениях. Может, это немного странное занятие — так сидеть, всё это читать и при этом так дико радоваться.
Я тоже так.
Окей.
Но вопрос в том, о какой вообще программе речь?
Речь как раз шла про ESPHome.
Окей.
Там я, эм, в версии, сейчас совру, наверное, 2026.5.0b1, то есть в какой‑то бета‑версии…
Окей.
…прямо прочитал: «О да, там один чувак, которого я уже, ну, знаю по его нику на GitHub…»
Угу.
…так сказать, наконец‑то смог добиться, чтобы его код замержили. Причём прямо в текущую версию — это именно поддержка Zigbee.
Окей.
В ESPHome. Теперь это там просто работает.
Окей.
Раньше всё это было, как бы, жёстко ограничено одним‑единственным чипом, который вообще не так много людей использует — этим NRF‑чипом. А теперь это всё работает ещё и на куда более распространённых ESP32‑C6 и H2. У них же Zigbee‑поддержка есть прямо из коробки.
Угу.
И это значит, что теперь ты можешь просто брать и сразу оснащать этим свои проекты. И это чертовски круто, потому что ты можешь напрямую через Zigbee промаппить все свои сенсоры, двоичные входы и так далее. При этом у тебя остаются вообще все функции всех внешних библиотек, которые уже есть в ESPHome, и ты по‑прежнему можешь подключать все свои привычные сенсорные модули, как мы это обычно делаем. И вот я сейчас как раз сижу и немного переписываю своё, своё ПО, смотрю, как это лучше организовать. Потому что первый заход с внешним компонентом, через который можно было подтягивать разные форки как отдельные компоненты, у меня, если честно, совсем не взлетел. Формально это и раньше было возможно — именно через вот такой external component, — но у меня оно просто ни разу нормально не заработало. Я так и не смог выяснить, где именно всё ломалось. А теперь это, скажем так, довели до финала. Всё это замержили и в основной main‑branch, то есть оно уже не только болтается в beta‑branch. И я поэтому дико захайплен, потому что до этого ты по сути мог пользоваться только Wi‑Fi. Ну, если совсем упростить: был только Wi‑Fi. И есть всего два устройства, совместимых с ESPHome, которые вообще умеют работать по Ethernet. Там, по‑моему, есть платы только от Waveshare и ещё какого‑то производителя, такие нормальные ESP32‑шки, которые можно реальным Ethernet подключить. Теоретически это тоже работает, но в остальном всё всегда было так: ну да, ты его цепляешь, так сказать, по Wi‑Fi — и всё. А сейчас я уже собрал и прошил свой собственный датчик присутствия, и он работает просто отлично.
О, круто.
Ну, скажем так, это прям жёсткий plug and play. Тебе не нужно открывать Arduino IDE и думать: «Так, вот здесь я в loop что‑то пишу, вот эти команды обязательно надо вызвать, чтобы оно вообще завелось», — ничего такого. Всё предельно просто: ты просто пишешь YAML‑конфиг, заливаешь его на свой ESP32 — и готово. Оно просто работает. Это настолько просто, что подходит даже, условно, для совсем тупых людей. Если уж совсем грубо выражаться.
Отлично. [смеётся] Все наши зрители сейчас пойдут и всё это поставят.
Сразу же скачивают. [смеётся]
Круто. Да, ну, сначала это прозвучало немного оскорбительно.
Нет, нет, нет.
Круто.
То есть это нереально дружелюбно к новичкам. Ты правда пишешь в своём текстовом редакторе буквально пару строчек, заливаешь это, и тебе не нужно писать ничего на C или ещё на чём‑то; ты просто используешь декларативный язык — и всё, и, грубо говоря, там уже особо нечему ломаться.
Угу.
И это прям дико круто.
Это круто.
И на этом, конечно, можно ещё и кучу денег сэкономить, если просто собрать свой собственный датчик присутствия или другие сенсоры, особенно, эм, когда хочется, например, какие‑то более специфические…
…показатели отслеживать. Например, эм, содержание CO₂ в воздухе — это тоже такая сложная тема, потому что там есть прямая зависимость между ценой и тем, насколько классные у тебя будут показания. И это прям ужасно, потому что там нет никакого, вообще никакого лайфхака.
Да.
Никакого трюка, то есть нет такого, что «о, вот есть сенсор за два‑три евро, и он уже офигенный». Там всё масштабируется почти линейно. Эти самые модули за два евро в худшем случае вообще просто придумывают показания, потому что они измеряют что‑то другое и по этому чему‑то пытаются лишь косвенно вывести CO₂, по сути прикидывая «на глаз». А вот примерно за тридцать евро уже можно взять более‑менее адекватный датчик. Например, эм, очень часто советуют SCD40. Но в принципе диапазон огромный — можно и десятки тысяч евро на измерение CO₂ потратить. И, понятно, результаты там будут просто запредельно крутые, но какого‑то короткого пути к таким же классным результатам просто не существует.
Окей.
И с этим уже можно реально крутые сенсоры напрямую прикручивать к своему Home Assistant или к любой другой системе, и это прям очень круто, потому что я, например, собрал себе ещё собственный, эм, проводной датчик протечки воды.
Окей.
Можно, например, у Shelly, у их фирменного датчика протечки, купить такой, по сути, аудиокабель, у которого внешняя оболочка местами проводит ток. Это очень интересный продукт. Это на самом деле такая удлинитель‑штука, чтобы измерять сопротивление. То есть там, там… [откашливается]
…сам датчик протечки работает так, что ты просто измеряешь сопротивление между двумя металлическими контактами.
Да.
И это можно делать даже без какой‑то суперточности, которая здесь, по сути, и не нужна, потому что тебе просто важно, есть там вода или нет. Для таких задач этого более чем достаточно. Это легко реализуется на обычном резисторе: ты, условно, собираешь делитель напряжения между этим кабелем и питанием своего ESP32, берёшь точку делителя и просто измеряешь там напряжение своим АЦП. Дальше ты подставляешь это в формулу делителя напряжения, преобразуешь её как тебе нужно и уже знаешь…
Ага.
…можешь, соответственно, измерять сопротивление.
Окей. Да.
Ну.
Да, я был, я был…
Ты просто делаешь такие базовые электротехнические штуки и можешь на глаз прикинуть, какое там сейчас сопротивление. И с этим сенсорным кабелем получается довольно интересно: я для себя выяснил, что примерно один мегаом — это очень хорошая граница. То есть, условно, выше — воды нет, ниже — значит, по кабелю где‑то есть вода. И это именно аудиокабель, я, наверное, ещё раз уточню: там обычный джек 3,5 мм на конце.
Окей.
И он использует только tip и sleeve этого джека, только эти два контакта. Их ты можешь задействовать как угодно. А вот что там происходит с ring, я, честно, не до конца понимаю: то ли он вообще никуда не подключён, то ли он как‑то завязан на один из других контактов — я не смотрел, что там внутри. [откашливается] Но этот кабель всё равно можно прекрасно использовать не по назначению и самому всё измерять. И плюс в том, что ты можешь детектировать воду не в одной точке, а по всей длине этих двух метров, или сколько он там, полтора метра, каков бы ни был реальный метраж. И заодно туда можно, например, повесить ещё и дверные контакты, которым тогда тоже не нужна отдельная батарейка, что в умном доме вообще частая боль: «Так, какую батарейку мне на этой неделе пора менять?» — если уж утрировать.
Да, да.
То есть не нужно, чтобы у каждого стояло какое‑то своё специфическое устройство, если брать совсем худший случай. Это можно частично обойти, просто повесив где‑нибудь в центре один ESP32 и свести к нему все датчики, которые тебе нужны в этой комнате. И это получается довольно, ну, расслабленная такая схема.
Да, Йона, мы тут не только, как говорится, we have been cooking. Не только «логинились», как сейчас молодёжь выражается, и «готовили», как молодёжь говорит, а тут же ещё совсем недавно прошла Google I/O — гугловская конференция, где они просто рассказывают, какие они классные и что уже скоро выпустили и ещё выпустят. И я должен честно признаться: holy moly, в этот раз это была реально какая‑то Google A‑I‑O, короче.
[смеётся] Да.
Речь шла только об ИИ.
Ну...
просто всё.
Да.
Ну, просто, ну, вот—
Ну, то есть то, что я, например, сейчас слышал: что они просто вот эту гугловскую поисковую строку хотят теперь, по сути, превратить в такой, ну, почти универсальный инструмент, грубо говоря. И ещё, что это всё было как‑то дико странно с тем, как они вот эти свои, как они там назывались, кажется, Google Books или как‑то так, выкатили: что это технически было на каком‑то отдельном ивенте, который прошёл буквально прямо перед I/O, то есть, короче, в этом релиз‑цикле явно что‑то криво пошло, что они за пару дней до I/O ещё что‑то другое выкатили.
объявили это.
Точно. Да, это как раз одна из главных вещей, про которую вообще стоит поговорить. Там было, правда, столько всего, всё такое крутое и такое безумное, что, честно, уже даже устаёшь от этого. Каждые пару минут — ещё один анонс, ещё один «суперумный» помощник, ещё одна магическая функция. Потому что, по сути, если всё это резюмировать: любой продукт Google теперь либо получает для каких‑нибудь Google‑Ultra‑подписчиков функцию «просто вывали на него всю свою жизнь, и он сам разберётся», либо любая поисковая строка превращается в такую агентную панель. То есть ты правильно сказал: они страшно гордятся тем, что спустя больше двадцати лет, вот сейчас, через двадцать лет, меняется базовая функция поисковой строки Google. И таким способом Google, как мне кажется, пытается немножко зауглить рынок под себя. Потому что Google, по‑моему, слегка начал паниковать: люди перестали «гуглить» и стали просто вводить то же самое, что они бы погуглили, прямо в ChatGPT.
Да.
И, соответственно, Google теперь тоже хочет кусок этого пирога и просто говорит: «А наша поисковая строка — это, по сути, то же самое». То есть это выходит за рамки какого‑то отдельного AI‑режима: ты просто вводишь что‑то в поиск, и это уже старт диалога с Gemini, прямо как с человеком. И, конечно, они дико хвастаются Gemini Omni — моделью, которая якобы умеет всё‑со‑всем. Ровно то, что нам когда‑то обещали с GPT‑4.0; напомню, там O как раз и означало Omni.
Да.
Эм, и оно умеет всё‑во‑всё: из любого формата в любой. Может генерировать видео, которые, по их словам, очень хорошо физически «заземлены», то есть правдоподобны. Это реально жёстко. Но в целом всё вокруг тоже становится таким чуть‑чуть агентным. Даже в YouTube появляется функция, что ты в поиске уже не просто ищешь ролики, а пишешь, например: «Объясни мне, как кататься на велосипеде». И поиск просто использует YouTube, чтобы собрать тебе нарезку из релевантных видео или что‑то такое. Или говорит: «Вот, нажми сюда», и видео само открывается на нужной секунде, где ты видишь нужный момент, а потом: «нажми сюда, чтобы посмотреть вот это».
Ого, вау,
И второй момент — что, по сути, вообще всё становится агентным. Google теперь хочет раскатать ещё и такие штуки, которые работают за тебя в фоновом режиме. Это прям очень жёстко, очень агентно, всё крутится вокруг идеи: «Просто расскажи Google что‑нибудь, и он сам всё за тебя сделает».
А, да.
Но при этом ещё раз показали, эм, вот эти… я само название, само маркетинговое оформление нашёл очень странным — их новые «смарт‑очки». То есть они же уже в прошлом году на Google I/O отдельно объявили эти смарт‑очки, мы помним, мы же про это уже говорили тут в подкасте.
Да.
Да, что Google Glass вроде как возвращаются. И сейчас на этой Google I/O они сказали: «Да, кстати, те самые смарт‑очки ещё выйдут попозже, эм, но мы уже этой осенью выпустим их производную версию — очки только с аудио». То есть по сути это те же очки, что и с дисплеем: у них есть микрофон, у них есть камера. Это, кстати, многим из презентации вообще не стало ясно: там реально есть камера. Э‑э, и у них практически тот же функционал, что и у других смарт‑очков, только в стекло не встроен дисплей.
Да, да.
И там была демка: стоит, ну, эта женщина на сцене и говорит: «Эй, Gemini, я хочу, эм, пойти туда, где мы в прошлый раз ходили в поход, ну, то есть я хочу…» Точнее, она буквально сказала только: «Я хочу туда, где я в прошлый раз гуляла в горах со своей подругой». И дальше Gemini такой… Прости, Йона, зал в восторге, всем это ужасно понравилось, а мне в этот момент стало дико не по себе, прям мега‑дистопия. Давай так не делать.
Да.
И тут эти очки сами, сами по себе такие: ну…
Да.
—то есть Google таким образом показывает, какой это офигенный продукт и как он тебе «жизненно необходим». Очки отвечают: «Конечно, я проложу тебе маршрут до, эм, такого‑то пика, где ты в прошлый раз ходил в поход с Сарой. Обычно в это время ты берёшь кофе в своём любимом кафе. Хочешь, я сразу закажу тебе этот кофе и проведу тебя так, чтобы ты по дороге забрал заказ?»
Не!
И женщина такая: «Да». И он продолжает: «Отлично, я уже оформил заказ в DoorDash на самовывоз и теперь проложу тебе маршрут так, чтобы ты приехал ровно к тому моменту, когда он будет готов».
Бро.
Я не хочу, чтобы мои очки такие: «Кстати, ты же там обычно в это время жрёшь в McDonald's. Хочешь, я сразу закажу тебе твой стандартный комбо‑набор?»
[смеётся]
И потом, как я уже говорю, не знаю, вся эта, вся эта история с доставками еды… Я, честно, на все эти сервисы доставки всегда дико триггерюсь, потому что думаю: «Да это же вообще никто себе нормально позволить не может».[смеётся] То есть я бы в жизни не стал у нас, ну, условно, через Lieferando что‑то заказывать,
ээ, потому что это стои-, потому что это стоит—
Я так, чисто, мимоходом скажу.
Да, это, это же стоит безумно дофига — просто намного дороже, чем если бы ты заплатил в магазине. Там вечно есть «fee» и ещё одна «fee», и «fee‑fee», и «service fee», и «service charge», и так далее.
а тут мои очки такие: «А, ему же нужен кофе? Окей, я заказал тебе кофе за двенадцать евро, иди потом спокойно там забери».
Да.
Не, ну, ладно, это, конечно, не так жёстко, как «купи мне за три с половиной тысячи долларов костюм», но мне так не хочется этого.
Да, но это же по сути, я бы сказал, замена личного ассистента. То есть тот самый секретарь, которого раньше могли позволить себе только какие‑нибудь топ‑менеджеры, а теперь он как бы у каждого в кармане. В каком‑то смысле это уже он и есть. Но при этом совсем не обязательно загонять всё в такой экстрем, особенно с платными штуками. Ты можешь сказать: «Окей, это вообще не в моём ценовом диапазоне», и не заказывать себе там между делом костюм за несколько тысяч. Хотя теоретически оно могло бы сразу спросить твои мерки из какой‑нибудь API с параметрами тела и такое: «Хорошо, теперь я знаю твои размеры и могу просто заказать тебе подходящий костюм», и ты его получаешь, и всё супер. Понятно, это уже следующий уровень, почти фантастика. Но даже просто базово, чтобы оно умело: «Окей, найди‑ка мне варианты жилья, которые подходят под мой обычный стиль поездок, то, как я обычно останавливаюсь — не знаю, хостелы, kleine Apartments, что угодно». И оно тебе такое: «Вот три‑четыре опции», а ты смотришь и говоришь: «Ну да, и по виду, и по цене выглядит ок, мне нравится». И система тут же на этом учится, постепенно всё лучше попадает в твой вкус, и у тебя никогда нет вот этого: «Ох, теперь надо сесть и тратить кучу времени, что‑то в интернете выискивать, фильтры крутить, отзывы читать», ты просто позволяешь ей всё это делать за тебя.
Да.
И таким образом ты ещё и время в дне выигрываешь.
Конечно, конечно. Как я и говорю, вот только вот эта штука, вот этот… этот, скажем так, разгулявшийся… Я понимаю, что это во мне очень противоречиво: мне безумно нравятся все эти ИИ‑фичи, но вот этот rampant consumerism я нахожу дико тупым.
Да, я тоже, но ведь совсем не обязательно заходить так далеко. Не обязательно вообще прям использовать это в таком масштабе для всего.
Да.
Но проблема в том, что ты этим открываешь, скажем так, ещё один вектор атаки на себя: ты не только начинаешь делиться ещё большим количеством данных, но и в итоге снова становишься гораздо уязвимее для рекламы.
Да.
Потому что в сомнительных случаях там легко может появиться партнёрство между какими‑нибудь фирмами и той компанией, которая выпустила твои смарт‑очки или эту ИИ‑систему.
Да.
И тогда у тебя сразу снова рип.
Вот именно об этом я и говорю. Особенно про тот момент в демо, где было: «О, вы можете сделать шопинг гораздо веселее, потому что вам не нужно самим ничего отбирать». Когда я это увидел, эту демку, я такой: «О боже, я хочу вот такую соломенную шляпу, и чтобы у неё были вот такие‑то и такие‑то особенности, и агент достаточно умный, чтобы найти товар, который всем моим требованиям соответствует». А я сижу и думаю: «Окей, а откуда я узнаю, что нет какого‑нибудь более дешёвого товара, который тоже всем моим требованиям соответствует?» Э‑э…
Ну да. В общем, вот это меня слегка, скажем так, выбесило, но было понятно, что такое рано или поздно появится, потому что Google — компания, которая фундаментально живёт за счёт рекламы. Логично.
Да.
Была, эм, ещё одна объявленная штука, которую я считаю интересной и которая, по‑моему, немного показывает, куда всё движется. Тут уже начинается прям футуризм. В Google‑поиске скоро появится возможность, что когда ты что‑то спрашиваешь, Google прямо на лету может как бы программировать для тебя объясняющий UI или даже небольшие симуляции. И это прикольно, и мне любопытно, к чему это приведёт. Я недавно наткнулся на одну вещь под названием OpenUI.com. И это, это прям дичь, если задуматься. Идея там такая: они уже даже сетку вокруг этого построили — то есть там уже есть коммьюнити, куча примеров, сам стандарт описан и всё такое. Ты же знаешь: хайп вокруг Open Claw и всего такого, и теперь всем срочно нужен свой Claw‑агент.
Да, и Google теперь ещё раз тоже пытается как‑то провернуть там свою собственную тему.
Да, но вот такая Open‑Claw‑ОС как раз и включается за счёт этого OpenUI.com. Смотри, Йона, это реально дикая идея. Я не знаю, пойдёт ли технология именно в эту сторону. С одной стороны, в этом есть логика, с другой — это ощущается ужасно расточительным, по крайней мере для меня, старого человека, старого программиста. Представь себе: OpenUI — это просто стандарт, который можно использовать с любым LLM, хоть с Gemini, хоть с GPT, хоть с какой‑нибудь локальной моделью на телефоне — неважно. По сути, это описательный язык, такая псевдо‑язычок программирования, где ты через next‑token‑prediction синтаксически заставляешь модель выводить только разрешённые конструкции. Это просто язык описания, который очень похож на нормальный язык программирования, но описывает именно UI. И твой LLM должен генерировать эту UI‑описалку, а потом специальный рендерер её отрисовывает. То есть между моделью и пользователем всегда проходит такой слой в виде описания интерфейса. И вот идея в том, что операционная система на базе Open Claw в качестве вывода, помимо вызова тулов, выдаёт не текст, а всегда описание текущего UI. То есть…
Ого, это по сути просто как огромный такой автомат, в некотором смысле.
Именно. Модели говорят: пользователь сейчас нажал вот на эту кнопку — и дальше она в следующем ответе описывает, как теперь выглядит UI.
Да‑да, и это по сути просто такой автомат состояний, если угодно. И потом, скажем так, следует следующий шаг, следующее состояние в этой машине.
Да.
И он помнит, что произошло до этого момента. Но это, по‑моему, прямо вообще, наверное, самый экстремальный пример «из пушки по воробьям», который у нас в истории когда‑либо был.
Да.
Я бы так просто сказал, да...
И это же не просто одно приложение, а целая ОС.
Да‑да, это просто такой, ну, такой… прям лол, честно.
Как операционная система. То есть это не так, как мы привыкли: ты, не знаю, кликаешь по меню, потом по пункту «Открыть калькулятор», и где‑то в фоне операционка запускает отдельный бинарник‑приложение. Вместо этого LLM просто говорят: «Окей, пользователь сейчас нажал “открыть калькулятор”. Как теперь выглядит UI, какой экран ему нужно показать?»
Да.
И дальше он всё это просто генерирует на лету. Прикол в том, что для любого типа данных ты можешь сразу получить подходящий UI. Вместо того, чтобы ты сам руками придумывал, какие дашборды, таблички и графики ему нарисовать. То есть в этом есть смысл, если у тебя, например, есть какой‑нибудь data‑science‑агент. Тогда логично сказать: «Так, проанализируй‑ка все данные по кликам, которые я где‑то получил». И он смотрит на эти данные и такой: «Ага, окей, вот такие у нас данные, значит, я покажу их вот так‑то и так‑то и сгенерирую UI, который идеально под эти данные подходит».
Окей, окей.
Но, ладно, операционные системы, целиком построенные на этом, я не знаю. Другое, что я нашёл безумно интересным, хотя это на самой Google I/O только мельком показали… точнее, так: меня очень зацепила идея этих audio‑only‑очков. Была же ещё Google I/O for Developers, и там показали, насколько просто их интегрировать даже в уже существующие приложения. И у меня прям загорелись глаза: я хочу писать свои собственные приложения под такие очки. Поэтому, наверное, я себе их и куплю, когда они выйдут, именно потому что хочу самому под них кодить. Я бы, например, очень хотел сделать приложение, с которым можно удобнее заносить данные в OpenStreetMap. Я это так вижу: я просто смотрю на какой‑то объект, телефон сам по GPS и карте понимает: «А, это вот эта скамейка в OpenStreetMap, и тут не хватает таких‑то полей». И тогда очки голосом спрашивают меня: «У этой скамейки есть спинка?» Я говорю: «Да». Всё, это поле заполняется. Потом я смотрю на дом, а очки такие: «Сколько этажей у этого дома?» Я отвечаю: «Четыре». Оно записывается в карту. Вот это было бы круто.
Точно, мне бы это тоже понравилось. Но у меня тут есть два опасения.
Окей.
Во‑первых, тебе, скорее всего, понадобятся всё‑таки те, в которых есть встроенный дисплей. Не обязательно, конечно, но с ним это было бы в миллион раз круче.
Да.
Без вопросов.
кто знает, когда они вообще появятся.
Но… да, кто знает, когда они вообще выйдут. И, во‑вторых, нет, может, надо просто шаг дальше подумать.
Сейчас,
У тебя есть камера.
Да, я—
В этом же и суть. У тебя есть камера. Агентная система могла бы сама понять: «Окей, мы видим, что какие‑то данные там в OpenStreetMap ещё не размечены».
знаю.
И система может сказать: «О, окей, ты сейчас как раз где‑то рядом». И это же можно довольно хорошо географически прокраулить, по координатам и так далее,
Да.
—какие объекты находятся поблизости. И когда ты мимо них проходишь, система могла бы автоматически от твоего пользовательского аккаунта коммитить изменения, которые она распознала через камеру. То есть она берёт кадр с камеры и думает: «Окей, Виланд случайно прошёл мимо скамейки. В этой точке на карте в OpenStreetMap, в нашем примере, ещё не размечены какие‑то поля». И дальше она может сама по изображению камеры эти поля заполнить, а только для тех сведений, которые она не в состоянии надёжно определить прямо по картинке в очках — потому что это сложнее, это могут быть, например, размеры, которые камера плохо оценивает, — очки говорят: «Смотри, Виланд, вот здесь ещё чего‑то не хватает. Если хочешь, можешь сейчас это дописать».
Именно. Я бы сказал так: это, конечно, тоже была моя первая идея. Но потом я попытался всё это чуть‑чуть приземлить и переписать по‑реалистичнее для себя в голове.
Да, это такое прям реалистичное мышление, знаешь,
Потому что распознавание таких штук, исходя из моих прошлых экспериментов, исторически работает вообще прямо, ну, довольно паршиво, мягко говоря, если честно.
Ну, справедливо.
Но это как раз отлично подводит нас к другой теме, которую я на Google I/O нашёл суперинтересной и которую они упоминали и на Google I/O for Developers, — это Gemma 4, опенсорс‑модели от Google. Там есть варианты настолько маленькие, что они могут работать прямо на смартфоне.
Ммм.
Gemma, эм, 4‑E‑2‑BIT и 4‑E‑4‑BIT. И да, если вы хотите это потрогать, есть даже официальное приложение от Google в Play Store — AI Edge Gallery, такой каталог edge‑моделей для устройств на периферии. Там можно просто сказать: «Окей, поехали», и запустить модель. Она реально натренирована под агентные сценарии, под function calling, tool calling. Они мультимодальные, умеют понимать картинки, им можно скармливать фотки, скриншоты, и они что‑то по ним делают. То есть можно вообще чиллить: это модель, которая прямо на вашем телефоне крутится и весит примерно четыре гигабайта. Не так уж и жёстко. Но её можно дотюнить под конкретные задачи, и сделать это относительно просто: вы просто на время арендуете себе GPU, обучаете, а потом экспортируете модель на телефон. И тут я вижу офигенный потенциал, потому что тогда можно сказать: на моём телефоне крутится модель, которую я отдельно обучил понимать, есть ли у скамеек спинка, и всё остальное, что я хочу через приложение распознавать.
Да.
И дальше остаётся, например, только маленький, всё равно маленький, эм… в OpenStreetMap это тоже так задумано — должен быть человеческий контрольный шаг. Но если прям по‑жёсткому встроить всё это в рабочий поток, можно сделать так: я просто смотрю на объекты, а в ответ получаю только сообщение: «Распознано, что у этой скамейки есть спинка», и это автоматически уходит в черновик моих правок в OpenStreetMap.
Да.
И если я это никак не прерываю, тогда всё окей. Значит, так вообще и задумано.
Да.
Вот, эм, так можно было бы сделать, да.
Это, конечно, было бы вообще дико, если бы ещё можно было лайвом аннотировать прямо физические объекты. То есть если бы очки позволяли тебе привязывать эти сведения непосредственно к объекту. Чтобы это всплывающее окошко, которое говорит: «Окей, я здесь что‑то аннотировал», фактически двигалось вместе с твоей головой и оставалось прикреплённым к этому месту, как такая AR‑метка, которая висит прямо в поле зрения над реальным объектом.
Ммм.
И ты можешь тогда сказать: «Окей, я тут ничего не трогаю, пусть так и будет, меня это устраивает». Я, честно, даже не знаю, есть ли у этих очков… у них обязаны быть инерциальные датчики. Обязаны? Ну, вообще должны бы. Какой‑нибудь компас, гироскоп, датчик ориентации, чтобы очки вообще понимали, по каким осям я сейчас смотрю. Я, честно, не в курсе. Хотя, если говорить совсем по‑простому, все эти сенсоры благодаря смартфонам и, эм, фитнес‑браслетам уже стали микроскопическими. Это сейчас штуки размером в один‑два миллиметра. Было бы очень странно, если бы в очки их не положили. Но я вполне могу представить, что они их не ставят просто потому, что думают: «А зачем нам это под наши сценарии?». Я бы, наверное, тоже предположил, что далеко не только они одни знают, что вообще сейчас разрабатывается. Я могу вполне представить, что в Google сидят и такие: «Нам ничего в голову не приходит, чего нельзя было бы сделать просто картинкой с камеры, геолокацией и голосовым вводом пользователя. Значит, не будем заморачиваться». Особенно если в этих очках нет дисплея. Если бы он был, тогда да, сразу говоришь: «Окей, это AR, у нас всякий шит должен летать перед глазами в комнате, для этого нужны инерциальные сенсоры». Правильно? Ты ведь как раз хочешь, чтобы это было AR‑аннотирование, а не просто, скажем, чтобы тебе где‑то сбоку выводили обычный 2D‑дисплей или список, или как там ещё это можно показать. Скорее всего, идея именно не в этом, а в том, чтобы сочетать всё именно с AR — и вот это было бы реально круто и по‑настоящему важно. Но, Йона… Для этого нам в ЕС не хватает только одной штуки — базы данных с персональными данными на всех людей. И тогда… Ага. И тогда! И всё, поехали. Бум.[смеётся]
Но, Йона, если серьёзно, при всём том, насколько это всё безумно, все сейчас бросились на эти гигантские модели, на вот это: «О, у Google теперь есть вот такое», и демка, где ассистент просто открывает Google Keep, начинает говорить: «А, нет, подожди, не так, давай по‑другому» и так далее, и он всё это понимает — выглядела реально впечатляюще. Но у меня прям по‑настоящему чешутся руки именно от локальных моделей, или хотя бы от моделей прямо на моём телефоне — это вообще идеал. Потому что я же сейчас как раз пишу приложение, и пока что там ещё использую сервисы OpenAI. И дело даже не только в том, что это не очень красиво с точки зрения приватности и GDPR. Это банально стоит мне денег.
Правильно. Но ты же понимаешь, что как раз в эту сторону всё абсолютно неизбежно пойдёт, если просто посмотреть назад на историю и приложить те же самые мотивы. Что в итоге произошло с первыми мейнфреймами, с большими ЭВМ? Во что они превратились? Какие нагрузки тогда выполнялись только на них, которые теперь совершенно спокойно крутятся на конечных устройствах? Ровно так же это всё будет развиваться и здесь: мы делаем огромный шаг в сторону децентрализации. Это совсем не значит, что большие машины или серверы вдруг исчезнут. Нет, конечно. Они просто эволюционируют, как уже происходит сейчас со всеми этими EPUs и специальными платами‑ускорителями для AI. Всё это будет развиваться дальше. То, что раньше работало только на серверах, теперь реально можно частично обслуживать прямо на конечных устройствах. На базовом уровне — та же база данных плюс простой алгоритм, который по ней бегает. Всё это сегодня без проблем помещается на любом смартфоне, на любых часах и, по сути, уже на большинстве умных тостеров, условно говоря. Так что да. Поэтому, я думаю… И именно поэтому всё будет развиваться в сторону так называемого edge‑AI,
приложения будут сейчас развиваться просто бешеными темпами, и многое, что раньше или до сих пор крутится на сервере, сможет работать на локальных моделях, у которых всего, эм, какие‑нибудь [смеётся] несколько миллиардов.
естественно, да, именно. То есть это будут такие модели, которые, как ты сказал, всего‑то, эм, по четыре гигабайта весят и имеют всего несколько миллиардов параметров, и могут спокойно крутиться прямо на устройстве. И, грубо говоря, за счёт оптимизации самой модели этого достаточно. Совсем не обязательно, чтобы сами устройства стали раза в десять мощнее; вместо этого мы просто сильнее подтачиваем под задачу ИИ‑модели, делаем их эффективнее в выполнении конкретных задач. А серверы при этом никуда не исчезают, они просто занимаются куда более безумными, тяжёлыми вычислениями, чем сейчас, по сравнению с тем, что мы сегодня вообще считаем нормой, да. И я должен сказать, я…
я всё сильнее замечаю, как моё старое предсказание потихоньку начинает сбываться. Я же давно про это мечтал: что, как сейчас у каждого дома стоит роутер, так в будущем у каждого будет своя «KI‑box» — коробочка с ИИ. И я реально вижу, как это может выглядеть: у каждого по этой ИИ‑коробке, и, не знаю, сорок пять процентов людей пользуются коробкой от Google, ещё сорок пять процентов — коробкой от Apple, а оставшиеся десять процентов — чем‑нибудь, что они собрали сами или что работает на Linux. И это окей. Такая картина меня вполне устраивает, если у нас вообще будет возможность так сделать. Но даже такая система по определению не вечна. Лучший пример — это снова история персонального компьютера: сначала было совершенно немыслимо, чтобы в каждой квартире стоял свой компьютер. Да. А потом в девяностых и дальше стало нормой, что у всех дома есть ПК, за которым можно посидеть, в интернет выйти, документы пописать и так далее. А сейчас мы пришли к ситуации, где у каждого децентрализовано есть устройство для всего этого прямо в кармане — смартфон — ну или на руке в виде часов, а стационарный «домашний компьютер» уже давно перестал быть единственным центром этой вселенной.
Да.
Точно, и поэтому я бы предположил, что и здесь всё пойдёт похожим путём. В гейминге же тоже так и не случилось, что у нас один центральный игровой ПК на весь дом, к которому подключены несколько конечных устройств, и ты, эм, просто стримишь игры по локальной сети, а этот суперкомпьютер у тебя в кладовке отрисовывает восемь игр одновременно, пока каждый член семьи занимается на нём чем‑то своим. Это такой… ну, можно как любительскую фантазию об идеальном будущем принять, я бы сказал, но в реальности всё не так: в итоге у каждого всё равно есть своё собственное устройство, на котором всё и крутится, или, в крайнем случае, у каждого устройства есть общий API для доступа к чему‑то общему.
Да.
То есть где всё это, я бы сказал, может быть примерно так же открыто, как, например, Google Health Connect, о котором мы раньше говорили: скорее всё уйдёт в такую сторону, чем в сценарий «у каждого в подвале стоит свой ИИ‑сервер за пятьсот евро — маленькая шумная коробка, которую ещё и самому надо обслуживать».
Да.
Да, конечно. Лично мне вообще не обязательно, чтобы это всё пошло именно по сценарию «у тебя в подвале стоит свой ИИ‑сервер». Мне абсолютно ок, если это уйдёт в сторону приватного ИИ прямо на конечном устройстве. Мне важно другое: мы уже прошли этап чат‑ботов, теперь у нас этап агентов. Агенты становятся мейнстримом, это то, что Google сейчас продаёт всем потребителям. И если чуть дальше это протянуть, я вспоминаю слова Сэма Олтмана: его видение в том, что мы пойдём ещё дальше, чем просто «я даю своему агенту задачу, а он идёт и делает». Он всё время говорит, что его мечта — иметь агента, которому ты говоришь: «Вот тебе полный доступ буквально ко всей моей личной жизни».
Совершай действия, которые улучшают мою жизнь. Я не хочу тебе ничего объяснять. Просто делай всё в фоне.
Да.
Вот, и это я бы тоже считал офигенно крутым, но такая штука обязана быть локальной и не принадлежать компании, у которой первая мысль: «Как улучшение жизни Виланда может принести нам денег?» И если улучшение жизни Виланда денег нам не приносит, оно просто не будет сделано. Его сделают только тогда, когда оно приносит прибыль. И н‑н‑нет, Йона, нет.
Да.
Пусть этого не будет.
Уф.
Это должна быть локальная модель, которая где‑то у меня крутится, и её единственная мотивация — помогать мне, и больше ничего.
Да.
Вот. [смеётся] Но да, посмотрим, куда всё это в итоге придёт. Это как раз очень показательный пример. Я сейчас говорил про коммерческий интерес, но, конечно, и про приватность тоже. Потому что сама идея, что я беру все свои данные из Health Connect, включая раздел Sexual Activity, и отдаю их всем этим агентам со словами: «Посмотри вообще на всё, что ты можешь про меня измерить и узнать, и скажи, что я могу изменить, чтобы улучшить свою жизнь», — мне в принципе нравится. Но я не хочу рассказывать всё это Google Cloud или OpenAI Cloud. Я хочу рассказывать это устройству, которое стоит у меня в шкафу, и в самом крайнем случае я могу взять бейсбольную биту и…
Да.
—обеспечить сохранность данных, если всё вдруг пойдёт совсем плохо.
Точно, да.
Вот. Но да, поэтому.
И, Виланд, представь себе: ты так спокойно гуляешь по миру, просто чилишь свою жизнь в этих Google‑очках, а они тебе с помощью этого агентного воркфлоу, который всё сам заранее понимает, вдруг выдают: «О, я же по твоей истории чатов и покупок увидел, что у тебя через два дня свидание, и я также знаю, что запас презервативов у тебя сейчас очень низкий. Поэтому я уже оформил для тебя заказ на Amazon, чтобы ты был идеально экипирован к этой встрече, заранее и без твоего ведома совсем».
И я, конечно, уже—
Виланд такой: «Идеально, кайф».
Хаха: «И я, конечно, уже в Google Health Connect заранее запланировал Sexual Activity с флажком Protection Use = True. Если вдруг доставка с Amazon задержится, я автоматически переключу это на False».
Кайф. [смеётся]
[смеётся]
Идеально. У меня нет замечаний.
Ах да.
Окей. [покашливается] Да.
Ну да.
Окей.
Я, я, вообще-то у меня ещё одно замечание есть...
Окей, пожалуйста, пожалуйста.
К этой теме. Эм, мы же уже как-то говорили о том, что в Штатах даже медицинские данные реально хотят подкармливать в датасеты OpenAI. Мы уже, не помню, в прошлом или позапрошлом эпизоде Crunch Time об этом говорили. И вот теперь следующий шаг: они планируют с помощью софта Plant, как он называется, сделать так, чтобы в ChatGPT можно было импортировать вообще все финансовые данные, чтобы там по сути было: «Окей, давай сделаем разбор бюджета. На что и сколько денег я сейчас трачу?»
Хм.
И что я ещё могу оптимизировать в своих личных финансах? И идея, конечно, такая: окей, уже сейчас есть минимум двести тысяч пользователей ChatGPT, которые регулярно задают финансовые вопросы, то есть про личные финансы, и это было бы прям безумно круто. Потому что представь, какие предикшены он тебе мог бы выдавать: типа «Ну, вот если бы ты хотя бы раз не взял свой кофе в Starbucks, то сейчас смог бы позволить себе вот это другое. Хм, не повезло». Или: «О, я вижу, в прошлом месяце ты потратил сто пятьдесят евро на поездки на e-скутерах. Давай-ка попробуем что-нибудь другое».
Ну, ты понимаешь, о чём я. Ну, лол.
Да.
Это, это уже довольно жёстко — ещё и это туда встраивать, и у него тогда просто будет доступ к твоему счёту в Schwab, в Fidelity, ко всему возможному в Америке, потому что это, ну, по сути такая централизованная банковская API.
Да.
Что мне ещё кажется очень странным — что до сих пор ничего подобного в таком масштабе вообще нет.
Йона.
Насколько я знаю. Ты сейчас меня поправишь, да?
О, Йона, я же ещё кое-что должен рассказать. Я это вообще не хотел поднимать, но раз уж про финансовые тулзы и банковские API—
Да.
Могу тебе ещё рассказать, как я тогда искал и до сих пор смотрю варианты. Потому что, ну, я должен аккуратно формулировать, чтобы никому особо репутацию не портить, но один банк пытался меня переманить.
Да.
Мне там очень долго и настойчиво всё расписывали, и рекламировали штуку, которая мне действительно понравилась. А именно они рекламировали систему, которая всё это за меня автоматизирует. Они, по сути, говорили: «Ну, смотрите, в зависимости от того, сколько вы тратите, автоматически откладывается какая-то сумма, и когда эта накопленная сумма на накопительном счёте достигает определённого уровня, всё, что откладывается сверх этого, уходит в брокерский счёт, частично в пенсионный продукт и так далее, и так далее. Всё такое классное». И я такой: звучит классно. Я бы такое хотел.
Да, и для человека, которому такие автоматизации, естественно, интересны, это же дико круто — всё вот так вот ещё и наперёд распланировать.
Да.
Но…
просто, чтобы вы понимали контекст: я потом Виланду ещё дал финансовый совет — что эта банка, по большому счёту, это скам. Ну, точное определение «скама» тут всегда немного размыто, но примерно так я это ему лично и описал. И
очень часто это так и работает, особенно когда ты уже свои собственные счета — а там речь шла как раз о модельке счетов — больше толком не контролируешь сам, а у тебя на экране просто какие-то циферки, куда что ушло. И в худшем случае они, естественно, ещё и хотят каждый месяц за это счётное чудо с тебя зарабатывать, что, думаю, тоже логично. И в итоге, по моей оценке, это, скорее всего, превращается в огромную финансовую ловушку, потому что потом они говорят: «Ну вот смотри, на странице сто двадцать три того, что ты подписал, написано, что если ты вдруг захочешь всё это расторгнуть, то вот тут есть двадцать условий, которые ты сначала должен выполнить» и так далее. То есть это всё очень мутная история, и я ему посоветовал реально не пользоваться этим, то есть не делать себе всё сложнее, чем оно есть, и не давать так себя просто развести.
Вот. И что меня поразило: они всё время подчёркивали, что этот банк якобы запатентовал эту систему, что такого нигде больше нет.
Да, это бы... То есть штука же супер универсальная. Вообще каждый банк про себя говорит, что она совсем не такая, как все остальные, но да.
Да, Йона, и потом, развязка: я сходил в свой банк, и теперь у меня то же самое. Не всё прямо штатными средствами моего банка — там кое-что можно накрутить, — но главное, что я выяснил: существует универсальная банковская API, Йона.
Что?
А теперь самое классное, сейчас будет офигенный твист.
Да.
Что есть библиотеки, есть даже библиотеки на Python, с помощью которых это всё можно сделать.
Лол.
Но для этого тебе надо зарегистрировать продукт в системе немецкой кредитной отрасли.
Да.
Я сейчас приведу тебе список финансовых продуктов, зарегистрированных в этой немецкой кредитной отрасли, в скобках — выдержка.
Да.
Trade Republic.
Да.
Finanzguru.
Wielands Autofinanz.
[ха-ха]
Хм, круто.
[ха-ха]
Да.
Не-не, но, но это же круто.
Мо-можешь сказать, как называется этот API? У него вообще есть какое-то…
Ну, это просто называется FinTS.
А, окей.
И если ты, ну—
Это, это было бы прям очень круто — сказать: «О, окей, можно же самому сразу ещё что-то дополнительно автоматизировать». Ты сейчас как раз об этом ещё расскажешь,
Именно, это такая общая идея. Я как раз сейчас что-то подобное накручиваю. Мне просто важно, чтобы я через API мог заходить на свой счёт, например видеть, сколько осталось, и дальше говорить: «Окей, двадцать процентов отсюда в брокерский счёт, не знаю, остальное ещё куда-нибудь» и так далее. И это с этим работает. И что я, может быть, ещё хочу сделать — чуть-чуть ввести механику награды: чтобы, если на счёте вообще есть деньги, чтобы меня поощрить, тогда, условно, моё здоровье-приложение спрашивает: «А выполнил ли Виланд сегодня все свои цели?»
Был ли Виланд хорошим мальчиком? Да.
занимался ли Виланд сегодня спортом?
Ой-ой,
Не съел ли Виланд Big Mac? И если да, то, грубо говоря, в конце дня я могу разрешить перевод пяти евро с моего накопительного счёта на мою, э, потребительскую кредитку.
Круто.
И, эм, тут есть один минус. Я понимаю, почему они так делают, потому что «автоматизируй свой счёт» — это уже немного жёстко. Там я не могу просто, скажем, использовать обычный App-TAN-процесс.
Да.
То есть я не могу сделать так, чтобы операция запускалась, и на телефоне просто выскакивало: «Всё окей? Да/нет». Нужно именно проходить TAN-процедуру. Это немного обидно. Это значит, что недостаточно на телефоне нажать «да/нет», а телефон покажет мне TAN, который я потом как-то максимально безопасно, не через Telegram, должен передать обратно скрипту.
Да.
Чтобы скрипт смог использовать этот TAN для авторизации. Это пока немного сложно, я ещё должен разобраться. Но да, Йона, это реально: всё можно автоматизировать. Просто—
Там надо ещё чуть-чуть вокруг да около попрограммировать—
надо—
чтобы все эти части, так сказать, сконнектить. И да, ну, это же сразу рип, если где-нибудь по пути есть какой-нибудь эксплойт или если мессенджер, через который ты это шлёшь, естественно всё подслушивает, что—
Да.
Чего, в общем-то, в худшем случае и надо исходить.
Да. То есть тут реально надо внимательно смотреть, но, Йона, это возможно. То есть если кто-то такие штуки делает — это работает и, в общем, с большинством банков. Я бы не сказал, что мой банк славится современностью. Я думаю—
Окей.
То есть я про свой банк точно не думаю: «О, это нео-брокер. О, это такой банк, как Revolut, который говорит: “У нас нет отделений, у нас только приложение, приложение, всё в приложении, всё цифровое, ИИ”». Мой банк очень традиционный.
Да.
И вот, эм, даже такой банк участвует в этой финансовой системе FinTS. Так что ваш банк, гарантированно, тоже это поддерживает.
Да-да, ясно.
Это был просто небольшой отход в сторону. Если вдруг захочется такое автоматизировать — это можно сделать.
С начала мая появилось несколько крупных, очень серьёзных багов в ядре Linux. Об этом сейчас прям громко пишут в новостях, потому что по сути затронуты почти все системы, которые вообще работают на Linux, просто потому что эта проблема фундаментально сидит прямо в самом ядре.
Угу.
И там есть несколько разных уязвимостей, например Dirty Pipe, Dirty Cow, Dirty Frag и Copy Fail. То есть их реально много, и они все такие более‑менее похожие по идее, скажем так…
Да.
…так названы и при этом все чуть‑чуть по‑разному устроены. Я сейчас не буду уходить в жёсткие технические детали, это было бы слишком, но могу в общих чертах объяснить, как эти эксплойты работают. В ядре есть определённый интерфейс, через который можно записать четыре байта в page cache. В зависимости от конкретного эксплойта используется просто разный интерфейс, другая точка входа. И тут возникает вопрос: «Окей, но четыре байта — это же вообще немного».
Да, вроде бы да, но записывать их можно в произвольное место. А это, естественно, значит, что в идеале ты можешь просто перезаписать, скажем, файл passwd или, ну, сам бинарник su.
Да.
В итоге обычный пользователь после запуска такого скрипта сразу получает root‑права на системе. И да, это, конечно, очень жёстко, потому что с помощью этого можно ещё и выбираться из контейнеров. Потому что если у тебя Docker‑контейнеры, то page cache, логично, всё равно общий.
Да.
Вот так это всё и работает. То есть это не так, что у каждого хостинга или у каждой системы своя реализация, из этого реально можно вырваться даже на арендованных серверах, и тогда всё, rip. Page cache, естественно, вообще существует потому, что было бы дико медленно каждый раз сразу писать все данные на диск, потом снова перемещать головку чтения в нужное место и оттуда их читать. Это заняло бы слишком много времени, поэтому и есть page cache: данные копятся в памяти и потом постранично сбрасываются на диск. Нам это в универе тоже так объясняли: ядро помечает страницы и периодически целыми страницами всё синхронизирует обратно на жёсткий диск — это понятно. Но в случае с этими эксплойтами интересно то, что система вообще не замечает, что эти страницы, грубо говоря, модифицированы. Потому что сам page cache при таких проверках как бы игнорируется: проверки смотрят только на то, что реально лежит на диске. То есть на диск смотрят: «Окей, совпадает ли наш посчитанный хеш с этим куском данных на диске?» — и он всегда совпадает, что бы ты ни делал, потому что ты поменял только page cache, а не сами данные, на которых этот кэш основан. Поэтому всё считается валидным, пока ты не перезагрузишь систему или вручную не инвалидируешь эту страницу page cache. Теоретически это можно сделать в Linux отдельной командой, но так, чтобы кто‑то просто из паранойи регулярно так делал, — ну, очевидно, нет. И это значит, что ситуация реально очень печальная, потому что по сути затронуты все дистрибутивы начиная с 2017 года, и по‑хорошему нужно поставить свежую версию с новым ядром Linux — не знаю, там это сейчас 6.3.1 или какое — и просто обновиться, иначе всё, rip. И все эти эксплойты, кстати, были найдены с помощью ИИ.
Да.
То есть там действительно security‑исследователь прям по‑полной заюзал ИИ, дал ему волю искать, и ИИ реально много нашёл. Но пока что ИИ ещё не в состоянии, скажем так, полностью сам всё продумать от начала и до конца, настолько он ещё не крут. Это ещё и от бюджета зависит: если сказать условно «вот тебе тысяча евро на вычисления», тогда, наверное, можно многое автоматизировать, но в реалистичных денежных ограничениях ИИ пока так не умеет. Ему всё ещё нужна человеческая поддержка — человек, который скажет: «Окей, давай копать дальше вот в этом направлении, может, мы там ещё что‑то сделаем», и который знает: «О, у нас же есть ещё такая‑то идея». Сейчас это работает именно так. И это подтверждает прогноз, что кучу уязвимостей в будущем как раз будут находить с помощью ИИ. Особенно часто это сейчас происходит с ядром Linux: там всплывает огромное количество мелких, не особо важных уязвимостей. И сам The Man, Линус Торвальдс, уже писал, что он просто завален количеством issue, которые открываются: большинство из них на самом деле дубликаты, но люди не вдумываются, что там написано, что это вообще значит, не смотрят, есть ли уже фикс. Они просто берут вывод ИИ, грубо говоря, дропают его в issue — и всё. Они не понимают, что вообще происходит или что это уже дубликат какого‑нибудь другого issue. И он прямо говорит:
«Большинство проблем, которые ты можешь найти своей ИИ‑системой, с очень большой вероятностью уже были найдены какими‑нибудь другими ИИ. Если только ты не вваливаешь в это какие‑то безумные деньги — тогда это, конечно, совсем другая история. Но в обычном случае почти наверняка эта проблема уже кому‑то известна».
Да.
Да.
Я как раз хотел тебя спросить, относятся ли эти, ну, эти уязвимости тоже к тем, которые нашли с помощью ИИ, потому что мне это показалось суперинтересным. Во‑первых, видно, насколько медленно у нас в Германии докатывается новостная волна. Вот позавчера где‑то на ZDF вышел сюжет на тему «Насколько опасен Claude Mythos?», и я такой сижу и думаю:
«Спасибо, ZDF, приятно, что до нас в Германии это тоже наконец‑то доходит. Я этим вопросом задался три недели назад, но ладно, давайте поговорим об этом сейчас». Это было, правда, интересно, и для многих это, наверное, был такой небольшой момент пробуждения, потому что, как по мне, сейчас всё сильнее растёт напряжение между вещами, которые реально уже происходят фактически, —
Да.
— и людьми, которые до сих пор говорят, что ИИ «не настоящий».
А что ты имеешь в виду под «не настоящий»?
Ну, знаешь, по‑английски это называют «nothing burger».
Угу.
То есть, мол, это всё просто хайп, оно на самом деле не умеет того, что якобы умеет, и так далее, и так далее. А сейчас, как мне кажется, случилась ситуация, когда уже невозможно спорить: ну, простите, если, я не знаю, тот же Claude Mythos за одну неделю нашёл что‑то типа полутора тысяч эксплойтов нулевого дня, и это реальные эксплойты, которые можно по‑настоящему использовать.
Да.
Эм, поэтому я и не знаю. Многие люди, я отчасти понимаю тех, кто говорил, что это всего лишь хайп, потому что, что мне показалось очень интересным: другие, наоборот, говорили: «Ладно, народ, я сейчас вам прочитаю новостную статью», и там буквально так: «OpenAI разработала модель, но пока её держит под замком, потому что говорит, что она слишком опасна. Она якобы может нанести огромный ущерб обществу или компьютерным системам, и поэтому они пока не будут выпускать GPT‑3.5».
Верно.
Ну, эм.
Да, тут ведь уже вопрос, в каком это вообще соотношении друг к другу стоит.
Да.
Но почему, почему вообще существуют, скажем так, вот эти пустые оболочки? Это же очевидно. Они по сути нужны только для того, чтобы как следует подготовить акционеров, чтобы они снова залили туда денег, потому что речь ведь не о том, что произойдёт в следующем году. Это, так сказать, вообще никогда не цель, а то, что станет достижимо в более долгой перспективе, ну там на ближайшие лет десять, и как компания в следующие десять или двадцать лет сможет на этом зарабатывать. Вопрос не только в духе: «Окей, как у нас будет выглядеть следующий квартал?» Да, там тоже бывают скачки, но так глубоко это никогда не идёт. Смотрят скорее на то, как будет выглядеть выручка, динамика выручки в будущем — и не только в следующем квартале, в году или даже в пяти годах, а намного дальше. И поэтому я не считаю таким уж злом, если в случае чего пообещать слишком много, потому что люди гораздо быстрее забывают, что им когда‑то пообещали, чем кажется, особенно если ты поддерживаешь постоянный поток новостей о том, что вот‑вот станет возможным, если всё время держать этот шар в движении.
Да.
Это окей, потому что оно рано или поздно ведь точно заработает. Просто они дико недооценили, намеренно занизили тот промежуток времени, когда это станет возможным. Типа: «О да, окей, это будет работать через год», хотя реалистично это скорее три–пять лет, когда такое вообще можно более‑менее реально внедрить.
Ну да, да.
И, конечно, можно сказать: «Окей,
GPT‑3.5 для своего времени был просто офигенный, но всё‑таки не каким‑то чудовищным вредом для общества — в зависимости, конечно, от того, как вообще определять «вред для общества».
Да.
Вот именно, понимаешь? Я как раз это и хотел сказать. GPT‑3.5 тогда едва‑едва мог собрать более‑менее связное предложение.
Да.
Понимаешь? И люди теперь проводят параллели и говорят: «Ну ладно, с GPT‑3.5 ты же ничего не взламывал. Значит, всё в безопасности, всё это просто фейк». Но именно по тому, что это сейчас реально имеет последствия, видно, что пытаются хоть как‑то адекватно с этим обращаться. Например, говорят: «Окей, скоро такие технологии будут и в опенсорсе. Поэтому наша идея…» — и у OpenAI сейчас такая же идея, и Google на Google I/O тоже что‑то подобное анонсировал, но не суть. Их цель — сначала прийти со всеми этими моделями ко всем крупным компаниям и просканировать их системы на уязвимости, чтобы как бы…
…когда эта технология рано или поздно, неизбежно станет доступна всем, чтобы хотя бы завтра не взломали Google или, не знаю, завтра не взломали Adobe. Для мировой экономики это было бы, скажем мягко, очень хреново.
Да.
Ладно, но…
да, короче, я это счёл прям диким. Думаю, для многих это был такой небольшой момент пробуждения, потому что, понимаешь, они до этого могли всегда говорить: «Ну да, там какие‑то бесконечные GitHub‑ишьюсы по ИИ…»
и всё тонет в слопе, да, во всём этом мусорном контенте. И всё в таком духе: «Да это всё ничего не значит. Шума много, а на деле ноль. Ничего из этого не имеет реальной экономической ценности, ничто не несёт реального риска для безопасности и так далее, и так далее». Вот такой нарратив всё время и распространялся. А сейчас, я думаю, его стало очень трудно поддерживать. Как можно настолько по‑идиотски игнорировать текущую ситуацию?
Э‑э.
Или, точнее, неправильно её оценивать, так бы я сказал. То есть—
Э, экстремальный копиум.
Да. [смеётся]
Но, Йона, идеально, как это здесь
сходится.
Точно. Но я всё‑таки должен, как такой дисклеймер, добавить, эм, что, как утверждают, уже есть работы, которые показывают: некоторые модели за последние месяцы местами стали хуже — или, по крайней мере, у людей есть такое субъективное ощущение. И тут, конечно, вопрос: связано ли это с тем, что нам все компании обещают, а качество самих моделей по сути остаётся тем же? Или действительно есть некий откат назад? Потому что многие говорили, что то, как ИИ отвечает и какие токены в итоге генерируются, полностью определяет качество. И количество токенов, которые в итоге вы‑выдаются, тоже сильно подкрутили. То есть, условно, сейчас в ответах намного больше «воды», чем раньше, и тебе приходится добавлять что‑нибудь вроде «пожалуйста, покороче», чтобы получить такой вывод, какой ты на самом деле ожидаешь.
М‑м.
Есть довольно много людей, которые в эту сторону и аргументируют, и я это вполне понимаю, потому что у меня субъективно тоже есть немного такое ощущение, что это происходит.
Йона, тут мы как раз выходим на тему, о которой я вообще‑то не хотел говорить, но как‑то всё равно чешется. Я уже две серии подряд хочу выдать один такой, ну, это даже не ранд, а маленький мой хот‑тейк.
Давай.
А именно: тот, кто не пользуется платной моделью ИИ, по факту не в состоянии адекватно оценить, на что ИИ сегодня вообще способен.
Да.
И мне это, мне это, мне это во многих отношениях кажется прям печальным. То есть я считаю, я считаю, вот поэтому у меня и такой хот‑тейк. Здесь я, ну, я понимаю, что тут со мной практически никто не согласен. Я, по сути, тот человек, который говорит: на таком, знаешь, высоком философском уровне я был бы за то, чтобы вообще не существовало бесплатного ChatGPT.
Угу.
А я думаю, что это в целом вредит и обществу, и индустрии, потому что получается, что потребителю доступны как бы два совсем разных типа ИИ. Есть бесплатный, которым пользуются девяносто шесть процентов людей и на основании которого они формируют своё мнение: «Что вообще умеет ИИ?»
Точно.
А ещё есть люди, которые за это платят, получают штуку в разы лучше и поэтому имеют куда более жёсткое представление о её возможностях. Я это недавно осознал тут, на радио.
То есть да, это всё абсолютно верно, но, думаю, это мою гипотезу всё равно не опровергает. Оно точно выбивает аргумент в стиле: «А, ну она же не такая крутая, как обещали». Ну ещё бы — если ты не платишь за это деньги, ни по подписке, ни тем более помпт за помптом. Потому что если ты платишь по десять евро, по сто евро или даже по сто евро за один запрос, то результат, который можно сегодня получить от ИИ, будет просто безумно мощным. Но мне кажется, мой аргумент всё равно остаётся в силе.
Да‑да, я думаю, это как раз можно так объяснить. Моя теория в том, что в начале, чтобы разогнать хайп, даже бесплатным пользователям давали всё самое крутое, хотя они ничего не платили. А теперь, когда ИИ‑компании постепенно такие: «Окей, это на самом деле стоит безумных денег. Мы уходим в минус даже на людях, которые платят по двести долларов в месяц»…
…они думают: «Наверное, стоит сделать так, чтобы люди, которые буквально ничего не платят, получали чуть‑чуть поменьше интеллекта, понимаешь?»
Мне кажется, это может объяснять, почему в основном именно бесплатные пользователи и замечают, что стало хуже. Просто потому, что они больше не получают сто процентов от того, что вообще возможно.
Да.
И поэтому им оно кажется хуже, потому что оно и есть хуже.
Да.
Именно. Эм, но я хотел вернуться к этому контрасту. Я это прям почувствовал и вдруг понял, в каком пузыре я вообще живу. Йона, маленькое признание для тебя: я на этот месяц, чтобы попробовать, оформил себе ChatGPT за сто евро.
Круто.
То есть я не тот за двести евро взял. У меня ChatGPT Pro, но там можно выбрать: за сто евро — с пятикратным лимитом, или за двести — с двадцатикратным. Я взял за сто, потому что, когда я программирую с Codex, я постоянно упирался в лимиты и подумал: «Окей, реально имеет смысл взять побольше квоты».
Да.
Но этого пятикратного мне за глаза хватает. Я до лимита не дохожу, значит, двадцатикратный мне не нужен. Эм, и вот на этом фоне — мы тут сидели на радио, и одна, одна, э‑э, наша коллега рассказывала: «Ну, я попросила ChatGPT просто оформить ссылку по стандарту APA…»
Да.
И он просто дико облажался.
Да.
На предельно простой, очевидной задаче.
Да.
И мы тут же такие: «Ну да, понятно, ИИ до такого просто не способен, это не работает». А в контраст к этому — Codex каждую неделю пишет для меня сотни тысяч строк кода без ошибок.
Да.
Вот такой контраст. У среднестатистического человека вполне обоснованное ощущение, что ChatGPT нельзя доверить даже одно предложение, не рискуя тем, что он, скорее всего, всё запорит.
Да.
Потому что средний человек знает только бесплатную версию, а она, мягко говоря, отстой.
Да.
И мне это по многим причинам обидно. С общественной точки зрения грустно, что большинство людей вообще не понимает, какая офигенная технология существует и как её можно использовать. С более такой думерской перспективы можно сказать: большая часть общества даже не осознаёт, насколько нам всем скоро будет хана.
Да.
Потому что они думают: «Эта штука даже одно предложение нормально написать не может. Мою работу она точно не заберёт».
Да.
И они не понимают, что если заплатить денег, вполне есть штуки, которые действительно могут лишить их работы. Ну и мне лично это тоже очень обидно, потому что из‑за этого то, что я делаю с ИИ, люди воспринимают совершенно искажённо.
Угу.
Из‑за этого бывает так, что когда я людям говорю, например: «Эй, эм, я сейчас экспериментирую с тем, чтобы монтировать видео Crunch Time с помощью ИИ…»
Да.
то люди вспоминают, как их бесплатный ChatGPT в трёх фразах делает семь ошибок, и говорят: «Виланд, ну брось. Это не сработает. Чё? ИИ на такое вообще не способен. Он даже одно предложение без ошибки написать не может», — говорят они, опираясь на свой опыт именно с бесплатным ChatGPT.
Да.
Вот. [вздыхает] Ну и, конечно, друзья тут же приводят контраргументы. Я, в принципе, полностью за то, что есть бесплатный доступ, в том смысле, что мне нравится, когда как можно больше людей имеют доступ к этому инструменту.
Да.
И у тех, кто не может или не хочет платить, как я уже говорил, по крайней мере есть хоть какая‑то возможность. Но в итоге мы упираемся в мой базовый аргумент: проблема не в ИИ, проблема в капитализме. То есть, если бы у всех был доступ к действительно хорошей системе, я был бы только рад. И идея «ладно, пусть будет бесплатная версия похуже, но хотя бы какая‑то» — тоже вроде ок. Но, [вздыхает] как по мне, тут интернет и так называемый интернет‑капитализм, который по‑настоящему развернулся в начале 2010‑х, к сожалению, уже успели вцепиться в ИИ. Потому что в самом начале, совсем давно, Сэм Альтман ещё говорил примерно так: «Да, у нас есть ИИ. Я знаю, вы привыкли, что в интернете всё бесплатно и оплачивается рекламой. Но ИИ безумно дорогой, так это не работает. Поэтому мы не будем строить на этом бизнес‑модель: не будет рекламы и не будет бесплатной версии. Мы делаем продукт, за который вы, пожалуйста, будете платить»,-
Да.
— так же, как вы платите за любой другой продукт.
Да.
Потому что, без шуток, я всегда это сравниваю… это, конечно, очень тупое сравнение, но когда я людям объясняю, что такое ChatGPT и что я пользуюсь OpenAI API, я всё время сравниваю это с молоком, конкретно с Müllermilch. Я говорю: «Окей, в Müllermilch, наверное, — не знаю, правда это или нет, кто‑нибудь ещё засудит нас за клевету, — но пусть там будет пятьдесят тысяч консервантов и усилителей вкуса. Но это же не значит, что если я как B2B‑клиент покупаю молоко для производства „Виланд‑молока“,—
Да.
— то есть покупаю у молочного завода Müller их B2B‑молоко, в нём нет ни усилителей вкуса, ни консервантов, ничего такого. Оно нормальное. Уже я, делая своё „Виланд‑молоко“, скорее всего сам добавлю консерванты и усилители вкуса — или, в случае ChatGPT, начну тебя трекать, показывать рекламу, продавать твои данные. Но только потому, что та же молочная компания Müller производит и Müllermilch, нужно разделять B2B‑продукт и B2C‑продукт. И поэтому я всегда привожу такой пример: представь себе, хотя это даже трудно вообразить, но в интернете и для цифровых товаров это норма: представь, что в магазине стоит бесплатная Müllermilch и та же, но за деньги.
Да.
И бесплатная при этом откровенно дерьмовая.
Да.
То есть она заметно хуже.
Это по сути вода с лёгким привкусом молока или что‑то в этом роде, да.
И представь, что бы случилось. Девяносто пять процентов людей брали бы бесплатную Müllermilch и говорили: «Слушай, Виланд, ты что, дурак? Зачем ты вообще за это деньги платишь, а?» Дальше — ещё круче: молочный завод Müller сам себе стреляет в ногу, когда я говорю: «А мне вот Müllermilch нравится, я за неё плачу». Они такие: «Слушай, Виланд, я всё время пью бесплатную Müllermilch. Она такая отвратная, что я её даже даром еле‑еле беру. Да я в жизни не заплачу за этот шлак, потому что мне и в голову не приходит, что это может быть иначе. На упаковке же и там, и там написано Müllermilch. Чего ты вообще хочешь, Виланд?»
Да.
Ну конечно, мол, я не буду за это платить. И точно так же мои знакомые говорят мне: «Виланд, ChatGPT даже одно предложение нормально написать не может. Я в жизни не отдам за него деньги». Потому что им, очевидно, вообще не приходит в голову, что с платной версией всё было бы совсем не так… Извини, я уже слишком ухожу в ранд.
Точно. И они ещё не понимают, что если компания будет тратить тысячу евро в месяц, то есть двенадцать тысяч в год, на ИИ, она вполне может за счёт этого одну штатную единицу сэкономить. То есть—
Да.
вопрос только, какую именно. [смеётся] Но если твой опыт — это только бесплатный ChatGPT или, эм, тот же бесплатный Copilot или что там ещё, ты, конечно, этого не можешь прочувствовать. Ну типа: «Да ну, ИИ, какие ещё сокращения рабочих мест?» Хотя нужно понимать, что альтернатива — это платить одному человеку тридцать–пятьдесят тысяч евро в год, а то и больше. И теоретически это и есть тот бюджет, который ты можешь заложить на API‑запросы
и всё такое. Который, условно, с учётом того, насколько крутой сейчас ИИ и как хорошо он может подстраиваться, ты, конечно, можешь сильно перебить. Ну, или, да…
Но да, Йона, как я уже говорил, когда ты снова поднимаешь тему рабочих мест, мне кажется, это просто
невероятные дозы копиума, что, впрочем, понятно, потому что человек так устроен: если у него есть хоть что‑то, что даёт надежду… Сейчас опять Виланд с хот‑тейками, жду комментарии на YouTube. Я думаю, это можно сравнить с популизмом. Там же та же логика: что‑то даёт тебе надежду. Типа, не знаю, «моя жизнь — дерьмо. Почему? Беженцы. Если бы их не было, все мои проблемы бы решились» — и это даёт надежду, потому что не нужно признавать: «О, мир сложный, возможно, проблемы вообще нельзя просто так решить». Вместо этого ты знаешь одну причину, почему твоя жизнь дерьмо, и с ней ты теперь борешься.
И это, разумеется, нельзя вырывать полностью из контекста всего, что ты до этого сказал.
[смеётся]
Понимаешь, и я думаю, что когда ты кому‑то снова и снова говоришь что‑то вроде: «Слушай, ИИ, она скоро будет в состоянии выполнять большую часть человеческой работы, и нам как обществу надо заранее решить, как с этим жить»…
Да.
Вот, это ведь важно. А потом выходит какая‑нибудь суперизвестная статья, где написано: девяносто пять процентов всех ИИ‑проектов в компаниях проваливаются. И люди тут же вцепляются в это и говорят: «Вот, смотри. Значит, всё это не может быть правдой. Эта штука не заберёт у меня работу». А ты открываешь саму работу и видишь: «Ага, они провалом называют случай, когда проект не увеличил выручку или его посчитали недостаточно полезным». Но то, что компания или—
А, то есть это у них порог, по которому считается, что проект провалился. Ага, понятно.
Ну да, то есть они определили провал как «после тестовой фазы проект не продолжили». И я такой думаю: я, конечно, не так хорошо знаю, как там в фирмах, но, Йона, девяносто пять процентов моих собственных проектов «проваливаются», если исходить из такого критерия: я что‑то попробовал, понял, что это не даёт нужного эффекта, и просто перестал этим заниматься.
Они же должны увеличить твою выручку. Ну да, логично.
Ну или мою выручку. Или принести мне какую‑то ощутимую пользу в жизни. Если нет — значит, «провал». Но эй, так же компании постоянно делают. Они же, очевидно, тоже очень часто говорят: «Окей, давайте попробуем вот это, посидим, что‑то поразрабатываем недельку‑другую, а если оно не взлетит — просто не будем продолжать».
Да, именно.
Но в этом исследовании это всё записано как «проект с ИИ провалился».
Ну да, это как‑то чересчур жёсткое определение.
И люди за это хватаются, и я их понимаю, потому что, конечно, тебе не хочется верить, когда кто‑то говорит: «Слушай, ты вот работаешь уже двадцать лет, а через три года мир вообще встанет с ног на голову».
Да.
Тогда ты, естественно, хватаешься за всё, что говорит: «Да он просто несёт чушь».
Да.
«Все, кто рассказывает про ИИ, просто болтают».
Да.
Кстати о дорогих подписках, за которые точно не обязательно платить. Plex опять подняли цены, и я считаю это просто каким‑то диким бредом, что вообще до таких сумм дошло. Они повышают цену на пожизненный доступ к Plex: он был, не помню точно, кажется, около двухсот пятидесяти долларов, а теперь станет семьсот пятьдесят. То есть в три раза дороже. И причина в том, что чувак сказал: «Ну, мы это и так не хотим дальше особо предлагать» — классический ход Adobe, — «мы вообще хотим только подписочную модель, чтобы вы каждый месяц снова и снова платили». И это, конечно, RIP, потому что это всего лишь софт, который стримит видео, которые уже лежат у тебя на собственном сервере, на другие устройства. За это вообще не нужно платить деньги, и уж точно не семьсот пятьдесят евро сверх железа и всех затрат на настройку, времени, которое ты на это тратишь. Можно просто взять отличное опенсорсное решение вместо этого — и будет вообще шикарно.
Ну, если вообще есть потребность в таком сервисе. И, конечно, небольшой дисклеймер: вы должны, разумеется, эти фильмы или ролики сначала сами купить, но после этого в Германии вам разрешено делать для себя приватные копии. То есть всё, что там происходит, абсолютно законно, ну да.
Да.
Лол. И это ещё один пример, как будто нам и так мало, как будто от населения мы ещё не получили достаточно хейта за все эти подписочные модели.
Да.
Йона, ну тут мы опять выдали по полной.
Именно.
Как говорится. Мы записали замечательный выпуск, набитый дикими инсайтами, э-э, рассказами о наших личных проектах, о том, чем мы сейчас занимаемся, что мы, э-э, делаем с техникой и, конечно, о том, что большие технокорпорации сейчас вытворяют с технологиями. И, Йона, у нас даже были парочка отличных маленьких рэнтов про поздний капитализм и надвигающийся мир «Watchshops», в котором мы, возможно, очень даже скоро все будем жить. Это был классический выпуск, до отказа набитый крутыми моментами. И если вы вдруг не всё это услышали, но думаете: «Блин, как же это круто, хочу послушать полностью, я только что врубился в эфир или хочу переслушать», — где это вообще можно сделать, Йона?
Для этого лучше всего просто зайти на сайт radio-unique.de. Там вы, конечно, найдёте все новостные статьи от нас как от студенческого радио, но вам стоит кликнуть именно на соответствующие выпуски «Crunch Time». Там вы можете в любой момент переслушать все старые эпизоды. Кроме того, можно зайти на YouTube или Spotify и поискать «Die Crunch Time». Наш подкаст есть и в формате RSS: нужно лишь открыть podcast.radio-unique.de. Там вы можете для всех, э-э, подкастов сразу сохранить RSS‑ссылки и добавить их в любой подкаст‑ридер по вашему выбору, или же найти прямые ссылки на YouTube, Spotify и так далее.
А если хочется быть совсем в прямом эфире и, и, или у вас вообще только аналоговый приёмник, где вы крутите ползунок и выставляете нужную частоту FM?
Ой-ой-ой.
Где же тогда вообще можно послушать «Crunch Time» в следующий раз?
Восемьдесят первый выпуск «Crunch Time» выйдет в эфир 28 июня. Как и каждый месяц, это будет четвёртое воскресенье, и вам нужно будет с восемнадцати до девятнадцати часов включить либо УКВ на частоте сто два целых семь десятых мегагерца, либо DAB+ в мультиплексе 5B. Для этого вам, конечно, нужно находиться в районе Кемница. В противном случае можно просто зайти на radio-unique.de и нажать на веб‑плеер. Там вы тоже сможете 28 июня с восемнадцати до девятнадцати часов услышать «Crunch Time» в прямом эфире.
Так что у вас есть все возможности следить за этим, за прошлыми и будущими выпусками «Crunch Time». До тех пор — всего хорошего.
Пока.
[Аутро‑музыка]
Это была
«Crunch Time» — программа, созданная Radio UNiCC.
Zuletzt aktualisiert am 1
ہیلو اور خوش آمدید، جو ہمیں اپنے ریسیورز پر سن رہے ہیں۔ کرنچ ٹائم میں خوش آمدید۔ یہ ٹیک پوڈکاسٹ کی 80 ویں قسط ہے، میں ہوں ویلینڈ۔
اور میں ہوں، جونا۔
ہم ہر ماہ کے چوتھے اتوار کو آپ کو ٹیک دنیا اور ہمارے ذاتی DIY اور ہنر مندی سے متعلق تازہ ترین بتاتے ہیں۔ اس بار ہم نے آپ کے لیے چند اچھی چیزیں تیار کی ہیں، جو قسط نمبر 80 کے مطابق ہیں۔ عام طور پر ہم کسی بھی گول یا عجیب نمبر پر کچھ بڑا سوچتے ہیں، مگر میرا خیال ہے اس بار یہ بس بہت اچھا ہے۔ ہماری 80 ویں قسط ایک کلاسک قسط ہوگی، جس میں ٹیک موضوعات اور ہمارے ذاتی DIY تجربات شامل ہوں گے۔
ریڈیو UNiCC پیش
[موسیقی] پروگرام کرنچ ٹائم
[موسیقی] جونا اور ویلینڈ ساتھ۔
تو میں اسی چیز سے سیدھا شروع کروں گا — جی ہاں، ایک موضوع جس کا میں نے پچھلی قسط میں اشارہ کیا تھا اور جس پر میں نے بعد میں تھوڑا سا اور کام بھی کیا۔ اس لیے میں آپ کو بتا سکتا ہوں کہ مجھے گوگل ہیلتھ کنیکٹ کتنی پسند آیا ہے، کیونکہ یہ واقعی بہت متاثر کن ہے۔ میں نے اسے آزمایا اور نتائج اتنے اچھے ہیں کہ میں تفصیل سے بتانے کے لیے تیار ہوں۔
[ہنسی]
یہ واقعی لاجواب ہے۔ جونا، میں نے اس پر بہت محنت کی ہے۔ یہ بہت اچھا ہے۔ تو سب کو پہلے بتا دوں: گوگل ہیلتھ کنیکٹ کیا ہے، میں اسے اتنا زبردست کیوں سمجھتا ہوں، اور آپ سب کو یہ کیوں استعمال کرنا چاہیے — میں آپ کو ساری تصویر بتاؤں گا۔
بالکل۔
تو — بہت روایتی بڑے ٹیک کمپنی والے انداز کے برخلاف — گوگل ہیلتھ کنیکٹ اینڈرائیڈ فونز کے لیے ایک ایسا انٹرفیس ہے جو مختلف صحت کی ایپس کو ایک دوسرے کے ساتھ ڈیٹا شیئر کرنے کی اجازت دیتا ہے۔ بنیادی طور پر یہ ہر فون پر موجود ایک مقامی ڈیٹا بیس ہے: ایپس اس میں لکھ سکتی ہیں اور اس سے پڑھ سکتی ہیں۔ اس کے اوپر ایک ذیلی اجازتوں (سب‑پرمیشن) کا نظام ہوتا ہے تاکہ ایپس مخصوص ڈیٹا ٹائپس تک رسائی مانگ سکیں۔ خلاصہ یہ کہ یہ ایک مرکزی، مقامی اسٹور ہے — اور اینڈرائیڈ 14 سے پہلے یہ ایک الگ ایپ ہوا کرتی تھی جسے آپ انسٹال کرتے تھے، جبکہ اینڈرائیڈ 14 کے بعد یہ آپریٹنگ سسٹم کا حصہ بن گیا ہے۔
اور جیسا کہ میں نے سمجھا ہے، اس کا مطلب یہ بھی ہوگا کہ جو قدم فون نے گنے ہیں وہ مثلاََ ہیلتھ انشورنس والی ایپس کو بھی بھیجے جا سکتے ہیں۔ وہاں کچھ معروف مثالیں موجود ہیں—
اچھا۔
اُم، وہ جو لوگوں کو کچھ سینٹ ادا کرتے ہیں اُن دنوں کے بدلے جن میں تم نے اس فون سے دس ہزار قدم پورے کیے — کیا وہ بھی اسی API کے ذریعے کام کرے گا؟
تو، مجھے لگتا ہے—
کیا یہ حقیقت میں بالکل مختلف چیز ہے؟
میرا خیال ہے کہ ہاں، یہ اسی ذریعے بھی کام کر سکتا ہے۔ میں نے ذاتی طور پر ابھی تک اسی مقصد کے لیے اسے استعمال نہیں کیا، مگر نظریاتی طور پر یہ ممکن ہے۔ اور یہ بات اہم ہے کہ یہ گوگل پلے سروسز کا حصہ نہیں ہے اور نہ ہی یہ آپ کے گوگل اکاؤنٹ کے ساتھ خود بخود ہم آہنگ ہوتا ہے — میں سمجھتا ہوں کہ بہت سے لوگ اسی وجہ سے فکر مند ہوتے ہیں۔ آپ اسے گوگل اکاؤنٹ کے ساتھ سنک نہیں کر سکتے۔ سب سے زیادہ جو آپ کر سکتے ہیں وہ یہ ہے کہ آپ بتا دیں کہ پورا ڈیٹا ایک ZIP فائل کی صورت میں کسی بھی کلاؤڈ ایپ میں خودکار طور پر ایکسپورٹ ہو جائے — اور اس کے لیے آپ فون پر موجود کسی بھی کلاؤڈ ایپ کو منتخب کر سکتے ہیں، مثلاً گوگل ڈرائیو یا نیچ کلاؤڈ وغیرہ۔ مگر یہ محض ایک خودکار ایکسپورٹ ہے؛ بنیادی طور پر سب کچھ فون پر مقامی طور پر رہتا ہے اور—
سوائے اس ایکسپورٹ کے، کیا وہ عمل بالکل لوکل بھی کیا جا سکتا ہے، یعنی کیا آپ براہِ راست کہیں ZIP فائل لوکل طور پر بنا کر رکھ سکتے ہیں؟ کیونکہ جب آپ کہتے ہیں کہ آپ کو یہ دیکھنے کا حق ہے کہ کون سا ڈیٹا محفوظ ہے وغیرہ، اگر وہ سب خودکار طور پر کسی بھی کلاؤڈ فراہم کنندہ کو چلے جائیں تو پورا یہ اچھا ایکوسسٹم کچھ متاثر ہو جاتا ہے۔ کیا یہ پورے طور پر لوکل بھی چلتا ہے؟
بات یہ ہے کہ، میرا خیال ہے کہ براہِ راست کسی فائل کو اپنے فون میں خود ہی بنانے کا آپشن نہیں ہے۔ البتہ ایک حل یہ ہے کہ آپ مثال کے طور پر Nextcloud جیسی ایپ کو بطور منزل منتخب کریں تاکہ وہ ZIP وہاں ایکسپورٹ ہو۔
اوہ اچھا، تو پھر یہ زیادہ یا کم ٹھیک ہے۔ صرف اسی کے لیے Nextcloud سیٹ اپ کرنا شاید کوئی نہیں کرے گا۔
ہاں۔
مگر اصولی طور پر تو یہ ممکن ہے۔
بالکل، اور جیسا کہ میں نے کہا، مجھے پسند اس بات کی ہے کہ یہ بس تمہارے فون پر ایک ڈیٹا بیس ہے جہاں آپ آسانی سے ایسی ایپس بنا سکتے ہو جو اس کے ساتھ کام کریں۔ یہ اس طرح کا پیچیدہ عمل نہیں ہے جیسا کہ بعض دوسرے گوگل پراڈکٹس میں ہوتا ہے؛ مثلاً اگر آپ کو یوٹیوب کے ساتھ انٹریکشن چاہیے تو عموماً گوگل کلاؤڈ میں ایپ بنانی پڑتی ہے، App Secret بنانا پڑتا ہے، اور پھر گوگل کی طرف سے اس کی منظوری یا چیکنگ کی ضرورت ہوتی ہے۔ اس پورے عمل میں بہت سی رکاوٹیں آ جاتی ہیں جبکہ Health Connect اس اعتبار سے بہت زیادہ سیدھا اور ڈویلپر فرینڈلی محسوس ہوتا ہے۔
اور پھر بدترین صورت میں آپ کو شاید دستاویزات کا صرف بیس فیصد تک ہی رسائی ملے۔
یہی تو اگلا مسئلہ ہے۔
اور پھر بہت سی دوسری خصوصیات بھی ہیں—
ہاں۔
جن تک آپ بالکل رسائی نہیں پاسکتے، یا جن تک تو رسائی ممکن ہے مگر آپ کو ان کے بارے میں معلوم ہی نہیں کیونکہ وہ کہیں مناسب طریقے سے بیرونی طور پر دستاویزی نہیں ہیں۔
ہاں۔
بالکل، یہی سارا معاملہ ہے۔
اور، یہ سب صرف آپ کے فون پر چلنے والا ایک ڈیٹا بیس سسٹم ہے جہاں ایک ایپ بآسانی یہ درخواست کر سکتی ہے: 'میں ان مخصوص ڈیٹا ٹائپس کو پڑھنا چاہوں گا اور یہ ٹائپس لکھنا چاہوں گا۔'
بہترین۔
اور یہاں ایک انتہائی اہم فرق ہے: ان ڈیٹا ٹائپز کی دو بڑی کیٹیگریز ہیں۔ جو چیز آپ عام طور پر دیکھتے ہیں وہ 'Health Data' کہلاتی ہے — نام تھوڑا الجھا دینے والا ہے مگر اس کا مطلب وہ سب کچھ ہے جو آپ ٹریک کر سکتے ہیں۔ میں سمجھتا ہوں کہ جرمنی میں کچھ چیزیں ابھی تک پوری طرح پھیل نہیں پائیں — شاید یوروپی قوانین یا میڈیکل ڈیوائس ریگولیشنز کی وجہ سے — یا پھر یہ بھی ہو سکتا ہے کہ میں خود وہ ایپس استعمال نہیں کرتا جو دوسری کیٹیگریز کو استعمال کرتی ہوں۔ جو مجھے بہت پسند آیا وہ یہ ہے کہ پرمیشن اسکرین بہت واضح بتاتی ہے کہ کون سی ایپس نے حال ہی میں رسائی لی اور کون سے ڈیٹا ٹائپس وہ پڑھ سکتی یا لکھ سکتی ہیں؛ یا تو آپ Health Connect کی ایپ میں یہ دیکھ سکتے ہیں یا اپنے سسٹم سیٹنگز میں۔
اچھا؟ اس کا کیا مقصد ہے؟
آپ وہاں غذائیت بھی ٹریک کر سکتے ہیں، یعنی کھانے کے اندراجات، پانی کی مقدار، وزن وغیرہ — بنیادی طور پر ہر طرح کے ڈیٹا پوائنٹس۔ خواتین کی صحت کے موضوعات بھی شامل ہیں: ماہواری کا بہاؤ، حیض کی تفصیلات، حتیٰ کہ سروائیکل مائع (Zervixschleim) بھی ریکارڈ کیا جا سکتا ہے۔ اور جو چیز مجھے ذرا مضحکہ خیز لگی وہ یہ ہے کہ خواتین کی صحت کے ذیل میں بطور سب‑آئٹم 'جنسی سرگرمی' کو رکھا گیا ہے — ایسی چیز جو ایک مرد شاید خود نہ ٹریک کرنا چاہے مگر خواتین کے لیے یہ مفید ہو سکتی ہے۔
ہاں۔
اور جنسی سرگرمی کے بس ایک ہی پیرا میٹر ہیں: 'Protection Used' یعنی 'تحفظ استعمال ہوا' — true یا false۔
اِہا، لیکن یہ تو اتنی بے تکلفی سے ڈیٹا بیس میں موجود ہے؟ ہاں، یہ سمجھ آتا ہے کیونکہ یہ سارے پوائنٹس، درجۂ حرارت جیسی میجرمنٹس کے ساتھ مل کر سائیکل کی پیشگوئی میں مدد دیتے ہیں۔ پھر بھی مجھے عجیب لگتا ہے کہ روزانہ بنیاد پر ایسی سرگرمیاں یا تمہاری سروائیکل کی کنسسٹنسی روزانہ نوٹ کی جائے — یہ ذاتی محسوس ہو سکتا ہے — مگر یہ کیا جا سکتا ہے اور یہ ان پیشگوئی کرنے والے الگورتھمز کو بہتر بناتا ہے۔ صرف ایک سیاق و سباق کے طور پر کہ کچھ لوگوں کو یہ عجیب لگ سکتا ہے۔
ایک ایسی ایپ بھی ہے جو خاص طور پر خواتین کی صحت ٹریک کرتی ہے اور اس میں آپ جنسی سرگرمیاں بھی ریکارڈ کر سکتے ہیں۔ مجھے معلوم نہیں کہ وہ ایپ گوگل ہیلتھ کنیکٹ کے ساتھ مطابقت رکھتی ہے یا وہ اپنے ڈیٹا کو سنک بھی کرتی ہے یا نہیں۔
ہو سکتا ہے۔
ہوسکتا ہے — وہاں کسی دن کے نشان کے پاس ایک چھوٹا سا دل دکھائی دیتا ہے؛ مطلب اگر اسی دن جنسی تعلق ہوا تو اس کے نشان پر دل چِھپ جاتا ہے۔ خیر، بہرحال یہ سب چیزیں موجود ہیں اور اسی وجہ سے بھی—
میں یہ کبھی گوگل کے ساتھ سنک نہیں کروں گا۔
نہیں، یہ تو فون پر ہی رہتا ہے۔ آپ اسے گوگل کے ساتھ بالکل بھی سنک نہیں کر سکتے۔ جو لوگ کہتے ہیں 'میں یہ کبھی نہیں کروں گا، یہ بہت غیر محفوظ ہے' — دراصل یہاں کوئی انوسیٹی (unsafe) چیز نہیں ہے، یہ سب آپ کے فون پر مقامی طور پر محفوظ رہتا ہے۔
اور سب سے شاندار بات جو یہ ڈیٹا بیس ممکن بناتا ہے — جو مجھے بالکل حیران کن اور بے حد مفید لگتی ہے، اور جس کی میں بڑی ٹیک کمپنی سے توقع بھی نہیں کرتا — وہ یہ ہے کہ یہ مختلف ایپس کے درمیان باہمی مطابقت (interoperability) کو آسان بناتا ہے۔
یہ واقعی غیر معمولی ہے۔ اس پر زور دینا چاہیے۔
ہاں، مجھے یہ بہت زبردست لگتا ہے۔
ہاں۔
بالکل — میں نے Health Connect Toolbox سے فہرست نکالی کہ کون کون سی ہیلتھ ڈیٹا ٹائپس دستیاب ہیں: فعال طور پر جلائی گئی کیلوریز، طے کی گئی ڈھلان/چڑھائی، طے کیے گئے منزلیں یا منزلوں کی تعداد، سرگرمی کی شدت کے ڈیٹا، رفتار، مجموعی جلائی گئی کیلوریز، پاور، VO2 میکس، وہیل چیئر کی دھکیلیں، قدم، مختلف کھیل اور ورزشیں، ٹریننگ پلانز، فاصلہ اور اسی طرح کی چیزیں۔ اس کے علاوہ یہاں آرام کی دل کی دھڑکن، آکسیجن سیچوریشن، جلد کا درجۂ حرارت، بلڈ گلوکوز، نیند کے ریکارڈ، مختلف جسمانی اقدار اور وائیٹلز تک بھی رسائی ممکن ہے — حتیٰ کہ آپ مائنڈفلنس یا ذہنی سکون کی مشقوں کو بھی ٹریک کر سکتے ہیں۔ یہ فہرست واقعی طویل اور حیران کن ہے۔
واہ، کمال ہے۔
مجھے یہ بہت مؤثر لگتا ہے۔ اور جہاں تک میری دلیل کا تعلق ہے — میں سمجھتا ہوں کہ خواتین کی صحت یا جنسی سرگرمی ریکارڈ کرنا منطقی ہے، مگر میں یہ بھی سوچتا ہوں کہ بطور مرد میں بھی کچھ چیزیں ٹریک کرنا چاہوں گا تاکہ مختلف عوامل کے درمیان تعلقات کو سمجھا جا سکے۔
ہاں۔
اور اس کا مطلب ہے کہ 'Protection Used' جیسا پیرا میٹر محفوظ کرنا بھی معنی خیز ہو سکتا ہے۔ میں نے اپنے اردگرد کی خواتین سے پوچھا کہ اس کا مقصد کیا ہوتا ہے؛ ایک نے کہا: 'جب ماہواری تاخیر ہو جائے تو میں دیکھ سکتی ہوں کہ آخری بار غیر محفوظ جنسی تعلق کب ہوا تھا — کیا مجھے شک ہے کہ میں حاملہ ہوں؟' اور—
ہاں، اور پھر آپ ایک اندازہ لگا سکتے ہیں—
ہاں۔
-کہ یہ کتنا ممکن ہے، درست؟
میں سوچتا ہوں: ٹھیک ہے، مگر شاید مجھے بھی یہ فائدہ ہو کہ میں نوٹ کر سکوں اور بعد میں دیکھ سکوں کہ آخری بار غیر محفوظ جنسی تعلق کب ہوا تھا۔
اچھا، ایک سوال: کیا یہ بس اپنے آپ کو دکھانے کے لیے ہے؟ یا پھر اس کا کوئی اور مطلب ہے؟ [ہنسی]
نہیں، میں سمجھتا ہوں کہ اصل بات یہ ہے—چلو ہم تھوڑا موضوع بدل لیتے ہیں، فکر نہ کرو۔ مگر اصولی طور پر اس کا مطلب یہ ہوگا کہ انسانی صحت کے ایسے بنیادی تجزیے اب براہِ راست، زیادہ تر خودکار طور پر کیے جا سکتے ہیں۔ اس کا یہ ہرگز مطلب نہیں کہ سبھی خاندان کے ڈاکٹر غائب ہو جائیں گے—یہ بات تو صاف ہے—لیکن آپ بعض علامات یا تبدیلیاں بہت پہلے ہی پہچان سکتے ہیں، کیونکہ ورنہ آپ یہ نہیں کہیں گے: 'اچھا، پہلے میں یہ چار مختلف ڈیٹا سیٹس ملا کر دیکھوں گا کہ کہیں مجھے وہ عجیب مرض تو نہیں۔' تم سمجھ رہے ہو میرا مطلب؟ جو چیزیں مختلف پیرا میٹرز میں ظاہر ہوتی ہیں وہ براہِ راست اس سسٹم میں، جب اتنا ڈیٹا دیا جائے اور جب کوئی ایپ اسے تجزیہ کرنے کی اجازت رکھتی ہو، نکالی جا سکتی ہیں—
ہاں۔
اسے آپ اس طرح زبردست طور پر نافذ کر سکتے ہیں کہ پوری انسانیت مجموعی طور پر صحت مند ہو جائے۔ یہی وہ بات ہے جو میں چاہتا ہوں، اور یہ میرے لیے ایک شاندار منتقلی بھی ہے—میں اسے بنیادی طور پر اپنا 'صحت کا نظام' کہتا ہوں۔
اوہ، بہت اچھا۔
جو میں نے اپنے صحت کے نظام میں حاصل کرنا چاہا ہے وہی کچھ ہے۔ اور اس کے لیے گوگل ہیلتھ کنیکٹ واقعی کلیدی ہے، کیونکہ میں کسی ایک سازندے سے پورا سسٹم لینا کبھی پسند نہیں کروں گا—اس سے لاک-ان بہت زیادہ ہوتا ہے۔ دیکھو، جونا، میرے پاس ایک فٹنس ٹریکر گھڑی ہے جس کی ایک ایپ ہے۔ میرے پاس ایک سمارٹ ترازو ہے جو کنیکٹڈ ہونے کے علاوہ جسمانی اقدار جیسے چربی اور پٹھوں کا تناسب وغیرہ بھی ناپتی ہے۔
یہ میری تمام ڈیٹا سے یہ بھی حساب لگا سکتی ہے کہ میرا بنیادی کیلوریز خرچ کتنا ہے۔ اور میرے پاس ایک سمارٹ بلڈ پریشر آلہ بھی ہے جو یہ ڈیٹا ریکارڈ کر سکتا ہے۔ اور یہ ساری ایپس آپس میں ہم آہنگ نہیں ہیں۔
ہاں۔
اپنی طرف سے۔ اور میرے پاس ایک ایپ بھی ہے جس سے میں اپنی خوراک ٹریک کرتا ہوں—یہ اوپن سورس ہے، اوپن نیوٹری ٹریکر پر مبنی، مگر میں نے اسے بہت زیادہ بڑھایا ہے۔ بذاتِ خود اس میں Health Connect کنکشن نہیں ہوتا، یہ ایک ڈیٹا بیس جیسی چیز ہے: صحیح ماڈیول امپورٹ کرو اور پھر سب شروع ہو جاتا ہے۔
ہاں، بہت خوب۔
اور یہ سب ایک دوسرے کے ساتھ ہم آہنگ نہ ہوتا تو میں یہ کبھی نہیں کر پاتا۔ اس کے علاوہ میں نے ایک ٹریننگ ایپ بھی بنائی ہے جو مجھے ایک مخصوص قسم کی طاقت کی مشق کرواتی ہے، جیسا کہ گوگل ہیلتھ کنیکٹ میں ہوتا ہے۔ یہ سب گوگل ہیلتھ کنیکٹ میں جمع ہوتا ہے۔ پھر میں نے ایک ڈیش بورڈ ایپ بنائی جو Health Connect سے یہ سارا ڈیٹا پڑھ کر رشتے قائم کرتی ہے اور بتاتی ہے، مثال کے طور پر: 'اچھا، مختلف پیرا میٹر ایسا ہیں کہ تمہیں چربی کم کرنی چاہیے۔'
ہاں۔
کیا یہ واقعی ہوا؟ اگر ہاں تو اچھا۔ اگر نہیں تو یہاں کچھ پیرا میٹرز ہیں جنہیں تبدیل کیا جا سکتا ہے۔ مثلاً کہ اگر دوڑنے سے جلنے والی کیلوریز کا حساب غلط معلوم ہو تو ہم اسے تھوڑا ایڈجسٹ کر لیتے ہیں۔
ہاں۔
اور یہ سب کچھ صرف گوگل ہیلتھ کنیکٹ کی وجہ سے ممکن ہوتا ہے۔
زبردست۔
ایک اور بات یہ ہے کہ گوگل ہیلتھ کنیکٹ کے ڈیٹا کا دوسرا بڑا حصہ بھی موجود ہے۔ اس کی تقسیم تھوڑی عجیب ہے: ایک حصہ 'Health Data' کہلاتا ہے اور دوسرا 'Medical Resource'۔ اور یہ واقعی کافی سنجیدہ ہے کیونکہ اس میں طبی معاملات آتے ہیں—ایک حصہ فٹنس اور ویلنیس کا ہے، جیسا کہ ہم نے ٹریکرز میں دیکھا، اور دوسرا حصہ ڈاکٹری/طبی ریکارڈز کے بارے میں ہے۔
یعنی حقیقتاً لیبارٹری کے نتائج اور طبی نوعیت کے ریکارڈ وغیرہ، بالکل۔
اور یہاں اجازتوں کا نظام بھی مختلف ہے۔ اگر کسی ایپ کو لکھنے کی اجازت ملے تو وہ تمام طبی ڈیٹا لکھ سکتی ہے، جبکہ آپ کسی ایپ کو مخصوص زمروں کا صرف پڑھنے کا حق دے سکتے ہیں۔ دلچسپ بات یہ ہے کہ زمروں میں الرجی، ڈاکٹر کے دورے، ڈاکٹروں کے بارے میں ڈیٹا، بیماریاں، ویکسینیشن، لیب کے نتائج، ادویات، طبی طریقے، ذاتی معلومات، حمل، حیاتیاتی پیرا میٹرز وغیرہ شامل ہیں، اور ایک زمرہ 'سوشل اینامنِیس' بھی ہے۔ Health Connect Toolbox میں JSON مثالیں دی گئی ہیں اور جب میں نے وہ دیکھا تو میرے دوستوں نے کہا: [ہنسی] 'سوشل اینامنِیس؟ کیا مزید بھی ہو سکتا ہے؟' [ہنسی] ایک مثال وہاں یہ تھی کہ بطورِ بچہ آپ پیسوِو سگریٹ دھوئیں کے سامنے رہے ہوں۔
اچھا، تھوڑا رکیے۔
ہاں۔
یہ بیان میرے لیے بھی بہت 'واچ ڈاگس' جیسا لگا، جس طرح آپ نے اسے پیش کیا—اس پر مجھے بھی ہنسی آئی۔ [ہنسی]
یہ بالکل وہی قسم کی چیز ہے جو آپ واچ ڈاگس میں دیکھتے۔
ہاں، درست۔ پھر ایسے: 'اوہ ہاں، یہاں آپ کا بھائی...
ابھی کسی معاملے میں ملوث ہے'—یا کچھ اسی طرح۔ ہاں۔
جیسا کہ میں نے کہا، یہ ایک الگ بات ہے اور میں نے ایسی کوئی ایپ کبھی نہیں دیکھی سوائے اپنی بنائی ہوئی ایپس کے، کیونکہ یہ بنیادی طور پر ایک ڈیٹا بیس ہے۔ یہ کچھ اس کے مساوی ہے جو امریکہ میں الیکٹرونک پیشنٹ ریکارڈ کے طور پر ہوتا ہے، یعنی جو ہمارے ہاں الیکٹرانک پیشنٹ ریکارڈ ہے۔ اور حقیقتاً میں اپنے سسٹم میں ادویات کے استعمال کے لیے ایک ایسا جز بھی استعمال کرتا ہوں۔ یہاں تھوڑا مسئلہ یہ ہے کہ یہ بنیادی طور پر طبی استعمال کے لیے بنایا گیا ہے، خوداپنی ماپ کے لیے نہیں—اس لیے وہاں کوئی ریکارڈ ٹائپ نہیں ہے جو خاص طور پر کہے: 'میں نے دوا لی۔'
ایک ریکارڈ ہوتا ہے کہ دوا تجویز کی گئی ہے اور اس طرح لی جانی چاہیے، اور ایک ڈیٹا ٹائپ ہوتا ہے جو بتاتا ہے کہ نرس نے مجھے یہ دوا دی تاکہ میں اسے لوں۔ لیکن دستاویز میں وہ واضح طور پر کہتے ہیں کہ طبی فلسفے کے لحاظ سے فرق ہے: مجھے دوا دی گئی تاکہ میں اسے لوں، اور یہ کہ میں نے دوا لی—یہ دو مختلف باتیں ہیں۔
ہاں۔
مگر مجھے اس سے فرق نہیں پڑتا۔ [ہنسی]
ہاں۔
میں بس اس 'میڈیکیشن ایڈمنسٹریشن ریکارڈ' کو داخل کر دیتا ہوں اور میری ایپ میں یہ ظاہر ہوتا ہے کہ میں نے لے لیا۔ یہ نہیں کہ—کسی نے...
کسی نے تمہارے گھر آ کر تمہیں دے دیا تھا۔
ہاں، بالکل۔ اور یہ واقعی بہت اچھا ہے۔ میں بس ایک چھوٹی سی جھلک دینا چاہتا تھا۔ میں نے سوچا ہے کہ اس آلے کے ذریعے میں وزن واقعی کم کر سکتا ہوں اگر مجھے چاہیے۔ اور کچھ کنوینینس فیچرز بھی ہیں، مثال کے طور پر جب میری ایپ مجھ سے پوچھتی ہے: 'ارے، کیا تم نے اپنی ادویات لی ہیں؟' تو میں عام طور پر اُٹھنے کے بعد لیتی ہوں—ضرورتی نہیں مگر عموماً اسی وقت لیتی ہوں۔ اور اگر میں دن میں کسی وقت ایپ کھولوں اور وہ مجھ سے پوچھیے 'کیا تم نے آج ادویات لی ہیں؟' تو...
ہاں۔
اور جب میں 'ہاں' دباتا ہوں تو مجھے انتخاب ملتا ہے: کیا تم وقت درج کرنا چاہتے ہو یا کیا یہ جاگنے کے بعد تھا؟
ہاں۔
جب میں 'جاگنے کے بعد' دباتا ہوں تو یہ گوگل ہیلتھ کنیکٹ کے ڈیٹا سے پڑتا ہے کہ میرے ٹریکر نے میری نیند کیسے نوٹ کی، میں کب اٹھا وغیرہ۔ اس سے یہ اندازہ لگتا ہے کہ میں نے ادویات کب لیں، چاہے مجھے واضح یاد نہ ہو کیونکہ میں کسی وقت اٹھا تھا۔ اور مجھے پتہ چل جاتا ہے کہ—
یہ بہت زبردست ہے۔ ایک طرفی بات کے طور پر: میں واقعی فون کی 'نیند کی پیشگوئی' بھی بطور ٹرگر ہوم اسسٹنٹ میں استعمال کرتا ہوں، تاکہ دن کے آخر میں سب قسم کے کام خود بخود ہو جائیں—مثلاً دیکھ لینا کہ تمام بلب بند ہیں وغیرہ—اور اسی طرح دوسرے مینٹیننس ٹاسکس بھی چلتے رہیں اور کچھ بولین ہیلپرز آن یا آف ہو جائیں۔
جیسا کہ کہا، یہ تو—
یہ واقعی بہت، بہت عملی ہے۔
یہ بے حد کارآمد ہے اور اسی لیے میری ڈیش بورڈ ایپ میں یہ شامل ہے کہ جیسے ہی میں اسے کھولتا ہوں—کیونکہ براہِ راست 'فائل میں ایکسپورٹ' کا آپشن نہیں ہے—میری ڈیش بورڈ ایپ اپنے پاس جو کچھ بھی ہے سب ظاہر کر دیتی ہے جب میں اپنے لوکل نیٹ ورک اور سرور پر ہوتا ہوں۔ اور وہ پھر اس کے ساتھ کچھ دلچسپ کام کرتا ہے جن پر میں ابھی کام کر رہا ہوں۔ تھوڑا سا اشارہ دے دوں: مستقبل میں یہ نہ صرف میرے کھانے کو ٹریک کرے گا بلکہ متحرک طور پر مجھے سفارش شدہ غذائی منصوبے بھی بنائے گا۔
واہ۔
یہ چیزیں متحرک طور پر بدلتی ہوں گی، ان کا انحصار اس بات پر ہوگا کہ آج میں نے کیا کیا، میں نے کتنی کیلوریز خرچ کیں، میں نے کتنا پانی پیا وغیرہ۔
صحیح۔ اور یہ واقعی حیرت انگیز ہے کیونکہ یہاں آپ بہت آگے سوچ سکتے ہیں۔ مثال کے طور پر آپ دیکھیں گے کہ آپ نے کیا خریدا ہے، اسے شامل کیا جا سکتا ہے؟ یا آپ کا کیلنڈر کیسا ہے؟ پھر آپ یہ پیش گوئی کر سکتے ہیں کہ کس امکان کے ساتھ آپ اب بڑے کھانے پکانے کا موڈ نہیں رکھیں گے—
ہاں۔
—جب تم گھر پہنچ چکے ہو؟ یہ تو—
بالکل۔
یہ بالکل انسانی اور نارمل ہے کہ آپ کہیں: 'اچھا تو پھر میں اس صورتحال کے لیے پہلے سے کچھ تیار رکھوں گا۔' یا یہ بھی مدِنظر رکھا جائے کہ کبھی آپ اس وقت دھیان نہ دیں—مثلاً رات آٹھ بج چکے ہوں اور ایپ آپ کو ایک بہت بڑا کھانا تجویز کر دے، اور آپ کہیں کہ شاید آپ کو اس کا مزہ ہی نہیں۔ ایسے بہت سے فیچرز ہیں جنہیں آپ پیش گوئیوں میں شامل کر سکتے ہیں۔
بالکل۔
یہ تو واقعی زبردست ہے۔ اب بس وہ مہنگا سمارٹ فریج چاہیے جو اندر کا مواد بھی ٹریک کرے۔
میں اس کے لیے راضی نہیں ہوں۔ میں نے اس بارے میں کافی سوچا ہے—سالوں تک یہ سوچا کہ ایک ایسا سمارٹ فریج کیسے بناؤں جو بغیر انتظامی پیچیدگی کے جان لے کہ اس میں کیا ہے؟ میں کبھی کامیاب نہیں ہوا اور چھوڑ دیا۔ میں 'فریج میں کیا ہے؟' والا راستہ نہیں لیتا؛ اس کے بجائے میں عموماً کہیں کچھ خریدتا ہوں، مثلاً یہ سوڈا، اور میں اسے سیدھا ریکارڈ کر لیتا ہوں کہ میں نے پی لیا، اور اسی بنیاد پر آج کے کھانے کا پلان خود بخود ایڈجسٹ ہو جاتا ہے۔
ہاں، درست۔ اور تم کم از کم اپنی تمام رسیدیں ٹریک کر کے سسٹم میں شامل کر سکتے ہو، بالکل۔
جیسا کہ کہا، اوپن فوڈ فیکٹس کے ساتھ بھی میری ایپس اچھی طرح مل کر کام کرتی ہیں۔ میں نے اوپن نیوٹری ٹریکر میں ایسی خصوصیات ڈالی ہیں کہ میں براہِ راست اوپن نیوٹری ٹریکر سے اوپن فوڈ فیکٹس اور اوپن پرائسز میں حصہ ڈال سکوں۔ وگرنہ میں دو ایپس کھول کر کسی پیچیدہ انٹرفیس میں ہاتھ نہیں ڈالنا چاہتا—میں چیز اسکین کرتا ہوں اور پیغام آتا ہے: 'رکو، ویلانڈ، اس میں یہ ڈیٹا کم ہے، کیا آپ درج کرنا چاہیں گے؟' تو میں درج کر کے بھیج دیتا ہوں، اور لکھ دیتا ہوں کہ میں نے پی لیا۔
ہاں، بہت خوب۔
اور اسی طرح یہ سب چلتا ہے۔ Health Connect میں ایک تیسری چھوٹی قسم کا ڈیٹا بھی محفوظ ہوتا ہے—یہ وہ چھوٹے پوائنٹس ہیں جن کے لیے الگ قسم کی اجازت درکار ہوتی ہے۔ رسائی کے لحاظ سے یہ دلچسپ ہے: اگر کسی ایپ کو پڑھنے کی اجازت ہے تو وہ دوسری ایپس سے پڑھ سکتی ہے۔ ہمیشہ درج ہوتا ہے کہ کس ایپ نے لکھا، یعنی ایک معیاری میٹا ٹیگ ہوتا ہے؛ ڈیوائس نام درج ہو سکتا ہے اور یہ بھی کہ کس طرح کی انٹری ہے، مثلاً manually recorded، automatically recorded یا inferred۔ اور مجھے یہ خیال اتنا مضحکہ خیز لگا کہ تھیوری میں ممکن ہے کوئی انٹری ایسی آئے، جیسے Device Type: Amazon Echo، Recording Type: manually recorded، Activity Type: sexual activity۔ [ہنسی]
اس بارے میں پہلے بھی ایک مزاحیہ قسط بنی تھی جس کا عنوان کچھ اسی طرز کا تھا۔
یہ واقعی ڈیٹا ماڈل کی وجہ سے ممکن ہے کہ ایسا ریکارڈ نمودار ہو جائے۔
ہاں۔
اور ہر ایپ، اگر اسے پڑھنے کی اجازت ہو تو وہ دوسری ایپس کا ڈیٹا پڑھ سکتی ہے۔ وہ اپنے لیے لکھ اور حذف کر سکتی ہے، مگر صرف اپنے ہی ریکارڈز؛ آپ کسی ایپ کو دوسری ایپ کے ریکارڈ حذف کرنے کی اجازت نہیں دے سکتے۔ Health Connect میں خوب بات یہ ہے کہ آپ aggregate data مانگ سکتے ہیں اور یہ مختلف ایپس کے ڈیٹا کو سمجھداری سے ملا کر دیتا ہے۔ البتہ، جیسا کہ تم نے پہلے اشارہ کیا، یہ ہر جگہ بہتر نہیں چلتا، خاص طور پر قدموں کے معاملے میں۔ کافی عرصہ میرے ڈیش بورڈ نے مجھے بتایا: 'ویلانڈ، تم کتنے زبردست ہو، تم ہر دن بہت قدم اٹھاتے ہو، یہ تو ٹریننگ شمار ہوتا ہے، آج تمہیں وزن اٹھانے کی ضرورت نہیں۔' میں نے کہا: 'کیا میں واقعی اتنا زبردست ہوں؟' [ہنسی] پھر پتہ چلا کہ میں نے اپنے فون کو قدم لکھنے کی اجازت دی ہوئی تھی اور میری فٹنس ٹریکر والی ایپ بھی قدم لکھ رہی تھی۔ اصولی طور پر یہ سسٹم ان چیزوں کا حساب نکال سکتا ہے اور سمجھ سکتا ہے کہ جب دو ایپس ایک ہی وقفے میں قدم بتاتی ہیں تو انہیں جمع نہیں کیا جانا چاہیے—
ہاں، ہاں۔
لیکن یہ صحیح طرح کام نہیں کرتا، اس لیے میں نے اپنے فون کو قدم لکھنے کی اجازت ہی بند کر دی؛ اب صرف میری فٹنس ٹریکر ایپ قدم لکھتی ہے۔
ہاں، ورنہ تو اصولی طور پر یہی تصور ہے کہ آپ ڈیٹا کو فیوز کر سکیں، کیونکہ بعض لوگ واقعی فٹنس وجوہات کے لیے ٹریکر کو ٹانگ پر باندھ لیتے ہیں یا اس طرح کے قابلِ بھروسہ سینسر استعمال کرتے ہیں۔ اس طرح آپ کے پاس زیادہ معتبر اور محفوظ ڈیٹا پوائنٹس ہوتے ہیں—فون، اسمارٹ واچ اور کبھی کبھار پیروں پر بیلٹ نما ٹریکر۔ نظریہ یہی ہے کہ سسٹم انہیں سنبھال لے، مگر فی الحال کچھ مسائل ہیں۔
ہاں، مگر یہ ممکن ہے اور ansonsten بہت اچھا ہے۔ اس API میں آپ یہ کہہ سکتے ہیں: 'براہِ کرم کسی مخصوص وقت سے کسی مخصوص وقت تک مجموعی قدم نکالو، اوور لیپس نکال کر۔' واقعی زبردست ہے۔ اور ایک اور بات یہ ہے کہ ایپس عام طور پر صرف تیس دن تک ماضی دیکھ سکتی ہیں؛ آپ ایک اضافی اجازت دے سکتے ہیں تاکہ وہ ہمیشہ ماضی میں دیکھ سکیں۔ اور تیسری خاص کیٹیگری میں GPX ٹریکس بھی شامل ہیں۔ مجھے یہ بہت پسند آیا کیونکہ پہلے مجھے تکلیف ہوتی تھی—میں چاہتا تھا کہ اپنی واکس کی روٹس، یعنی روٹ کا GPX، محفوظ ہوں اور پھر ان پر ہارٹ ریٹ جیسے ڈیٹا اوورلے کر کے ایگریگیٹ کیا جا سکے۔
ہاں۔
میری فٹنس ٹریکر ایپ میں یہ اچھا طریقے سے نہیں جاتا تھا۔ اگر خوش نصیب ہوتا تو مجھے کسی طرح کا ناقص GPX ٹریک مل جاتا، مگر اکثر یہی مسئلہ تھا کہ میں اسے صرف کلاؤڈ سنک کر کے ایکسپورٹ کر سکتا تھا، جہاں میں نے چلا کر کہا تھا کہاں گیا تھا—یہ مجھے اچھا نہیں لگا۔ لیکن تمہارے ٹریننگ ٹریکس Health Connect میں ایک ڈیٹا ٹائپ ہوتے ہیں جنہیں آپ اس تیسری کیٹیگری کی الگ اجازت کے ساتھ لکھ سکتے ہو، اور پھر جو ایپیں پڑھنے کی اجازت رکھیں وہ انہیں پڑھ سکتی ہیں۔ تو میں نے ایک چھوٹا سا ایکسپورٹر بنا لیا۔
زبردست۔
اور میں اس کے ساتھ بہت اچھی چیزیں کرنے کا ارادہ رکھتا ہوں۔ سنو لوگو، گوگل ہیلتھ کنیکٹ واقعی کمال ہے۔
ویلینڈ، تم اندازہ بھی نہیں لگا سکتے کہ میں کتنا پرجوش تھا جب میں نے حال ہی میں، ähm، ریلیز نوٹس یعنی تبدیلیوں کی فہرست پڑھی۔ شاید یہ تھوڑا عجیب سا لگے — نوٹس پڑھ کر اتنی شدت سے خوش ہونا۔
میں بھی کرتا ہوں۔
ٹھیک۔
لیکن سوال یہ ہے کہ کس سافٹ ویئر کی بات ہو رہی ہے؟
یہ حقیقتاً ESPHome کے بارے میں تھا۔
اوکے۔
میں نے دراصل، ähm، ورژن دیکھا — یاد نہیں بالکل، شاید 2026.5.0b1، یعنی ایک بیٹا ورژن—
اوکے۔
میں نے براہِ راست پڑھا: اوہ ہاں، ایک خاص بندہ جسے میں بس GitHub کے ہینڈل سے جانتا ہوں—
اچھا۔
کہوں تو، آخرکار اُس نے اپنا کوڈ مرج کروا دیا۔ حقیقتاً یہ اب مین ورژن میں شامل ہو چکا ہے، یعنی Zigbee سپورٹ۔
اوکے۔
ESPHome میں۔ اب یہ بس آسانی سے کام کرتا ہے۔
اوکے۔
پہلے یہ کافی حد تک بہت محدود تھا، صرف ایک چپ تک — وہ NRF چپ، جسے بہت کم لوگ استعمال کرتے تھے۔ مگر اب یہ اُن چیپس پر بھی چلتا ہے جو کہیں زیادہ عام ہیں، جیسے ESP32C6 اور H2، جن میں بذاتِ خود Zigbee سپورٹ شامل ہے۔
اچھا۔
اور اس کا مطلب یہ ہے کہ اب تم اپنے پروجیکٹس کو براہِ راست Zigbee کے ذریعے لیس کر سکتے ہو۔ یہ بہت زبردست ہے کیونکہ تم سینسرز اور بائنری ان پٹس وغیرہ کو سیدھے Zigbee پر میپ کر سکتے ہو۔ اور ساتھ ہی تمہیں بیرونی لائبریریز کی ساری فنکشنالٹیز بھی ملتی رہتی ہیں، یعنی وہی سینسر ماڈیولز جن کو تم پہلے استعمال کرتے تھے انہیں بھی آسانی سے شامل کیا جا سکتا ہے۔ میں خود ابھی اپنی سافٹ ویئر کو تھوڑا سا دوبارہ لکھ رہا ہوں اور دیکھ رہا ہوں کہ کہاں بہتر کیا جا سکتا ہے، کیونکہ پہلی کوشش جب میں نے ایک بیرونی کمپونینٹ کے ساتھ کی — جو دوسرے فورکس کو بطورِ کمپونینٹ شامل کرنے دیتا ہے — وہ زیادہ کامیاب نہیں رہی۔ تکنیکی طور پر یہ اصولی طور پر پہلے سے ممکن تھا، مگر صرف ایک الگ بیرونی کمپونینٹ کے ذریعے، اور میرے لیے وہ کبھی صحیح طرح کام نہیں کر سکا؛ میں نہیں جان سکا کہ مسئلہ اصل میں کہاں تھا۔ لیکن اب، کہہ لوں تو، یہ تقریباً فائنل ہے: اسے مین برانچ میں مرج کر دیا گیا ہے۔ اب یہ صرف بیٹا برانچ تک محدود نہیں رہا، اور اس بات پر میں کافی پرجوش ہوں کیونکہ اب تک تم صرف Wi‑Fi استعمال کر سکتے تھے۔ سیدھی سی بات ہے — پہلے صرف Wi‑Fi تھا۔ ESPHome کے صرف چند ایسے ڈیوائسز ہیں جو ایتھرنیٹ رکھ سکتی ہیں، میرے خیال میں WaveShare اور شاید کوئی اور مینوفیکچرر کے چند ESP32 ماڈیولز جو تمہیں حقیقی طور پر ایتھرنیٹ سے کنیکٹ کرنے دیتے ہیں۔ نظری طور پر یہ ممکن تھا، مگر عام طور پر سب کچھ Wi‑Fi کے ذریعے ہی چلایا جاتا رہا۔ اور میں نے خود اپنا ایک پریزنس سنسر بنایا اور پروگرام کیا ہے — اور یہ بہت اچھی طرح کام کر رہا ہے۔
اوہ، زبردست۔
میں کہوں گا کہ یہ واقعی شدید حد تک پلگ اینڈ پلے ہے۔ تمہیں Arduino IDE کھولنے یا loop میں کوڈ لکھنے کی ضرورت نہیں کہ ’یہاں یہ کمانڈز لکھو تب جا کے چل پائے گا۔‘ بلکہ چیزیں بہت سیدھی ہیں: تم بس اپنی YAML فائل لکھو، اسے اپنے ESP32 پر اپ لوڈ کر دو اور ہو گیا۔ یہ واقعی آسان ہے اور ان لوگوں کے لیے بھی بہت موزوں ہے جن کے پاس زیادہ پروگرامنگ کا تجربہ نہیں ہوتا۔ سیدھی اور عام فہم بات یہی ہے۔
بہت خوب۔ [ہنسی] ہمارے تمام ناظرین فوراً اسے انسٹال کریں گے۔
فوراً ڈاؤن لوڈ کریں۔ [ہنسی]
زبردست۔ ہاں، یعنی یہ تھوڑا سا توہین آمیز بھی ہے۔
نہیں، نہیں، نہیں۔
زبردست۔
یہ واقعی بہت ابتدائی افراد کے لیے موزوں ہے۔ تم بس اپنے ٹیکسٹ ایڈیٹر میں چند سطریں لکھتے ہو، فائل اپ لوڈ کر دیتے ہو، اور تمہیں C جیسی زبان میں کچھ لکھنے کی ضرورت نہیں پڑتی — بس اپنی declarative زبان استعمال کرو اور بس۔ میں یوں کہوں گا کہ غلطی کا امکان بہت کم رہ جاتا ہے۔
اچھا۔
اور یہ واقعی بہت زبردست ہے۔
یہ زبردست ہے۔
اور اس طرح آپ یقیناً کافی پیسے بچا سکتے ہیں — اپنا خود کا پریزنس ڈیٹیکٹر یا دوسرے سینسر خود بنا کر — خاص طور پر جب آپ—
—خاص پیمائشیں ٹریک کرنا چاہیں۔ مثال کے طور پر ہوا میں CO₂ کی مقدار ایک مشکل معاملہ ہے، کیونکہ قیمت اور ڈیٹا کی معیار کے درمیان براہِ راست تعلق ہوتا ہے۔ یہی وجہ ہے کہ کوئی آسان چال یہاں کام نہیں کرتی۔
ہاں۔
یعنی کوئی شارٹ کٹ نہیں ہے؛ دو یا تین یورو والا سنسر اچانک بہترین نہیں ہو جاتا۔ چیزیں نسبتی طور پر بڑھتی ہیں: انتہائی سستا سنسر اکثر من گھڑت یا اندازاً اعداد دیتا ہے کیونکہ وہ کچھ اور ناپ رہا ہوتا ہے اور CO₂ کو وہاں سے فرضاً اخذ کیا جاتا ہے۔ جبکہ تیس یورو کے قریب ایک سنسر نسبتاً موزوں نتائج دے سکتا ہے۔ مثال کے طور پر اکثر SCD40 کی سفارش کی جاتی ہے۔ اور اس کے بعد تو آپ ہزاروں یا یہاں تک کہ دس ہزار یورو خرچ کر کے بہترین معیار حاصل کر سکتے ہیں — نتائج شاندار ہوں گے، مگر کوئی آسان شارٹ کٹ نہیں ہے۔
اوکے۔
اور آپ بالکل اعلیٰ معیار کے سینسرز کو Home Assistant یا کسی بھی دوسرے سسٹم کے ساتھ آسانی سے جوڑ سکتے ہیں، اور یہ واقعی بہت زبردست ہے — میں نے خود ایک کیبل والا واٹر لیک سینسر بنایا اور پروگرام کیا ہے۔
اوکے۔
اس مقصد کے لیے آپ Shelly کا واٹر لیک سنسر دیکھ سکتے ہیں — وہ بنیادی طور پر ایک قسم کا آڈیو کیبل استعمال کرتے ہیں جس کی بیرونی تہہ جزوی طور پر کرنٹ گزار سکتی ہے۔ یہ ایک بہت دلچسپ پروڈکٹ ہے؛ اصل میں یہ ایک ایکسٹینشن ہے جو مزاحمت ناپنے کے لیے بنائی گئی ہے۔ [گلے کی صفائی]
واٹر ڈیٹیکٹر اس طرح کام کرتا ہے کہ آپ دو دھاتی کنٹیکٹس کے درمیان مزاحمت ناپتے ہیں۔
ہاں۔
اور اگر آپ کو بہت زیادہ درستگی درکار نہیں — جیسا کہ اس کیس میں اکثر ضروری نہیں ہوتا کیونکہ آپ صرف جاننا چاہتے ہیں کہ پانی ہے یا نہیں — تو آپ اسے سادہ ریزسٹر کے ساتھ بھی حل کر سکتے ہیں۔ یوں کہ آپ اُس کیبل اور اپنے ESP32 کی پاور کے درمیان ایک وولٹیج ڈیوائڈر بناتے ہیں، اور اسی ڈیوائڈر پوائنٹ کو ADC سے ناپتے ہیں تاکہ معلوم ہو سکے وولٹیج کتنا آ رہا ہے۔ پھر وولٹیج ڈیوائڈر کے فارمولا سے آپ ریزسٹنس کا حساب لگا سکتے ہیں اور اسی سے نتیجہ نکل آئے گا —
آہا۔
تو تم ریزسٹنس ناپ سکتے ہو۔
ٹھیک ہے، ہاں۔
تو۔
ہاں، میں تھا، میں تھا…
تم بنیادی الیکٹریکل چیزیں کر کے اندازاً جان سکتے ہو کہ وہاں کتنا ریزسٹنس ہے۔ اور سینسر کیبل کے معاملے میں یہ کافی دلچسپ ہے — میں نے دیکھا کہ ایک میگا اوہم ایک بہت اچھی حدِ فاصل ہے: اوپر ہو تو عام طور پر پانی نہیں، نیچے ہو تو کیبل پر پانی سمجھو۔ اور ہاں، یہ ایک آڈیو کیبل ہے — شاید مجھے پہلے بتانا چاہیے تھا — اس میں عام طور پر 3.5 ملی میٹر کی کلِک پلگ ہوتی ہے۔
اوکے۔
یہ صرف ٹِپ اور سلیو کو استعمال کرتا ہے، اور تم اسے جیسا چاہو ویسا ہی استعمال کر سکتے ہو۔ مجھے واقعی پتا نہیں کہ رنگ (ring) کے ساتھ کیا ہوتا ہے — کیا وہ منسلک ہے یا کسی اور وائر سے جوڑا ہوتا ہے، اس بارے میں مجھے واضح معلومات نہیں ہیں۔ بہرحال، تم اسے بآسانی مقصد کے لیے استعمال کر کے خود ناپ سکتے ہو۔ اس کیبل کا بڑا فائدہ یہ ہے کہ تم پورے دو میٹر یا ڈیڑھ میٹر لمبائی پر پانی کی نگرانی کر سکتے ہو، نہ کہ صرف ایک پوائنٹ پر۔ نیز تم اس میں دروازے کے کانٹیکٹس بھی जोड़ سکتے ہو جو پھر الگ بیٹری کی ضرورت ختم کر دیں — کیونکہ اسمارٹ ہوم میں اکثر یہی مسئلہ ہوتا ہے: ’اس ہفتے کس بیٹری کو بدلنا ہے؟‘ — یہ مقداری طور پر مبالغہ ہے، مگر مسئلہ واقعی عام ہے۔
ہاں، ہاں۔
تو اس کے لیے کبھی کبھار کوئی مخصوص ڈیوائس درکار ہو سکتی ہے، خاص طور پر بدترین منظرنامے میں۔ لیکن آپ اس مسئلے کو اس طرح کم کر سکتے ہیں کہ کہیں مرکزی طور پر ایک ESP32 لگا دیا جائے اور اسی کمرے کے تمام سینسرز وہاں جمع کر دیے جائیں — یوں یہ کافی آسان اور پرسکون حل بن جاتا ہے۔
جی یونا، نہ صرف 'we have been cooking'۔ نہ صرف ہم لوگ لاگ اِن ہو رہے تھے، جیسا کہ نوجوان کہتے ہیں، اور پک رہے تھے، جیسا کہ نوجوان کہتے ہیں، بلکہ حال ہی میں گوگل I/O ہوئی، گوگل کی کانفرنس جہاں وہ بتاتے ہیں کہ وہ کتنے شاندار ہیں اور جو کچھ انہوں نے ابھی اور آنے والے وقت میں جاری کیا یا کریں گے۔ اور مجھے ایمانداری سے کہنا ہوگا: Holy Moly، اس بار واقعی گوگل AIO لگ رہا تھا۔ تو—
[ہنستے] ہاں۔
یہ سب صرف مصنوعی ذہانت کے بارے میں تھا۔
تو—
بس۔
ہاں۔
اچھا، مطلب—
تو، جو میں نے سنا ہے وہ یہ ہے کہ گوگل کی سرچ بار آہستہ آہستہ ایک قسم کے یونیورسل ٹول میں بدل رہی ہے۔ اور تھوڑا عجیب لگا کہ انہوں نے اپنی—یاد نہیں کیا کہتے تھے—مثلاً گوگل بکس جیسی چیزیں الگ ایونٹ میں ریلیز کیں، تکنیکی طور پر الگ، اور ریلیز سائیکل کے قریب کچھ عجیب ہوا، جیسے انہوں نے فوراً پہلے کچھ اور کیا تھا۔۔۔
بتایا تھا۔
بالکل۔ ہاں، یہ اسی بڑی باتوں میں سے ایک تھی جس پر ہم بات کر رہے تھے۔ بہت سی چیزیں تھی، سب کچھ بڑا شاندار اور طاقتور محسوس ہوتا ہے۔ مجھے کہنا پڑتا ہے کہ تھکا دینے والا بھی ہے، کیونکہ بنیادی طور پر ہر گوگل پروڈکٹ کے لیے یا تو گوگل الٹرا سبسکرائبرز کو 'بس اپنا سارا ڈیٹا بتا دو' جیسی فیچر ملتی ہے، یا پھر ہر سرچ باکس ایک ایجنٹک بار بن جاتا ہے۔ تم نے بالکل صحیح کہا — وہ اس بات پر بہت فخر محسوس کر رہے ہیں کہ بیس سالوں کے بعد سرچ باکس کا فنکشن بدل رہا ہے۔ گوگل شاید مارکیٹ کو اس طرح کنٹرول کرنے کی کوشش کر رہا ہے کیونکہ انہیں خدشہ ہے کہ لوگ گوگل کرنے کی بجائے وہی سوالات ChatGPT جیسے سسٹمز میں ڈال رہے ہیں۔
ہاں۔
اور اسی لیے گوگل بھی اس کا حصہ لینا چاہتا ہے اور کہہ رہا ہے: 'ہاں، ہماری سرچ بار بھی ویسی ہی ہے'۔ یہ صرف AI موڈ سے آگے جا رہا ہے؛ تم سرچ بار میں کچھ لکھو اور وہ Gemini کے ساتھ ایک گفتگو کا آغاز بن جاتا ہے۔ ظاہر ہے، متاثر کن ہے — Gemini Omni، وہ ماڈل جو ہر چیز سے ہر چیز کر سکتا ہے۔ یہ بالکل وہی وعدہ تھا جو GPT‑4.0 کے ساتھ تھا، یاد ہے O کا مطلب Omni تھا۔
ہاں۔
اور یہ ہر طرح سے ہر بات کر سکتا ہے۔ یہ ویڈیوز بھی جنریٹ کر سکتا ہے جو واقعی جسمانی طور پر grounded ہوں۔ یہ بڑی حیران کن بات ہے، مگر باقی سب بھی کسی نہ کسی طرح ایجنٹک ہو رہا ہے۔ یوٹیوب میں بھی اب فنکشن ہے کہ تم سرچ بار میں کچھ دریافت نہیں کرتے بلکہ لکھتے ہو: 'مجھے بتاؤ کہ میں سائیکل کیسے چلاؤ' اور سرچ یوٹیوب کا استعمال کر کے متعلقہ ویڈیوز کا ایک خلاصہ دکھائے گا۔ یا کہے گا: 'یہاں کلک کرو' اور ویڈیو خود بخود صحیح سیکنڈ پر جا کر وہ حصہ دکھائے گا، پھر تم 'یہاں کلک کرو' کر کے دیکھ سکو۔
اوہ واہ،
اور دوسری بات یہ ہے کہ سب کچھ ایجنٹک ہو رہا ہے۔ گوگل ایسی چیز لانچ کرنا چاہتا ہے جو تمہارے لیے پسِ منظر میں کام کرے۔ یہ بہت ایجنٹک ہے؛ بہت زیادہ فوکس ہے: 'گوگل کو کچھ بتاؤ اور وہ تمہارے لیے خود ہی کر دے گا۔'
آہ، ہاں۔
لیکن مجھے لفظ بندی اور مارکیٹنگ کا ویژن بہت عجیب لگا، خاص طور پر وہ Smart Glasses جن کا دوبارہ اعلان کیا گیا۔ پچھلے سال بھی گوگل I/O میں اسمارٹ گلاسز کا ذکر ہوا تھا، ہمیں یاد ہی ہے ہم نے اس پر بات کی تھی۔
ہاں۔
ہاں، گوگل گلاس واپس آ رہا ہے۔ اور اس I/O میں انہوں نے کہا: 'ویسے تو اسمارٹ گلاسز بعد میں آئیں گے، مگر ہم ان کا ایک ڈیریویٹیو اس خزاں میں ریلیز کریں گے—آڈیو‑اونلی گلاسز۔' یہ گلاسز مائیکروفون اور کیمرہ رکھتے ہیں۔ یہ بات اکثر واضح نہیں ہوئی مگر ان میں کیمرہ موجود ہے۔ باقی خصوصیات دوسرے اسمارٹ گلاسز جیسی ہیں، بس شیشے میں کوئی ڈسپلے نہیں ہوگا۔
ہاں، ہاں۔
اور اس کا ڈیمو کچھ یوں تھا: ایک عورت اسٹیج پر کھڑی ہوئی اور بولی: 'ہیلو Gemini، میں براہِ مہربانی وہاں جانا چاہتی ہوں جہاں میں حال ہی میں واک پر گئی تھی...' اس نے سیدھا کہا: 'میں وہیں جانا چاہتی ہوں جہاں میں پچھلی بار اپنی دوست کے ساتھ گئی تھی۔' اور پھر Gemini نے جواب دیا—معاف کرنا جونا، سب کو یہ بہت زبردست لگا مگر مجھے وہ منظر ڈسٹوپک لگا۔ براہِ مہربانی ایسا نہ کریں۔
ہاں۔
پھر گلاسز خود بخود کہنے لگے—
ہاں۔
—جسے گوگل دکھانا چاہتا ہے کہ یہ کتنا زبردست ہے اور تمہیں اس کی ضرورت ہے۔ گلاسز بولیں: 'یقیناً، میں تمہیں blablabla Peak کی طرف نیویگیٹ کروں گا، جہاں تم پچھلی بار سارہ کے ساتھ واک پر گئے تھے۔ عام طور پر تم اس وقت اپنے پسندیدہ شاپ سے کافی لیتے ہو۔ کیا میں یہ کافی فوراً آرڈر کر دوں اور راستے میں تمہیں اسی جگہ سے گزار دوں؟'
اچھا!
پھر عورت کہتی ہے: 'ہاں' اور گلاسز کہتے ہیں: 'ٹھیک ہے، میں نے DoorDash کے ذریعے پک اپ کا آرڈر رکھ دیا ہے اور تمہیں اس وقت پہنچا دوں گا جب وہ تیار ہوگا۔'
یار۔
میں نہیں چاہتا کہ میری گلاسز مجھے کہیں: 'ویسے، تم عام طور پر اس وقت میکڈونلڈز میں کھاتے ہو۔ کیا میں تمہارا عام مینو وہاں سے آرڈر کر دوں؟'
[ہنستے]
اور جیسا کہ میں نے کہا، میں اس پوری کھانے کی ڈیلیوری چیز کے بارے میں حساس ہوں؛ میں ہمیشہ اس بارے میں پریشان ہوتا ہوں کیونکہ میں سوچتا ہوں: 'یہ عام آدمی برداشت نہیں کر سکتا۔' [ہنستے] میں زندگی میں کبھی Deliverando جیسا آرڈر نہیں دوں گا۔
اُہم، کیونکہ اس کی قیمت بہت زیادہ آتی ہے—
میں یہ casually کہہ رہا ہوں۔
ہاں، یہ واقعی کہیں زیادہ قیمت لے لیتا ہے بنسبت اس کے کہ تم دکان میں خود چلو کر ادا کرو۔ ہمیشہ فیس ہوتی ہے، فیس، سروس فیس اور مختلف چارجز۔
پھر میری گلاسز سیدھے کہیں گی: 'اچھا، اسے کافی چاہیے؟ ٹھیک ہے، میں نے تمہارے لیے بارہ یورو کا کافی آرڈر کر دیا ہے۔ اٹھا لو۔'
ہاں۔
نہیں، یہ اس قدر برا نہیں جتنا کہ میں اپنے لیے تین ہزار پانچ سو ڈالر کا سوٹ خرید لوں، مگر مجھے اس میں دلچسپی نہیں ہے۔
ہاں، مگر یہ کسی حد تک ذاتی اسسٹنٹ کی جگہ لینے جیسا ہے۔ ایک طرح سے تو ایسا ہی ہے، مگر ضروری نہیں کہ آپ اسے ہر صورت میں خریداری تک لے جائیں۔ اگر کہیں 'یہ میرے بجٹ میں نہیں' تو وہ casual انداز میں سوٹ آرڈر نہیں کرے گا۔ اور جب وہ آرڈر کرے گا تو وہ سیدھا تمھاری باڈی‑ڈیٹا API سے تمھاری ماپیں لے کر پوچھے گا اور تم بتا سکو گے: 'ٹھیک ہے، اب مجھے معلوم ہے کہ مجھے کس سائز میں آرڈر کرنا ہے۔' پھر تمھارا سوٹ آ جائے گا اور مزہ ہوگا۔ ظاہر ہے یہ ایک اور معاملہ ہے، مگر بنیادی طور پر تم کہہ سکو گے: 'ٹھیک ہے، میرے لیے وہ رہائشیں نکالو جو میرے اسٹائل کے مطابق ہوں'—اور سسٹم تین چار آپشن دے گا اور تم کہو گے: 'ہاں، یہ دیکھنے اور قیمت کے لحاظ سے ٹھیک ہیں۔' اس طرح سسٹم سیکھے گا اور تمہیں اپنے لیے چیزیں خود کرنا ہوں گی۔
ہاں۔
اور اس طرح دن میں بھی تم وقت بچا لیتے ہو۔
بالکل۔ جیسا کہ میں نے کہا، مجھے عجیب لگتا ہے کہ میں سارے AI والے کام پسند کرتا ہوں مگر اس عروج پذیر کنزیومر ازم کو بیحد بدصورت سمجھتا ہوں۔
ہاں، میں بھی ویسا محسوس کرتا ہوں، مگر ضروری نہیں کہ اسے اتنی حد تک لے جایا جائے۔
ہاں۔
مسئلہ صرف یہ ہے کہ تم نے خود کو ایک نئے حملے کے ویکٹر کے حوالے کر دیا ہے: نہ صرف تم زیادہ ڈیٹا شیئر کرو گے بلکہ تم اشتہارات کے لیے بھی زیادہ حساس ہو جاؤ گے۔
ہاں۔
کیونکہ سیاق و سباق میں عموماً کچھ کمپنیوں کے ساتھ تعاون ہوتا ہے جو تمہارے اسمارٹ گلاسز یا AI کو فراہم کرتی ہیں۔
ہاں۔
پھر سب کچھ خراب ہو جاتا ہے۔
یہی بات میں کہہ رہا ہوں۔ خاص طور پر وہ ڈیمو جو خریداری کو 'مزید مزے دار' بنانے کی بات کرتا تھا—جب میں نے وہ دیکھا تو میں نے سوچا: 'اے میرے خدا، میں ایک نی کی ٹوپی چاہتا ہوں جس میں یہ اور یہ خصوصیات ہوں اور ایجنٹ مجھے بتا دے کہ یہ پراڈکٹ میری تمام ضروریات پوری کرتا ہے۔' اور میں نے سوچا: 'لیکن مجھے کیسے پتا چلے گا کہ کہیں کوئی سستا متبادل بھی تو نہیں جو وہی کام کر دے؟' [آہ بھرتے ہوئے]
اچھا۔ بہرحال مجھے یہ تھوڑا پریشان کن لگا، مگر واضح تھا کہ یہ آنا تھا کیونکہ گوگل ایک ایسی کمپنی ہے جو بنیادی طور پر اشتہار پر انحصار کرتی ہے۔ یہ بات واضح ہے۔
ہاں۔
ایک اور اعلان بھی تھا جو مجھے دلچسپ لگا اور شاید بتاتا ہے کہ رخ کہاں ہے۔ گوگل سرچ میں جلد ایک صلاحیت آئے گی کہ جب تم کچھ پوچھو تو گوگل براہِ راست ایک Explainer UI یا سمولیشنز بنا کر دکھا سکے گا۔ مجھے یہ دلچسپ لگا۔ حال ہی میں میں نے OpenUI.com دیکھا۔ یہ واقعی عجیب اور دلچسپ ہے—ان کا آئیڈیا یہ ہے کہ انہوں نے ایک نیٹ ورک بنایا ہے۔ تم جانتے ہو، Open Claw کا ہائپ اور سبھی کو ایک Claw ایجنٹ چاہیے۔
ہاں، اور گوگل بھی اپنا سسٹم وہاں بنانے کی کوشش کر رہا ہے۔
ہاں، Open Claw OS اسی OpenUI.com کے ذریعے ممکن بنتا ہے۔ سنو جونا، یہ واقعی زبردست ہے۔ مجھے یقین نہیں کہ ٹیکنالوجی اسی طرف بڑھے گی یا نہیں، سمجھ آتی ہے مگر دوسری طرف یہ کچھ فضول خرچی سا بھی دکھائی دیتا ہے۔ ایک پرانے پروگرامر کی نظر سے سوچو: Open UI بنیادی طور پر ایک سٹینڈرڈ ہے جو کسی بھی LLM کے ساتھ چل سکتا ہے اور یہ ایک ڈسکرپشن‑پروگرامنگ زبان ہے جسے next‑token prediction کے ذریعے syntactically enforce کیا جاتا ہے کہ صرف مخصوص چیزیں اگلے مرحلے میں پرنٹ ہوں۔ یہ ایک بیان کرنے والی زبان ہے جو UI کو بیان کرتی ہے۔ تمہارا LLM اسی UI‑ڈسکرپشن کو آؤٹ پٹ کرے گا اور ایک مخصوص renderer اسے render کرے گا۔ اب خیال یہ ہے کہ Open Claw پر مبنی آپریٹنگ سسٹم اپنے ٹول فنکشنز کے علاوہ متن میں نہیں بلکہ موجودہ UI کی description بطور آؤٹ پٹ دے گا۔ مطلب—
اوہ، یہ عملی طور پر کسی حد تک ایک بڑا آٹومیٹ ہے۔
بالکل۔ کہا جائے گا کہ یوزر نے اس بٹن کو دبایا اور اگلے جواب میں بتایا جائے گا کہ UI اب کیسا دکھتا ہے۔
ہاں ہاں، یہ کسی حد تک ایک حالتوں کا آٹومیٹ ہے۔ پھر آتا ہے اگلا مرحلہ۔
ہاں۔
اور یہ اس بات کو بھی یاد رکھے گا جو اب تک ہوا ہے۔ مگر مجھے لگتا ہے کہ یہ اب تک کا سب سے زیادہ overkill ہے — توپ سے چوزے مارنے جیسا۔
ہاں۔
میں ایسا ہی کہوں گا۔
اور یہ صرف ایک ایپ نہیں، بلکہ ایک آپریٹنگ سسٹم ہے۔
ہاں ہاں، یہ بس ایک طرح کی چیز ہے—ہاہا۔
ایک آپریٹنگ سسٹم کے طور پر، تم مینو پر کلک کرو گے، مثلاً 'کیلکولیٹر کھولو'، تو کوئی روایتی ایپ پس منظر میں نہیں چلتی؛ LLM کو کہا جاتا ہے: 'اچھا، یوزر نے کیلکولیٹر کھولنے پر کلک کیا۔ UI اب کیسا دکھتا ہے؟'
ہاں۔
پھر وہ on‑the‑fly جنریٹ کرے گا۔ اچھی بات یہ ہے کہ تم ہر قسم کے ڈیٹا کے لیے فوراً مناسب UI حاصل کر سکتے ہو۔ مثال کے طور پر اگر تمہارے پاس کوئی ڈیٹا‑سائنس ایجنٹ ہے تو تم کہو گے: 'میرے سارے کلکس کا ڈیٹا analyze کرو' اور وہ دیکھ کر کہے گا: 'اچھا، یہ ڈیٹا ہے، تو میں اسے ایسے دکھاؤں گا اور ایک UI بناؤں گا جو اس کے لیے بہترین ہے۔'
اوکے، اوکے۔
لیکن میں OS کی طرف اس بنیاد پر یقیناً محتاط ہوں۔ ایک اور چیز جو مجھے Google I/O میں بڑی دلچسپ لگی خاص طور پر ڈویلپر I/O میں دکھائی گئی وہ آڈیو‑اونلی گلاسز تھے۔ انہوں نے دکھایا کہ انہیں موجودہ ایپس میں شامل کرنا کتنا آسان ہے، اور اس سے مجھے خود ایسی گلاسز کے لیے ایپس لکھنے کا شوق ہوا۔ اسی لیے میں شاید جب یہ آئیں تو خود خریدوں گا کیونکہ میں ایسے ایپس بنانا چاہتا ہوں۔ مثال کے طور پر ایک ایسی ایپ جو OpenStreetMap میں چیزیں بہتر طریقے سے درج کروا سکے۔ میں صرف کسی چیز کو دیکھوں گا، میرا فون اور OpenStreetMap جان لے گا کہ یہ بینچ ہے اور چند معلومات غائب ہیں، پھر گلاسز پوچھیں گے: 'کیا اس بینچ میں بیک‑ریسٹ ہے؟' میں 'ہاں' کہوں گا اور یہ درج ہو جائے گا۔ میں عمارت میں دیکھوں گا اور پوچھیں گے: 'کتنی منزلیں ہیں؟' میں 'چار' کہوں گا اور وہ درج ہو جائے گا۔ یہ مجھے بہت پسند آئے گا۔
بالکل، مجھے بھی اچھا لگے گا۔ مگر میرے ذہن میں دو خدشات ہیں۔
اچھا۔
سب سے پہلے، تمہیں شاید ان میں مربوط ڈسپلے والے گلاسز چاہیے ہوں گے۔ لازماً نہیں، مگر اس سے تجربہ بہت بہتر ہو جائے گا۔
ہاں۔
کوئی شک نہیں۔
پتہ نہیں کب ملیں گے۔
مگر ہاں، کون جانتا ہے کب آئیں گے۔ اور دوسرا، شاید صرف ایک قدم آگے سوچنے کی ضرورت ہے۔
اب،
تمھارے پاس کیمرہ ہے۔
ہاں، میں—
یہی نکات ہیں۔ تمھارے پاس کیمرہ ہے۔ ایجنٹک سسٹم یہ جان سکتا ہے: 'اچھا، ہمیں معلوم ہے کہ کچھ ڈیٹا OpenStreetMap میں ابھی ٹیگ نہیں ہے۔'
پتہ ہے۔
اور یہ کہہ سکتا ہے: 'اچھا، تم ابھی قریب میں ہو۔' اور تم اسے جغرافیائی طور پر اچھی طرح کرال کر سکتے ہو،—
ہاں۔
—کہ کونسی چیزیں قریب ہیں۔ اور جب تم وہاں سے گزرتے ہو تو یہ خودبخود تمہارے یوزر‑اکاؤنٹ کے تحت وہ تبدیلیاں commit کر سکتا ہے جو اس نے کیمرے سے پہچانی ہیں۔ مطلب یہ کہ یہ کیمرہ تصویر لے کر کہے گا: 'اچھا، ویلینڈ اتفاقاً ایک بینچ کے پاس سے گزرا ہے۔ وہاں کچھ ڈیٹا ابھی ٹیگ نہیں ہے۔' پھر یہ کیمرہ کے ذریعے خود ہی بہت سی معلومات معلوم کر لے گا اور صرف اُن معاملات میں تم سے پوچھے گا جو گلاسز کے ذریعے براہِ راست پتہ نہیں چل سکتے—مثلاً پیمائشیں جو کیمرے سے بالکل درست طور پر اندازہ لگائی نہ جا سکیں۔ پھر یہ کہے گا: 'یہاں، ویلینڈ، یہاں کچھ کم ہے۔ اگر تم چاہو تو ابھی کر لو۔'
بالکل۔ یہ وہی تو پہلا خیال بھی تھا جو میرے ذہن میں آیا، مگر پھر میں نے اسے تھوڑا حقیقت پسندانہ بنانے کی کوشش کی۔
ہاں، یہ واقعی بہت حقیقت پسندانہ ہے۔
کیونکہ ایسی چیزوں کی شناخت، جو تجربات میں میں نے کی ہیں، عام طور پر کافی خراب رہی ہے، یہ مجھے کہنا پڑے گا۔
ٹھیک ہے۔
یہ ہمیں دوسرے موضوع کی طرف لے آتا ہے جو مجھے Google I/O میں دلچسپ لگا—Gemma 4، گوگل کے اوپن‑سورس ماڈلز۔ کچھ ویرینٹس اتنے چھوٹے ہیں کہ وہ سمارٹ فون پر چل سکتے ہیں۔
اچھا۔
Gemma، اِہ، مختلف 8‑bit ویرینٹس وغیرہ۔ اگر آپ آزمانا چاہتے ہیں تو گوگل کی Play Store میں 'AI Edge Gallery' نامی ایپ موجود ہے جہاں آپ بس 'شروع' کہہ کر دیکھ سکتے ہیں۔ یہ واقعی agentic کاموں، function calling اور tool calling کے لیے ٹرینڈ ہے۔ یہ multimodal ہے، تصویریں بھی سمجھتا ہے۔ تو فکر نہ کرو۔ یہ ایک ماڈل ہے جو تمہارے فون پر چلتا ہے، اور اس کا سائز چار گیگا بائٹ ہے—کتنا بڑا بھی نہیں—لیکن اسے مخصوص مقاصد کے لیے آسانی سے فائن‑ٹیون کیا جا سکتا ہے۔ تم مختصر مدت کے لیے GPU کرائے پر لے کر اسے fine‑tune کر سکتے ہو اور پھر export کر کے موبائل پر چلا سکتے ہو۔ مجھے اس میں بہت potential دکھائی دیتا ہے کیونکہ شاید تم سچ میں اپنے فون پر ایک ماڈل چلا سکو جو تم نے خاص طور پر ٹرینڈ کیا ہو، مثلاً بینچ میں بیک‑ریسٹ ہے یا نہیں معلوم کرنے کے لیے۔
ہاں۔
اور پھر ایک چھوٹی سی بات یہ ہے—OpenStreetMap میں بھی اصول یہی ہے کہ ہمیشہ کوئی انسانی کنٹرول چیک ہونا چاہیے۔ مگر اگر تم واقعی اسے فلو میں شامل کرنا چاہتے ہو تو تم بس چیزوں کو دیکھو اور تمہیں فیڈبیک ملے: 'شناخت: اس بینچ میں بیک‑ریسٹ ہے'۔
ہاں۔
اور اگر میں درمیان میں مداخلت نہ کروں تو یہ ٹھیک ہے۔ پھر یہ درست ہے۔
ہاں۔
تو، ہاں، ایسا کیا جا سکتا ہے۔
یہ واقعی بہت زبردست ہوگا اگر تم اسے لائیو اینوٹیشن کے ساتھ جسمانی جگہوں پر بھی کر سکو۔ اگر گلاسز اجازت دیں کہ تم معلومات کو آبجیکٹ کے ساتھ منسلک کر دو اور پاپ‑اپ تمہارے سر کی حرکت کے مطابق ساتھ ہلے، تو یہ کمال ہوگا۔
مم۔
اور تم کہہ سکتے ہو: 'اوہ، میں اس کے خلاف کچھ نہیں کر رہا، یہ ٹھیک ہے۔' میں حقیقتاً نہیں جانتا کہ گلاسز میں انرشیا سنسر ہونا ضروری ہے یا نہیں—ہاں، ہونا چاہیے۔ یا کم از کم کمپس اور اورینٹیشن سنسر چاہئیں تاکہ گلاسز سمجھ سکیں تم کس رخ کو دیکھ رہے ہو۔ سادہ الفاظ میں، یہ سنسرز آج کل اسمارٹ فونز اور فٹنس ٹریکرز کی وجہ سے بہت چھوٹے ہو گئے ہیں، ہم بات کر رہے ہیں چند ملی میٹر کی سطح کی چیزوں کی۔ تو یہ بات عجیب ہوگی اگر وہ اسے شیشے میں شامل نہ کریں۔ میں سمجھ سکتا ہوں کہ وہ شاید سوچیں: 'ہماری اپلیکیشن کے لیے اس کی کیا ضرورت؟' اور میں سمجھ سکتا ہوں کہ گوگل یہ سوچے: 'ہمیں کچھ بھی ایسا نظر نہیں آتا جو کیمرہ، جیو‑لوکیشن اور یوزر وائس کے ذریعے حل نہ ہو سکے، تو ہم اسے شامل نہیں کریں گے۔' خاص طور پر جب ڈسپلے ہی موجود نہ ہو۔ ورنہ لوگ کہیں گے: 'اگر AR کرنا ہے تو چیزیں کمرے میں تیریں گی اور اس کے لیے انرشیا سنسر درکار ہوں گے'—اور تم یقینی طور پر چاہو گے کہ یہ AR اینوٹیشن کرے نہ کہ صرف ایک 2D اوورلے یا لسٹ دکھائے۔ مگر جونا—پھر بس ہمیں EU کے لیے ہر شخص کا پرسنل ڈیٹا بیس چاہیے، اور پھر؟ اوہ۔ پھر! پھر سب تیار ہے۔ بَم۔ [ہنستے] اور سچ بتاؤں تو، سب لوگ ان بڑے ماڈلز پر کود پڑے ہیں: 'اوہ گوگل نے یہ کر دیا'—اور وہ ڈیمو واقعی متاثر کن تھا جب وہ Google Keep کھول کر سب کچھ سمجھ گیا۔ مگر میں لوکل ماڈلز چاہتا ہوں، یا کم از کم فون پر چلنے والے ماڈلز۔ میں خود ایک ایپ ڈیولپر ہوں اور ابھی OpenAI سروس استعمال کر رہا ہوں؛ مسئلہ صرف پرائیویسی کا نہیں بلکہ یہ کہ یہ مجھے پیسہ بھی لگاتا ہے۔ تاریخ بتاتی ہے کہ یہ سمت بدلتی رہے گی—جیسے بڑے کمپیوٹرز بدلتے گئے، ویسے ہی وہ کام جو پہلے سرورز پر ہوتے تھے اب اینڈ ڈیوائسز پر ممکن ہیں۔ اس کا مطلب یہ نہیں کہ سرور غائب ہو جائیں؛ وہ بھی ایڈوانس ہوتے رہیں گے، جیسے EPUs اور AI‑acceleration کارڈز۔ جو ورکلوڈ پہلے سرورز پر تھا، اب end‑devices پر بھی چل سکتا ہے—ایک سادہ ڈیٹابیس اور اس پر چلنے والا الگورتھم آج کل ہر اسمارٹ فون، گھڑی اور بعض ٹوسٹر پر بھی چل سکتا ہے۔ اسی لیے میں سمجھتا ہوں کہ Edge‑AI بہت ترقی کرے گی،
ایپلیکیشنز بہت تیزی سے تبدیل ہوں گی، اور بہت سا کام جو پہلے سرور پر تھا، وہ لوکل ماڈلز پر چل سکے گا جو حقیقت میں صرف چند [ہنستے] ارب پارامیٹرز کے ہوں گے—
بالکل، صحیح۔ جیسا کہ تم نے کہا، یہ ماڈلز مثال کے طور پر صرف چار گیگا بائٹ کے ہوں گے اور چند ارب پارامیٹرز پر مشتمل ہوں گے، اور وہ ڈیوائسز پر چل سکتے ہیں۔ ماڈل آپٹیمائزیشن کے ساتھ یہ کافی ہو جائے گا۔ ضروری نہیں کہ ڈیوائسز کو بہت تیز بنانا پڑے؛ بس ماڈلز کو مخصوص مقاصد کے لیے trim کیا جائے گا تاکہ وہ اپنا کام مؤثر طریقے سے کریں۔ سرورز تب بھی موجود رہیں گے مگر وہ زیادہ پیچیدہ اور بھاری کام کریں گے، جیسا کہ وہ پہلے سے کر رہے ہیں۔
میں دیکھ رہا ہوں کہ میری پیشن گوئیاں سچ ہونے لگتی ہیں۔ میں نے سوچا تھا کہ جیسے آج ہر گھر میں روٹر ہوتا ہے، مستقبل میں ہر کسی کے پاس ایک KI‑باکس ہوگی۔ میں اسے دیکھ رہا ہوں کہ شاید 45 فیصد لوگ گوگل کی سروس استعمال کریں، 45 فیصد ایپل کی اور 10 فیصد لوگ کچھ خود بنائیں یا لینکس‑بیسڈ کوئی حل لیں۔ یہ ٹھیک ہے جب تک ہم یہ کر سکیں۔ مگر کوئی نظام ہمیشہ نہیں رہتا؛ پی سی کی تاریخ دیکھو—پہلے کمپیوٹر گھر میں نا قابلِ تصور تھے، پھر 90 کی دہائی میں ہر گھر میں کمپیوٹر آگیا۔ آج تو یہ چیزیں پہلے سے ہی جیب یا ہاتھ پر موجود ہیں۔ لہٰذا ترقی اسی سمت میں جاری رہے گی اور decentralization بڑھے گا، مگر اس کا مطلب یہ نہیں کہ بڑے سرورز ختم ہو جائیں گے۔ وہ بھی تبدیل ہوتے رہیں گے اور نئی hardware جیسے AI‑cards بنیں گے۔ اس لیے جو کام پہلے بڑے سرورز کرتے تھے وہ اب end‑devices پر بھی ممکن ہیں۔
ہاں۔
بالکل، اسی لیے میں سوچتا ہوں کہ گیمنگ سسٹم میں بھی اسی طرح نہیں ہوا کہ ایک مرکزی پی سی سارے ڈیوائسز کو چلائے؛ حقیقت میں ہر کسی کے پاس اپنا اینڈ ڈیوائس ہوتا ہے۔ یہ ایک عام خیال ہے مگر حقیقت میں ہر فرد کا اپنا ڈیوائس ہوتا ہے یا کم از کم ہر ڈیوائس کی اپنی API ہوتی ہے۔
ہاں۔
تو شاید یہ کچھ اسی طرح کھلا ہو جیسا ہم نے Google Health Connect کے بارے میں کہا تھا: اس کا راستہ یہ نہیں کہ ہر گھر میں 500 یورو والا KI‑سرور ہو، بلکہ ذاتی KI کو اینڈ‑ڈیوائس پر لایا جائے۔
ہاں۔
ہاں، میرے خیال میں ضروری نہیں کہ یہ سب 'تمہارے گھر میں KI‑سرور' جیسے بنے۔ میں ذاتی طور پر چاہتا ہوں کہ KI اینڈ‑ڈیوائس پر رہے۔ معاملہ یہ ہے کہ پہلے چیٹ بوٹس تھے، پھر agent آئے اور اب agent mainstream بن رہے ہیں، جیسا کہ گوگل صارفین کو پیش کر رہا ہے۔ جب تم تھوڑا آگے سوچو تو سام آلت مین کہتا ہے کہ اس کا خواب یہ ہے کہ اس کا ایجنٹ اس کی پوری زندگی تک رسائی رکھے۔
وہ خودکار اعمال کرے جو میری زندگی بہتر بنائیں، مجھے ہر کام نہ بتانا پڑے، بس پس منظر میں کر دے۔
ہاں۔
یہ بات مجھے بھی پسند ہے، مگر یہ لوکل ہونا چاہیے اور کسی ایسی کمپنی کے زیرِ کنٹرول نہیں جس کا پہلا مقصد یہ ہو کہ 'ویلینڈ کی زندگی بہتر بنا کر ہم کیسے پیسہ کمائیں؟' اگر کسی چیز سے ہمیں پیسہ نہیں ملے گا تو وہ نہیں بنے گی۔ اور نہیں، جونا، نہیں۔
ہاں۔
براہِ مہربانی ایسا نہ ہو۔
اُف۔
یہ ایک لوکل ماڈل ہونا چاہیے جو میری طرف چلتا ہو اور اس کا واحد محرک میری مدد کرنا ہو، اور بس۔
ہاں۔
تو۔ [ہنستے] دیکھتے ہیں یہ سب کہاں جاتا ہے۔ یہ ایک اچھا مثال ہے۔ میں نے بزنس مفاد کا ذکر کیا مگر یہ پرائیویسی کی وجہ سے بھی اہم ہے؛ مثال کے طور پر میں اپنی Health‑Connect معلومات، حتیٰ کہ Sexual Activity سمیت، کسی ایجنٹ کو دے کر کہوں گا: 'سب کچھ دیکھو جو تم ماپ سکتے ہو اور بتاؤ میں کیا بہتر کر سکتا ہوں'—مگر میں یہ گوگل یا اوپنAI کی کلاؤڈ کو نہیں بتانا چاہوں گا، میں یہ کسی ڈیوائس کو بتانا چاہوں گا جو میرے پاس محفوظ ہو اور جسے میں ایمرجنسی میں بچانے کے لیے استعمال کر سکوں۔
ہاں۔
—جو ڈیٹا کی راز داری یقینی بنا سکے اگر سب کچھ غلط ہو جائے۔
درست، ہاں۔
تو۔ ہاں، اسی لیے۔
اور، ویلینڈ، تصور کرو کہ تم آرام سے باہر گھوم رہے ہو، گوگل گلاسز کے ساتھ اور وہ تمھیں ایجنٹک ورک فلو کے ذریعے بتاتا ہے—جو خودکار طور پر سب کچھ شناخت کرتا ہے—مثلاً: 'میں نے تمہاری چیٹ ہسٹری اور خریداری کی ہسٹری سے دیکھا کہ تمھارا اگلا ڈیٹ دو دن بعد ہے اور تمھارا کنڈوم اسٹاک کم ہے، لہٰذا میں نے تمہارے لیے Amazon پر آرڈر رکھ دیا ہے تاکہ تم تیار رہو'۔
اور میں نے بالکل—
ویلینڈ کہتا ہے: 'شاندار، زبردست۔'
اور میں نے گوگل ہیلتھ کنیکٹ میں پہلے ہی Sexual Activity کو 'Protection Use: True' کے طور پر محفوظ کر رکھا ہے۔ اگر Amazon کی ڈیلیوری میں تاخیر ہوئی تو میں خود بخود اسے 'False' پر کر دوں گا۔
زبردست۔ [ہنستے]
[ہنستے]
بہترین۔ میری کوئی تبصرہ نہیں۔
اوہ ہاں۔
ٹھیک ہے۔ [گلا صاف کرتا ہے] ہاں۔
اچھا، خیر۔
ٹھیک۔
میرے پاس حقیقت میں ایک اور بات بھی ہے—
اچھا، بتائیں، بتائیں۔
اسی موضوع پر— ہم پہلے بھی بات کر چکے تھے کہ امریکہ میں صحت کا ڈیٹا بھی درحقیقت OpenAI کے ڈیٹا میں شامل کیا جا رہا ہے۔ یاد رہے، ہم نے اس بارے میں پچھلی یا اس سے پہلے والی Crunch‑Time قسط میں بات کی تھی۔ اور اب اگلا قدم آ رہا ہے: وہ سافٹ ویئر، جس کا شاید نام 'Plant' ہے، یہ منصوبہ بنا رہے ہیں کہ تمام مالیاتی ڈیٹا بھی ChatGPT میں امپورٹ ہو سکے، تاکہ وہ عملی طور پر کہے: 'چلو، اب بجٹ کا بریک ڈاؤن کرتے ہیں — میں کس چیز پر کتنا خرچ کر رہا/رہی ہوں؟'
اچھا۔
اور میں اپنی ذاتی مالیات میں ابھی کیا بہتر کر سکتا ہوں؟ خیال یہ ہے کہ پہلے ہی کم از کم دو لاکھ ChatGPT صارفین باقاعدگی سے ذاتی مالیات کے سوالات پوچھتے ہیں، اور یہ واقعی زبردست بات ہو گی۔ مگر دیکھو، جس طرح یہ پیشن گوئیاں دے سکتا ہے — مثلاً وہ کہے گا: 'ہاں، تم شاید اسٹار بکس کا ایک کپ کم لیتے تو اب تم کچھ اور لے سکتے ہوتے۔ افسوس!' یا: 'اوہ، میں نے دیکھا کہ تم نے پچھلے مہینے ای‑اسکوٹر پر 150 یورو خرچ کیے۔ چلو، کچھ اور آزماتے ہیں۔'
تو تم سمجھ رہے ہو ناں، میرا مطلب یہی ہے۔ ہاہا۔
ہاں۔
یہ واقعی کافی زبردست ہے کہ اسے شامل کیا جائے، اور اس کا مطلب یہ ہوگا کہ یہ سیدھا تمہارے Schwab یا Fidelity اکاؤنٹس تک اور امریکہ میں متعلقہ خدمات تک رسائی حاصل کر سکے گا، کیونکہ یہ دراصل ایک قسم کی مرکزی بینک‑API بن رہا ہے۔
ہاں۔
جو بات مجھے واقعی عجیب لگتی ہے وہ یہ ہے کہ یہ اب تک اس حد تک عام طور پر نہیں پایا جاتا۔
جونا۔
جہاں تک مجھے معلوم ہے۔ تم مجھے اب غلط ثابت کرو گے؟
اوہ جونا، مجھے ایک بات بتانی تھی۔ میں دراصل یہ موضوع نہیں اٹھانا چاہتا تھا، مگر مالی ٹولز اور بینک‑APIs کے بارے میں—
ہاں۔
میں تمہیں یہ بھی بتا سکتا ہوں کہ میں نے کس طرح دیکھا اور دیکھ رہا ہوں۔ مجھے تھوڑا خیال رکھنا پڑے گا کہ میں بہت زیادہ بدنامی نہ کروں، لیکن ایک بینک نے مجھے اپنی طرف راغب کرنے کی کوشش کی۔
ہاں۔
انہوں نے میرے ساتھ بہت طویل مشاورت کی اور مستقل پیچھا کیا، اور وہ ایک ایسی چیز کے ساتھ پرموٹ کر رہے تھے جو مجھے بہت اچھی لگی۔ دراصل وہ ایک ایسا نظام پیش کر رہے تھے جو میرے لیے آٹومیشن چلاتا ہے۔ ان کا پیغام یہ تھا: 'دیکھو، جتنا تم خرچ کرو گے اس حساب سے خود بخود ایک مخصوص رقم بچائی جائے گی، اور جب یہ بچت روزمرہ سود والے اکاؤنٹ پر ایک حد تک پہنچ جائے تو جو اضافی رقم ہوگی وہ ڈپوٹ میں ڈال دی جائے گی اور کچھ حصہ ریٹائرمنٹ وغیرہ کے لیے مخصوص کر دیا جائے گا۔' یہ سب بہت اچھا لگ رہا تھا۔ میں سمجھتا ہوں کہ یہ کارآمد ہے اور میں ایسے فیچرز پسند کروں گا۔
ہاں، اور ایک ایسے شخص کی حیثیت سے جو ایسی آٹومیشنز میں دلچسپی رکھتا ہے، یہ واقعی زبردست ہے کہ آپ یہ سب پہلے سے پلان کر سکیں۔
ہاں۔
لیکن
بس تم لوگوں کے لیے سیاق و سباق کے طور پر: میں نے Wieland کو ایک مالی مشورہ دیا تھا کہ میری نظر میں یہ بینک کسی حد تک ایک اسکیم معلوم ہوتی ہے۔ 'اسکیم' کی تعریف مشکل ہوتی ہے، مگر یہ میں نے اپنی ذاتی رائے میں اس کو بتایا۔ اور—
کیونکہ اکثر یہ ہوتا ہے، خاص طور پر جب بات اکاؤنٹس کے اس ماڈل کی ہو اور تم خود اپنے اکاؤنٹس کو کنٹرول نہ کر سکو؛ جب سب کچھ بس اسکرین پر چند نمبروں کی صورت رہ جائے کہ پیسہ کہاں گیا، تو بدترین صورت میں وہ اسی اکاؤنٹ سسٹم کے ذریعے تم سے ماہانہ منافع کمائیں گے۔ یہ منطقی بھی ہے۔ اور میری رائے میں آخر کار یہ ایک بڑی مالیاتی پھندہ ثابت ہو سکتا ہے، کیونکہ وہ کہیں گے: 'دیکھو، صفحہ ایک سو تیئیس میں جو تم نے سائن کیا ہے، اگر تم اسے ختم کرنا چاہو تو پہلے بیس شرائط پوری کرنی ہوں گی' وغیرہ۔ یہ ہمیشہ مشکل ہوتا ہے۔ اس لیے میں نے مشورہ دیا کہ اسے ضروری سے زیادہ پیچیدہ نہ بناؤ اور خود کو ان معاہدوں سے بے وقوف نہ بننے دو۔
بالکل۔ اور جو چیز مجھے بہت اچھی لگی وہ یہ تھی کہ وہ بار بار یہ زور دے رہے تھے کہ اس بینک نے اس سسٹم کو پیٹنٹ کر رکھا ہے۔ ان کا کہنا تھا کہ یہ کہیں اور دستیاب ہی نہیں۔
ہاں، وہ تو… یہ کافی عام دعویٰ ہے۔ دراصل ہر بینک یہی کہتا ہے کہ وہ دوسروں سے مختلف ہے، مگر ہاں۔
ہاں جونا، اور پھر حقیقت یہ نکل کر سامنے آئی: میں اپنی بینک گیا تو میرے پاس بھی کچھ اسی طرز کی چیز موجود تھی۔ مکمل طور پر بینک کے اندرونی اوزار سے نہیں، وہاں کچھ حدود ہیں، لیکن میں نے جو اصل چیز معلوم کی وہ یہ ہے کہ ایک یونیورسل بینک‑API موجود ہے، جونا۔
کیا؟
لیکن اب آتا ہے مزے دار موڑ۔
ہاں۔
کہ ایسی لائبریریز موجود ہیں، یہاں تک کہ Python لائبریریز بھی ہیں جن کی مدد سے تم یہ کر سکتے ہو۔
ہاہا۔
لیکن اس کے لیے تمہیں جرمن بینکاری نظام کے ساتھ اپنا پروڈکٹ رجسٹر کروانا ہوگا۔
ہاں۔
میں تمہیں اب چند مالیاتی پروڈکٹس کی فہرست بتاتا ہوں جو جرمن کریڈٹ‑انڈسٹری میں رجسٹرڈ ہیں (خلاصہ):
ہاں۔
Trade Republic۔
ہاں۔
Finanzguru۔
Wielands Autofinanz۔
[ہنستا ہے]
اچھا، زبردست۔
[ہنستا ہے]
ہاں۔
نہیں، نہیں، مگر یہ واقعی زبردست ہے۔
کیا تم بتا سکتے ہو کہ اس API کا کیا نام ہے؟ کیا اس کا کوئی مخصوص—
اسے FinTS کہا جاتا ہے۔
اوہ، ٹھیک ہے۔
اور جب کوئی اسے استعمال کرے—
میں اسے بہت شاندار سمجھوں گا اگر کوئی کہے: 'اوہ ٹھیک ہے، ہم براہِ راست خود بھی کچھ اضافی چیزیں آٹومیٹ کر سکتے ہیں۔' تم بھی اس بارے میں ابھی بات کرو گے۔
بالکل، یہی خیال ہے۔ میں خود بھی ابھی اسی پر بنا رہا/رہی ہوں۔ میرے لیے اہم بات یہ ہے کہ میں API کے ذریعے اپنے اکاؤنٹ تک رسائی حاصل کر سکوں، مثال کے طور پر دیکھ سکوں کہ کتنا پیسہ بچا ہے، اور پھر یہ فیصلہ کر سکوں کہ 'ٹھیک ہے، اس کا بیس فیصد ڈپوٹ میں جائے، یہ حصہ کہیں اور، وغیرہ'۔ اور یہ اسی سے ممکن ہے۔ اور شاید میں ایک انعامی نظام بھی شامل کرنا چاہوں گا، مثلاٰ اگر کہا جائے 'اکاؤنٹ میں پیسہ ہے تو مجھے انعام دو' تو پھر میرا صحت کا سسٹم پوچھے گا: 'کیا Wieland نے آج اپنے تمام اہداف پورے کیے؟'
کیا Wieland نے اچھا برتاؤ کیا؟ ہاں۔
کیا Wieland نے ورزش کی؟
اوئے اوئے،
کیا Wieland نے Big Mac نہیں کھایا؟ تو، اگر ہاں، تو میں دن کے آخر میں اپنے روزمرہ سود والے اکاؤنٹ سے اپنی خرچ والی کریڈٹ کارڈ پر پانچ یورو کی ترسیل کی اجازت دے سکتا ہوں۔
زبردست۔
تو، ہاں، ایک ہی کمی یہ ہے۔ میں سمجھتا ہوں وہ ایسا کیوں کر رہے ہیں، کیونکہ اپنے اکاؤنٹ کی مکمل آٹومیشن واقعی تھوڑی بااثر/ہیوی چیز ہے۔ لہٰذا میں سیدھے طور پر صرف App‑TAN طریقہ کار نہیں اپنا سکتا۔
ہاں۔
یعنی میں یہ نہیں کر سکتا کہ معاملہ ٹرگر ہو اور مجھے فون پر بس یہ دکھایا جائے: 'کیا یہ ٹھیک ہے؟ ہاں/نہیں'۔ وہاں TAN طریقہ کار ضروری ہے۔ یہ تھوڑا پیچیدہ ہے؛ مطلب یہ کافی نہیں کہ فون پر ہاں یا نہیں کہہ دوں، بلکہ میرا فون مجھے ایک TAN دکھائے گا، جسے مجھے محفوظ طریقے سے—مثلاً Telegram کے ذریعے نہیں—واپس اس اسکرپٹ تک پہنچانا ہوگا تا کہ اسکرپٹ اس TAN کو اجازت کے لیے استعمال کر سکے۔
ہاں۔
تاکہ اسکرپٹ TAN کو توثیق کے لیے استعمال کر سکے۔ یہ اب بھی تھوڑا مشکل ہے، مجھے اس کو سمجھنا باقی ہے۔ لیکن ہاں، جونا، یہ ممکن ہے۔ اسے آٹومیٹ کیا جا سکتا ہے۔ یہ بس—
اس کے لیے تھوڑا سا چالاکی سے پروگرامنگ کرنی پڑے گی—
کرنا پڑتا ہے—
کہ تم ان حصّوں کو آپس میں جوڑو، سمجھو۔ اور ہاں، اگر راستے میں کوئی ایکسپلائٹ ہو یا وہ میسنجر سروس جس کے ذریعے تم منتقل کر رہے ہو ہر بات سن لے، تو یہ واقعی خطرناک ہوگا اور سب کچھ سننا ممکن ہے—
ہاں۔
جسے شک کی صورت میں فرض کرنا پڑے گا۔
ہاں۔ تو اس بات کا واقعی خیال رکھنا پڑتا ہے، مگر جونا، یہ کام کرتا ہے۔ مطلب یہ کہ اگر ایسے تجربے کرو تو یہ زیادہ تر بینکوں کے ساتھ ممکن ہے۔ میں یہ نہیں کہوں گا کہ میری بینک جدیدیت کی مثال ہے۔ میں سمجھتا/سمجھتی ہوں کہ—
ٹھیک ہے۔
میں اپنی بینک کو ایسی کوئی نیو‑بروکر یا Revolut جیسی سروس نہیں سمجھتا جو کہتی ہو 'ہماری کوئی شاخیں نہیں، صرف ایپ ہے، سب کچھ ایپ، سب کچھ ڈیجیٹل، AI'۔ میری بینک کافی روایتی ہے۔
ہاں۔
تو، اور وہ خود بھی اس Finanz‑FinTS سسٹم میں حصہ لے رہے ہیں۔ تو تمہاری بینک بھی یقیناً ایسا کرے گی۔
بالکل، اچھا۔
یہ بس ایک چھوٹی سی ذیلی بات تھی۔ اگر کوئی اسے آٹومیٹ کرنا چاہے تو وہ کر سکتا ہے۔
مئی کے شروع سے لینکس کرنل میں کچھ بڑے اور سنگین بگز سامنے آئے ہیں۔ یہ خبروں میں خاص طور پر زور سے آیا کیونکہ حقیقتاً تقریباً ہر وہ سسٹم جو لینکس چلاتا ہے متاثر ہو سکتا ہے — چاہے وہ لیپ ٹاپ ہوں، سرورز ہوں یا کلاؤڈ انسٹینسز۔ وجہ یہ ہے کہ یہ خامی کرنل کی سطح پر بنیادی نوعیت کی ہے، جس کے باعث اثرات وسیع اور خطرناک بن جاتے ہیں۔
ہاں۔
اور وہاں مختلف قسم کی خامیاں ہیں، جیسے کہ Dirty Pipe، Dirty Cow، Dirty Frag اور Copy Fail۔ واقعی بہت سی ایسی خامیاں ہیں جو ایک دوسرے کے ساتھ کافی ملتی جلتی ہیں، کہہ لیں—
ہاں۔
انہیں مخصوص نام دیے گئے ہیں اور ہر ایک تھوڑا سا مختلف ہوتا ہے۔ میں اتنا تفصیل میں نہیں جانا چاہتا کیونکہ وہ کافی تکنیکی اور طویل ہو جاتا، مگر بنیادی طور یہ ہے کہ یہ اکسپلائٹس اس طرح کام کرتے ہیں کہ کرنل میں ایسی انٹرفیسز ہوتی ہیں جن کے ذریعے آپ پیج کیش میں صرف چار بائٹس لکھ سکتے ہیں۔ ہر اکسپلائٹ میں متعلقہ انٹرفیس قدرے مختلف ہوتی ہے، یعنی طریقہ کار میں معمولی فرق ہوتا ہے۔ اور اب آپ سوچ رہے ہوں گے: 'اچھا، چار بائٹس تو زیادہ نہیں ہیں۔'
ہاں، یہ درست ہے کہ مقدار کم ہے، مگر آپ انہیں کسی بھی مطلوبہ جگہ لکھ سکتے ہیں۔ اس کا مطلب یہ ہے کہ مثالی حالت میں آپ /etc/passwd یا سوئچ ٹو روٹ (su) سے متعلقہ فائل جیسی حساس فائلوں کو بھی براہِ راست اوور رائٹ کر سکتے ہیں۔
ہاں۔
اس کا نتیجہ یہ ہوتا ہے کہ ایک معمولی یوزر اس اسکرپٹ کو چلانے کے فوراً بعد سسٹم پر روٹ حقوق حاصل کر لیتا ہے۔ اور یہ واقعی خطرناک ہے، کیونکہ اسی وجہ سے آپ کنٹینرز سے بھی باہر نکل سکتے ہیں۔ اگر آپ Docker کنٹینرز استعمال کر رہے ہیں تو پیج کیش منطقی طور پر شیئر ہوتا ہے، اس لیے یہ کمزوری کنٹینر باؤنڈریز کو عبور کر کے میزبان سسٹم کو متاثر کر سکتی ہے — یعنی کنٹینر کے اندر سے کوئی میزبان پر روٹ حاصل کر سکتا ہے۔
ہاں۔
یہی ہے کام کرنے کا طریقہ۔ اس کا مطلب یہ نہیں کہ ہر سسٹم کا رویہ بالکل مختلف ہو؛ بلکہ آپ اس خامی کے ذریعے ہوسٹ کیے ہوئے سرورز سے واقعی باہر نکل سکتے ہیں اور پھر معاملہ بہت برا ہو جاتا ہے۔ اصل وجہ Page Cache کا وجود ہے: اگر ہر وقت ہر ڈیٹا کو براہِ راست ہارڈ ڈسک پر لکھا اور پڑھا جائے تو یہ بہت سست ہو جاتا کیونکہ پڑھنے کے ہیڈ کو بار بار اپنی صحیح پوزیشن پر لے جانا پڑتا ہے۔ اسی لئے او ایس پیج کیش استعمال کرتا ہے، جو صفحات کی شکل میں ڈیٹا میموری میں رکھتا ہے اور پھر وقتاً فوقتاً صفحات کو بیک کر کے ڈسک پر لکھ دیتا ہے — یہ وہی چیز ہے جو یونیورسٹی میں بھی پڑھائی جاتی ہے۔ صفحات کی بنیاد پر یہ write-back ہوتا ہے اور یہ باقاعدگی سے ہوتا رہتا ہے۔ مگر اس معاملے میں مزے کی بات یہ ہے کہ سسٹم اکثر محسوس ہی نہیں کرتا کہ ان صفحات میں ترمیم ہو چکی ہے، کیونکہ جو چیکس چلتے ہیں وہ زیادہ تر ڈسک پر موجود اصل ڈیٹا کو دیکھتے ہیں۔ یعنی وہ یہ چیک کرتے ہیں کہ جو ہیش ہم نے بنایا تھا وہ ڈسک پر موجود ڈیٹا کے ساتھ میل کھاتا ہے یا نہیں — اور چونکہ آپ نے صرف پیج کیش تبدیل کیا ہے، اصل ڈسک والی فائلیں وہی رہتی ہیں، اس لیے یہ ہیش چیک اکثر پاس ہو جاتا ہے۔ نتیجتاً تبدیلی 'درست' سمجھی جاتی ہے جب تک آپ سسٹم ریبوٹ نہ کریں یا مخصوص پیج کیش صفحے کو خود سے invalidate نہ کریں۔ لینکس میں واقعی کمانڈ کے ذریعے پیج کیش کو صفا یا invalidate کیا جا سکتا ہے، مگر یہ کوئی عام عمل نہیں ہے جو کوئی casually کرتا ہو — صرف جب شک ہو تب۔ اس وجہ سے حملہ دہندہ کی کی گئی تبدیلیاں کئی وقت تک چھپی رہ سکتی ہیں۔ اس کا مطلب یہ ہے کہ صورتحال واقعی سنگین ہے، کیونکہ یہ خامیاں دراصل 2017 سے کئی کوڈ راستوں میں موجود رہی ہیں اور بہت سی ڈسٹروبیوشنز اس کا شکار ہو سکتی ہیں۔ حل یہ ہے کہ آپ اپنے سسٹم کو جدید لینکس کرنل ورژن پر اپ گریڈ کریں — ہو سکتا ہے لوگ کسی مخصوص ورژن جیسے 6.3.1 کا ذکر کر رہے ہوں، مگر مجموعی طور پر جدید کرنل اور پیچز انسٹال کرنا ضروری ہے، ورنہ سسٹم خطرے میں رہے گا۔ اور قابلِ غور بات یہ ہے کہ یہ ساری اکسپلائٹس درحقیقت مصنوعی ذہانت کی مدد سے دریافت کی گئی تھیں۔
ہاں۔
اِس معاملے میں یہ واضح تھا کہ سیکیورٹی ریسرچر نے واقعی AI کو اپنایا اور اسے بڑے پیمانے پر تلاش کروایا، مگر AI ابھی اتنی ترقی یافتہ نہیں ہے کہ پورے عمل کو آغاز سے انجام تک خود بخود سمجھ کر کر دے۔ AI اتنی زبردست نہیں ہے۔ بالکل حقیقت یہی ہے کہ یہ چیز بجٹ پر بھی منحصر ہے: اگر آپ کہیں 'ٹھیک ہے، میں تمہیں ایک ہزار یورو دوں گا' تو شاید کچھ مخصوص تجربات چل جائیں، مگر حقیقی دنیا میں حقیقتی مالی حدود کے ساتھ AI یہ سب خود نہیں کر سکتی۔ اسے ابھی انسان کی رہنمائی درکار ہوتی ہے جو یہ کہے 'اچھا، ہم اس سمت میں مزید کھنگالیں، کیا ہم اور کچھ آزما سکتے ہیں؟' اور پھر انسان ایک نیا آئیڈیا سامنے لاتا ہے — اسی طرح اس بار بھی کام ہوا۔ اس کا مطلب یہ بھی ہے کہ پیشن گوئی درست تھی کہ بہت سی سیکیورٹی خامیاں AI کی مدد سے دریافت ہوں گی۔ خاص طور پر لینکس کرنل میں اکثر بہت سی چھوٹی، نسبتاً کم اہم خامیاں ملتی ہیں۔ خود Linus Torvalds نے بھی لکھا ہے کہ وہ ان اوپن ایشوز کی بڑی تعداد سے حد درجہ مغلوب ہیں — بہت سے ایشوز بنیادی طور پر ایک دوسرے کے ڈپلیکٹس ہوتے ہیں، مگر لوگ پہلے سے موجود معلومات چیک نہیں کرتے، یہ نہیں دیکھتے کہ اس کا مطلب کیا ہے یا کہیں پہلے ہی اس کا فکس موجود ہے یا نہیں؛ وہ بس AI کا آؤٹ پٹ کسی ایشو میں پیسٹ کر دیتے ہیں اور سمجھ لیتے ہیں کہ کام ہو گیا۔ نتیجہ یہ ہوتا ہے کہ لوگ سمجھ نہیں پاتے کہ اصل میں کیا ہو رہا ہے یا یہ کہ یہ کسی اور ایشو کا زبردست ڈپلیکٹ ہے، اور اس سے مینٹینرز پر بوجھ بڑھ جاتا ہے اور ٹریاج کا عمل سست پڑ جاتا ہے۔ اور وہ خاص طور پر اس بارے میں سخت تھے کہ یہی چیز اب بڑے پیمانے پر ہو رہی ہے۔
زیادہ تر مسائل جو تم اپنی AI سے تلاش کر سکتے ہو، وہ یقیناً پہلے ہی دوسری AIs کے ذریعے بھی تلاش کیے جا چکے ہوں گے۔ سوائے اس کے کہ اگر تم بہت زیادہ پیسہ خرچ کرو تو پھر بات الگ ہے۔ مگر بہت زیادہ امکان ہے کہ یہ مسئلہ پہلے ہی معلوم ہو چکا ہو۔
ہاں۔
ہاں۔
میں تم سے پوچھنا چاہ رہا تھا کہ کیا یہ انہی خامیوں میں سے ہیں جو AI نے دریافت کی تھیں، کیونکہ مجھے یہ بہت دلچسپ لگا۔ اور ایک طرف تو میں حیران ہوں کہ خبروں کا ردِ عمل یہاں جرمنی میں کتنا سست ہوتا ہے — مثلاً دو دن پہلے ZDF پر ایک رپورٹ نشر ہوئی جس کا عنوان تھا: 'Claude Mythos کتنا خطرناک ہے؟' میں نے سوچا کہ...
شکریہ ZDF۔ اچھا ہے کہ ہم یہاں جرمنی میں بھی یہ معاملہ اب دیکھ رہے ہیں۔ میں نے خود یہ سوال تین ہفتے پہلے اٹھایا تھا، مگر کوئی بات نہیں، آؤ اس پر بات کریں۔ یہ بہت دلچسپ تھا اور شاید بہت لوگوں کے لیے یہ ایک جاگنے کا لمحہ تھا، کیونکہ میری نظر میں حقیقت میں جو ہو رہا ہے اور وہ لوگ جو کہتے ہیں 'AI اصلی نہیں ہے' کے درمیان کشیدگیاں تیزی سے بڑھ رہی ہیں—
ہاں۔
-اور وہ لوگ جو کہتے ہیں کہ AI اصلی نہیں ہے۔
تم 'غیر حقیقی' سے کیا مراد لیتے ہو؟
یعنی، انگریزی میں اسے 'Nothing burger' کہا جاتا ہے۔
اچھا۔
لوگ کہتے ہیں یہ سب بس ہائپ ہے، یہ اتنا کچھ نہیں کر سکتا، وغیرہ۔ اور میرے خیال میں یہ ایک ایسی صورتِ حال تھی جہاں آپ بلا جھجھک کہہ سکتے ہیں — مثال کے طور پر اگر Claude Mythos نے کسی ایک ہفتے میں پندرہ سو Zero‑Day اکسپلائٹس تلاش کر لیے ہوں جو حقیقتاً قابلِ استحصال ہوں، تو پھر اس سارے واقعے کو 'کچھ نہیں' کہہ کر نظر انداز کرنا مشکل ہے۔
ہاں.
اِم، اِس لیے مجھے پتا نہیں۔ بہت سے لوگ ہیں — میں ان لوگوں کو جزوی طور پر سمجھ سکتا ہوں جو کہتے ہیں کہ یہ بس ہائپ ہے۔ جو بات مجھے بہت دلچسپ لگی وہ یہ ہے کہ کچھ لوگوں نے اس کے برعکس کہا: "لوگو، میں تمہیں ایک نیوز آرٹیکل پڑھ کر سنا رہا ہوں" اور پھر وہ کہتے ہیں: "ہاں، OpenAI نے ایک ماڈل تیار کیا ہے، مگر وہ اسے ابھی روک رہے ہیں کیونکہ وہ کہتے ہیں کہ یہ بہت خطرناک ہے۔ یہ معاشرے یا کمپیوٹر سسٹمز کو واقعی بڑا نقصان پہنچا سکتا ہے، اسی لیے وہ فی الحال GPT‑3.5 جاری نہیں کریں گے۔"
صحیح.
اچھا، ہمم.
ہاں، یہ واقعی سوال ہے کہ یہ کس تناسب میں ہے۔
ہاں.
لیکن کیوں، آخر کیوں ایسے خالی بیانات ہوتے ہیں؟ یہ تو بلکل واضح ہے۔ دراصل یہ زیادہ تر شیئر ہولڈرز کو تیار کرنے کے لیے ہوتے ہیں تاکہ وہ دوبارہ زیادہ سرمایہ ڈالیں۔ اس کا مقصد یہ نہیں ہوتا کہ اگلے سال کیا ہوگا؛ میرا مطلب ہے، کبھی بھی مقصد یہ نہیں ہوتا کہ صرف اگلے کوارٹر میں کیا ہوگا، بلکہ یہ اس بارے میں ہوتا ہے کہ طویل مدتی میں، فرض کریں اگلے دس سال یا اس سے بھی آگے، کیا ممکن ہے اور کمپنی اس عرصے میں اس سے کیسے کمائی کر سکتی ہے۔ بات یہ نہیں ہوتی کہ "اچھا، تو اگلے کوارٹر کا کیا حال ہوگا؟" ہاں، شارٹ ٹرم میں کبھی کبھار اچھے وافاقت دکھتے ہیں، مگر اتنی گہرائی سے عام طور پر نہیں سوچا جاتا۔ سرمایہ کار اکثر یہ دیکھتے ہیں کہ مستقبل میں ریونیو کی ترقی کیسا رہے گا، نہ کہ محض اگلا کوارٹر یا اگلا سال۔ اور مجھے اتنا برا نہیں لگتا کہ لوگ ضرورت سے زیادہ وعدے کر دیں — کیونکہ جب آپ مسلسل نئی اور شاندار چیزوں کا شور برقرار رکھتے ہیں تو وہ وعدے نسبتاً جلدی بھلا دیے جاتے ہیں، خاص طور پر جب آپ اس گیند کو مسلسل رولنگ میں رکھیں۔ مزید یہ کہ بعض اوقات اس حکمتِ عملی کا فائدہ یہ ہوتا ہے کہ وقتی طور پر توقعات قائم رہتی ہیں اور کمپنی کو وقت مل جاتا ہے تاکہ وہ طویل المدتی پلانز بنا کر آمدنی کے طریقے ترتیب دے سکے۔ مجموعی طور پر یہ چیز مارکیٹنگ اور سرمایہ کاری کے توازن کا حصہ ہے، اور لوگ عموماً اس وقتی امید پر پیسہ لگانے کے لیے تیار ہو جاتے ہیں۔
ہاں.
یہ ٹھیک ہے کیونکہ آخرکار یہ کام کر ہی جائے گا۔ مسئلہ یہ ہے کہ انہوں نے ٹائم فریم کو سختی سے کمتر سمجھا، شاید جان بوجھ کر۔ وہ کہتے ہیں: "اوہ ہاں، یہ ایک سال میں ہو جائے گا" حالانکہ حقیقت میں زیادہ حقیقت پسندانہ اندازہ تین سے پانچ سال ہوتا ہے جب آپ واقعی ایسا تصور عملی طور پر نافذ کر سکتے ہیں۔ اس طرح کی کمی اکثر امیدوں کو غیر حقیقی بنا دیتی ہے۔
اچھا، جی ہاں.
اور بالکل کہہ سکتا ہے: "ٹھیک ہے،"
GPT‑3.5 اُس وقت کے لیے بہت متاثر کن تھا، مگر یہ معاشرے کے لیے اس قدر زبردست نقصان دہ نہیں تھا — سب اس بات پر منحصر ہے کہ آپ 'معاشرتی نقصان' کو کیسے تعریف کرتے ہیں۔
ہاں.
بالکل، مگر سمجھتے ہو؟ میں بھی یہی کہنا چاہ رہا تھا: GPT‑3.5 قریب قریب ایک مربوط جملہ بنا لیتا تھا۔
ہاں.
سمجھتا ہے؟ کچھ لوگوں نے اسی بنا پر کہا کہ 'اچھا، آپ نے GPT‑3.5 کے ساتھ ہیک نہیں کیا، تو کیا یہ اب محفوظ ہے؟ سب صرف دکھاوا تھا۔' مگر حقیقت یہ ہے کہ اس کے حقیقی اثرات ہیں، اسی لیے کوشش کی جا رہی ہے کہ اسے مناسب طریقے سے منظم کیا جائے۔ مثال کے طور پر کہا جا رہا ہے کہ یہ ٹیکنالوجی جلد ہی اوپن سورس میں بھی آ سکتی ہے۔ OpenAI اور Google دونوں نے اس کے حوالے سے اشارے دیے ہیں، مگر بنیادی خیال یہ ہے کہ پہلے یہ ماڈلز بڑی کمپنیوں کے ذریعے سکیورٹی کے نقطۂ نظر سے آزما لیے جائیں، تاکہ کم از کم جب یہ عوامی سطح پر آئیں تو بڑے انفراسٹرکچر فوراً خطرے میں نہ پڑے۔
تاکہ جب یہ ٹیکنالوجی ناگزیر طور پر سب کے لیے دستیاب ہو جائے تو کم از کم یہ یقینی بنایا جائے کہ آج یا کل Google یا Adobe پر فوراً حملہ نہ ہو۔ ایسا ہونا عالمی معیشت کے لیے واقعی برا ہوگا۔
ہاں.
تو، مگر
ہاں، مجھے یہ واقعی حیران کن لگا۔ میرے خیال میں یہ بہت لوگوں کے لیے ایک چھوٹا سا جاگنے والا لمحہ تھا، کیونکہ سمجھو، وہ ہمیشہ کہہ سکتے تھے: 'ہاں، یہ... پتہ نہیں، بہت سے GitHub کے ایشوز ہیں' — یعنی ہر طرح کی تنقیدیں۔
سب کچھ ایک چھوٹے سا گڑبڑ ہجوم میں ڈوب گیا۔ نعرہ یہ ہوتا تھا: 'یہ سب کچھ کچھ بھی نہیں ہے، بہت شور تھا مگر آخرکار کچھ نہیں نکلا، ان میں کوئی حقیقی اقتصادی قدر نہیں ہے، نہ کوئی حقیقی سیکیورٹی رسک' وغیرہ۔ یہ وہ بیانیہ ہے جو بار بار پھیلایا جاتا رہا۔ اور مجھے لگتا ہے کہ اب موجودہ صورتحال کو ایسے سطحی انداز میں نظر انداز کرنا واقعی مشکل ہے — کس طرح کوئی اتنا لاپرواہ ہو کر اسے نظر انداز کر سکتا ہے؟
اِہ.
یا غلط اندازہ لگانا، یہی کہنا چاہیے۔ یعنی—
اِہ، انتہائی بدبودار.
ہاں۔ [ہنسی]
لیکن Jona، بہترین، جیسے یہ یہاں...
کھل گیا.
صحیح۔ ایک ڈس کلیمر کے طور پر مجھے یہ بھی کہنا ہوگا کہ حقیقت میں کچھ لوگوں نے دعویٰ کیا ہے کہ کچھ ماڈلز پچھلے چند مہینوں میں جزوی طور پر کمزور ہو گئے ہیں، یا کم از کم لوگوں کا ذاتی تاثر یہی ہے کہ معیار کم محسوس ہوا ہے۔ اور سوال یہ اٹھتا ہے کہ کیا یہ اس وجہ سے ہے کہ کمپنیوں نے جو وعدے کیے تھے وہ لوگوں کی توقعات بدل گئے اور ماڈلز حقیقت میں ویسے ہی رہے؟ یا واقعی کچھ پسپائی ہوئی ہے؟ بہت سے لوگوں نے یہ بھی نوٹ کیا کہ ماڈل کے جوابات اور جو ٹوکن بنائے جاتے ہیں وہ اب مختلف طریقے سے ڈیزائن کیے گئے ہیں — یعنی آؤٹ پٹ میں نسبتاً زیادہ فلر شامل ہو گیا ہے جس کی وجہ سے آج کل آپ کو اکثر کہنا پڑتا ہے 'اوہ، مختصر رہو' تاکہ نتیجہ ویسا ملے جیسا پہلے آتا تھا۔ اس کے علاوہ یہ امکان بھی ہے کہ تربیتی ڈیٹا، فائن ٹوننگ پالیسیاں یا حفاظتی فلٹرنگ میں تبدیلیاں آئیں جنہوں نے ظاہری کارکردگی کو متاثر کیا۔ اس سب کا نتیجہ یہ ہے کہ صارفین کا تجربہ بدل گیا، چاہے بظاہر ماڈل کی بنیادی صلاحیتیں وہی ہوں۔
ہمم.
اس بارے میں کئی لوگ اسی سمت میں دلیل دیتے ہیں، اور میں اسے بالکل سمجھ سکتا ہوں کیونکہ مجھے بھی ذاتی طور پر کبھی کبھار ایسا محسوس ہوتا ہے کہ کچھ چیزیں تبدیل ہوئی ہیں۔
Jona، اس موضوع میں ہم ایسی جگہ آ رہے ہیں جہاں میں دراصل بات نہیں کرنا چاہ رہا تھا، مگر کچھ حد تک میرا دل کر رہا ہے۔ پچھلے دو اقساط سے میں چاہ رہا ہوں کہ اپنا چھوٹا سا، رینٹ نہیں، مگر ہاٹ ٹیک میں شیئر کروں۔
کر.
اور میرا مطلب یہ ہے کہ جو لوگ معاوضہ والا AI ماڈل استعمال نہیں کرتے، وہ عملي طور پر یہ نہیں جان سکتے کہ آج کل AI کیا کر سکتی ہے۔
ہاں.
اور میں اسے کئی طرح سے افسوسناک پاتا ہوں۔ میں نے اپنا ہاٹ ٹیک پہلے بھی کہا — شاید کوئی مجھ سے متفق نہ ہو — مگر میں وہ شخص ہوں جو کہتا ہے کہ فلسفیاتی سطح پر میں اس کے حق میں ہوں کہ مفت ChatGPT نہ ہو۔
ہمم.
میں سمجھتا ہوں کہ اس سے معاشرہ اور صنعت کو نقصان پہنچتا ہے کہ صارفین کے سامنے دو بالکل مختلف نوعیت کی AI موجود ہیں: ایک مفت ورژن جو 96 فیصد لوگوں تک پہنچتا ہے اور اسی کی بنیاد پر وہ فیصلہ کرتے ہیں کہ AI کیا کر سکتی ہے۔
صحیح.
اور پھر کچھ لوگ ایسے بھی ہیں جو ادائیگی کرتے ہیں اور بہت بہتر سروس پاتے ہیں، اس لیے ان کی سمجھ بہت زیادہ گہری ہوتی ہے۔ میں نے یہ فرق حال ہی میں یہاں ریڈیو پر محسوس کیا۔
یہ بات بالکل درست ہے، مگر مجھے نہیں لگتا کہ یہ میری مفروضے کو ناکارہ کر دیتی ہے۔ یہ ضرور اس دلیل کو کمزور کرتی ہے کہ 'اوہ، یہ ویسی شاندار چیز نہیں جتنی وعدہ کی گئی تھی' — کیونکہ جب آپ پیسہ خرچ کرتے ہیں، چاہے ماہانہ سبسکرپشن ہو یا فی پرومپٹ ادائیگی، تو تجربہ واضح طور پر بہت بہتر ہوتا ہے۔ جب آپ دس یورو، سو یورو یا فی پرومپٹ ایک بڑی رقم خرچ کرتے ہیں تو نتائج انتہائی متاثر کن ہوتے ہیں۔ پھر بھی میرا نقطۂ نظر یہ ہے کہ یہ فرق موجود ہے اور اس کا اثر سماجی اندازِ فکر پر پڑتا ہے۔
بالکل، میں سمجھتا ہوں کہ اسے یوں سمجھایا جا سکتا ہے: میری تھیوری یہ ہے کہ شروع میں ہائپ بنانے کے لیے مفت صارفین کو بھی اچھا تجربہ دیا گیا تھا، حالانکہ انہوں نے پیسے نہیں دیے۔ اور جب اب AI کمپنیوں کو احساس ہوتا ہے کہ 'یہ واقعی بہت مہنگا ہے' تو وہ سوچتی ہیں کہ یہاں تک کہ سو دو سو ڈالر ماہانہ دینے والے صارفین کے ساتھ بھی ہم نقصان میں ہیں، لہٰذا مفت صارفین کو کم وسائل دیے جانے لگے۔
مگر ہمیں شاید یہ شروع کرنا چاہیے کہ جو لوگ واقعی کچھ بھی ادا نہیں کرتے، انہیں شاید تھوڑی کم ذہانت ملے۔ سمجھ رہے ہو؟
میرا خیال ہے یہ ایک ممکنہ وضاحت ہے کہ کیوں زیادہ تر وہ لوگ جو فرق محسوس کرتے ہیں، وہ مفت صارفین ہیں — کیونکہ وہ اب وہ سو فیصد نہیں حاصل کر رہے جو ممکنہ طور پر دستیاب ہوتا۔
ہاں.
اسی لیے انہیں یہ برا محسوس ہوتا ہے، کیونکہ یہ واقعی خراب ہے۔
ہاں.
بالکل۔ ام، میں بس اس طرف لوٹنا چاہتا تھا — مجھے یہ تضاد بہت واضح محسوس ہوا۔ مجھے احساس ہوا کہ میں کس ببل میں رہ رہا ہوں۔ Jona، ایک چھوٹی سی اعترافی بات کے طور پر: میں نے اس مہینے آزمائش کے لیے وہ سو یورو والا ChatGPT لے لیا ہے۔
شاندار.
میں نے وہ دو سو یورو والا پلان نہیں لیا۔ میں نے ChatGPT Pro لیا، جہاں آپ انتخاب کر سکتے ہیں: سو یورو والا پلان جس میں پانچ گنا زیادہ کوٹہ ملتا ہے، یا دو سو یورو والا جس میں بیس گنا ملتا ہے۔ میں نے یہ اس لیے لیا کیونکہ Codex کے ساتھ پروگرامنگ کرتے ہوئے میں اکثر حد تک پہنچ جاتا تھا اور سوچا کہ اب زیادہ کوٹا واقعی فائدہ مند ہوگا۔
ہاں.
مگر پانچ گنا کوٹہ میرے لیے پوری طرح کافی ہے — میں حد کو عبور نہیں کر رہا، اس لیے بیس گنا کی ضرورت نہیں۔ اور اس تضاد کی وجہ سے — ہم ریڈیو پر تھے اور ایک خاتون نے بتایا کہ 'میں نے ChatGPT سے کہا کہ ایک حوالہ کو APA فارمیٹ میں تبدیل کر دے' —
ہاں.
اور اس نے بالکل گڑبڑ کر دی۔
ہاں.
یہ ایک بالکل سادہ اور واضح کام تھا۔
ہاں.
پھر ہم نے کہا: 'بالکل، تو AI یہ نہیں کر سکتی، یہ ممکن نہیں۔' اس کے مقابلے میں Codex میرے لیے ہفتہ وار لاکھوں لائنیں کوڈ بغیر غلطی کے لکھ رہا ہے۔
ہاں.
یہ ایک بڑا تضاد ہے۔ عام آدمی کو درست طور پر یہی تاثر ملتا ہے کہ آپ ChatGPT سے ایک جملہ بھی نہیں لکھوا سکتے بغیر اس کے کہ وہ غالباً غلطی نہ کر دے۔
ہاں.
کیونکہ عام آدمی کو مفت ورژن معلوم ہوتا ہے، اور وہ خراب ہے۔
ہاں.
اور میں اسے کئی حوالوں سے افسوسناک سمجھتا ہوں: سماجی نقطۂ نظر سے افسوس کی بات ہے کہ زیادہ لوگوں کو معلوم نہیں کہ یہ کتنی شاندار ٹیکنالوجی ہے اور وہ اسے کس لیے استعمال کر سکتے ہیں۔ ایک زیادہ 'ڈومرسٹ' نظریے سے کہا جا سکتا ہے کہ اکثریت یہ سمجھ نہیں پاتی کہ ہم سب کتنا خطرے میں پڑ سکتے ہیں۔
ہاں.
کیونکہ وہ سوچتے ہیں کہ یہ ایک جملہ بھی صحیح طرح نہیں لکھ سکتی، تو اس کا مطلب ہے کہ یہ میری نوکری نہیں لے گی۔
ہاں.
اور وہ یہ نہیں سمجھتے کہ جب آپ پیسے دیتے ہیں تو واقعی ایسی چیزیں ہیں جو آپ کی نوکری لے سکتی ہیں۔ مجھے ذاتی طور پر بھی افسوس ہوتا ہے کیونکہ اس سے جو میں AI کے ساتھ کر رہا ہوں اس کی سمجھ بہت گھمبیر طور پر مسخ ہو جاتی ہے۔
ہمم.
یہ ہوتا ہے کہ جب میں لوگوں کو کہتا ہوں، مثلاً: 'ارے، میں AI کے ذریعے Crunch‑Time ویڈیوز ایڈٹ کر رہا ہوں' تو وہ—
ہاں.
تو لوگ اپنے مفت ChatGPT کے تجربے کو یاد کرتے ہیں، جو تین جملوں میں سات غلطیاں کرتا ہے، اور پھر کہتے ہیں: 'Wieland، براہِ کرم یہ نہ کرو۔ یہ کام نہیں کرے گا۔ یہ AI ایسا نہیں کر سکتی، ایک جملہ بھی غلطی کے بغیر نہیں لکھتی' — اور وہ یہ اپنے مفت ورژن کے تجربے کی بنیاد پر کہتے ہیں۔
ہاں.
تو، [آہ] مجھے دوستوں کی طرف سے بھی متضاد جوابات ملے۔ میں یہ قدر کرتا ہوں کہ مفت رسائی موجود ہے — مجھے خوشی ہے کہ زیادہ لوگوں کے پاس یہ اوزار تک رسائی ہو۔
ہاں.
اور جو اسے برداشت نہیں کر سکتے یا نہیں کرنا چاہتے — جیسا میں نے کہا، میں خود اس بارے میں جھکاؤ میں ہوں — کم از کم انہیں ایک آپشن مل جاتا ہے۔ دوسری طرف، میرا بنیادی نکتہ یہ ہے: مسئلہ AI خود نہیں ہے بلکہ سرمایہ داری ہے۔ اگر ہر کسی کو ایک بہت اچھے سسٹم تک برابر رسائی ملتی تو میں یقینا خوش ہوتا۔ اور ہاں، آپ کہہ سکتے ہیں کہ 'اچھا، تو مفت میں کچھ کم معیار کی چیز مل سکتی ہے، مگر کم از کم کچھ تو ہے'۔ مگر انٹرنیٹ اور جو میں انٹرنیٹ سرمایہ داری کہوں گا، جس نے 2010 کی دہائی کے اوائل میں زور پکڑا، نے بدقسمتی سے AI کو مارکیٹنگ اور سبسکرپشن ماڈلز کے تحت لا دیا۔ شروع میں Sam Altman نے خود کہا تھا کہ 'ہم جانتے ہیں آپ عادی ہیں کہ انٹرنیٹ پر چیزیں مفت ہوتی ہیں اور اشتہارات سے چلتی ہیں، مگر AI اتنی مہنگی ہے کہ یہ ماڈل اسی طرح سے چل نہیں سکتا؛ ہم اسے اشتہارات یا مفت ورژن کے ذریعے نہیں چلائیں گے، بلکہ ایک پروڈکٹ بنا رہے ہیں جس کے لیے آپ کو ادائیگی کرنی ہوگی۔' یہی سوچ بعد میں اس سمت لے گئی کہ بہتر فیچر پیڈ صارفین کے لیے رکھے جائیں۔
ہاں.
—جیسا کہ آپ کسی بھی دوسرے پروڈکٹ کے لیے کرتے ہیں۔
ہاں.
سچ بتاؤں تو میں ہمیشہ ایک عجیب سی مثال دیتا ہوں — شاید یہ اچھا موازنہ نہ ہو — مگر جب میں ChatGPT اور اپنی OpenAI API کے استعمال کو سمجھاتا ہوں تو میں اسے دودھ، خاص طور پر Müllermilch سے مشابہت دیتا ہوں۔ میں کہتا ہوں: 'ٹھیک ہے، Müllermilch میں — شاید یہ قطعی سچ نہ ہو مگر — مثال کے طور پر بہت ساری کنزرویٹو اور فلیور ایڈز ہو سکتے ہیں، مگر اس کا مطلب یہ نہیں کہ جب میں بطور B2B کسٹمر 'Wieland‑دودھ' بناؤں تو وہ ویسا ہی ہوگا...'
ہاں.
—اگر میں مولکری Müller سے B2B دودھ خریدوں تو اس میں شاید کوئی فلیور اینہینسر یا کنزروئیٹو نہ ہو؛ وہ صاف اور اچھی ہوتی ہے۔ ممکن ہے میں اپنی Wieland‑دودھ میں کنزرویٹو ڈال دوں یا ChatGPT کے معاملے میں آپ کو ٹریک کروں، آپ کو اشتہار دکھاؤں یا آپ کا ڈیٹا بیچ دوں۔ مگر اس کا یہ مطلب نہیں کہ B2B اور B2C مصنوعات کو ایک ہی سمجھا جائے۔ اسی لیے میں ہمیشہ اس مثال کا ذکر کرتا ہوں — یہ شاید عجیب لگے مگر انٹرنیٹ اور ڈیجیٹل چیزوں میں یہ معمول کی بات ہے۔ تصور کریں کہ دکان میں ایک مفت Müller‑دودھ بھی ہے اور ایک ایسی بھی ہے جو آپ کو خریدنی پڑتی ہے۔
ہاں.
اور مفت والا واقعی بکواس ہوتا ہے۔
ہاں.
یعنی وہ واضح طور پر کم معیار کا ہوتا ہے۔
یہ بس پانی ہے جس میں تھوڑا سا دودھ کا ذائقہ ہو، یا مجھے کیا معلوم، ہاں.
اور پھر سوچو کہ کیا ہوگا: پچانوے فیصد لوگ مفت Müller‑دودھ لے لیں گے اور کہیں گے: 'Wieland، تم پاگل ہو؟ تم اس کے لیے پیسہ کیوں دے رہے ہو؟' اور اگر میں کہوں 'مجھے Müller‑دودھ پسند ہے، میں اس کے لیے پیسے دوں گا' تو لوگ کہیں گے 'Wieland، میں ہمیشہ مفت Müller‑دودھ پیتا ہوں؛ وہ تو بالکل برا ہے، یہاں تک کہ مفت بھی میں اسے صرف گزر بسر کے لیے لیتا ہوں۔ میں کبھی بھی اس کے لیے پیسہ نہیں دوں گا—آخر کار دونوں کا نام Müller‑دودھ ہی ہے، تو تم کیا چاہ رہے ہو؟' یہ رد عمل عام ہے۔
ہاں.
ظاہر ہے میں اسی بات کے لیے پیسہ نہیں دوں گا۔ میرے جاننے والے بھی کہتے ہیں: 'Wieland، ChatGPT ایک جملہ بھی درست نہیں لکھ سکتا؛ میں کبھی بھی پیسہ خرچ نہیں کروں گا۔' انہیں یہ اندازہ ہی نہیں ہوتا کہ اگر حالات بدلیں تو نتائج مختلف ہوں گے۔ معاف کرنا اگر میں زیادہ دیر تک بات کر رہا ہوں۔
صحیح۔ اور وہ یہ بھی نہیں سمجھتے کہ اگر کوئی کمپنی ماہانہ ایک ہزار یورو — یعنی سالانہ بارہ ہزار یورو — AI میں خرچ کرے تو وہ واقعی ایک پوسٹ بچا سکتی ہے۔ مطلب—
ہاں.
—سوال صرف یہ ہے کہ کون سی پوسٹ بچائی جا سکتی ہے۔ [ہنسی] مگر اگر تمہارا تجربہ صرف مفت ChatGPT یا مفت Copilot جیسا ہے تو تم اس چیز کو سمجھ ہی نہیں پاؤ گے؛ تم کہو گے 'نہ، AI نہیں، نوکریاں نہیں جائیں گی'۔ مگر سمجھو کہ متبادل یہ ہے کہ تم ایک شخص کو سالانہ 30 سے 50 ہزار یورو یا اس سے زیادہ خرچ کرو۔ اور یہی وہ بجٹ ہے جو تم API درخواستوں یا AI سلوشن پر لگا سکتے ہو۔ اس تناظر میں AI اکثر انسانی محنت کے متبادل کے مقابلے میں سستا پڑتا ہے۔
وغیرہ کا بجٹ ہوتا ہے۔ اور آپ AI کی طاقت اور اس کی موافقت کو دیکھ کر اس قیمت پر اس کا مقابلہ بآسانی کر سکتے ہیں — یا یوں کہو کہ ہاں۔
بالکل، Jona، جیسا کہ تم کہہ رہے ہو، ملازمتوں کے معاملے میں یہ تبدیلی واضح ہے — میرا خیال ہے کہ یہ صرف...
بہت حد تک 'کوپیئم' ہے، جسے میں سمجھ سکتا ہوں کیونکہ انسان ایسی چیزوں میں امید ڈھونڈ لیتا ہے۔ جب کسی کے پاس ایسی چیز ہو جو اسے امید دے، تو وہ اس پر ٹھہر جاتا ہے۔ میں بھی کبھی کہتا ہوں: 'اوہ، Wieland کے ہاٹ ٹیکس' اور یوٹیوب پر تبصروں کا انتظار کرتا ہوں۔ یہ بالآخر پوپلسزم کی طرح ہے: ایک سادہ وجہ ڈھونڈ لو جو تمہاری تمام مشکلات کا ذمہ دار ٹھہرائی جائے — 'میری زندگی برا ہے تو اس کی وجہ پناہ گزین ہیں' وغیرہ — اور اس بات پر لڑ کر آدمی خود کو بہتر محسوس کرتا ہے کیونکہ دنیا کو اتنا پیچیدہ نہیں سمجھنا پڑتا۔ اسی طرح AI کے بارے میں بھی لوگ ایک سادہ نتیجہ چاہتے ہیں جو ہر چیز بدل دے۔
اور اسے تمہاری پچھلی گفتگو سے مکمل طور پر الگ کر کے نہیں لیا جا سکتا — یہ پورے سیاق و سباق کا حصہ ہے۔
[ہنسی]
تم سمجھتے ہو، یہی وجہ ہے کہ جب آپ کسی کو بار بار کہتے ہیں: 'ارے، AI عنقریب زیادہ تر انسانی کام سنبھال لے گی، ہمیں اس پر معاشرتی سطح پر سوچنا چاہیے' تو یہ سنجیدہ بحث پیدا کرنی چاہیے۔
ہاں.
یہ اہم ہوتا۔ پھر اچانک مشہور رپورٹس آتیں ہیں کہ '95 فیصد AI پروجیکٹس فیل ہو جاتے ہیں' اور لوگ اس پر جھپٹ پڑتے ہیں کہ 'دیکھو، یہ تو ثابت کرتا ہے کہ AI میرے کام کو نہیں لے گی'۔ مگر جب آپ پیپر کھول کر پڑھتے ہیں تو معلوم ہوتا ہے کہ ناکامی کو یوں تعریف کیا گیا کہ پروجیکٹ نے ریونیو بڑھایا نہیں یا اسے کمپنی نے مفید نہیں پایا۔ یعنی بہت سی کوششیں صرف ایک تجرباتی مرحلے میں روک دی جاتی ہیں اور اسی بنیاد پر پورا ڈیٹا گمراہ کن بن جاتا ہے۔
اچھا، تو یہی وہ حد ہے جس سے اسے ناکام کہا گیا۔ اوہ، ٹھیک ہے.
یعنی، انہوں نے ناکامی کو اس طرح بیان کیا کہ ٹیسٹ کے بعد اسے آگے نہیں بڑھایا گیا۔ اور میں سوچتا ہوں — میں ہر کمپنی کا اتنا گہرا علم نہیں رکھتا، مگر Jona، میرے 95 فیصد پروجیکٹس بھی ناکام رہ چکے ہیں۔ جب آپ کچھ آزما کر دیکھتے ہیں اور وہ مطلوبہ اثر نہیں لاتا تو آپ اسے چھوڑ دیتے ہیں — یہی حقیقت اکثر کمپنیوں میں ہوتی ہے۔
انہیں تمہارا ریونیو بڑھانا ہوگا۔ ہاں، بالکل.
یا میرا ریونیو۔ یا شاید اس نے میری زندگی میں کوئی فائدہ دیا ہو — نہیں تو ہم نہیں کریں گے۔ مگر کمپنیاں یہ چیز مسلسل کرتی رہتی ہیں: 'چلو کچھ آزما کر دیکھتے ہیں، تھوڑا سا ڈیولپ کرتے ہیں، ایک یا دو ہفتے ٹیسٹ کریں، اور اگر کام نہ کرے تو چھوڑ دیں' — یہ بالکل معمول کی بات ہے۔
ہاں، صحیح.
مگر اس مطالعے میں اسی کو AI پروجیکٹ کی ناکامی شمار کر لیا گیا۔
اچھا، یہ تو کافی سخت معیار ہے۔
اور لوگ اس پر فوراً اَڑا بیٹھتے ہیں، کیونکہ یقین کرنا مشکل ہے جب کوئی کہے: 'ارے، تم بیس سال سے کام کر رہے ہو اور تین سال میں دنیا بالکل بدل جائے گی'۔
ہاں.
تو آپ پوری طرح جھپٹ پڑتے ہیں اور ہر اُس بات کو ماننے لگتے ہیں جو کہے 'یار، یہ بس باتیں کر رہا ہے'۔
ہاں.
وہ سب باتیں کر رہے ہیں جو AI کے بارے میں کہہ رہے ہوتے ہیں — بہت سی محض بیانات ہوتے ہیں۔
ہاں.
مہنگے سبسکرپشن ماڈلز کی بات چلی تو ایک مثال Plex کی ہے جس نے حال ہی میں اپنی قیمتیں بڑھا دیں اور میں اس پر واقعی حیران رہ گیا ہوں کہ قیمتیں اتنی بڑھ گئیں۔ انہوں نے لائف ٹائم رسائی کی قیمت مثلاً دو سو پچاس ڈالر سے بڑھا کر سات سو پچاس ڈالر کر دی — یعنی تین گنا اضافہ۔ وجہ یہ بتائی گئی کہ 'ہم طویل مدت تک اس طرح لائف ٹائم آفر دینا جاری نہیں رکھنا چاہتے' — یعنی کلاسک Adobe کی حرکت: سب کو ماہانہ ادائیگیاں کروائیں۔ یہ واقعی پریشان کن ہے کیونکہ Plex ایک ایسی سافٹ ویئر ہے جو آپ کے اپنے سرور پر پہلے سے موجود ویڈیوز کو دوسرے ڈیوائسز پر اسٹریم کرتا ہے؛ اس کے لیے اضافی سات سو پچاس ڈالر دینا، اپنے ہارڈویئر کے اوپر، مناسب محسوس نہیں ہوتا۔ اس میں سیٹ اپ کا وقت، محنت اور پیچیدگیاں بھی شامل ہیں جو صارف پہلے ہی برداشت کر چکا ہوتا ہے۔ اس کے متبادل کے طور پر آپ ایک اچھی اوپن سورس حل بھی استعمال کر سکتے ہیں جو عموماً وہی کام کم یا بالکل مفت کر دیتا ہے، اور یہ بات صارف کے لیے زیادہ معقول رہتی ہے۔ مزید یہ کہ یہ رجحان اس نتیجے کا ہے کہ کمپنیاں مستقل آمدنی کو ترجیح دے رہی ہیں — لائف ٹائم لائسنسز کو یا تو ختم کیا جا رہا ہے یا ان کی قیمتیں ایسے بڑھا دی جا رہی ہیں کہ وہ استعمال کے لیے غیر عملی ہو جاتی ہیں — جو عام صارف کے لیے ناانصافی ہے۔ اوپن سورس اسی تناظر میں اور بھی اہم ہو جاتی ہے کیونکہ صارف کو کنٹرول اور آزادی ملتی ہے اور وہ اس مونوپولی یا سخت سبسکرپشن پالیسیوں کے چکر سے آزاد رہ سکتا ہے۔
اگر کسی کو اس طرح کی ضرورت ہو — یعنی اگر آپ واقعی اس کی ضرورت محسوس کرتے ہیں۔ بس ایک چھوٹا سا ڈسکلیمر: ظاہر ہے کہ ویڈیوز آپ نے پہلے ہی خرید رکھی ہوں گی، ورنہ یہ بات نہیں بنتی۔ لیکن جب آپ نے قانونی طور پر ویڈیو خرید لی ہے تو جرمنی میں آپ ذاتی کاپیاں بنا سکتے ہیں۔ اس لحاظ سے جو کچھ وہاں ہوتا ہے وہ بالکل جائز ہے۔ بس خیال رہے کہ یہ کاپیاں صرف ذاتی استعمال کے لیے ہیں؛ شیئر کرنا یا عوامی ریلیز شامل نہیں۔ اور ہمیشہ مقامی قوانین اور حقوقِ اشاعت کا احترام کریں۔
ہاں۔
ہا ہا۔ اور یہ پھر ایک اور معاملہ ہے — جیسے کہ عوام کی طرف سے ہمیں سبسکرپشن ماڈلز کے بارے میں پہلے ہی کافی ناپسندیدگی اور شکایات موصول نہ ہوئیں۔
ہاں۔
جونا، اس بار بھی ہم نے واقعی شاندار کارکردگی دکھائی۔
بالکل۔
جیسا کہ کہا جا سکتا ہے، ہم نے ایک شاندار قسط ریکارڈ کی جو معلومات سے لبریز تھی — بہت سی دلچسپ اور گہرائی والی باتیں۔ خاص طور پر ہمارے ذاتی پروجیکٹس کے بارے میں: ہم اس وقت کیا کر رہے ہیں، ٹیکنالوجی کے ساتھ کن تجربات میں مصروف ہیں، اور بڑی ٹیک کمپنیوں کے حالیہ رجحانات پر بھی بات ہوئی۔ اور جونا، ہمارے پاس لیٹ اسٹیج کیپیٹلزم کے بارے میں چند چھوٹے مگر تند رینٹس بھی تھے، اور اُس ممکنہ 'واچ شاپس' والی دنیا پر گفتگو ہوئی جس میں شاید ہم عنقریب رہنے لگیں گے۔ مزید برآں ہم نے ٹیک نیوز، پرائیویسی کے پہلوؤں اور کچھ عملی ٹپس بھی شیئر کیں۔ یہ واقعی ایک کلاسک قسط تھی، بہترین لمحوں سے بھری ہوئی۔ اگر آپ نے یہ سب نہیں سنا اور سوچتے ہیں کہ 'یہ اتنا اچھا تھا، میں پورا سننا چاہوں گا' — یا آپ نے ابھی صرف جھلک دیکھی ہے اور بعد میں سننا چاہتے ہیں — تو یہ کہاں ملے گی، جونا؟
اس کے لیے سب سے بہتر ہے کہ آپ radio-unique.de پر جائیں۔ وہاں آپ کو بطور اسٹوڈنٹس ریڈیو ہمارے تمام نیوز آرٹیکلز ملیں گے، اور خاص طور پر Crunch Time کی متعلقہ اقساط پر کلک کریں۔ وہاں آپ کسی بھی وقت پچھلی تمام قسطیں دوبارہ سن سکتے ہیں۔ اس کے علاوہ آپ یوٹیوب یا اسپوٹیفائی پر 'Die Crunch Time' تلاش بھی کر سکتے ہیں۔ ہمارا پوڈکاسٹ RSS فارمیٹ میں بھی دستیاب ہے — مطلب یہ کہ بس podcast.radio-unique.de پر جائیں، وہاں سے آپ تمام پوڈکاسٹس کے RSS لنکس محفوظ کر کے اپنے پسندیدہ پوڈکاسٹ ریڈر میں براہِ راست شامل کر سکتے ہیں۔ وہاں آپ کو یوٹیوب اور اسپوٹیفائی کے لنکس بھی سیدھے مل جائیں گے وغیرہ۔
اور اگر آپ بالکل نئے سامع بننا چاہتے ہیں، یا شاید آپ کے پاس صرف ایک اینالاگ ریڈیو ہے جہاں آپ سلائیڈر سے FM تعدد سیٹ کرتے ہیں۔
اوہ اوہ۔
تو اگلی بار Crunch Time کہاں سنی جا سکتی ہے؟
کرنچ ٹائم کی 81ویں قسط درحقیقت 28 جون کو نشر ہوگی۔ یہ، ہر ماہ کی طرح، چوتھے اتوار کو آتی ہے، اور اس دن آپ کو شام 18:00 تا 19:00 کے درمیان یا تو یو کے ڈبلیو (UKW) پر 102.7 میگاہرٹز پر یا DAB+ پر بُکِٹ 5B میں ٹیؤن کرنا ہوگا۔ البتہ اس کے لیے آپ کو کیمنِٹز کے علاقے میں ہونا ضروری ہے۔ ورنہ آپ radio-unique.de پر جا کر ویب پلیئر پر کلک کریں — وہاں بھی آپ 28 جون کو شام 18 سے 19 بجے کرنچ ٹائم براہِ راست سن سکتے ہیں۔
تو آپ کے پاس تمام راستے کھلے ہیں کہ آپ پچھلی، موجودہ اور آئندہ Crunch Time اقساط فالو کریں۔ تب تک اپنا خیال رکھیں۔
خدا حافظ۔
[آؤٹرو-موسیقی]
یہ تھی۔
دی کرنچ ٹائم، ریڈیو UNiCC کی ایک پروڈکشن۔
Zuletzt aktualisiert am 1
大家好,热烈欢迎各位正在通过各种设备收听节目的朋友。欢迎来到《Crunch Time》。这里是我们科技播客的第八十期,在这档节目里有我,维兰德,
还有我,约纳。
我们会在每个月的第四个星期天,给大家带来最新鲜的科技资讯,还有我们自己在家鼓捣的各种 DIY 和手工电子项目的近况。今天也一样,我们又为你们准备了不少有意思的内容,而且这次还特别呼应了“八十”这个期数。通常遇到这种比较整又有点特别的数字,我们都会想一些大动作或者特别折腾的企划,不过我觉得这一次保持轻松反而特别酷。我们的第八十期会是一期回归本味的经典节目,聊聊科技世界里的话题,也聊聊我们私下做的那些 DIY 东西。
Radio UNiCC 电台呈现
【音乐】《Crunch Time》
【音乐】主持:约纳和维兰德。
那我就先从一个话题直接开始吧,嗯,就是我在上一期里已经预告过的那个。我这段时间又自己继续折腾了一下,所以现在终于可以跟你们好好聊聊,我有多觉得 Google Health Connect 有多好用,因为它简直是——
(笑)
它真的太爽了。Jona,I have been cookin' so hard——我最近真的是玩到停不下来,特别好用。所以我得先给大家铺垫一下:Google Health Connect 到底是什么?我为什么这么喜欢它?你们为什么也都应该用一用?
对。
总之呢,很不符合一家大科技公司的典型作风,Google Health Connect 在安卓手机上其实就是一个接口,让各种健康类应用彼此之间可以通信。整件事的规则特别简单,本质上它就像是一套本地数据库,每一台手机上都有一份,应用可以发出指令往这个数据库里写数据,也可以从里面读数据。然后上面还有一层子权限系统之类的。先说清楚一点:在 Android 14 之前,它是一个需要你单独安装的独立 App;从 Android 14 开始,它就成了 Android 操作系统的一部分。
照我现在的理解,这也就意味着,比如说手机自己记录到的步数,可以转给那些医保公司或者保险公司的 App 之类的。那这方面不是有几个挺有名的应用——
嗯。
嗯,就是那些,会根据你有多少天是用这部手机走满了一万步,然后给你几分钱奖励的那些 App。那这个也是通过这个 API 来实现的吗?
嗯,我觉得——
还是说那其实是完全另外一套东西?
我觉得完全可以通过这个来实现。嗯,我自己目前没拿它来干这个,但理论上都行。我要特别强调的一点是:它既不是 Google Play 服务的一部分,也不会跟你的 Google 账号同步,因为我可以想象很多人一听就会有这种担心。实际上你根本就不能把这些东西跟 Google 账号做同步。你能做的最“夸张”的事情,也就是设置一个自动导出:它会把所有数据打包成一个 ZIP 文件,自动发到你指定的某个云端 App 里去,你可以选手机上装的任意云服务,比如当然也包括 Google Drive。可那也只是个自动导出功能而已。所有东西默认都是只存在手机本地的,然后——
除了你刚说的那个导出。那能不能完全在本地搞?比如直接导出一份 ZIP 文件到某个本地目录?因为按理说,用户是有权利去查看到底存了哪些数据的。如果这些数据一下子就全都自动跑到某个云服务提供商那里,那不就有点把这个本来很好的一整个本地生态系统给绕开了吗?它能不能做到完全只在本地?
这个嘛,我不太……我觉得是不行的。我现在没法直接让它在手机上随便建一个普通文件。但话又说回来,首先,你当然可以选,比如说 Nextcloud 这样的 App 作为导出的目标。
哦,这样,那也还算比较放心啦。反正专门为了这个去搭一个 Nextcloud,大概也不会有人这么干。
嗯。
但这就意味着,从原理上说是做得到的。
对,不过我最喜欢的一点就是,它真的只是一套在你手机上的数据库,你可以很随意地写一个 App 去跟它打交道,就完事了。它不像 Google 其他很多东西那样,比如说我想做一个跟 YouTube 交互的东西,就得先在 Google Cloud 控制台里建一个应用,申请一个 app secret,然后还得有人在 Google 那边人工审核一下,看我这么做行不行,然后——
然后最惨的情况是,你可能连全部文档的百分之二十都没有权限看。
对,那又是另一个坑了。
而且还有一大堆功能——
是。
——要么你根本没法调用,要么其实技术上可以用,但你完全不知道它们的存在,因为外部根本没有什么像样的文档。
对。
就这一整套乱七八糟的东西。
而在这里,它真的就只是你手机上的一个数据库系统,任意一个 App 只需要发个请求说:‘我想读取这些数据类型、写入那些数据类型’,就行了。
太完美了。
然后这里有个很重要的区分:这一类数据其实大致分成两大类。在德国,现在大家实际能看到的基本上只有其中一类。我猜是因为 EU 的法规、医疗器械相关法律之类的原因,所以另外一类暂时还没那么开放,或者也可能只是我刚好没在用那些会用到它的 App。第一大类,名字有点迷惑,就直接叫做 Health Data,其实指的就是你能想到的各种可被追踪的健康数据。每次我打开那个权限界面,看它列出的可以记录的项目,都觉得有点离谱。你刚才不是提到透明度、谁在访问这些数据吗?在 Health Connect 这个 App 里,或者在系统设置里的 Health Connect 页面,你可以清楚地看到最近有哪些 App 访问过这些数据、它们可以读写哪一类数据等等。这样这些 Health Data 基本就是大家日常会想到的那些东西。我也花了很多时间仔细研究过。有一个小工具 App,不在 Play Store 里,要去 Google 的开发者网站下载 APK,叫 Health Connect Toolbox。用它你就可以几乎以“原始数据库访问”的方式去看数据,模拟各种访问,然后直接查看里面到底存了什么。这样我就知道理论上都能写入哪些字段。比如最基础的是步数,然后还有心率;你可以记录体重、骨量,本来以为也能记录肌肉量——呃,不对,肌肉量反而不能单独存,这点特别奇怪。这是我目前唯一能挑出的硬伤:按理说,相对于其他那些指标,肌肉量算是非常常见的一个数据点,结果偏偏不能直接记录。我只好绕一圈自己算,因为 Health Connect 目前能存的是:一方面是所有骨骼的质量,另一方面是“除了骨骼和肌肉以外的其它组织”的质量,通过这两项你再反推就能把肌肉量算出来。
啊,这样设计有什么意义啊?
当然你也可以记录饮食,记录每天的营养摄入、饮水量,记录体重,这些都只是一个个数据点而已。当然,还可以记录各种女性健康相关的内容,比如月经出血情况、宫颈黏液之类的都能记。我只是觉得有一点挺“好笑”的——我都能想象评论区要怎么说了——就是在“女性健康”这个大类下面,明确列着一个我作为男的自己不会想去记录、但可能很多女性会用到的字段:Health Data 记录类型里面有一项叫 Sexual Activity(性行为)。
嗯。
而且这个 Sexual Activity 只有一个参数:Protection Used,也就是“有没有使用避孕措施”,取值就 true 或 false。
诶?但这些东西就这么很随意地躺在数据库里啊。虽然说,它为什么会在那儿其实完全说得通:因为你可以把这些数据点,再加上体温测量什么的,合在一起用来预测月经周期之类的。我只是觉得有点怪,就是说,你可能要每天去记录自己有没有性生活,或者每天记录一下黏液的状态或稠度,这听上去多少有点诡异。但你确实可以这么干,而且这恰好有助于那个预测算法更准确。就给大家补个背景吧,以免有些人听到这些字段会觉得特别奇怪。
是啊,现在确实有那种专门做女性健康追踪的 App,在里面你也可以记录 Sexual Activity。我不知道它有没有跟 Google Health Connect 接起来、会不会把这些东西同步过去。
但理论上是可以的。
是有可能的,因为那天日历上就会出现一个小爱心——那天如果有过性行为,那天就会被一个爱心标出来。总之呢,里面确实能记录这一大堆东西,所以这也就是为什么——
‘这种东西我绝对不会跟 Google 同步的!’——不啊,它就只在你手机上。设计到这种程度,就是你根本没法把它直接同步给 Google。‘我才不要,这太不安全了。’——哪儿不安全了,它就存在你自己的手机里。
而这套数据库真正牛的地方,也是我觉得最不可思议、最实用、完全没想到会出自一家大科技公司的地方,就是:它真的让各种各样的 App 之间实现了互通互联。
这对大厂来说真的是非常不典型,这一点真的得再三强调一下。
对,我就觉得这点太夸张了。
嗯。
对了,Jona,我刚刚用那个可以读所有数据的 Health Connect Toolbox 简单扫了一遍,看一看 Health Data 里都有哪些项目。比如:活动中消耗的卡路里、累计爬升高度、爬了多少层楼、活动强度数据、速度、总消耗卡路里、功率、最大摄氧量、轮椅推进次数、步数、运动项目、训练计划、路程这些。然后还有休息时心率、血氧饱和度、皮肤温度、血糖,还有、嗯、睡眠,各种身体数值、生命体征。你甚至连正念练习都可以记录。
哇,挺夸张的。
我就觉得这真的很夸张、也很有意思。然后我当时就开始想,我的论点又慢慢回来了:是的,我知道,现在这些东西主要都是放在“女性健康”、配合 Sexual Activity 这种记录里用的,好吧,没问题。但我作为一个男性,其实也可能想记录自己的这些数据,用来看看能不能跟别的指标之间找到一些关联。
嗯。
而且嘛,你看它之所以要有一个 Protection Used 这个字段、而且要把它存下来,肯定是有原因的。我后来就问了身边的女性朋友,‘这个有什么实际意义?’她们就说:‘比如说月经迟迟不来,你就可以翻一下,看自己上一次没做防护的性生活是什么时候,然后判断一下“我会不会怀孕了?”’然后——
对,然后就可以,怎么说呢,自己评估一下——
对。
——大概有多大的可能性,对吧。
所以我就在想:那我作为男的,也完全有兴趣把这些东西记下来,哪怕只是为了以后能翻一眼,知道自己上一次没做防护的性生活是什么时候。
好,不过我有个问题:这,这样做纯粹就是给自己装逼用的吗?还是说有别的原因?[笑]
嗯,呃,不,我觉得,这其实——我们现在稍微跑题一下,别担心——原则上这就意味着,人类健康的一些非常基础的分析,其实是可以直接、也可以说或多或少自动化地完成的。这当然不代表以后家庭医生都没工作了,这完全不是这个意思,而是说,你大概懂我的意思,就是系统可以直接把很多东西看出来,而且可能比现在早得多看出来。因为你平时不会说:『哦,对,让我先把这四套完全不同的数据集先合在一起,验证一下我是不是得了某种很稀奇古怪的病。』就是那种只会在这些参数上体现出来的东西,其实都可以直接跑在系统里——只要往这个系统里喂足够多的数据,只要有一个被授权可以把这些东西都跑一遍、分析一遍的 App——
对。
——这样就可以把这一套东西做得特别牛,让整个人类整体都更健康。差不多这就是我在想的方向,而且这也刚好是个特别好的过渡,可以讲到我那个——我把它叫做「健康系统」的东西。
哦,这就很棒。
我这个自己搞出来的「健康系统」,就是想大概做到这些。而这里面 Google Health Connect 简直是关键中的关键。因为我不可能、也完全不想,把这个系统里所有的部件都来自同一个厂商,那样厂商锁定太夸张了。比如说,我有一块健身手环表,它有自己的 App。我还有一台智能体重秤,不只是联网那么简单的那种,而是那种能测各种身体指标的秤,比如体脂率、肌肉含量之类的一大堆东西。
它还能根据我所有的数据算出我的基础代谢、也就是我静息状态下一天大概消耗多少卡路里。然后呢,我还有一个智能血压计,也能把这些数据记录下来。问题是,这些 App 之间完全互不兼容。
对。
它们本身就互不相通。然后我还有一个用来记录饮食的 App,而且这个 App 单独说起来就已经很夸张了。Jona,这个 App 本来是一个开源应用,是基于 Open Nutri Tracker 的,但是我把它扩展得非常非常多。它原生是没有 Health Connect 集成的,但本质上它就是一个数据库,你只要把对的模块导进去,事情就能跑起来。
嗯,太好了。
嗯,要是没有这一层的话,这一切彼此之间都是不兼容的,我根本不可能把它们拼在一起。然后我自己又写了一个训练 App,用来安排一套力量训练之类的东西,同样也是接在 Google Health Connect 上的。所有这些数据最后都会汇总到 Health Connect 里。接着我又给自己写了一个 Dashboard 应用,把 Google Health Connect 里的所有数据读出来,在里面找各种关联,然后就能对我说类似这样的话:『好,现在所有参数都表明,你按理说应该在减脂。』
对。
那现实里有没有发生呢?如果有,那很好;如果没有,那这里有一串可以微调的参数。比如说,我们就可以说:『好吧,那大概是跑步消耗的卡路里算错了,我们把那个系数稍微调一调。』
嗯。
而这一切之所以能运转起来,全都是因为有 Google Health Connect。
太牛了。
而且它还有第二大块数据,这是 Google Health Connect 里的另一个重要部分。这个部分的命名有点怪,一个叫 Health Data,另一个现在叫 Medical Resource。后者就要,再怎么说呢,要「硬核」不少,因为那部分真的就是——用德语的官方翻译来说,前者是「Fitness und Wellness」,也就是我们前面提到的这些健身手环之类的东西;而后者真的就是跟医生、医疗相关的内容。
也就是说,其实就是化验结果之类的东西,还有医生那边的各种医疗记录,对,差不多是这些。
比如在这一块里,权限系统也跟前面不一样。一款 App 只要拿到写入权限,它就可以往所有医疗数据里写东西;但读权限你就可以细分,只给它看某几个类别。不过这里面有些东西还挺有意思的,比如说有:过敏、就诊记录、医生信息、疾病、疫苗接种、化验结果、药物、医疗操作、个人基本信息、妊娠情况、生命体征,然后还有一个分类叫做「Sozialanamnese」。我当时当然就去 Health Connect Toolbox 里翻了一下:好,等会儿,这个「社会病史」到底能填什么?那里有一些 JSON 示例,展示所谓 Sozialanamnese——英文叫 Social History。然后我所有看到这个的朋友都说:[笑]「这什么鬼词啊,Sozialanamnese。」[笑] 但举个例子吧,其中一个示例就是:童年时期曾经长期暴露在二手烟环境中,这就算是一条社会病史记录。
好,等一下。
嗯。
这、这句话在我听起来又是那种特别 Watch Dogs 味儿特别浓的设定,就像你刚刚那样描述出来一样。整一个感觉又是那种……[笑]
这就是那种你在《Watch Dogs》(看门狗)里能看到的、特别带感的条目。
对对对,然后上面就会写:『哦,是的,这里,这位用户的哥哥——』
『正在跟某某人做非法交易』之类的东西。对,就那种感觉。
不过,正因为这样,它其实又是完全不一样的另一块东西了。除了我自己写的几个 App 之外,我到现在还没见过有别的 App 真正用到这一部分,因为它本质上就是个数据库。但它其实有点像美国那种电子病历系统,在我们这边也有类似的电子患者档案,对吧,它就是那个等级的东西。嗯,然后在我自己的系统里,我实际上也用到了这里面的一个类型,就是药物服用记录。这块就有点麻烦了,因为像我说的,它本来是给医生用的,不是给你自己量自己用的。所以这里面根本没有一个记录类型叫「我吃了某个药」。
它里面只有「药物被医生开出来,要按某种方式服用」这一类记录,还有一种数据类型的意思是:护士已经把这剂药端到我面前,让我现在把它吃掉了。而且他们在文档里特地强调过,从医学哲学的角度来说,「药已经被交给病人让他服用」跟「药已经被患者真正吃下去了」这两件事之间是有区别的。
嗯。
但对我来说无所谓。[笑]
对。
我就直接往里面写那个所谓 Medication Administration Record,也就是给药记录,在我的 App 里我就把它解释成「我已经吃了这一剂药」,而不是「有人把药递给了我」。
而不是「有个人特地跑到你家把药递给你」那种意思。
对,完全就是这样。然后这一整套东西组合在一起其实特别酷。我只是想稍微给你一个很小的窥探而已。前面我已经说过,靠这些设备,我在该减重的时候确实能减下来。但还有很多纯粹方便性的东西。比方说,我的 App 会问我:嘿,你今天吃药了吗?我一般都是起床之后吃药,理论上不是非要那个时间点,但绝大多数时候确实是起床后。如果我白天某个时候打开 App,它就会弹出来问:嘿,你今天吃药了吗?
嗯。
如果这时候我点「是」,它就会问我:你是想自己填一个具体时间,还是说「就是起床以后吃的」?
对。
如果我点「起床以后」,它就会从 Google Health Connect 里把我的睡眠数据读出来,看我的手环记录我什么时候睡、什么时候醒。这样一来,即使我自己完全不记得具体什么时候吃的药,它也能根据起床时间推算出服药时间。然后我就知道——
这太、太酷了。顺便稍微扯远一点:我其实也会用到那个手机给出的睡眠概率预测——基本上现在每个手机都会算一个这种预测值嘛——我就拿这个当作 Home Assistant 里的触发条件,在一天快结束的时候自动帮我收拾各种东西。比如检查一下所有灯是不是都关了之类的,然后顺便跑一遍一堆维护任务,把那些布尔型的辅助开关按需要打开或者关掉。
对,所以说,这整套东西——
这、这真的非常实用。
真的超级实用。所以我在自己的 Dashboard App 里也做了一个集成:因为系统本身没什么一键「导出到文件」的功能,所以我这边的做法是,一旦我打开这个 Dashboard,而且设备在我的本地网络里,它就会把自己所有能拿到的数据全都发给一台服务器。然后那台服务器会拿这些数据做一堆有趣的事情——这部分我还在开发中。可以稍微提前剧透一下:将来它不光是帮我记录我吃了什么,还会主动给我生成推荐的饮食计划。
哇。
而且这些计划是根据当天的情况动态调整的,比如我今天都做了些什么、消耗了多少卡路里、喝了多少水之类的。
对,而且我觉得这就已经很疯狂了,因为往后还能扩展得特别远。比如你可以接着想:哦,好,那我最近买了哪些东西,可以一并纳入考虑?或者说,我接下来几天日程表长什么样?然后你就可以预先预测:好,比方说按照今天这个行程,你下班回家以后究竟有多大概率根本懒得做一顿大餐——
对。
——就是回到家之后嘛?这其实是——
没错。
——特别人之常情、特别正常的一件事,对吧?那系统就可以提前为这种情况准备一些方案。或者至少在计算里把这种因素也考虑进去,不要出现那种:啊,现在已经晚上八点了,App 还在给你推荐一顿超级豪华大餐的情况;现实里你可能根本一点都不想折腾。这类可以纳入预测模型的细节其实还有特别多。
对,没错。
那就真的很狂了。现在就差一个又贵又「智能」的冰箱,帮你把里面的库存也一起追踪了。
这个嘛——这个我真是一点兴趣都没有。虽然我也想过很多次。我这几年隔三差五就在脑子里过一遍:到底怎么才能在不被繁琐的管理搞死的前提下,做出一个知道自己里面到底有哪些东西的智能冰箱?结果一直都没想出靠谱方案,最后直接放弃了。我不会去做那种「我冰箱里现在有什么」的系统。我更倾向于这样:比如说,我刚刚临时买了一瓶汽水,那我就简单地在系统里记一笔「我喝了一瓶这个」。然后饮食计划就会动态调整,告诉我今天剩下的时间里最好还可以吃什么、不该吃什么。
对,是这样。而且你至少可以把所有购物小票都记录下来,把这些信息一并导进系统里去。对。
就像我说的,在这块我也大量用到 Open Food Facts 这些东西。我的那些 App 都跟它深度集成了。我还给 Open Nutri Tracker 加了功能,让我可以直接从里面向 Open Food Facts 和 Open Prices 贡献数据。要不然我肯定懒得弄,我绝对不会专门再开两个 App,在什么鬼界面里慢慢点。我就是扫一下条码,它就会对我说:停一下,Wieland,这个东西还缺几项数据,要不要顺手填一下再提交?我填完提交,它就同时记上一笔「我已经把这东西喝掉了」。
嗯,这就很好。
靠着这一整套东西,一切就都串起来了。然后在 Health Connect 里面其实还有第三类比较小众的数据类型。这一块儿的数据同样也需要一种额外的特殊权限才能访问。它在访问控制方面其实挺有意思的:只要一款 App 拿到了读取权限,它就可以读取所有其他 App 写入的这类数据。而且每条记录都会带着一些标准的元信息,比如是哪一个 App 写进去的,就是一个固定的元标签;设备名称也可以被记录;还有条目的来源方式,是手动记录(manually recorded)、自动记录(automatically recorded),还是推断出来的(inferred)。我当时就觉得这个设想特别好笑:从理论上讲,完全可能出现这么一条记录——我们又回到《Watch Dogs》了——设备类型 Device Type: Amazon Echo,记录方式 Recording Type: manually recorded,活动类型 Activity Type: sexual activity。[笑]
之前不是就有一集胡闹节目,标题都差不多的吗。
对,按照这个数据模型的设计,这样一条记录完全是被允许、理论上随时都可能出现的。
是的。
嗯,所以只要一款 App 拿到了读取权限,它就可以读取所有其他 App 写进去的东西。但它只能为自己写入和删除记录,只能删自己写的,永远不能删别的 App 的记录,这一点你在权限上根本就没法放开。Health Connect 的另一个很酷的点是,你可以直接请求聚合数据(aggregate data),它会很聪明地把不同 App 里的数据综合起来。不过这里我得说一句,你刚才其实已经暗示过了,这个在某些方面做得并不太好,尤其是步数。之前有很长一段时间,我的 Dashboard 每天都在对我说:Wieland,你太牛了,你每天走这么多步,超棒,这已经算训练量了,今天都不需要力量训练了。我当时心想:我真的有这么牛吗?[笑] 结果最后发现,是因为我既允许手机往里面写步数,我的健身手环 App 也在往里写步数。理论上这个系统本来应该很厉害,能把这种情况给算掉,懂得当两款 App 在同一时间段都报告了步数的时候,这些记录不应该简单相加。
对,对。
而是要做去重处理。但现实里它并没有很好地做到这一点,所以后来我干脆禁止手机再往步数里写数据,只保留手环那一边来记步。
是啊,不然的话,按设计本来就是希望你能把这些数据融合起来的嘛。因为有些人确实是为了健身效果,会把 Tracker 戴在腿上之类的。那样你手上其实是有更好、更可靠的、可以说是更「干净」的数据点的:一边是手机,一边是手表,还有人像戴脚环一样把设备绑在小腿上。按理说,这个系统应该能把这些信息好好融合起来才对,不过嘛……现实就是这样。
所以,除了步数这一点之外,其他地方其实都挺香的。API 里有个功能就很不错,你可以直接说:请给我从某个时间到某个时间的聚合步数,把重复什么的都算好。这个就非常爽。然后还有一点是,默认情况下,所有 App 最多只能往回看三十天的数据;你可以额外再授予一个权限,让它们可以无限期地往历史里读。刚才说的那第三类特殊数据里,还有一个类型是 GPX 轨迹,这点我简直爱死了。以前我一直觉得特别糟糕,因为我另一个项目其实很想要我所有徒步路线的完整轨迹,然后再把这些轨迹跟心率之类的数据叠加、做汇总分析。
嗯。
但在我原来的那款健身手环 App 里根本做不到这一点。运气好的时候,勉强能导出一个 GPX 轨迹文件,而且做得还特别烂:只有在我把数据同步到它家云端之后,才能把我走过的路线导出来,体验非常差。后来发现,其实训练时的轨迹本身就是 Health Connect 里的一个数据类型,只要拿到这第三类里的一个单独权限,就可以往里面写;任何拥有读取权限的 App 都能读出来。所以我干脆自己写了一个小导出工具。
太帅了。
接下来我还打算拿这些轨迹做一堆特别酷的东西。总之,就是这样——各位,Google Health Connect,真他妈牛。
Wieland,你根本想象不到,我前阵子呃在看发布说明、改动日志的时候有多兴奋。说实话,一边干这种事一边开心成那样,可能听起来有点怪。
我也会这么干。
行。
不过问题是,你说的是哪款软件的?
我说的其实就是 ESPHome。
好。
当时我是看,呃,让我想想,好像是 2026.5.0b1 这个版本,反正是个测试版——
好。
就直接看到上面写着:哦,有个家伙——我之前就只通过他在 GitHub 上的 ID 认识的那种——
嗯。
终于、可以说是好不容易,把他的代码合进来了,真正进到了当前版本里面,也就是把 Zigbee 支持并进来了。
好。
在 ESPHome 里,现在就是开箱即用的。
好。
之前它的支持特别受限,只能用在一种几乎没多少人用的芯片上,就是那个 NRF 芯片。现在则可以用在更常见的 ESP32-C6 甚至 H2 上,这些芯片本身就自带 Zigbee 支持。
嗯。
这就意味着,你现在可以直接用它来武装你自己的那些项目了。这点真的特别爽,因为你可以把各种、呃,各种传感器和二进制输入之类的东西,直接通过 Zigbee 去映射。而且你依然还能用到所有外部库的功能,也照样可以像以前那样把各种传感器模块集成进去。然后我现在正把我自己的那套软件稍微改写一下,试试看。因为我之前第一次尝试用那个 external component,就是可以把别人的 fork 当作组件直接拉进来的那个方式,其实不太成功。从技术上讲,以前理论上也能做到 Zigbee,只是必须通过这么一个外部组件,但在我这儿就是怎么都跑不起来,我一直没搞明白具体是卡在哪儿。现在这个可以说是最终版了,已经合并进 main 分支,而不再只是在 beta 分支里,所以我现在整个人都特别嗨。因为到目前为止,你其实只能用 Wi-Fi,简单讲就是:只能走 Wi-Fi。而真正支持 ESPHome 又能用以太网的设备,其实就两款。我印象里好像只有 WaveShare 再加上另一个厂商,做了那种可以真的用以太网接出来的 ESP32 板子,从理论上说那当然也行。但除此之外基本上都是:哦,你就是通过 Wi-Fi 连上去而已。而我现在已经自己搭了一个存在检测器,把它焊好了、写好程序了,运行得非常棒。
哦,太爽了。
可以说,它真的是那种特别强的即插即用。你不用再打开 Arduino IDE,在那儿想:‘好,我现在要在 loop 里写这个、那些指令都得自己调一遍才能跑起来。’完全不用那一套。你只要把自己的 YAML 配置写好,上传到 ESP32 上,就完事了,它就直接能跑。对那种自认为很笨的人来说也特别友好——大概就是这个意思。
太棒了。[笑] 我估计我们所有观众现在都会去装它。
立刻去下载。[笑]
爽。好嘛,一上来就这么冒犯人。
不不不。
爽。
总之对入门者特别友好。你真的就是在文本编辑器里写几行东西,上传一下就行了,完全不用写 C 之类的代码,只要用这种声明式的配置语言就可以了,基本上也没什么能搞砸的地方,可以这么说。
嗯。
这就相当猛。
这真是太酷了。
而且你这样也能省下特别多钱,比如自己拼一个存在感应器或者别的传感器,尤其是,呃,如果你想监测一些比较特殊的——
——参数的时候。比如说,呃,空气里的 CO₂ 浓度就是个挺棘手的话题,因为这东西基本上就是价格和数据质量一条直线正相关。特别坑,因为根本不存在什么便宜又好的小窍门。
是。
没什么窍门可走,也不存在说:啊,有个两三欧元的传感器就特别牛这种事,它就是线性按价钱涨。两欧的那种,基本上就是在编数据,它其实量的是别的东西,然后大概推个 CO₂ 值出来,纯属瞎估。到了三十欧左右才有相对靠谱一点的传感器,比如大家经常推荐的 SCD40。再往上你当然也可以为了测 CO₂ 花上几万欧,效果肯定逆天好,但问题就是:想要这种级别的效果,根本没什么捷径。
好。
用 ESPHome 你就能把这些很牛的传感器,直接接到 Home Assistant 或者任何别的系统上,这点真的特别爽。比如我现在还自己做了一个,呃,有线的漏水传感器。
好。
因为 Shelly 家那个漏水传感器,可以单独买一根线,其实本质上就是一根音频线一类的东西,它的外壳有一部分是导电的。这个产品特别有意思,本质上就是一根用来测电阻的延长线。就是它的,那些——[清嗓]
那个漏水探头的工作方式,就是单纯测量两个金属接点之间的电阻。
嗯。
而且如果你不需要特别精确——在这里确实也不需要,因为你只关心‘有水还是没水’——那完全够用。你只要加一个简单的电阻就能做出来:在这根线和 ESP32 的电源之间做一个分压器,然后把分压点引出来,用 ADC 量一下电压是多少。再把这个值带回分压公式里一算,就能知道——
啊哈。
——你就能算出那个电阻有多大。
好,嗯。
对。
是,我当时、我当时——
你就可以做各种电工的小实验,然后大概估出来:好,现在那边的电阻大概是多少。这个传感器线本身挺有意思的,我后来量出来,大概 1 兆欧是个很合适的阈值。可以说是:高于这个值基本就没水,低于这个值基本就是线缆上有水。它其实是一根音频线,我可能得再强调一下,它用的真就是那种 3.5 毫米耳机插头。
好。
它其实只用了那个插头上的 tip 和 sleeve 两段,你就随便按自己想要的方式用就行。至于中间那个 ring 怎么接的,我其实不太清楚,不知道它是悬空的,还是跟别的哪一段连在一起,这点我也没细查。[清嗓] 但总之你完全可以把它拿来做别的用途,自己去量。这个线的好处是,它不是某一个点探测有没水,而是整根线——大概两米或者一米半长吧——沿途哪里有水都能测出来。你甚至可以顺带把门磁之类的东西也接上去,这样它们当然也都不用单独装电池了。因为在智能家居里一个典型问题就是:‘好,我这周又该换哪块电池?’——我这是稍微夸张一点的说法。
对对。
要不然你每个地方都得用某种专用的小设备——这是从最糟糕的情况来讲。用这种做法就多少能绕开这个问题:在一个地方集中放一块 ESP32,然后把这个房间里想要的所有传感器都往那儿接,相当于都汇总到一块板子上。这样整体用起来也就轻松多了。
是的,Jona,我俩最近可不只是在那種 we have been cooking 而已。不是只是在那種年輕人口中說的 login 啊、做這做那、到處折騰,而是前不久不是剛開完 Google I/O 嗎,就是 Google 的那個大會,他們上去各種誇自己多厲害、接下來又要發佈多少新東西。老實說:holy moly,這次真的是一場 Google A‑I‑O,幾乎全是 AI。也就是說——
[笑] 嗯。
整場基本只在講人工智慧。
就是——
真的就只有這個。
嗯。
就,反正就是那樣,呃——
就是說嘛,我現在聽到的一個例子是,他們基本上就是要把那個 Google 搜尋框,多少有點變成一種萬能工具。然後還特別怪的是,他們好像還把那個叫什麼來著,Google Books 之類的東西單獨拿出來發了一次,技術上算是另外一場活動,就在 I/O 前不久。所以整個發佈節奏好像哪裡怪怪的,好像他們在大發佈之前又硬插了一場別的發佈進去。
單獨拿出來講了一遍。
對,那其實就是我們要聊的其中一個大點。但這次東西實在太多了,都挺酷、也挺炸的,說實話到現在我都有點累了。基本可以總結成:只要是 Google 的產品,多多少少要麼給你搞一個面向 Google Ultra 訂閱用戶的那種把你所有事情都交給它、它幫你全包辦的功能,要麼就是每一個搜尋框都要變成一個智慧代理入口。你剛才說得對,他們特別驕傲地說:我們二十多年沒動過的搜尋框,這次要在第 20 年徹底改變功能。等於是 Google 想用這種辦法重新把市場抓在自己手裡吧。我覺得是因為他們開始有點慌了:大家越來越不是去 Google 搜東西,而是直接把想搜的內容丟進 ChatGPT 裡。
對。
所以 Google 現在就想分一杯羹嘛,他們等於是在說:我們的搜尋框也可以做到這一切。不只是做一個所謂的 AI 模式,而是你隨便在搜尋框打一句話,它就當成是跟 Gemini 對話的開頭。然後當然,還有那個非常唬人的 Gemini Omni,就是號稱什麼都能接、什麼都能出的模型。也就是當年說 GPT‑4.0 要做到的那種效果嘛,還記得吧,當時那個 O 就是 Omni 的意思。
嗯。
對,它號稱真的是從一切到一切。還能生成在物理上看起來很合理的影片,這一點挺誇張的。除此之外,所有東西都要往智慧代理那個方向走。連 YouTube 現在也要做那種,你在搜尋列裡不是搜影片標題,而是直接打:給我解釋一下怎麼學騎腳踏車。然後搜尋就會利用整個平台的影片,給你拼一個相關片段的合集之類的,或者直接說:來,點這裡,影片會自動從正好講到關鍵步驟的那一秒開始播;接著又說:再點這裡看下一步。大概就那樣。
哇,
然後第二條主線基本就是:一切都要代理化。Google 現在還要推一種東西,會在後台幫你幹活。整體非常、非常偏向那種智慧代理,重點就是:你跟 Google 說點什麼,它就會替你在背後幫你把事情搞定。
啊,對。
不過呢,他們還又提到了那個——我覺得用詞、整個行銷包裝都特別怪——就是再次發佈的 Smart Glasses。去年的 Google I/O 上其實已經發過一輪智慧眼鏡了,我們還專門聊過一集,你記得吧。
記得。
對,當時是說 Google Glass 要回來了。這一次在 I/O 上他們說:順便提一句,那款完整的 Smart Glasses 還要再等等才會上市,不過我們現在會先發一個衍生版,今年秋天就會出,是只有聲音的眼鏡。它們在外觀上跟那種帶顯示器的版本差不多,有麥克風,也有攝影機——對,它是有攝影機的,這點發佈會上經常被一筆帶過。但它基本上跟完整版智慧眼鏡的硬體一樣,只是鏡片裡沒有那個投影顯示。
對對對。
然後他們做了個示範嘛,一個女生站在台上,說:嘿,Gemini,我想去我上次去爬山的那個地方。好像就只說了我想去上次和我朋友一起去爬山的那個地方之類的。然後 Gemini 就——唉,對不起啊 Jona,全場觀眾都覺得這功能酷爆了,但我聽到這裡只覺得特別反烏托邦,我只想說:這還是別幹吧。
嗯。
然後眼鏡就自己開口說——
對。
——這正是 Google 想拿來展示有多厲害、你有多需要它的點嘛。眼鏡就說:當然,我會幫你導航到你上次和 Sarah 去爬山的那座某某峰。照你平時的習慣,這個時間你一般都會在你最愛的那家店買咖啡,要不要我順便幫你下單?我可以給你規劃路線,路過那家店把咖啡取走。
哎喲!
然後那個女生就說:好啊。眼鏡就回:行,我已經在 DoorDash 上幫你下好自取訂單了,會給你規劃路線,讓你剛好在咖啡做好時到店裡。
兄弟……
我可一點也不想要自己的眼鏡對我說:順便一提,你這個時間不是平時都會吃麥當勞嗎?要不要我直接幫你下你那份老套餐?
[笑]
再加上這種,怎麼說呢,凡是送餐平台的東西我都特別容易被觸發,我總覺得:這玩意兒普通人哪吃得消啊。[笑] 我自己是絕對不會隨隨便便就——在我們這邊就是像用 Lieferando 那種——動不動就下一單外賣。
因為這玩意兒真的是,因為,這太貴了——
就像隨口一點一樣。
對啊,那可比你自己去店裡買貴太多了。各種手續費、這個費那個費,還有什麼 service fee、service charge,一層一層往上加。
然後哪天眼鏡突然問你:哦,你想喝咖啡?行啊,我已經給你點了一杯 12 歐的咖啡,自己去取一下吧。
嗯。
雖然說這還不至於誇張到直接幫我買一套三千五百美元的西裝,但我已經完全不想被這樣對待了。
是啊,不過這其實就是在替代一個私人助理嘛。從某種意義上講,它已經算是了。但也不一定非得用在花錢的地方,就是那種隨手就下單、超出自己預算的事。比如說像你剛才那個隨便就買西裝的例子,它甚至還會直接從你的身體資料 API 裡把你的尺碼調出來,然後說:好,我知道你各項尺寸了,直接幫你下單一套合適的西裝。西裝送到你手裡,你就只剩覺得:哇,好爽。這當然是另一個層級。但哪怕只是比較基礎的用法,比如說:幫我找幾家住宿,風格和我平時住的差不多的。然後它給你列出三四個選項,你一看覺得:欸,外觀和價格都挺對胃口。接著系統再從你的這些選擇裡學習,你就再也不用經歷那種唉還得先坐下來花時間在網路上翻半天資料的過程,而是完全讓它替你跑這些流程。
對。
這樣一來,你每天就又能省下一大塊時間。
當然當然。所以我才說,主要是那種——就是這種、這種,我也知道這對我來說有點自相矛盾:一方面我覺得這些 AI 東西都超酷,另一方面我又特別討厭這種橫衝直撞式的消費主義,整套消費邏輯在我看起來蠢爆了。就是——
我也是啦,不過說實話也沒必要把它用到那個極端。你完全可以不按那種瘋狂消費的方式去用它。
嗯。
但問題就在於,你又給自己打開了一個新的攻擊面。一來你得分享更多個人資料,二來你也會對廣告變得更脆弱、更容易被拿捏。
對。
因為很可能某些品牌會和做你這副智慧眼鏡、做背後那套 AI 的公司達成合作。
是。
然後你這邊就直接又完蛋了。
我說的就是這個。他們在台上還示範說:oh, you can make shopping more fun by not having to search everything yourself 之類的。我看到那個 demo 的時候整個人在翻白眼:喔天哪,比如你說我想要一頂草帽,得滿足這樣這樣那樣的條件,然後代理就特別聰明地幫你找出一個完全符合你所有要求的商品。我心裡想的是:好,那我怎麼知道,有沒有一款更便宜、同樣滿足這些條件的產品被你給過濾掉了呢?唉……
唉,總之吧,這一整塊我都覺得挺煩人的,但從一開始其實也能猜到他們一定會這麼幹,畢竟 Google 本質上就是一家靠廣告吃飯的公司,這點很清楚。
嗯。
另外還有一個發佈我覺得挺有意思的,也多少能看出來他們接下來要往哪邊走,接下來會有點科幻。以後在 Google 搜尋裡,你問某些問題時,Google 會即時幫你生成那種解釋型介面或者小模擬器。這個想法本身挺酷的,我也很好奇它會發展到哪一步。因為我前陣子剛好發現了一個叫 OpenUI.com 的東西,這玩意兒想深一點其實挺野的。他們現在已經圍繞它搭了一整套網路。你知道,現在大家都在炒 Open Claw 啊,所有人都恨不得搞個 Claw agent 出來。
對,然後 Google 現在也在試圖把自己那一套東西往這個方向纏進去。
是的,不過所謂的 Open Claw OS,其實就是靠類似 OpenUI.com 這種東西來驅動的。你聽好啊 Jona,這個設想真的有點離譜。我不知道技術最後會不會真往這方向長,一方面它聽起來挺有道理,另一方面在我這種老程式員眼裡又覺得非常浪費資源。想像一下:OpenUI 只是一個標準,可以配合任何大模型使用,本質上就是一門描述語言,你通過在下一個 token 預測裡做約束,只允許模型輸出特定格式的內容。它長得很像一門程式語言,但作用只是描述一個使用者介面。模型的任務就是輸出這種 UI 描述,然後交給專門的渲染器去畫出來。接下來這個點就來了:一個基於 Open Claw 的作業系統,它的輸出除了呼叫各種工具函式之外,不再是普通文字,而是永遠輸出當前 UI 的描述。也就是說——
喔,那其實就相當於一個巨大的自動機,從某種意義上講。
對,就是系統收到一個事件:使用者點了哪個按鈕,然後下一步的回覆就不是一句話,而是整個現在介面應該長什麼樣的描述。
對對對,本質上就是個狀態機嘛。然後每一步就再推進到下一個狀態。
沒錯。
而且它還要自己記住之前發生過什麼。但我覺得,這大概是目前為止在拿大砲打麻雀這條路上走得最遠的一個例子了。
是的。
我大概會這麼說,真的……
而且這不是說做一款應用,而是要把它當成整個作業系統來幹。
對對,這簡直就是一個,呃,一個……笑死人的設計。
是啊,想像一下:你不是點什麼選單、再點開啟計算機,然後後台起一個應用程序;而是系統只告訴大模型:使用者剛剛點了開啟計算機。然後問它:那現在介面應該變成什麼樣?
對。
然後模型就現場把介面給你生成出來。好處是,你面對任何一種資料,都能直接得到一個量身訂做的 UI。這其實挺有意義的。比如說你有個資料分析代理,你跟它說:幫我分析一下我最近所有點擊資料之類的。模型看到原始資料,就會想:喔,有這些欄位、這些結構,那我應該這樣那樣來展示,於是就現編一個最適合這批資料的介面。
好,好。
但要拿這個來做完整作業系統,我就不太確定了。還有一件事我覺得超級有意思,雖然只是在 Google I/O 的邊上提到——呃,反過來說,是在他們專門給開發者開的那場 I/O 上講的。我對那種純音訊智慧眼鏡其實挺有興趣的,在開發者專場裡他們展示了,把這些東西接進現有應用其實有多簡單。我整個人都很心動,特別想自己給這種眼鏡寫點應用。所以它們一上市我多半會買一副來玩,主要就是想自己寫 App。比如說,我很想做一個能更方便給 OpenStreetMap 錄入資料的應用。我想像的是:我只要看著某個東西——手機知道說,在 OpenStreetMap 裡這是一條長椅,而且某些資訊還沒填完——然後眼鏡就提示我:這條長椅有靠背嗎?我說:有,它就自動寫進去。我抬頭看一棟樓,它問:這棟樓幾層?我說:四層,它又記下來。這種體驗我覺得就特別酷。
真的,我也覺得很酷。不過我這裡還有兩個顧慮。
好。
第一,你大概還是得要那種帶內建螢幕的版本。雖然理論上不用也能做,但有的話體驗會爽一萬倍。
對。
這毫無疑問。
誰知道那一代什麼時候才會上市。
對啊,誰知道什麼時候有。第二個嘛,其實也許我們只要再往前多想半步就行。
現在——
你是有攝影機的。
對,我——
這就是關鍵:你有攝影機。那個代理系統其實完全可以自己判斷:好,我們知道附近有哪些資料在 OpenStreetMap 裡還沒有被標註。
我懂。
然後它可以說:喔,你現在就剛好在這些點附近。而且這些東西可以很好地按地理位置爬出來——
對。
——知道你周圍還有什麼沒填的點。接著當你路過時,它就可以用你的帳號自動提交通過攝影機識別出來的修改。也就是說,它拿到相機畫面後會想:好,Wieland 現在剛好從一條長椅旁邊走過,而這條長椅在地圖裡還有幾項資訊沒填。那我就直接從畫面裡把能識別到的都補上。只有那些它實在看不出來的東西,才會問你,比如說需要精確尺寸、相機本身又估不準的項目。這時候它才會說:欸,這裡還有一項缺著,Wieland,如果你願意的話,可以幫忙補一下。
對,我也是這麼想的——老實說,這也是我腦子裡蹦出來的第一個方案。但後來我又拿現實情況給自己潑了點冷水。
是,這就是那種比較現實一點的版本,
因為就我以前自己做過的一些實驗來看,這類自動識別的效果,歷史戰績可以說是挺拉胯的,說難聽點就是挺爛的。
這也確實。
不過這話題其實剛好又把我們帶到 Google I/O 上,我覺得另一個特別有意思的點,就是他們在開發者專場裡也提到的 Gemma 4——Google 自家的開源模型系列。其中有一些變體小到可以直接在智慧型手機上跑。
嗯。
像什麼 Gemma 4E 2BIT、4E 4BIT 之類的。如果你們想試一試,Google 在 Play 商店裡甚至放了一個叫 AI Edge Gallery 的官方 App,你裝上以後點個開始就能跑。這些模型本身就是專門為做代理式任務訓練過,支援 function calling、tool calling,又是多模態的,可以看懂圖片。想想看,這可是個只佔大概四個 G 的模型,就能在你手機上跑,你們完全可以放鬆了。當然體量不算特別誇張,但可以為了特定應用場景給它做微調,而且過程還算簡單:租塊 GPU 跑一會兒就能搞定,之後再匯出到手機上。我覺得這裡面潛力特別大,比如說我就能在自己手機上跑一個專門訓練過的模型,它只負責識別長椅有沒有靠背,還有我在這個 App 裡想要自動查詢的其他東西。
對。
然後最後可能只需要加一個很小的——反正 OpenStreetMap 規範裡本來就有這一條——必須要有人類做最終確認。但如果我們真想把這個流程塞進日常生活裡,也可以設計成:我只要看一眼某個物體,手機就只給我一個回饋,比如說已識別:這條長椅有靠背。
嗯。
如果我沒有出聲打斷它,那就默認這個識別是對的、可以提交。
對。
就,大概可以這麼幹。嗯。
那如果還能把這些資料即時標註到實際的物理位置上,那就更誇張了。如果這副眼鏡允許你把資訊直接掛在物體上,就好像在那個地方貼了一個標籤一樣。也就是說,這個彈出的視窗會跟著你頭部的動作一起移動,但始終對準那件物體,比方說告訴你:好,我剛剛在這裡加了一條標註。
嗯。
然後你就可以說:喔,好,我不會去改它,這樣就行了。我其實都不知道這副眼鏡有沒有——它理論上必須要有慣性感測器吧?必須?對,或者至少也該有一個羅盤、方向感測器之類的,好讓眼鏡知道我此刻視線朝著哪個軸在轉。我真不確定它們有沒有配這些。不過照理說,就簡單點講,這些感測器因為被手機和各種手環、手錶用爛了,體積早就小到幾毫米級別了。如果眼鏡裡還不塞一個,那也太離譜了。我能想像他們不裝的唯一理由就是:我們自家這代產品根本用不到。就好像在他們眼裡,只有他們自己能決定會有人拿這個幹嘛。我完全能想像 Google 內部會說:反正我想不到有什麼是不能只靠攝影機畫面、地理位置再加上使用者語音輸入來實現的,那就別裝額外感測器了。尤其是這代又沒有顯示器。要是有 AR 顯示,大家就會說:那我要一堆東西在空間裡飄來飄去,這時候當然需要慣性感測器。對,你肯定是想要把標註直接 AR 疊加到現實世界上,而不是只給你一個 2D 小視窗,或者一條純文字清單,那顯然不是最理想的用法。把它和 AR 結合起來才是那個又酷又重要的方向。——不過呢,Jona,如果我們再往前腦補一步,那歐盟只需要再搞一個把所有公民個人資訊都塞進去的資料庫就行了。然後呢?然後!事情就精彩了,砰。[笑] 但說真的,Jona,雖然現在所有人都撲在那些超大模型上,一天到晚在那裡哇 Google 又整出了什麼,這個 demo 多厲害——比如現場那個,他打開 Google Keep 一邊隨口亂說一會兒這樣、一會兒喔不對不要那樣,模型都聽懂,還能整理得很漂亮——但我個人其實是對本地模型特別有興趣的,或者至少是能在我手機上跑的模型。對我這個 App 開發者來說,我現在做的一個應用裡還在用 OpenAI 的服務,問題並不是說隱私不好之類的,而是:這玩意兒我要出錢啊。對。不過你知道,這個方向肯定會發展起來的,我們只要回頭看看計算史,然後把同樣的模式往現在一套就知道了。最早那批大型機最後變成了什麼?它們是怎麼演化的?當年哪些工作負載只能在大機上跑,現在都已經能在終端設備上搞定了?AI 也會一樣地走向那一步,我們會經歷一次非常極端的去中心化。當然,這不代表大型機或者伺服器會消失。嗯,對,它們只會繼續進化,就像現在我們看到各種 EPU、各種專門為了 AI 設計的加速卡一樣。歷史就是不斷往前推移:以前必須在伺服器上跑的東西,現在完全可以分攤到終端設備上。比如最基本的,你在本地維護一個資料庫,跑個簡單演算法在上面分析,這些現在每一台智慧手機、每一塊手錶、甚至大多數智慧烤麵包機都能幹。是吧。所以我才說——我也覺得接下來會往那個方向發展,就是所謂的邊緣 AI,也就是——
這些邊緣 AI 應用會一下子發展得特別快。很多以前、或者現在還得跑在伺服器上的任務,將來都可以跑在本地的小模型上,這些模型也就只是,[笑] 嗯,只是區區幾十億個參數而已。
對,對,就是像你剛才說的那種嘛,只要四個 G 左右大小、只有幾十億參數的模型,就能直接在這些設備上跑。只要把模型本身好好做壓縮、剪枝、優化,其實就夠用了。終端設備本身都不一定非得效能翻十倍,只要我們把模型更針對性地調校,讓它更有效率地完成特定任務就行。伺服器當然還會繼續存在,只不過它們會去幹比現在更重、更複雜的活兒。嗯。而且我得說,我——
我現在越來越覺得,我以前那個小預言好像真的在慢慢成真。我當時老愛幻想,說:就像現在每家每戶都有一台路由器,將來每家每戶都會有一台 AI 盒子。我現在真能想像出那畫面:大家家裡各放著一台 AI 盒子,可能 45% 的人用 Google 的,45% 的人用 Apple 的,剩下 10% 用的是自己折騰出來的,或者基於 Linux 的什麼東西。這樣其實也挺好,只要我們還有這種選擇空間。但這種格局本身也不可能永遠不變。最典型的例子還是個人電腦的發展史:一開始,家家戶戶有一台電腦幾乎是不可想像的事。後來到九〇年代之類的,慢慢變成每個家庭都會有一台 PC,可以坐下來上網、寫文件等等。再到現在,其實大家已經是徹底去中心化了:每個人褲兜裡或者手腕上都有一個能幹這些事的終端設備。
對。
沒錯,所以我會猜測,這條路大概也不會像有些人想像的那樣發展——比如說遊戲領域也沒有真的發展成:家裡有一台超強中央遊戲 PC,然後通過區域網串流,把這台機器的算力分給一堆終端,讓它同時繪製八個遊戲,每個人在不同房間玩自己的那一個。這個畫面當個門外漢的美夢可以理解,但現實並不是這樣。最終還是每個人有一台自己的終端設備,遊戲就直接跑在各自的機器上,或者說每台設備至少有自己的一套公共 API 之類的。
對。
也就是說,它的介面可能會像我們之前提到的 Google Health Connect 那樣,相對開放一些,而不是說:好,現在每家都在地下室放一台家庭 AI 伺服器,花個五百歐一買完事。
嗯。
對啊,當然。從我的角度來說,其實也完全沒必要非往你地下室那台 KI 伺服器那個方向長。完全可以是每個人終端設備上的私人 AI,這樣也很好。我在意的是別的:我們之前先是有聊天機器人,然後現在有了代理,而且代理正在走向主流——像 Google 就準備面向所有普通使用者推這玩意兒。如果再往後多想一步,我就會想到 Sam Altman 描述的那個願景:不僅僅是我給代理派一條任務,它出去幫我辦完這麼簡單。他老是講,他真正的夢想是有一個代理,我對它說:給你存取我整個人生的一切資料。
請你主動替我做一切能改善我生活的行動。我不想一條條下指令,你就在後台自己幹。
對。
這種東西我也會覺得超爽,但前提是它必須在本地跑,而不是歸屬於哪家公司的雲服務。否則他們第一反應永遠是:怎樣把改善 Wieland 生活這件事變成我們賺錢的手段?如果這件改善對我們沒利潤,那就不會被執行,只有能賺錢的改善才會發生。不行的,Jona,真的不行。
嗯。
拜託千萬別這樣發展下去。
唉。
這就必須是一個在我這邊本地跑的模型,只為我一個人服務,它唯一的動機就是幫我過得更好,而不是任何別的。
對。
是啊。[笑] 反正就看看最後會往哪邊走吧。這其實也是個特別好的例子:我剛才一方面在說商業利益的問題,另一方面也還是隱私問題。像我剛才講的那個設想——把我所有 Health Connect 的資料,包括性活動之類的條目,全都丟給一個代理,讓它去看:把我整個人生中能量化的東西都看一遍,然後告訴我:為了讓我過得更好,我應該改哪些地方。我是絕對不想把這些東西交給 Google Cloud 或 OpenAI Cloud 的。我更希望有一台設備,就放在我家櫃子裡,在最糟糕的情況下,我還能拿根棒球棍——
對。
——直接把它砸了,至少從物理層面保證這些資料不會再跑出去。
沒錯,對。
就是這樣。所以我才會這麼在意這些事。
而且啊,Wieland,你再想像一下:哪天你戴著 Google 眼鏡特隨意地在街上溜達,悠哉悠哉地過日子。然後眼鏡裡那個代理流程自動幫你把一切都分析好了,突然跟你說:喔,我從你的聊天紀錄和購物紀錄裡推斷出,你兩天後要去約會,而且我也知道你家保險套庫存已經非常低了。所以我已經替你在 Amazon 上下好單了,保證到時候你裝備齊全。這多好,是吧。
然後我當然——
這時候 Wieland 就會說:太完美了,爽。
而且我當然早就在 Google Health Connect 裡,把那次性活動預先錄好了,ProtectionUse 欄位設成 True。如果 Amazon 的包裹一不小心晚到,我就立刻自動把它改成 False。
爽。[笑]
[笑]
完美,我毫無補充。
哎,是啊。
好。[清嗓子] 嗯。
嗯,也是啦。
好。
我、我其实还有第二个补充——
好,请说,请说。
回到这个话题。呃,我们之前也聊过,说在美国那边,其实连健康数据都要真的一并喂进 OpenAI 的数据里去。我记得我们在上一次还是上上一次 Crunch-Time 那期里已经讨论过。然后现在到了下一步,他们打算用一个叫 Plant 的软件,把所有金融数据也做成可以导入 ChatGPT,这样里面就可以直接写:好,我们来做个预算拆分,我现在每笔钱到底花在什么上面?
嗯。
那我现在还能怎么优化自己的个人财务呢?背后的想法当然就是:已经至少有二十万个 ChatGPT 用户经常问理财、个人财务的问题,如果能这么用就会特别爽。然后它就能给你各种预测,比如说:“嗯,你要是那次少买一杯星巴克咖啡,现在就买得起这个别的东西了,可惜啦。”或者:“哦,我看到你上个月花了一百五十欧坐电动滑板车,来,我们想点别的方案吧。”
你懂我意思吧。就,LOL。
对。
这、这要是也整合进去就真的挺夸张的,相当于可以直接访问你在美国的 Schwab、Fidelity 之类的账户,各种东西,因为那基本上就是一种、怎么说,一种中央化的银行 API。
嗯。
而且我也觉得挺怪的,以前居然一直没在这种规模上出现过这种东西。
Jona。
就我所知是这样。你现在要来纠正我了吗?
哦,Jona,我其实本来不想提,但得跟你讲一件事,就是跟理财工具和银行 API 有关的——
好。
我也可以跟你说说,我之前、包括现在都在怎么研究这些东西。因为——呃,我得稍微注意点,别太像是在抹黑人家——有一家银行试图把我挖过去。
嗯。
他们给我做了非常长时间的咨询和游说,然后拿一个我当时觉得挺棒的东西来当卖点:一个帮我自动化理财的系统。他们大概是这么说的:“嗯,看你平时花多少钱,就可以自动存一部分下来;当这笔存款在活期账户上达到某个数额之后,超过这条线的钱就会自动进投资账户,一部分进养老金之类的产品,等等等等。这一切都超级酷。”我当时就想:这听起来确实挺酷的,这东西我挺想要。
对啊,而且像我这种本来就对这种自动化感兴趣的人,能把这种东西一起规划进去当然是爽炸了。
嗯。
但是——
只是给你们补个背景:后来我确实也给 Wieland 提了个理财建议,就是在我看来,那家银行多少有点像骗局。嘛,“骗局”这个词怎么定义本来就挺难的,但我是以我个人的看法、私下这么跟他说的。然后——
因为这种情况其实挺常见的,尤其是像这次说的这种账户套餐,一旦你自己的账户不再是自己手动掌控,而只是屏幕上的几串数字、钱在不同账户之间怎么流来流去,你就看个记录而已;在最糟糕的情况下,他们当然还想每个月从你这个账户体系上再赚一笔服务费——这大概也不难理解。然后我的判断是:这很有可能会变成一个很大的财务陷阱,因为他们最后就可以跟你说:“你看,你签的那份东西第 123 页写得清清楚楚:要是你想把这个东西解约呢,那就得先满足这二十条条款。”之类的。所以这类东西总是挺麻烦的,我最后就建议他,别为了这个去折腾,用不着把事情搞得更复杂,更别因为这个被人坑了。
对。让我震惊的是,他们老在强调,这家银行已经把这个系统申请了专利,世界上别的地方根本没有。
是啊,这就——这种东西其实特别通用嘛。基本上每家银行都会声称自己跟别人完全不一样,但是,嗯,是。
对的,Jona,然后剧情反转来了:我后来去了趟自己原来的银行,现在也已经搞出了同样的东西。虽然不是完全靠我银行自带的工具,有些功能要自己再弄一弄,但我最重要的发现是:有一个通用的银行 API,Jona。
啊?
但最精彩、最爽的反转还在后面。
好。
已经有现成的库,甚至是 Python 库,你可以直接用它来干这件事。
lol。
不过前提是,你得先在德国的银行业那边注册一个金融产品。
嗯。
我现在给你念一小段,在德国银行业登记在案的金融产品名单(节选)。
好。
Trade Republic。
嗯。
Finanzguru。
Wielands Autofinanz。
[笑]
嗯,爽。
[笑]
对。
不不不,但是、但是这真的挺爽的。
你、你能说一下这个 API 叫什么吗?它有一个具体的——
这个东西叫 FinTS。
啊,行。
而如果你要——
这、这我就觉得特别爽——就那种:“哦,好耶,我还可以自己再额外做一层自动化。”你等会儿肯定也会接着说这个,
对,对,这大概就是思路。我现在也还在搭这个东西。对我来说最重要的就是:我想通过 API 访问自己的账户,比如看一眼还剩多少钱,然后就可以设个规则说:“好吧,其中二十个百分点丢到投资账户里,剩下的再分到别的地方。”之类的。用这个就能做到。然后我还可能会搞点类似奖励机制的东西:如果系统判断说,账户里确实有钱可以拿来犒劳自己,那它就去问我的健康系统:“Wieland 今天有没有完成他所有的目标?”
今天 Wieland 乖不乖啊?对吧。
Wieland 今天有好好运动吗?
哎哟,哎哟,
Wieland 今天是不是没有吃巨无霸?这样,呃,如果这些条件都满足了,我就可以在一天结束的时候,给自己授权一笔 5 欧元的转账,把钱从活期账户挪到那张、呃、消费信用卡上。
爽。
然后,呃,唯一的缺点在这儿。我也理解他们为什么要这么设计,因为“让脚本自动操控你的账户”这件事本身就挺狠的。呃,所以我不能像平时那样,简单地用手机 App 的 TAN 验证流程搞定。
嗯。
也就是说,我不能那样简单操作:一触发操作,我手机上就弹出一个“这个操作可以吗?是/否”的确认框。相反,我必须走那种 TAN 流程,这点有点可惜。意思就是:光在手机上点个“是/否”是不够的,手机会给我生成一个 TAN 码,我还得想办法把这个 TAN 尽可能安全地——反正不能通过 Telegram——再传回跑脚本的那一端。
对。
这样脚本才能拿到 TAN 来完成授权。这块现在还有点复杂,我得再研究研究。但总之,Jona,这是可行的,账户是能自动化操作的。只是——
你就得在编程上稍微绕个弯儿——
得——
把这些零碎的部分,呃,这么说吧,再都串联起来。然后,对,如果这中间哪一步被人利用了漏洞,或者你用来传 TAN 的那个聊天软件顺路把一切都监听走了,那就彻底完蛋了,
是。
而且最糟糕的情况,你基本得默认他们就是在听。
对。所以这一块真的得好好盯着安全。但无论如何,Jona,这事是能做成的,也就是说你要玩这种自动化花样,大部分银行其实都支持。就连我自己的银行——我绝不会说它是什么现代化先锋,我觉得——
行。
就是我一点也不会把我的银行跟什么新派券商联系在一起,也不会觉得它像 Revolut 那种宣称“我们没有网点,我们只有 App、App、App,一切都在 App 上、一切都数字化、都是 AI”的银行——我的银行其实非常传统。
嗯。
但是,呃,就连这么传统的银行都已经接入这个 FinTS 金融系统了,所以你们自己的银行十有八九也是接入了的。
对,对,好。
所以这只是个小小的岔题:要是真的想把这种东西自动化,其实是可以做到的。
从五月初开始,Linux 内核里就被发现了几处比较大、而且非常严重的 Bug。这段时间新闻里也吵得特别厉害,因为实际上,几乎所有跑 Linux 的系统或多或少都受影响了——只要底下是 Linux,就会中招,因为这是内核里一个特别基础、特别底层的问题。
嗯。
而且现在已经有好几种不同的漏洞了,比方说,呃,Dirty Pipe、Dirty COW、Dirty Frag 还有 Copy Fail 之类的。就是真的有一堆这种名字都差不多、原理也有点类似的漏洞,可以这么说——
对。
它们虽然名字相近,但细节上还是各有一点点不一样。我现在就不特别钻进特别硬核的实现细节里去了,那样讲下去会太夸张。不过我可以大概解释一下这些利用是怎么工作的:内核里有一类接口,可以让你往页缓存(Page Cache)里写入四个字节的数据。具体是通过哪一个接口,要看你用的是哪一个 exploit,每个漏洞利用用到的入口都不一样。那这时候你就会想:呃,才四个字节,好像也没多少呀。
是,这听起来不多,但关键是你可以把这四个字节写到任意位置上去。这当然就意味着,在理想情况下,你可以直接改掉 /etc/passwd,或者把那个、就是那个 su 可执行文件本身给改写掉。
对。
这样一来,一个普通用户只要跑一下这个脚本,就能马上在这台机器上拿到 root 权限。嗯,这当然就非常严重,因为你还可以借此从容器里逃逸出来。因为就算你在用 Docker 容器,底层的页缓存逻辑上还是共享的。
对。
整个机制大概就是这样。所以并不是说每一台机器都有一套完全不同的行为,你在各种环境下——包括托管在云上的服务器上——都真有可能利用这个洞逃出来,一旦成功基本就可以说是 rip、系统直接宣告完蛋。之所以会有页缓存这个东西,本来的原因是:如果每次读写都直接打到磁盘上,那就太慢了。你得不停地把所有数据写回硬盘,再把磁头挪到合适的位置,然后再把要读的那块数据读出来,这一整套流程会耗费非常长的时间。为了解决这个问题,才有了 Page Cache:先把数据按「页」缓存在内存里,再按页成批地刷回磁盘。这个在大学里上操作系统课的时候一般都会学到——数据是按页写回去的,系统也会定期、按一定的间隔,把这些页重新同步到硬盘上,这很正常。
但在这些漏洞利用的场景里,就有一个特别有意思的点:系统完全察觉不到这些页被你「动了手脚」。因为这里 Page Cache 在安全检查时几乎是被忽略的,那些检查其实只看磁盘上到底写了什么。也就是说,它会去硬盘上看一眼:我们之前为这段数据算出来的哈希值,和现在磁盘上这一块数据算出来的哈希是不是一致;而这个检查无论如何都会通过,不管你在 Page Cache 里改了什么。原因就是你只动了缓存本身,并没有去改那份真正写在盘上的数据,而这些哈希值其实是针对磁盘上那份数据算的。结果就是:只要你不重启系统,或者不手动把那一页的 Page Cache 标记为失效,这个状态就会一直保持下去。理论上你在 Linux 里当然可以用命令去手动清掉这些缓存页,但现实里没人会因为随便起个怀疑就去清页缓存,这点我觉得挺直观的,对吧。
所以现在的状况就相当糟糕,因为这个问题大致上影响到了 2017 年以来的所有 Linux 发行版。想真正把洞补上,你基本上就得拉一个带修复的新内核版本下来,不管现在是 6.3.1 还是他们已经更到哪儿了,总之得升级到比较新的 Linux 内核,否则系统真的就是 rip。更要命的是,这一批漏洞其实全都是借助人工智能工具才被挖出来的。
对。
这次那个安全研究员是真的把 AI 当成主力工具来用的,让它疯狂地去搜这些东西。不过现在的 AI 还做不到那种从头到尾完全自主把整个利用链都想明白、自己设计出一整套攻击流程的程度,还没那么夸张。当然,这也要看你肯往里砸多少钱;你要是说「好,我给你一千欧的算力预算随便烧」,那可能真能跑出这样的效果。但在比较现实的、受预算约束的情况下,光靠 AI 目前还不行,它还是需要人来辅助。人类研究员要不断给它指路,说:好,我们沿着这条方向再深挖一下,看这里还能不能做点什么;或者想到「哦,其实这里还有一个想法可以试试」。这次大概就是靠这样的「人机协同」才跑通的。
这也印证了之前的一个预测:接下来会有很多安全漏洞是借助 AI 被发现的。现在在 Linux 内核这块就已经经常发生这种事了——AI 会报出一大堆规模很大的、但其实比较小、比较无关紧要的弱点。然后本尊,也就是 Linus Torvalds,他本人就写过帖说,自己现在已经被这堆新开的 issue 给彻底淹没了。这些 issue 绝大多数其实都是彼此的重复,可是提 issue 的人根本没看懂报告到底在讲什么,也不会先去看看是不是已经有人修过,往往就是把 AI 的输出原封不动贴进 issue 里就算完事。他们完全不了解自己贴的东西到底意味着什么,也不知道那其实已经是别的 issue 的重复了。他还具体说过一句话:
“你用你的那套 KI 能找到的大多数问题,几乎可以肯定,别的 KI 早就已经以同样的方式找出来了。除非你愿意砸特别多的钱下去,那又是另一回事。否则的话,这类问题极有可能早就是已知问题。”
对。
是啊。
其实我刚刚就想问你,这些是不是也是那种由 AI 挖出来的漏洞,因为我觉得这点特别有意思。一方面,是因为德国这边的新闻传播实在太慢了。比如说,呃,就在两天前,ZDF 上才刚播了一个节目,主题是类似「Claude Mythos 有多危险?」这么个话题,我当时心里就想:
谢谢你啊,ZDF,真是辛苦了,终于让我们在德国这边也知道这回事了。我自己差不多三周前就在问同样的问题了,但没关系,我们现在聊也行。呃,节目本身还挺有意思的,对很多人来说可能算是一个小小的「醒醒吧」的时刻。因为我觉得现在有一种越来越极端的张力:一边是这些客观上确实正在发生的事情——
对。
——另一边是那些还在说「AI 根本不是什么真的东西」的人。
你说的「不是真的」到底是什么意思?
嗯,在英文里有个说法叫 Nothing Burger。
嗯。
就是说,在他们看来这全都是炒作,AI 根本做不到大家说它能做到的那些事,等等等等。但我觉得这次就是一个你已经很难再否认的例子:如果我没记错的话,Claude Mythos 在一周之内就找出了大概一千五百个零日漏洞(zero‑day exploits),而且都是那种真正可以被利用、可以实际攻击系统的漏洞。
是的。
呃,所以我也说不好。很多人——我其实多少能理解那些人——他们说这只是炒作。因为很有意思的是,也有一些人拿了一个完全相反的例子出来,说:『好,我现在给你们念一篇新闻报道。里面写着:OpenAI 开发出了一个模型,但他们现在还把它藏着不用,因为他们说这个东西实在太危险了,可能会对社会或者对计算机系统造成非常巨大的破坏,所以他们暂时不会发布 GPT‑3.5。』
没错。
就是,嗯。
是啊,问题就在于这两件事到底是什么关系。
嗯。
但是为什么,为什么会有这些所谓的空壳承诺呢?这其实一看就明白。说白了,它主要就是用来给股东打鸡血,好让他们继续往里砸更多钱。因为资本市场看的根本不是说明年会怎样,这从来都不是重点,而是看长期的东西,比方说未来十年大概能做到什么,以及公司在接下来十年、二十年里怎么从中赚钱。关注点不是“下个季度业绩怎么样”。当然,下个季度也可能会有一些跳涨之类的,但没人看得那么深。更多看的其实是:未来的营收、营收曲线大体会怎么走,不只是下个季度、明年、未来五年,而是更长远的。然后我反而觉得,在这种情况下,适当地把话说满一点也没那么糟,因为你当初吹过什么,往往比想象中更快就被人忘了——只要你持续不断地放出新消息,说接下来又要可以干些什么,只要你一直让这个球滚下去。
嗯。
这样其实还是说得过去的,因为这些东西迟早是会真的起作用的。只是他们把实现它所需要的时间窗口严重低估了,甚至是有意低估。就对外说成:『哦,一年之内就能实现。』而更现实的情况可能是三到五年之后才能比较踏实地把这种概念真正落地。
嗯,也是。
当然你也可以说:『好吧,』
GPT‑3.5 在当时确实已经非常厉害了,但它并没有对社会造成什么极端的破坏——当然,这还要看你怎么定义“对社会的损害”。
对。
对,对,你懂吧?我其实就是想说这个。GPT‑3.5 也就勉强能把一句话说得前后还算连贯而已。
嗯。
你懂吧?于是就有一拨人开始类比,说:『你看,当年用 GPT‑3.5 也没黑进过什么系统嘛,那现在这些说法肯定也是安全恐慌,全都是假的。』但问题就在于,现在这东西其实是会产生现实影响的,所以大家才会努力想要比较负责任地去处理它。比如现在就有人说:『好,很快这类技术也会以开源的形式到处都是。』正因为这样,才会有现在这套思路——OpenAI 也在做类似的事,Google 在 Google I/O 上也宣布了类似计划——他们的目标是:『好,我们先拿这些模型去找所有的大公司,把他们的系统都扫一遍安全漏洞,这样的话,』
等到这项技术不可避免地、嗯,总有一天对所有人都开放的时候,起码不会发生明天 Google 被一锅端、或者明天 Adobe 被人一键打穿这种事。那对世界经济来说可就真是相当糟糕了。
是啊。
对,但是——
是,就,我觉得这事挺疯狂的。我觉得对很多人来说,这算是一个小小的醒悟时刻吧。因为你想,此前他们总可以说:『哎呀,这些东西嘛,不就是一堆什么 AI 的 GitHub issue,』
之类的,反正一切都淹没在所谓的“信息垃圾 slop”里。就是那套说辞:『这一切都没啥用,全都是空话,雷声大雨点小,最后什么也没有。这些东西既没有真正的经济价值,也没有真正的安全风险,等等等等。』这就是他们一直在贩卖的叙事。但我觉得,现在要继续这么讲就非常站不住脚了。你怎么能这么装作什么都没发生,完全无视当下的现实呢?
呃。
或者说,更准确一点,是严重误判了现实。就是——
呃,极限 Stankorbium。
对啊。[笑]
不过 Jona,这里简直太妙了,
一切都完美对上了。
对。不过我这边也得先打个免责声明,呃,顺便提一句:确实已经有人声称,用数据证明过,某些模型在过去几个月里其实是变差了一点,或者至少,很多人主观上是这么觉得的。那问题就来了:这到底是因为各家公司给你描绘的预期越来越夸张,而模型本身的客观质量其实差不多没变?还是说模型真的在退步?因为也有不少人说,现在的回答方式、以及最后生成出来的 token 分布,其实被动了很多手脚。比如说,现在输出里比起以前多了很多纯粹的废话和填充内容,所以你现在往往得额外加一句“请简明扼要”,才能得到你原本期望的那种输出。
嗯。
也有很多人从这个角度去论证,我完全能理解,因为就我个人的主观体验来说,我也多少有点这种感觉,觉得确实在发生这种事。
Jona,这样一说我们就又到了一个我本来不太想聊、但又特别想聊的领域。我其实已经憋了两期节目了,一直想抛出我这个——也不算大抱怨吧,更像是——一个小小的 hot take。
那就说吧。
也就是说:凡是不用付费版 AI 模型的人,基本上都不具备客观评估当下 AI 能力的条件。
对。
而且我觉得,这在很多层面上都挺可惜的。就是,我觉得……对,这就是我前面说的那个 hot take 的核心点,在这一点上基本没人赞同我:从一个比较高的、哲学一点的视角来说,我其实是主张不应该存在免费的 ChatGPT 的。
嗯。
我反而觉得,现在这种状态其实是在整体上伤害社会和整个产业的——也就是对普通用户来说,市面上实际上存在两种截然不同的 AI。一种是免费的,百分之九十六的人都只用这个,然后就根据它来形成自己对“AI 能做到什么”的看法;
没错。
然后还有一小撮人是花钱用付费版的,他们拿到的东西要好得多,所以对 AI 真正能干嘛的认识也强得多。我前阵子在电台这边就特别明显地感受到这种反差。
这个我完全同意,不过我觉得这并没有把我之前那个猜想推翻。它确实推翻了另一种说法,就是那种“啊,其实也没有宣传得那么厉害嘛”。是啊,如果你不愿意掏钱——不管是按月付费,还是甚至按每次提问付费——当然会觉得一般。但要是你愿意为每个 prompt 付个十欧、一百欧,甚至一百欧一问,那现在用 AI 能搞出来的东西当然是夸张得离谱的。不过我还是觉得,我原来的那个论点可能依然成立。
对,对,我也觉得这反而可以用来解释你说的现象。我的理论是:一开始为了把热度炒起来,连免费用户也都能用到最牛的版本,哪怕他们一分钱没付。可到现在,各家 AI 公司慢慢意识到:『好吧,这玩意儿成本真的是高得离谱。就算是那些每个月付两百美元的人,我们其实也是在亏钱。』
那我们是不是得开始考虑一下:那些完全一分钱不出的用户,拿到的模型是不是该“聪明”一点少一点,你懂我意思吧?
我觉得这可能就是一个解释,说明为什么会主要是那些——也就是大部分在抱怨的人——都是免费用户。因为很简单,他们现在拿到的,已经不再是这个技术在当前时间点上能给出的那一百分了。
对。
所以在他们看来确实是“变差了”,因为对他们来说,它确实就真的变差了。
嗯。
对。呃,我就是想回到刚才说的那个对比上。我当时一下子意识到自己到底活在多么离谱的同温层里。Jona,跟你小小忏悔一下:我这个月为了试试,我直接开了那个一百欧元档位的 ChatGPT 订阅。
不错。
我没上那个两百欧的最高档。我现在用的是 ChatGPT Pro,然后里面你可以选,一百欧是五倍配额,两百欧是二十倍配额。我开这个主要是因为用 Codex 写代码的时候老是把免费额度打满,我就想:『好吧,那现在确实值得多买一点配额了。』
嗯。
不过有了五倍配额我就完全够用了,根本碰不到上限,所以二十倍对我来说没必要。嗯,然后有趣的对比点在于:我们有一次在电台这边聊天,有位同事——一位女编辑——就说:『哎,我让 ChatGPT 把一条参考文献改成 APA 格式,』
嗯。
结果它直接给我整得一塌糊涂。
是。
就是在这么一个极其简单、非常直观的任务上都能翻车。
对。
然后大家就得出结论说:『你看吧,这种事情 AI 就是做不了,根本不靠谱。』可另一边,Codex 每个星期给我写几十上百万行代码,而且几乎不出错。这个对比有多离谱你想想。
嗯。
这反差太大了。对普通人来说,他们很自然、而且在他们的体验中也算“有道理”地觉得:你连让 ChatGPT 写一句话,都很可能会写得一团糟。
对。
因为一般人只接触过那个免费的版本,而那个版本真的挺拉胯的。
嗯。
而这点在很多方面都挺让人惋惜的。从社会角度看,我觉得很可惜的是,大多数人根本没意识到,现在已经有这么厉害的一项技术,以及它其实可以用来做什么。如果从一种比较末日论、doomer 的视角看,那就是:大多数人完全没意识到我们实际上已经有多危险、多“完蛋”了。
是啊。
因为在他们眼里,这玩意儿连一句完整的话都写不对,怎么可能抢走我的工作呢。
对。
但他们完全没有意识到的是:一旦你愿意付费,市面上真的已经有足够强的东西,是可以把你的工作整个接管掉的。对我个人来说,这也特别郁闷,因为这让别人对我“拿 AI 在做什么”的认知被严重扭曲了。
嗯。
就会出现这种情况:比方说,当我跟别人说:『嘿,嗯,我最近在试着用 AI 来剪辑 Crunch‑Time 的视频,』
嗯。
他们脑子里立刻浮现的,就是自己用那个免费 ChatGPT 的体验——三句话里能错出七个点——然后就会对我说:『Wieland,算了吧,这不可能行的。啊?AI 连这种事都不会。它连一句话都写不对,你还指望它剪视频?』——他们所有这些判断,全都是基于自己对那个免费版 ChatGPT 的记忆。
对。
所以嘛,[叹气] 我身边朋友当然也会反过来跟我辩,提他们的反对意见。就另一面来说,我其实也非常认同:有一个免费入口本身是好事,因为这意味着会有更多人能接触到这个工具。
嗯。
那些负担不起、或者就是不想掏钱的人——这点上我自己也是很矛盾的——至少还能有个入口,这是好事。但另一方面,这又回到了我最根本的观点:问题不在 AI,本质上问题在资本主义。就是说,如果所有人都能用上同一个非常好的系统,那我当然举双手赞成。甚至“好吧,你可以免费用一个没那么强的版本,但起码有点东西”,这种折中我也能理解。只是我觉得,[叹气] 这套东西最终还是落进了互联网、尤其是 2010 年代初发展起来的那套“互联网资本主义”之手。一开始的时候,Sam Altman 其实还说过类似的话:『嗯,我们这套 AI——我知道你们已经习惯了互联网上一切都免费,然后靠广告赚钱。但 AI 成本高得离谱,这条路根本走不通。所以我们不会把广告当商业模式,也不会做免费版。我们做的是一个产品,希望你们像买其他任何产品一样,正常付费。』
对。
——就像你们对待任何其他产品那样。
嗯。
因为说真的,我老是拿一个特别蠢的比喻来解释这件事——尤其是当我要跟人讲 ChatGPT 和我用的 OpenAI API 有什么差别的时候——我总是拿牛奶来打比方,确切地说,是拿 Müller Milk 来比。我的说法是:『好,假设一瓶 Müller 牛奶里面有,我也不知道这是不是事实啊,先声明一下,别因为诽谤来告我们,总之假设里面有五万种防腐剂和增味剂。但这并不意味着,当我作为一个 B2B 客户,去买原料来生产“Wieland 牛奶”的时候,』
嗯。
——如果我是从 Müller 乳业那边进货,买的是他们面向企业的那种 B2B 原奶,那里面是没有任何增味剂、防腐剂之类乱七八糟东西的,那是干净的奶。至于我以后会不会在我的 Wieland 牛奶里再加防腐剂、加香精——或者在 ChatGPT 这类产品里去追踪你、给你推广告、把你的数据拿去卖——那是我作为下游厂商自己的选择。但仅仅因为同一家 Müller 乳业一方面做 B2B 原料,另一方面也生产终端零售的 Müller 牛奶,我们还是得把 B2B 产品和 B2C 产品区分开来看。所以我现在总是这么比喻:你想象一下——现实里这几乎难以想象,但在互联网上、在数字商品里却是常态——超市货架上同时摆着两种 Müller 牛奶,一种是免费的,一种要掏钱买的。
对。
而免费的那一瓶味道就特别拉胯。
嗯。
就是真的明显难喝很多。
基本上就是兑了点奶香精的白水之类的东西吧,差不多那意思。
然后你再想象一下,这会导致什么结果?百分之九十五的人都会拿那瓶免费的 Müller 牛奶,还会对我说:『Wieland,你是不是傻?为什么要为这个东西花钱啊?』接着问题就来了:这相当于 Müller 自己在朝自己腿上开枪。因为当我说:『嗯,我其实很喜欢 Müller 牛奶,我愿意为它付钱,』他们就会回我:『哎,Wieland,我一直喝的是免费的那瓶 Müller 牛奶,难喝得要命。我就算免费也只是勉强喝一喝,我这辈子都不可能为这种垃圾花钱的。』他们根本不会想到,这两瓶虽然都叫 Müller 牛奶,但其实完全不是一回事。
对。
『我当然不会为这种东西付钱。』同样,我身边的人也会对我说:『Wieland,ChatGPT 连一句话都写不顺,我这辈子都不可能为它掏钱。』因为他们很显然完全没意识到:如果他们用的是另一瓶“牛奶”,情况根本就不是这样……算了,对不起,我又开始狂喷了。
对。可他们也没意识到,如果一家公司每个月拿一千欧、也就是一年一万二欧出来专门用在 AI 上,其实完全有可能就此省掉一个岗位的人工成本。就是——
对。
当然,问题只是谁的岗位会被省掉而已。[笑] 可如果你平时接触的就只有免费的 ChatGPT,或者免费的 Copilot 之类的,那你当然很难想象这事,因为在你那边的大脑模型里,AI 跟“抢工作”这两个词根本连不起来。但你得意识到,另一种选择其实是:每年给一个员工三万到五万欧,甚至更多。这笔钱从理论上讲,完全可以被视作你用在 API 请求上的预算,
等等等等。而以现在 AI 的能力有多强、适应性有多好来说,你理论上应该可以用远低于那笔人力成本的钱,去完成同一类事情。或者说,大致就是这个意思。
是的,Jona,不过就像你刚才又提到工作的事一样,我觉得这背后其实就是——
简直是难以想象的 Copium 水平。我也能理解,因为人就是这样嘛,只要能抓住点什么给自己带来希望的东西,就会死死抱住。呃,我又要开始抛 hot take 了,已经能预见 YouTube 底下的评论区了。我觉得这跟民粹主义有点类似:也是那种“总算有个东西能给我一点希望”的感觉。比如说,我的人生一团糟,为什么?因为有那些寻求庇护者。如果没有他们,我所有问题都能解决——这种说法能给人希望,因为它不是在讲“这个世界很复杂,问题可能根本没法彻底解决”,而是告诉你:『我知道有一个明确的原因让我生活变得这么烂,而我现在要对着那个原因去战斗。』
而你刚才说的这些,当然不能被人完全脱离上下文地单独拎出来理解。
[笑]
你懂吧,我就觉得,这跟你跟人说:『嘿,AI 嘛,它接下来会变成什么样,我的判断是,它很快就能完成整个人类绝大部分的工作,我们得作为一个社会一起想想要怎么应对,』其实是同一种心理机制。
对。
这其实是个特别重要的话题。但每次这个时候,总会冒出那种特别有名的研究,说什么:『公司里 95% 的 AI 项目都是失败的。』然后大家就一拥而上,说:『你看吧你看吧,这就说明那套说辞都是假的,这玩意儿根本不可能抢走我的饭碗。』可当你真把论文拿来读一读,就会发现:『哦,原来他们把“失败”定义成:项目没有带来营收增长,或者公司主观上觉得它“不够有用”。』至于一家公司会——
啊,原来这就是他们判定“失败”的门槛啊。啊,好吧。
对,就是,他们所谓的失败,就是指:试点阶段结束之后,这个项目没有被继续推进。然后我心里就想:我不太清楚公司那边的数据怎样,但按这个定义的话,Jona,我自己有 95% 的项目都算失败了。因为很多时候就是:我试一试一个想法,发现好像达不到预期效果,那我就把它放弃了。
它还得顺便帮你把营收拉上去才行。是啊,当然。
不光是营收,对我个人来说也是一样:要么得直接给我带来收入,要么得让我生活有明显好处。要是不行,那就算了。但说真的,公司不是每天都在干这种事吗?他们肯定也是经常这样操作:『好,我们来试试这个点子,先开发一小段时间,试一周两周,要是发现不行就停掉。』
对,没错。
可是在那篇研究里,这就都被算作“AI 项目失败”了。
呃,这个标准也太严格、太死板了一点吧。
是啊,但人们就会拼命抓住这种结论,我也能理解。因为你肯定不想相信有人跟你说:『嘿,顺便提一句,你已经在这个岗位上干了二十年了,不过再过三年,整个世界就要被翻个底朝天。』
对。
那你当然会抓住一切能告诉你『哎,他就是在胡扯』的证据不放。
嗯。
『凡是跟你讲 AI 要怎样怎样的人,全都是在瞎吹。』
对。
说到那些特别贵的订阅制,而且是那种你完全没必要为了它掏钱的订阅:Plex 最近又涨价了,这事我真是觉得离谱到家,不知道它怎么就能涨到这种程度。他们现在把 Plex 的终身账号价格又提了一遍——原来好像是两百五十美元左右吧,现在直接涨到七百五十,等于整整翻了三倍。理由呢?负责人说:『呃,其实我们本来就不想再长期提供终身买断这种选项了,』典型的 Adobe 套路——想要的是只留订阅模式,让你每个月一直交钱、一直交钱。然后这就很无语,因为 Plex 说白了就是个软件,让你把已经存在你自己服务器上的视频,串流到别的设备上去看而已。为了干这点事,根本没必要付钱,更别说在你已经花钱买硬件、搭好服务器、投入一堆时间折腾配置的前提下,再多掏七百五十欧。你完全可以用一个做得很不错的开源方案来替代,而且体验还挺爽的。
如果说,你真的对这种东西有需求的话呢,可以这么干。只是当然,我还是得先郑重地加一句小小的免责声明:前提是你们当然也都已经按照正规的渠道把这些视频买过一遍了啊,不是说可以随便去下盗版的,这一点要说清楚。只有在那之后,你们在德国才可以合法地给自己做一份或者几份私人备份。也就是说,那边现在发生的这一系列操作,从法律角度看其实都是完全正当合规的,没有问题,嗯,大概就是这样。
是啊。
笑死。然后这又是一个新的典型案例,好像我们之前还没有、好像整个大众对各种订阅付费模式还没有已经积攒够足够的厌烦和怒火似的。
对啊。
Jona,这次咱们可又一次好好地交出了一期干货满满的节目啊。
没错。
可以这么说吧,我们这次录了一期非常精彩的节目,里面塞满了各种劲爆的信息,呃,包括我们最近在折腾的那些私人小项目,我们在玩什么、在拿各种科技做什么,还有当然就是那些大型科技公司最近又拿技术在干些什么。然后呢,Jona,我们甚至还对所谓的晚期资本主义以及那个正在逼近的“Watchshops 世界”好好吐槽了一番——也许不久之后我们大家大概都得生活在那样的世界里。整期就是一集非常经典的老派 Crunch Time,塞得满满当当,全是高光时刻。如果你刚才没有全部听到,只是随便进来瞄了一眼、插进来听了几分钟,但现在心想:哎,这也太好听了,我想把整期完整补上,那要去哪里才能做到呢,Jona?
最简单的方式就是上 radio-unique.de。那里当然可以找到我们这个学生电台发布的所有新闻稿,不过你们要特别点进对应的 Crunch Time 节目页面,在那儿你们可以随时把所有往期节目再听一遍。除此之外,你也可以直接在 YouTube 或 Spotify 上搜索“Die Crunch Time”。我们的播客其实也提供了 RSS 格式,也就是说,你只要打开 podcast.radio-unique.de,就能把所有这些播客的 RSS 链接直接保存下来,然后导入到自己常用的任意播客客户端里去,或者也可以在那里直接找到对应的 YouTube、Spotify 等等链接。
如果你想从最新的一期、也就是直播的时候就跟上,或者你手头也许就只有一台那种模拟收音机,要在上面用滑杆去调到某个 FM 频率数字的那种设备……
哇哦哇哦。
那下一次要到哪里才能收听 Crunch Time 呢?
第八十一期的 Crunch Time 会在 6 月 28 日播出,那一如我们每个月一样,是本月的第四个星期日。那天你们要在晚上 18 点到 19 点之间,要么在调频 FM 上把收音机调到 102.7 兆赫,要么就通过 DAB+ 收听,在所谓的 5B 复用信道上找到我们。当然,前提是你们人得在开姆尼茨地区及周边。否则的话,你也可以上 radio-unique.de,点开网页播放器,这样在 6 月 28 日晚上 18 点到 19 点之间,同样可以在线实时收听 Crunch Time 的直播。
总之,你们现在有各种方式可以收听这一期、之前以及之后的所有 Crunch Time。那在这之前,就先这样啦,祝大家一切顺利。
拜拜。
[片尾音乐]
这就是……
这里是《Crunch Time》节目,本节目由 Radio UNiCC 电台出品制作。