Skalning av fysisk AI och humanoid robotik med 10 000 timmar av rörelsedata från simulering till verklighet
Hur Shaip levererade 10 000 timmar av egocentrisk VR-rörelsefångningsdata till 4 000 deltagare, 100 uppgifter och 5+ verkliga miljöer – byggt som en fysisk AI-träningsdatapipeline i produktionsklass för simulerad-till-verklig humanoid robotteknik.
Projektöversikt
I takt med att fysisk AI och humanoid robotik går vidare till verkligheten behövde klienten ett skalbart ramverk för att samla in 10 000 timmar uppgiftsbaserad VR-rörelsedata i olika miljöer med konsekvent kalibrering, exekvering och kvalitetssäkring.
Shaip byggde en heltäckande pipeline för dataoperationer som omfattade scenuppsättning, QR-mappning, spårning med fem sensorer, deltagarrepetition, modererad infångning och granskningsarbetsflöden för att stödja 100 kunddefinierade uppgifter och leverera modellklara, förkroppsligade AI-datamängder i stor skala.
Nyckelstatistik
Deltagare
~ 4,000
Datavolym
10 000 giltiga timmar
Miljötäckning
Kontor, hem, fabrik, café, lager etc.
tidslinje
1 månad
Utmaningar
- Skalning av insamling av rörelsedata från kontrollerade pilotliknande arbetsflöden till en 10 000 timmar, flera miljöer programmet.
- upprätthålla konsekvent spårningsnoggrannhet över olika verkliga scener och deltagaruppsättningar.
- Säkerställa att varje session uppfyllde strikta krav för APK/versionskontroll, konfiguration av delat nätverk, skärmsändning och sensorparning.
- Hantering 100 kunddefinierade uppgifter över kategorier som förflyttning, objektmanipulation, hushållsinteraktion, kontorsinteraktion och fysiska arbetsflöden i flera steg – som alla kräver korrekt scenuppställning, objektplacering, deltagarnas beredskap och moderatorledd validering.
- Konvertera råa sessioner till modellklara utgångar genom repeterbar kvalitetssäkring, hantering av omprov och arbetsflöden för uppladdning av granskningar.
Lösning
Insamlingsstrategi
Shaip utformade ett skalbart insamlingsramverk för 10 000 giltiga timmar av VR-rörelsedata, levererad i milstolpsbaserade batcher. Baserat på källplaneringsförhållandet för 3–5 deltagare per 10 giltiga timmar, hela programmet skalas upp till en uppskattad nivå 3,000–5,000 deltagare, med ~4 000 deltagare används som mittpunktsplaneringsfigur.
Miljö- och scenhantering
Varje inspelningsplats behandlades som en strukturerad scen. Shaip dokumenterade miljön med hjälp av vidvinkelfotografering i rummet, konfigurerade scener i administrationssystemet, koordinerade kundrecensioner och exporterade scen-PDF:er för fysisk placering. QR-länkad scenmappning säkerställde att varje verklig miljö pålitligt kunde kopplas till rätt inspelningskontext.
Enhets- och applikationsberedskap
Shaip standardiserade den tekniska beredskapen genom att säkerställa att VR-headsetet och övervakningsenheten var anslutna till samma nätverk, kontrollera APK-installations-/uppdateringsflödet och möjliggöra webbläsarbaserad skärmsändning för moderatorns insyn under hela sessionen.
Rörelsespårning och kalibrering
Före varje session parades och validerades alla fem rörelsespårare. Kalibrering var obligatorisk för varje deltagare, inklusive kontroller av avatarjustering, golvjustering och anpassad gränsinställning för att säkerställa korrekt helkroppsrörelseregistrering inom det inspelningsbara aktivitetsutrymmet.
Uppgiftsutförande och moderering
Deltagarna guidades genom scenspecifika uppgiftsförberedelser och repetition före inspelningen. Moderatorerna observerade via skärmdump, verifierade uppgiftens noggrannhet och rörelseskärpa och gick endast vidare till liveinspelning när sensorernas beteende och deltagarnas rörelser uppfyllde kvalitetsförväntningarna. Inspelningens start/stopp utfördes via det definierade gestarbetsflödet.
Kvalitetssäkring och modellklara resultat
Efter inspelningen laddades sessionerna upp i historiken för granskning. Shaip validerade rörelseskärpa, uppgiftens korrekthet, scenjustering och sensorernas noggrannhet, och avbröt eller gjorde om oanvändbara inspelningar vid behov. Detta skapade en mer pålitlig väg mot annoteringsklara, QA-verifierade och modellklara dataset för utbildning i förkroppsligad AI och robotik.
Projektets omfattning
| Dataset typ | Deltagare | Inspelningsvolym | Miljöer | Uppgiftsvolym | Inställning av inspelning | tidslinje |
|---|---|---|---|---|---|---|
| Egocentrisk VR-rörelseinspelning | ~ 4,000 | 10 000 giltiga timmar | Kontor, hem, café, fabrik, lager och andra verkliga miljöer | 100 kunddefinierade uppgifter | VR-headset + 5 rörelsespårare | 1 månad |
Den Utfall
- Etablerade ett skalbart ramverk för dataoperationer för 10 000 timmars fysisk AI-träningsdata
- standardiserad scenstyrning, QR-baserad kartläggning och kalibrering med fem sensorer över distribuerade miljöer
- Förbättrad insamlingskonsekvens genom modererad repetition, granskning av skärmdumpar i realtid och kvalitetssäkring på sessionsnivå
- Aktiverat uppgiftsvaliderade, annoteringsklara utdata för utveckling av modeller inom förkroppsligad AI, simulering och robotik efter nedströms
- Stärkte klientens sim-till-verklig datapipeline med högkvalitativ egocentrisk rörelseinspelning
från olika verkliga miljöer
Sammantaget hjälpte Shaip till att omvandla ett komplext VR-inspelningskrav till en strukturerad, produktionsklar datapipeline – en som kan stödja Fysisk AI, kroppslig intelligens och humanoid robotik initiativ med starkare konsekvens, spårbarhet och skala.
Shaip hjälpte oss att bygga dataoperationsgrunden för vår färdplan för fysisk AI. Deras team strukturerade rörelseinspelning i flera miljöer, deltagarhantering, scenuppsättning, kalibrering och kvalitetssäkring – vilket gjorde det möjligt för oss att generera modellklara datamängder som stöder sim-till-verklighetsinlärning för förkroppsligad AI och humanoid robotik.
— VP, Data- och simuleringsinfrastruktur