Fallstudie för musik AI

Datainsamling av sjungande röst

Röstbaserad sångljudsamling för EQ- och kompressionsalgoritmträning: fånga språklig och musikalisk mångfald

Röstbaserad sångljudsamling

Projektöversikt

Shaip samarbetade med ett ledande teknikföretag för att samla olika sångljudinspelningar på fyra prioriterade språk: kinesiska, arabiska, spanska och ryska. Projektet syftade till att tillhandahålla högkvalitativa data för träning av AI-baserad EQ och komprimeringsalgoritmer, som är avgörande för att förbättra automatiserad ljudbehandling.

Samlingen omfattade 40 deltagare (10 per språk) från olika genrer, med fokus på inspelningar av studiokvalitet med olika mikrofoner och miljöer.

Sångljudsamling

Nyckelstatistik

4 språk: kinesiska, arabiska, spanska, ryska

10 sångare för
språk (40 totalt)

20 timmar of
sjungande ljud

Ljudformat: 48 kHz PCM, mono, WAV

Ljudtranskription på inhemska språk

Projektets längd:
18 veckor

Projektets omfattning

Datainsamling

Omfattningen omfattade samlingen av sångljud på fyra riktade språk, inspelade av riktiga artister i flera musikgenrer. En studiomiljö användes för att säkerställa högkvalitativa inspelningar lämpliga för träning av AI-modeller.

Nyckelkrav

  • Deltagare: 10 sångare per språk, med en balanserad könsfördelning (50 % män, 50 % kvinnor).
  • Genrer: En mängd olika genrer, självidentifierade av artisten, validerade för konsekvens.
  • Inspelningsmiljö: Studiokvalitet, med flera mikrofoninställningar (dynamisk, kondensor).
  • Ljudformat: 48 kHz PCM, mono, WAV-filer, utan bearbetning (t.ex. ingen komprimering, EQ, reverb).
  • utskrift: Sånger som ska transkriberas på det språk de sjungs, med särskilda regler för tvåspråkiga sånger.
  • språk: kinesiska, arabiska, spanska, ryska
  • Transkription
    • Transkriptioner bör tillhandahållas på inspelningens språk (t.ex. hindi på devanagari, följt av engelska).
    • Se till att varje segment inte är längre än 15 sekunder för klarhet och noggrannhet.
  • Krav på ljudinspelning
    • Minst 3 mikrofoninställningar per inspelningssession.
    • 3 minuter per låt, med 3 tags per låt, vilket säkerställer olika mikrofoninspelningar för varje deltagare.
    • Akustisk miljö av studiokvalitet utan bakgrundsljud.

Utmaningar

Deltagarmångfald

Att säkerställa en balanserad fördelning av sångare efter kön, röstton/tonhöjd och musikgenre var en komplex utmaning.

Datakonsistens

Bibehåller konsekventa mikrofoninställningar och miljö samtidigt som du fångar olika sångprestationer på flera språk.

Ljudkvalitetskontroll

Säkerställer studiokvalitetsljud utan externt brus och korrekt transkription på flera språk.

Lösning

Shaip levererade en heltäckande lösning för att möta projektets krav genom att:

  • Rekryterar 40 sångare på fyra språk och säkerställer en mångsidig representation i kön, tonhöjd och musikstil.
  • Genomför inspelningar av studiokvalitet med olika mikrofontyper (dynamisk, kondensator) för att fånga ett brett utbud av ljuddata.
  • Transkribera inspelningar exakt på de språk som används, enligt specifika regler för tvåspråkiga låtar.
  • Samtycke: Samtyckesformulär kommer att samlas in från alla deltagare före inspelning.

Resultat

De olika sångljuddata som samlades in gjorde att klienten kunde utveckla en robust träningsuppsättning för automatiserade EQ och komprimeringsalgoritmer, vilket förbättrade kvaliteten på ljudbehandlingen. De högkvalitativa inspelningarna och detaljerade metadata säkerställde att AI-modellerna kunde hantera olika musikgenrer och språkliga komplexiteter. Nyckelresultat:

  • Högkvalitativ, mångsidig ljuddata för träning av AI-system.
  • Exakt transkription och metadata för analys.
  • En starkare grund för AI-baserade ljudbehandlingsverktyg.

Deliverables

  • 20 timmars ljudinspelningar av studiokvalitet (48 kHz PCM, mono WAV-filer).
  • Transkriptioner på inspelningens språk.
  • Metadata: mikrofonfabrikat/modell, DAC/ljudgränssnitt, sångarprofil, genreinformation.
  • JSON-format för transkription med metadata.

Shaips förmåga att fånga mångfalden av musikalisk talang och språklig rikedom har varit ovärderlig för utvecklingen av våra EQ och komprimeringsalgoritmer. Deras team såg till att varje aspekt, från artistrekrytering till inspelningskvalitet, hanterades med precision, vilket gjorde detta till ett viktigt steg i att förfina våra automatiserade ljudbehandlingssystem.

Vi är verkligen tacksamma för det förtroende och samarbete Shaip har visat under hela processen. Trots våra strikta och utmanande tekniska krav har deras engagemang, hårda arbete och uppmärksamhet på detaljer varit enastående. Det har varit ett nöje att arbeta med ett team som är så engagerade i att leverera excellens

Gyllene-5-stjärniga