Något för eventuella ljudgurun att bita i...


Guest al6
 Share

Recommended Posts

Tjenare jag har ett par frågor om ljud, jag börjar med att fråga om någon känner till program som kan söka upp ljudklipp i andra ljudklipp. Alltså som en sökmotor fast för ljud. Det finns ju avancerade rösigenkänningar så det här ska väl inte vara så farligt.

Hade tänkt analysera låtar efter diverse instrument :) Någon som har lust att berätta exakt hur WAV-filformatet är uppbyggt och hur man analyserar det binärt, alltså vad beskriver all data i en WAV-fil? Frekvenser? Vet inte så mycket om ljud...

Har ju sett på tv att man ska kunna filtrera bort frekvenser och sånt så man kan göra om en låt till akustisk osv, hur fungerar detta? Hade tänkt skapa en algoritm, eller använda en redan existerande, för att analysera en låt efter trumslag och få ut dess positioner beskrivna i tid.

Typ:

positioner[] = findInSound("hihat.wav", "metallica - one.wav")

:D

Edit:

Berätta gärna hur ljud representeras i en dator och hur man kan filtrera hit och dit. ;) Jag är alltså intresserad av allt ljudsnack som inte rör komprimering, jag bryr mig alltså inte om diverse mp3, vorbis bla bla bla.

Link to comment
Share on other sites

Guest DimensionX
Tjenare jag har ett par frågor om ljud, jag börjar med att fråga om någon känner till program som kan söka upp ljudklipp i andra ljudklipp. Alltså som en sökmotor fast för ljud. Det finns ju avancerade rösigenkänningar så det här ska väl inte vara så farligt.

Hade tänkt analysera låtar efter diverse instrument :) Någon som har lust att berätta exakt hur WAV-filformatet är uppbyggt och hur man analyserar det binärt, alltså vad beskriver all data i en WAV-fil? Frekvenser? Vet inte så mycket om ljud...

Har ju sett på tv att man ska kunna filtrera bort frekvenser och sånt så man kan göra om en låt till akustisk osv, hur fungerar detta? Hade tänkt skapa en algoritm, eller använda en redan existerande, för att analysera en låt efter trumslag och få ut dess positioner beskrivna i tid.

Typ:

positioner[] = findInSound("hihat.wav", "metallica - one.wav")

:D

Edit:

Berätta gärna hur ljud representeras i en dator och hur man kan filtrera hit och dit. ;) Jag är alltså intresserad av allt ljudsnack som inte rör komprimering, jag bryr mig alltså inte om diverse mp3, vorbis bla bla bla.

Nåt att börja med i alla fall.

Introduktion till digitalt ljud

http://www.pluggsajten.se/ljud/ljudtillweb...gitaltljud.html

Digitalt Ljud

http://www.musiknet.se/arkiv/sve/digitaltljud/ljud.html

En kort förklaring av begreppet "digitalt ljud"

http://www.mediaproduktion.net/Digitalsidan.html

Digital Audio på Wiki (finns mer länkar längst ned på sidan)

http://en.wikipedia.org/wiki/Digital_audio

Link to comment
Share on other sites

Jag tänker börja med 44.1 khz 16 bit pcm monologt ljud i wav-format, och behöver då kunna läsa sånna här filer binärt och analysera dem. En sak jag kan börja med är ju att leta upp basljud, det skulle ju vara under 5000hz enligt en länk. Skulle behöva en dokumentation av wav-formatet för pcm då... ;)

Link to comment
Share on other sites

Något användbart på denna sida?

Basljud är långt under 5 000 Hz! Upp till 200 Hz, sedan mellanregister upp till 2 000 Hz, och slutligen diskant, som sträcker sig lika långt som hörseln, eller ca 20 kHz, om man har varit rädd om sina öron. ;)

Ja, jag har sökt lite själv men här fick jag direktlänk :) Jag öppnade en wav-fil i anteckningar och såg det stod RIFF WAVE i början så jag sökte på det och hittade massa info men jag ska gå igenom detta dokumentet om RIFF i länken:

Documentation Multimedia Programming Interface and Data Specifications 1.0. IBM Corporation and Microsoft Corporation, August 1991. Available online, e.g., at http://www.tactilemedia.com/info/MCI_Control_Info.html

Multimedia Data Standards Update April 15, 1994 at http://www-mmsp.ece.mcgill.ca/Documents/Au...ocs/RIFFNEW.pdf

Har dock en fråga: om vi säger att någon står och visslar i 200Hz och en som visslar i 300Hz, hur representeras detta i ljudet? Blir de typ en blandning typ 250Hz eller blir de typ varannan 200 och varannan 300 Hz som blandas så fort så vi uppfattar de som blandat ljud? Lite info skulle va bra :D

Link to comment
Share on other sites

Har dock en fråga: om vi säger att någon står och visslar i 200Hz och en som visslar i 300Hz, hur representeras detta i ljudet? Blir de typ en blandning typ 250Hz eller blir de typ varannan 200 och varannan 300 Hz som blandas så fort så vi uppfattar de som blandat ljud? Lite info skulle va bra :D

Skapa en 200 Hz ton (sinusvåg), amplitud 0,5 i Audacity. Klicka bredvid ljudspåret, så att det inte är markerat. Skapa en till, men 300 Hz. Exportera till wave. Då slås sinusvågorna ihop till en mer komplicerad vågform.

Link to comment
Share on other sites

Där ser man... hmmm. Undrar hur man då söker upp ett ljud i en låt när det finns andra ljud som påverkar. Men det är knappast en omöjlighet då en vanlig människa lätt kan höra alla trumslag, handlar bara om att bestämma en bra algoritm för att ta ut slagen.

Link to comment
Share on other sites

Har kollat upp en hel del om detta nu.

Fast Fourier Transform, FFT (http://sv.wikipedia.org/wiki/Fouriertransform) är vad jag söker. Har implementerat stöd för WAVE-filer nu och det är snart dags att implementera FFT :) Håller på med lite testexempel där jag fipplar med frekvenser och det går väl fram, hoppas det blir något av det här ;)

Har dock skola att sköta men whatever :D

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...
 Share