Handbuch der Tonstudiotechnik [9., aktualisierte und erweiterte Auflage] 9783110759921, 9783110759709

With the release of its ninth edition in fifty years, this handbook is a standard work of reference in the field of prof

1,200 220 188MB

German Pages 1706 [1682] Year 2023

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Handbuch der Tonstudiotechnik [9., aktualisierte und erweiterte Auflage]
 9783110759921, 9783110759709

Table of contents :
Gesamtübersicht
Vorwort
Die Herausgeber
Verzeichnis der Autoren
Inhalt
Band 1
1 Grundlagen der Akustik
2 Schallquellen
3 Schallwahrnehmung
4 Mikrofone und Lautsprecher
5 Tonaufnahme und Tonwiedergabe
6 Klanggestaltung
7 Analoge Tonsignalspeicherung
8 Analoge Tonregieanlagen
9 Analoge Tonstudiomesstechnik
10 Beschallung
11 Arbeitssicherheit und Gesundheitsschutz
Band 2
12 Grundlagen der digitalen Tontechnik
13 Audiocodierung
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
15 Digitale Tonsignalspeicherung
16 Digitale Betriebstechnik
17 Rundfunksysteme
18 Film- und Fernsehton
19 Qualitätssicherung
Fachwörter und Abkürzungen Englisch - Deutsch
Sachregister

Citation preview

Handbuch der Tonstudiotechnik

Handbuch der Tonstudiotechnik Band 1 9., aktualisierte und erweiterte Auflage Herausgegeben von Michael Dickreiter, Volker Dittel, Wolfgang Hoeg und Martin Wöhr

Für die in diesem Buch enthaltenen Angaben wird keine Gewähr hinsichtlich der Freiheit von gewerblichen Schutzrechten (Patente, Gebrauchsmuster, Warenzeichen) übernommen. Auch die in diesem Buch wiedergegebenen Gebrauchsnamen, Handelsnamen und Warenbezeichnungen dürfen nicht als frei zur allgemeinen Benutzung im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung betrachtet werden. Die Verletzung dieser Rechte ist im Rahmen der geltenden Gesetze strafbar und verpflichtet zu Schadensersatz.

ISBN 978-3-11-075970-9 e-ISBN (PDF) 978-3-11-075992-1 e-ISBN (EPUB) 978-3-11-076008-8 Library of Congress Control Number: 2022935904 Bibliographic information published by the Deutsche Nationalbibliothek The Deutsche Nationalbibliothek lists this publication in the Deutsche Nationalbibliografie; detailed bibliographic data are available on the internet at http://dnb.dnb.de. © 2023 Walter de Gruyter GmbH, Berlin/Boston. Satz: Michael Peschke, Berlin Druck und Bindung: CPI books GmbH, Leck www.degruyter.com

Gesamtübersicht Band 1 Vorwort  VII Die Herausgeber  XI Verzeichnis der Autoren  XIII Inhalt  XIX 1 Grundlagen der Akustik  1 2 Schallquellen  67 3 Schallwahrnehmung  117 4 Mi­kro­fone und Lautsprecher  139 5 Tonaufnahme und Tonwiedergabe  231 6 Klanggestaltung  427 7 Analoge Tonsignalspeicherung  483 8 Analoge Tonregieanlagen  553 9 Analoge Tonstudiomesstechnik  639 10 Beschallung  685 11 Arbeitssicherheit und Gesundheitsschutz  743

Band 2 Inhalt  VII 12 Grundlagen der digitalen Tontechnik  785 13 Audiocodierung  837 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung  929 15 Digitale Tonsignalspeicherung  969 16 Digitale Betriebstechnik  1067 17 Rundfunksysteme  1229 18 Film- und Fernsehton  1407 19 Qualitätssicherung  1511 Fachwörter und Abkürzungen Englisch - Deutsch  1591 Sachregister  1619

Vorwort In einem Buch nachzuschlagen, welches mit Kenntnis und Sorgfalt entstand, hebt dieses aus der Menge loser und breit gestreuter Fachartikel heraus. So lässt sich die Arbeit von zahlreichen Autorinnen und Autoren, Bearbeitern und Verlagsmitarbeitern und -mitarbeiterinnen zusammenfassen, die an der vorliegenden 9. Auflage des Handbuchs der Tonstudiotechnik mitgewirkt haben. Seit seiner Erstausgabe im Jahr 1976 ist „der Dickreiter“ der Klassiker unter den Fachbüchern für die professionelle Audiotechnik. Einst hervorgegangen aus einer Loseblattsammlung der Schule für Rundfunktechnik (srt) in Nürnberg, entwickelte sich daraus rasch ein Standardwerk für Generationen von Studierenden und Anwendern in der Audiobranche. Bereits ab der 2. Auflage übernahm der K. G. Saur Verlag, München, den Druck und Vertrieb des gesammelten Wissens. Die frühen Auflagen waren geprägt von der analogen Tonstudiotechnik, vom Mikrofon bis zum Mischpult, vom Verstärker bis zum Lautsprecher. Ende der 1970er Jahre wurde der Ton zunehmend digitaler. Erste innovative professionelle Geräte kamen auf den Markt. Forschung, Wissenschaft und Unternehmergeist nahmen sich der neuen Themenvielfalt an. Es war die Ära der sich rasant entwickelnden digitalen Signalverarbeitung, die die Audiowelt revolutionierte. Arbeitsabläufe und Berufsbilder veränderten sich, vernetzte Systeme ließen Ton, Bild und Text näher aneinanderrücken. Die Verbreitungswege der Medienunternehmen, wie auch die Menge der Medieninhalte nahmen drastisch zu. An den Schnittstellen analog-digital-analog wurde das Zusammenspiel alter und neuer Technologien komplexer. Eine 5. Neuauflage des Handbuchs der Tonstudiotechnik folgte dieser Entwicklung, im Jahr 1990 entstand die erste zweibändige Ausgabe. Die nach wie vor geltenden Grundlagen sowie neuestes Wissen wurden damals in bewährter Weise und verständlicher Form zusammengefügt und umfassend erläutert. Die digitale Tontechnik fand ihren ersten Auftritt im Fachbuch. Achtzehn Jahre sollte es dauern, bis eine  7., vollständig neu bearbeitete und wesentlich erweiterte Auflage des Handbuchs der Tonstudiotechnik erschien. Die Neuausrichtung einer sich mehr und mehr verzweigenden, nahezu grenzenlos mobilen digitalen Medienwelt erweiterte sprungartig die technischen und gestalterischen Möglichkeiten. Zahlreiche tradierte Abläufe und Qualitätsparameter standen auf dem Prüfstein, neue internationale Standards entwickelten sich. Es wurde Zeit, dem Anwender im Tonstudio wieder ein kompetentes Nachschlagewerk in die Hand zu geben, welches auf dem neuesten Stand der Technik war. Auf den Weg gebracht wurde das Projekt von den damaligen Hörfunkbetriebsleitern der öffentlich-rechtlichen Rundfunkanstalten in Deutschland. Die Realisierung übernahm das Bearbeiterteam Martin Wöhr (Leitung), Michael Dickreiter, Volker Dittel und Wolfgang Hoeg. Herausgegeben wurden die zwei Bände von der ARD.ZDF medienakademie (ehemals srt), die Veröffentlichung betreute weiterhin der K. G. Saur Verlag (2008). Danach schien die Fortschreibung des Standardwerks wegen sich ändernder Rahmenbedingungen zu Ende zu gehen. Der inzwischen mit dem De Gruyter Verlag, Berlin, fusionierte K. G. Saur Verlag war es schließlich, der fünf Jahre später die Bearbeiter ermunterte, die Tradition und inhaltliche Qualität des Klassikers Handbuch der Tonstudiotechnik weiterzuführen und gleichzeitig auch die verantwortungsvolle Aufgabe als Herausgeber zu übernehmen. Mit https://doi.org/10.1515/9783110759921-201

VIII 

 Vorwort

der 8. Auflage (2013) folgte das Team diesem Ansinnen und brachte die tontechnische Themenvielfalt auf den damals neuesten Stand. Heute, mehr als 40 Jahre nach dem Erscheinen der 1. Auflage, erleben die Tonschaffenden einen Paradigmenwechsel. Die analoge Audiowelt wandelt sich in IT-gesteuerte Prozesse. Metadaten, Giga- und Terabyte sowie die Gesetze des Internets sind jetzt das Maß der Dinge, auch im Tonstudio. Eine Vielzahl von Formaten und internationalen Standards regelt heute den enormen Datenfluss in einer global vernetzten Medienwelt. Mikrofone und Lautsprecher sind als „Relikte“ die letzten verbleibenden, aber dennoch wichtigen analogen Säulen in einem modernen digitalen Studio. Sie sind Grund genug, die nach wie vor geltenden physikalischen und akustischen Gesetze der Audiotechnik nicht in den Hintergrund zu rücken. Die Neuauflage zeigt nicht nur eine Fortschreibung bewährter Methoden und Erkenntnisse auf. Sie beleuchtet auch, wie technische Prozesse in der Studiotechnik beginnen, sich neu aufzustellen, wobei die Beständigkeit des Fortschritts ungewiss ist. Die Innovationszyklen werden zunehmend kürzer. Im vorliegenden 1. Band der 9. Auflage finden sich die Kapitel mit den physikalisch-technischen Grundlagen des Schalls und des Hörens. Sie sind die Wissensbasis für das Folgende. Insbesondere Kapitel 4 und 5, die sich mit der Aufnahme- und Wiedergabetechnik sowie mit der heutigen Mehrkanaltechnik befassen, sind sorgfältig und ausführlich überarbeitet. Die Kapitel zur analogen Tonsignalspeicherung und Studiotechnik sind in weiten Bereichen aus der 8. Auflage übernommen und dem modernen Stand der Technik angepasst; hinzugekommen sind Erkenntnisse zur Langzeitlagerung von Speichermedien. Auch Kapitel 6, welches die Klanggestaltung zum Thema hat und Kapitel  10, Beschallung, wurden nach jüngsten, praxisnahen Erfahrungen weitergeschrieben. Im Kapitel 11, Arbeitssicherheit und Gesundheitsschutz, wird dem Umstand Rechnung getragen, dass die Verästelungen von Vorschriften, Schutzmaßnahmen und betrieblichen Verantwortlichkeiten sich auf alle Anwender in den tontechnischen Berufen verteilen und von allgemeinem Interesse sind. Der 2. Band widmet sich ausschließlich der digitalen Audiotechnik. Die Grundlagen der digitalen Signalverarbeitung sowie die aktuellen Formate und Verfahren der Audiocodierung sind, wie auch die Studioprozesse, praxisorientiert beschrieben. Das Kapitel der digitalen Signalspeicherung ist durch Informationen zur Restaurierung historischer Tonaufzeichnungen ergänzt. Auch das differenzierte Mastering und die derzeitigen digitalen Verbreitungswege von Audioinhalten wurden aktualisiert, einschließlich der Mehrkanalübertragung im Rundfunk und ergänzt mit Erkenntnissen zum Downmix und zur Programmlautheit. Ein Unterkapitel widmet sich überdies dem wichtigen Thema zur barrierefreien Kommunikation. Die heutige, IT-basierte Betriebstechnik im Hörrundfunk ist in einem neuen Kapitel ausführlich behandelt. Insbesondere die mehrschichtigen Audionetzwerke, die IT-Sicherheit und die Übertragungswege in Datennetzen der Tonstudiotechnik sind umfangreich dargestellt. Die digitalen Rundfunksysteme sowie der Film- und Fernsehton sind umfassend auf den neuesten Stand gebracht. Die Komplexität der modernen Tonstudiotechnik erfordert einen breit gefächerten Wissensstand beim Anwender. Deshalb finden sich in den Kapiteln gelegentlich Begriffe und deren Erklärungen verteilt an mehreren Stellen, wenn sie dort dem besseren Sachverständnis der Zusammenhänge dienen. Dies erhöht die Lesbarkeit, ohne zu viel auf Querverweise hindeuten zu müssen. Die unterstützenden zahlreichen Abbildungen im Text fördern zudem

Vorwort 

 IX

vorteilhaft das Verständnis beim Lesen. Die ausführlichen Angaben zu Standards und Literatur am Ende eines jeden Kapitels, die alphabetische Auflistung und Erläuterung häufig verwendeter Fachwörter und Abkürzungen (Englisch-Deutsch) sowie ein ausführliches Sachregister, runden die Nutzung des Buchs für den Leser ab. Die Herausgeber danken allen beteiligten Fachautoren aus Forschung, Lehre, Indus­ trie und Praxis für ihre neuen Beiträge, wie auch für ihre fachkundige Aktualisierung früherer Manuskripte. Einige Autoren aus der 7. und 8. Auflage konnten an dem neuen Werk leider nicht mehr mitarbeiten. Ihnen sei für die Verwendung ihrer früheren Beiträge herzlich gedankt. Dem Verband Deutscher Tonmeister (VDT) wird für die Vermittlung neuer Autoren gedankt, deren Expertise für das Gelingen des Fachbuchs wichtig war. Unser Dank geht schließlich an die Mitarbeiterinnen und Mitarbeiter des De Gruyter Verlags, die uns mit Geduld und Verständnis stets hilfreich zur Seite standen. Er gilt auch Michael Peschke, der mit gewohnter Sorgfalt das neue Layout erstellte sowie Arnd Rüttger für die neuen Abbildungen. Den Leserinnen und Lesern wünschen wir, sie mögen in diesem Handbuch nachhaltige Antworten auf alle Fragen finden, die sich in ihrem Berufsumfeld der Audiotechnik ergeben. Martin Wöhr, im Dezember 2022

Die Herausgeber Dickreiter, Michael, Dr. phil., Dipl.-Tonmeister; Studium an der Musikhochschule in Detmold mit dem Abschluss Dipl.-Tonmeister, danach Aufbau eines Studiengangs zum Toningenieur an der Universidad Austral in Chile, anschließend Studium der Musikwissenschaft mit den Nebenfächern Physik und Psychologie an der Universität Heidelberg, Promotion zum Dr. phil., von 1972 bis 2002 Dozent und Fachautor an dem zentralen Aus- und Fortbildungsinstitut der öffentlich-rechtlichen Rundfunkanstalten in Nürnberg – früher srt, heute ARD.ZDF medienakademie, Lehrbeauftragter an der Universität Heidelberg; Mitglied VDT. Buchveröffentlichungen, u. a.: Musikinstrumente, Moderne Instrumente, historische Instrumente, Klangakustik (7. Aufl. 2007), Partiturlesen, (6. Aufl. 2010, auch in Englisch, Japanisch, Chinesisch), MikrofonAufnahme, Aufnahmeräume, Instrumente, Mikrofone, Stereo- und Surroundaufnahme (4. Aufl. 2011). Dittel, Volker, Dipl.-Ing.; Studium der Elektrischen Nachrichtentechnik an der RWTH Aachen, Studienschwerpunkte Halbleitertechnik und Technische Akustik, von 1967 bis 2006 Mitarbeiter des Westdeutschen Rundfunks, Köln, in den Bereichen Hörfunktechnik, Systementwicklung und Schulung, Leiter der Fachabteilung Audiosystemtechnik, Mitglied VDT. Tätigkeitsfelder: Automatisierung von Sendeabläufen, programmbegleitende Systeme für Hörfunk und Fernsehen, digitale Aufzeichnungs-, Produktions- und Sendeeinrichtungen, Qualitätssicherung, langjähriger Vorsitzender des ARD-Arbeitskreises Audiosystemtechnik (AKAS), Lehrauftrag an der Fakultät Informations-, Medien- und Elektrotechnik der Fachhochschule Köln für Rundfunk- und Fernsehtechnik, Autor naturwissenschaftlicher Sendungen über Fernseh- und Satellitentechnik für die Dritten Programme der ARD und Mitautor der zu diesen Sendungen veröffentlichten Begleitbücher. Hoeg, Wolfgang, Dipl.-Ing.; Studium der Nachrichtentechnik/Elektroakustik an der Technischen Hochschule Dresden mit Nebenfach Tonmeister, postgrad. Studium der Automatisierungstechnik. Seit 1959 tätig in Forschung und Entwicklung im Rundfunk- und Fernsehtechnischen Zentralamt (RFZ) der Deutschen Post, ab 1991 im Forschungsinstitut (FI) der Deutschen Telekom, bis 1999 Leiter der Abt. Audiosysteme bei der Deutschen Telekom Berkom Berlin; Mitglied VDT, Fellow Member AES. Tätigkeitsfelder u. a. Psychoakustik, Tonstudiotechnologie, Tonanlagentechnik, Rundfunk-Stereofonie und Mehrkanalton, Beschallungstechnik sowie Digitaler Rundfunk (DAB), Mitarbeit internationale Standardisierung (OIRT, EBU, ITU-R, Eureka147/DAB); Lehrauftrag für Tonmeisterausbildung an der Hochschule für Musik Hanns Eisler Berlin, zahlreiche Fachpublikationen, Mitautor/Herausgeber von Fachbüchern zu Stereofonie, Akustik und Digital Audio Broadcasting. Wöhr, Martin, Dipl.-Ing. (FH); Studium der Nachrichten- und Hochfrequenztechnik an der FH München sowie Studium der Musik am Richard-Strauß-Konservatorium und an der staatl. Musikhochschule, beide in München; von 1968 bis 2005 tätig beim Bayerischen Rundfunk, Hörfunk, München, zunächst als TonmeisterTechnik, ab 1990 Leiter der Abteilung Studioproduktion und Betrieb, von 2005 - 2009 Geschäftsführer des Bildungswerks des Verbandes Deutscher Tonmeister (VDT); Mitglied VDT und Fellow Member AES. Beschäftigt als Tonmeister-Technik überwiegend in der Musikproduktion für Rundfunk und Tonträgerindustrie, Mitarbeit bei Rundfunkprojekten des Instituts für Rundfunktechnik (IRT), ab 1990 Mitarbeit in Arbeitsgruppen und Gremien der ARD und EBU, maßgebliche Mitarbeit bei der Einführung der Mehrkanalübertragung im Hörfunk in der ARD, mehrere Veröffentlichungen in Fachzeitschriften.

https://doi.org/10.1515/9783110759921-202

Verzeichnis der Autoren a Campo, Markus, Dr.-Ing. Elektrotechnik; Studium und Promotion an der RWTH Aachen; seit 1997 freiberufliche Tätigkeit; Berater und Gutachter im Bereich Informationssicherheit; ISO 27001 Lead Auditor; ISO 27001 Lead Implementer; öffentlich bestellter und vereidigter Sachverständiger. Autor des Kapitels 16.4 Arasin, Peter, Dipl.-Ing.; Sennheiser electronic, Wedemark, Ruhestand seit 2018; Produktmanager,1985-1998; Produkttrainer 1998-2018; Veröffentlichungen zur Funkmikrofontechnik, u. a. „The Sennheiser Sound Academy Wireless Handbook”. Autor der Kapitel 4.3, 4.5.2 Baumgartner, Hannah, Dipl.-Ing. Hörtechnik & Audiologie (MSc), Mediengestalterin Bild & Ton; Wissenschaftliche Mitarbeiterin Fraunhofer IDMT, Oldenburg; Mitglied VDT. Autorin des Kapitels 17.7 Bock, Stefan, Tonmeister; Geschäftsführer der msm-studios, München, GmbH & Co.KG; Mitglied VDT, AES Autor des Kapitels 15.2 Camerer, Florian, Ing.-Nachrichtentechnik; Tonmeister ORF-Fernsehen; Seminartätigkeit zu den Themen Surround-Sound und Lautheit; 10 Jahre Ton für Dokumentarfilme; seit 25 Jahren Nachbearbeitung für Neujahrskonzert; Mitglied AES, VdT, ÖTMV, Chairman EBU-Gruppe PLOUD seit 2008. ​Autor der Kapitel 5.6.5, 19.2, 19.4, 19.6 Dickreiter, Michael, Dr. phil., Dipl.-Tonmeister; siehe Verzeichnis der Herausgeber. Autor der Kapitel 1, 2, 3, 4, 5.3, 5.6.1, 5.6.2, 5.6.3.7, 7, 8, 9 Erk, Alexander, Dipl.-Inf. (FH); ARD-Frequenzmanagement, ARD/Bayerischer Rundfunk, München. Autor des Kapitels 17.5 Färber, Nikolaus, Dr.-Ing.; Abteilungsleiter Embedded Audio, Fraunhofer IIS, Erlangen, seit 2003; Post-Doc in der Multimedia Systems Group, Stanford University, USA, 2000 – 2001; Senior Researcher Speech Processing bei Ericsson Eurolab, Nürnberg, 2001 – 2003; Leiter der 3GPP Video Codec Ad-Hoc Group zur Einführung von H.264/AVC, 2004-2005; Technischer Leiter der Internet Streaming Media Alliance (ISMA), 2004-2008; Sprecher der Open Source Software (OSS) Compliance Beauftragten am Fraunhofer IIS, seit 2021. Autor des Kapitels 17.4 Feiten, Bernhard, Dr.-Ing. Elektrotechnik; Design und Entwicklung Digitaler Musikinstrumente, msye, Berlin; Wissenschaftlicher Assistent in Fachgebieten Kommunikationstechnik und Computermusik an der Technischen Universität Berlin, 1984 – 1995; Projektleiter und Senior-Expert für Audio- / VideoStreaming und Quality of Experience bei Deutsche Telekom, 1996 – 2021; Entwicklung der App „Eternal Machine“, Entwicklung der Standards ITU Rec. BS 1387 und ITU P.1201, P.1203, P.1204; Entwicklung der App „MsyChords“. Autor der Kapitel 12.5, 12.6 Fuchs, Harald, Dipl. Ing.; Abteilungsleiter Mediensysteme und Anwendungen, Fraunhofer IIS, Erlangen. Autor der Kapitel 5.5.2, 13.2.5, 13.4.6 Genuit, Klaus, Prof. Dr.-Ing.; Geschäftsführer, HEAD acoustics GmbH, Herzogenrath; Lehrtätigkeit RWTH Aachen, Psychoakustik und Sound-Engineering; Mitglied AES, DEGA, VDE, VDI, ASA, JAES und JSAE. Autor des Kapitels 4.2.4.6 https://doi.org/10.1515/9783110759921-203

XIV 

 Verzeichnis der Autoren

Goeres-Petry, Jürgen, Dipl.Ing. Ton- und Bildtechnik, MBA; Programmmanager Deutschlandradio Köln/Berlin; Tonmeister Badisches Staatstheater Karlsruhe, Hessischer Rundfunk, Frankfurt, Deutschlandradio; Mitglied VDT. Autor der Kapitel 3.1, 11.2 Graubner, Maxim, Dipl.-Ing. ETiT, Nachrichten- und Kommunikationstechnik; Stabsstelle Technische Projekte im Ressort Hörfunksysteme der Hörfunkproduktion des Hessischen Rundfunks, Frankfurt; ARD-Hörfunksternpunkt 2016-2020; Trainer bei der ARD.ZDF-Medienakademie für Audio over IP und IT für die Medienproduktion seit 2015. Mitglied VDT, AES, EBU-ACIP. Autor des Kapitels 16.5.6 Graul, Wolfram, Dipl.-Tonmeister; Cheftonmeister und Abteilungsleiter Musikproduktionen, Bayerischer Rundfunk, München, im Ruhestand; Lehrauftrag Tonmeister, UdK, Berlin, 2010-2020. Autor des Kapitels 5.6.3 Grewe, Yannik, Master of Engineering – Audiovisuelle Medien, Ton; Senior Engineer für Next Generation Audio, Fraunhofer Institut für Integrierte Schaltungen IIS, Erlangen; Bauer Studios, Ludwigsburg, 2011; Wissenschaftliche Hilfskraft, Fraunhofer IIS, 2013, Toningenieur, Schwerpunkt 3D-Audio, Next Generation Audio und MPEG-H Audio, Fraunhofer IIS, 2015-2020; Mitglied VDT, AES. Autor der Kapitel 5.5.1.1, 5.5.2 Grill, Bernhard, Prof. Dr.-Ing., Elektrotechnik; Institutsleiter am Fraunhofer-Institut für Integrierte Schaltungen IIS, Erlangen, seit 2016; Honorarprofessor an der Friedrich-Alexander-Universität ErlangenNürnberg (FAU); Mitentwicklung von mp3 und AAC; Deutscher Zukunftspreis des Bundespräsidenten für die Entwicklung von mp3, (gms. mit Karlheinz Brandenburg, Harald Popp), 2000; Mitarbeit bei den ISO-Standardisierungen seit 1988. Autor des Kapitels 13 Herla, Siegbert, Dipl.-Ing.; Ruhestand seit 2013; Leiter des Arbeitsbereichs Tonstudiotechnik und Tonsignalspeicherung am Institut für Rundfunktechnik (IRT), 1983 – 1996; danach Fachreferent der Sachgebiete Aufzeichnung, Archive und Produktionssysteme Fernsehen am Institut für Rundfunktechnik (IRT); Mitarbeit in nationalen und internationalen Rundfunk- und Standardisierungsgremien, Vortragstätigkeit bei ARD/ ZDF-Akademie, Hochschulen und nationalen und internationalen Tagungen; Veröffentlichungen zur Aufzeichnung und Archivierung. Autor des Kapitels 15.1 Hildebrand, Andreas, Dipl.-Ing. Informatik; Senior Produktmanager für RAVENNA, AoIP Evangelist, ALC NetworX, München, seit 2008; Entwicklungsleiter RadioROC bei gtc Film- und Fernsehstudiotechnik, Hamburg, ab 1990; Projektleiter Einführung Nachrichtenverteilsystem bei CNN-SI (Atlanta) für Nexus Informatics, München, ab 1996 ; Produktmanagement DigaSystem bei DAVID GmbH, München ab 1997; Autor der Kapitel 16.3.1, 16.3.6, 16.3.7 Hoeg, Wolfgang, Dipl.-Ing.; siehe Verzeichnis der Herausgeber. Autor der Kapitel 1.3.5, 1.4.2, 8.1, 10,2, 13.5 bis 13.9, 17.2, 17.6, 17.7, 19.1, 19.5, 19.7, 19.8 Kratschmer, Michael, Dipl.-Ing.; Gruppenleiter Audio Metadaten, Fraunhofer-Institut für Integrierte Schaltungen (IIS), Erlangen; Editor des MPEG-D DRC Standards, Mitarbeit in internationalen Standardisierungsgremien (MPEG, SMPTE, ITU-R). Autor der Kapitel 13.2.4, 13.2.5

Verzeichnis der Autoren 

 XV

Kühn, Manfred, Dr.-Ing.; im Ruhestand; Entwicklungsingenieur, Labor- und Abteilungsleiter, DP Rundfunkund Fernsehtechnisches Zentralamt, 1973 - 1989; Wissenschaftlicher Mitarbeiter DBP, Forschungs- und Technologiezentrum, ab 1991; Gruppenleiter Rundfunk und Breitbandkabel der Telekom, ab 1999; Abteilungsleiter Broadcast Networks & Services der T-Systems Media & Broadcast. Mitarbeit in der OIRT, 1985-1988; Mitarbeit bei der MPEG-Standardisierung (ISO MPEG WG 12), 1991-1993; Mitarbeit bei der DVBStandardisierung im Europäischen DVB-Projekt, Mitglied in der Kammer der Technik, bis 1990; Mitglied FKTG. Autor des Kapitels 17.2.5 Lauterbach, Thomas, Prof. Dr. rer. nat., Dipl.-Phys Univ.; Professor, Technische Hochschule Georg Simon Ohm, Nürnberg; DAB-Entwicklung (Vorausentwicklung, Robert Bosch GmbH), 1992 – 1997. Mitautor der Kapitel 17.1 bis 17.3 Lott, Frank, Dipl.-Ing. Nachrichtentechnik (FH); Hauptabteilungsleiter HA Planung in der Produktions- und Technikdirektion des Bayerischen Rundfunks in München; Referent des technischen Direktors des BR, Leitung Hauptabteilung Produktion und Sendung, Vorsitz Verwaltungsrat und Beirat der ARGE RBT; Mitglied VDT. Autor des Kapitels 16.1 Lutzky, Manfred, Dipl.-Ing. Elektrotechnik; Abteilungsleiter Audio für Kommunikationssysteme, Fraunhofer IIS, Erlangen; Fraunhofer Preisträger für Entwicklung von AAC-ELD. Autor der Kapitel 13.4.10, 13.5 Maempel, Hans-Joachim, Dr. phil., Dipl.-Tonmeister; Leiter der Abteilung Akustik und Musiktechnologie | Studiotechnik und IT, Staatliches Institut für Musikforschung, Berlin; Wissenschaftlicher Mitarbeiter am Fachgebiet Audiokommunikation der TU Berlin 2006-2012; Vorstandsmitglied des VDT 2005-2009, Mitglied VDT. Autor der Kapitel 5.6.4, 6 Maniak, Stephan, Dr. habil., Dr.-Ing., Dipl.-Ing.; Software-Projektleiter bei CGI Deutschland in Bochum, tätig als wissenschaftlicher Mitarbeiter, Visiting Professor und Lehrbeauftragter in Forschung und Lehre in den Bereichen Elektrotechnik und Informatik. Autor des Kapitels 15.3 Meltzer, Stefan, Dipl.-Ing.; Chief Business Development Manager, Fraunhofer IIS, Erlangen. Autor der Kapitel 13.4.7.3, 13.4.7.4, 13.4.8.4 Mielke, Ingmar, B.Eng. Elektrotechnik; ARGE Rundfunk-Betriebstechnik, Nürnberg. Autor des Kapitels 19.3 Nettingsmeier, Jörn, Meister für Veranstaltungstechnik, Studium der Schulmusik, Folkwang Universität der Künste Essen und Universität, Duisburg-Essen; Freischaffender Tonmeister; Technischer Leiter und Live Sound Designer, Amsterdam; Vorstandsmitglied VDT, Mitglied AES. Autor des Kapitels 5.5.3.2 Neuendorf, Max, Dipl.-Ing. Elektro- und Informationstechnik an der TU München; Produktmanager und Gruppenleiter der Gruppe Audio- und Sprachcodierung, Fraunhofer Institut für Integrierte Schaltungen IIS, Erlangen; Projektleiter verschiedener ISO-Standards, u. a. ISO/IEC 23003-3 (MPEG-D USAC) und ISO/IEC 23008-3 (MPEG-H 3D Audio). Autor des Kapitels 13.4.5

XVI 

 Verzeichnis der Autoren

Nipkow, Lasse, Dipl. El. Ing. HTL, Zürich; Geschäftsführer, Silent Work GmbH, Zürich; Toningenieur, Hochschule der Künste (ZHdK), Zürich; Dozent für Elektrotechnik, Mikrofonierungstechnik und 3D-Audio, SAE Zürich; Wissenschaftlicher Mitarbeiter an der Hochschule für Angewandte Wissenschaften (ZHAW), Zürich, 1998 – 2018; Mitglied VDT (Referatsleitung Musik- und Wortproduktion) und AES (Vorstandsmitglied, Schweiz). Autor der Kapitel 5.4.3, 5.4.5.3, 5.5.6.2, 5.5.6.3 Otto, Helmut, Datentechniker, im Ruhestand seit 2022; VIAVI Solutions Deutschland GmbH, Eningen, 1999-2021; Seminarleiter Netzwerktechnik, Referent bei der ARD-ZDF Medienakademie in Nürnberg und Technischen Akademie, Ostfildern. Autor der Kapitel 16.3.4, 16.3.5 Prosch, Markus, Dipl.-Inf.; Senior Engineer, Fraunhofer IIS, Erlangen; Mitglied WorldDAB Technical Committee; ehemals Chairman Arbeitsgruppen zur Standardisierung MOT und DAB+. Autor der Kapitel 17.1, 17.2, 17.5 Reykers, Heinz Peter, Dipl.-Ing.; Gehobener Ingenieur im WDR, Köln; Trainingspartner der ARD.ZDF medienakademie; Veröffentlichungen zum Mehrkanalton im Hörfunk; Mitglied VDT. Autor der Kapitel 13.4.9, 16 Romahn, Götz, Dr.-Ing., Dipl.-Ing. Nachrichtentechnik, Tonmeister, im Ruhestand; Forschung in den Bereichen Akustik und Telekommunikation; Hauptabteilungsleiter bei RIAS-Berlin/Deutschlandradio; Lehrbeauftragter an der Technischen Universität Berlin; Veröffentlichungen zu Akustik und Telekommunikation. Autor der Kapitel 12.1 bis 12.4, 14.1 Schmidt, Sven, Dipl.- Ing. (FH) Umwelttechnik/Umweltmesstechnik; Sicherheitsingenieur Hessischer Rundfunk, Frankfurt; Fachkraft für Arbeitssicherheit gemäß ASiG, seit 2009. Autor des Kapitels 11.1 Schnell, Markus, Dipl.-Ing.; Gruppenleiter Low Delay Audiocoding, Fraunhofer IIS, Erlangen; Entwicklungsleiter MPEG4 AAC-ELD, 2006-2008; Standardisierung 3GPP EVS, 2008-2014; Entwicklungsleiter LC3 / LC3plus, 2016-2020; Entwicklungsleiter LC3 / LC3plus, 2016-2020. Autor der Kapitel 13.4.10, 13.5, 13.6.3 Slavik, Karl Michael, Ing. Nachrichtentechnik und Elektronik (HTL), Dipl. Päd. für berufsbildende Schulen; Aus- und Weiterbildung in Österreich, Deutschland, England, USA; Audio-, Video und IT-Techniker, seit 1981; Toningenieur und Projektleiter beim Österreichischen Rundfunk 1999–2005, Inhaber ARTECAST Medienund Informationstechnik KG, Wien, seit 2005; Dolby Broadcast Senior Engineer & Consultant, seit 2006; Gastdozent an der ARD-ZDF-Medienakademie und an der Universität Wien; Mitarbeit in internationalen Gremien (EBU); Veröffentlichungen zur Audio- und Videotechnik. Autor des Kapitels 18 Spikofski, Gerhard, Dipl.-Ing. Elektrotechnik; im Ruhestand; Wissenschaftlicher Mitarbeiter am Institut für Rundfunktechnik (IRT), Audiosystemtechnik, 1980-2013; Projektleiter Entwicklung eines nationalen Konzepts für Lautstärke-Messung und Management für ARD und ZDF, 2000-2005; Mitarbeit in nationalen und internationalen Audiostandardisierungsgremien; Mitglied VDT. Autor des Kapitels 5.5.5.1

Verzeichnis der Autoren 

 XVII

Steuck, Ralf, Dipl.-Ing.; Messtechnik und Planung HF beim Norddeutschen Rundfunk; Projektleitung des ersten digitalen Funkhauses, Schwerin, 1996; Veröffentlichungen zur analogen und digitalen Tonstudiotechnik. Autor des Kapitels 14.2 Theile, Günther, Dr.-Ing.; Leiter des Sachgebiets Audiosystemtechnik am Institut für Rundfunktechnik (IRT), München, im Ruhestand; Forschungen, Entwicklungen und Veröffentlichungen zur Aufnahme- und Wiedergabetechnik, virtuellen Akustik und Datenreduktion. Mitglied VDT, AES, DEGA. Autor der Kapitel 5.1, 5.2, 5.4, 5.4.3, 5.5.3, 5.5.4 Vogt, Paul, Dipl. Ing. (FH), Nachrichten- und Kommunikationstechnik; Systemingenieur, Bayerischer Rundfunk, München; ab 2007 Audiomessingenieur, später Projektingenieur, heute Technolgieentwicklung. Autor der Kapitel 16.2.1 bis 16.2.13 Wallaszkovits, Nadja, Dr., Diplom Tonmeisterin (SAE); Professorin, Staatliche Akademie der bildenden Künste, Stuttgart; Leiterin der Audiotechnik im Phonogrammarchiv der Österr. Akademie der Wissenschaften, 2005-2020; Mitglied AES, Past President, Chair Standard group SC-03-06, Mitglied IASA, Vice Chair Technical Committee. Autorin des Kapitels 7.3 Wöhr, Martin, Dipl.-Ing (FH), Tonmeister; siehe Verzeichnis der Herausgeber. Autor des Kapitels 16.2.14 Zink, Alexander, Dipl.-Ing., MBA; Chief Business Development Manager Digital Radio & Broadcast Applications, Fraunhofer IIS, Erlangen; Aktives Mitglied von WorldDAB, Vice-Chairman DRM Consortium (Digital Radio Mondiale); seit 2008 Co-Präsident DRM Association; seit 2009 Liaison Officer und Technical Liaison Officer für Fraunhofer bei der ABU - Asia-Pacific Broadcasting Union; Verleihung des Joseph-vonFraunhofer-Preises zum Thema Digitalradio, 2016. Autor der Kapitel 17.2, 17.2.6, 17.5 Zuleeg, Ralf; Abgeschlossene Berufsausbildung, 40 Jahre praktische Beschallungserfahrung; 1995 Eintritt bei d&b Audiotechnik AG, seit 2005 d&b audiotechnik GmbH & Co.,Kg., seit 2012 Immersive Audio, Abteilungsleiter Soundscape Enablement. Autor des Kapitels 10

Nachstehende Autoren haben in früheren Auflagen mitgewirkt, ihre Beiträge sind teilweise in die aktuelle Auflage eingeflossen: Nikolaus Büttner, Ernst Dohlus, Klaus Hackbart, Christian Hartmann, Klaus M. Heidrich, Roger Heimann, Gernot Meyer-Schwarzenberger, Klemens Nicklaus, Michael Schäfer, Thomas Schierbaum, Bernhard Schullan, Henrik Schulze und Gerhard Stoll.

Inhalt Vorwort  VII Die Herausgeber  XI Verzeichnis der Autoren  XIII 1 Grundlagen der Akustik  1 1.1 Schallschwingungen  1 1.1.1 Typen von Schallschwingungen  1 1.1.2 Eigenschaften von Schwingungen  4 1.1.2.1 Einfache Schwingungen  4 1.1.2.2 Überlagerung von Schwingungen  5 1.1.2.3 Zusammengesetzte Schwingungen  6 1.2 Schallfelder  7 1.2.1 Schallausbreitung in Luft  9 1.2.1.1 Kugelwelle und ebene Welle  12 1.2.1.2 Schalldruck, Schallschnelle und Schallkennimpedanz  13 1.2.1.3 Schalldruckpegel  15 1.2.1.4 Schallleistung und Schallintensität  16 1.2.2 Schallausbreitung im Raum  17 1.2.2.1 Schallreflexion  18 1.2.2.2 Schallbeugung  21 1.2.2.3 Schallbrechung  22 1.2.2.4 Schallabsorption  23 1.2.2.5 Schalldämmung  29 1.3 Raumakustik  30 1.3.1 Zeitlicher Aufbau des Schallfelds  30 1.3.2 Begriffe der Hörakustik  32 1.3.3 Direktschall und erste Reflexionen  33 1.3.3.1 Deutlichkeitsgrad und Klarheitsmaß  35 1.3.4 Hall  35 1.3.4.1 Nachhallzeit  36 1.3.4.2 Hallradius und Hallabstand  40 1.3.5 Diffusität  43 1.4 Akustik von Aufnahmestudios  44 1.4.1 Störgeräuschpegel  44 1.4.2 Raumakustik von Aufnahmestudios und Regieräumen  45 1.4.2.1 Elektronische Systeme zur Veränderung der Raumakustik  47 1.4.2.2 Schallkabinen  49

XX 

 Inhalt

1.4.3 Akustik von Regieräumen  50 1.4.3.1 Akustik von Übertragungswagen und kleiner Abhörräume  50 1.4.4 Akustik großer Aufnahmestudios und Konzertsäle  51 Historische Konzertsäle, Opernhäuser und Kirchen  53 1.5 Konzertsäle des 18. Jahrhunderts  53 1.5.1 1.5.2 Konzertsäle des 19. Jahrhunderts  55 1.5.3 Konzertsäle des 20. Jahrhunderts  57 1.5.4 Opernhäuser und Theater  60 1.5.5 Kirchen  62 Standards  64 Literatur  64 2 Schallquellen  67 2.1 Menschliche Stimme  67 2.1.1 Akustische Eigenschaften  67 2.1.1.1 Sprachspektrum  69 2.1.1.2 Sprachschallpegel  71 2.1.1.3 Singstimme  71 2.1.2 Gerichtete Schallabstrahlung  72 2.1.3 Sprachverständlichkeit  73 2.2 Musikinstrumente  74 2.2.1 Akustische Eigenschaften  74 2.2.1.1 Klangeinsatz  77 2.2.1.2 Quasistationärer Klangabschnitt  77 2.2.1.3 Ausklingvorgang  80 2.2.1.4 Musikalische Dynamik  81 2.2.1.5 Stimmung der Instrumente  82 Akustische Instrumente   84 2.2.2 2.2.2.1 Streichinstrumente  85 2.2.2.2 Holzblasinstrumente  87 2.2.2.3 Blechblasinstrumente  93 2.2.2.4 Klavier und Cembalo  94 2.2.2.5 Orgel  95 Akustische Gitarre und E-Gitarre  96 2.2.2.6 2.2.2.7 Schlaginstrumente  98 2.2.3 Schallabstrahlung  99 2.2.3.1 Streichinstrumente   99 2.2.3.2 Holzblasinstrumente  102 2.2.3.3 Blechblasinstrumente  103 2.2.3.4 Konzertflügel   104 2.2.3.5 Kirchen- und Konzertorgel   105 2.2.4 Elektronische Instrumente  105 2.2.4.1 Historische Entwicklung  106 2.2.4.2 Elektronische Klangerzeugung  107

Inhalt 

Verfahren der elektronischen Klangveränderung  109 2.2.4.3 2.2.4.4 Klangsteuerung durch MIDI  111 2.2.4.5 Keyboards und Rhythmusgeräte   114 Standards  115 Literatur  115 3 Schallwahrnehmung  117 3.1 Das Gehör  117 3.1.1 Außenohr  117 3.1.2 Mittelohr   118 3.1.3 Innenohr  118 3.2 Schallereignis und Hörereignis  120 3.3 Eigenschaften der Schallwahrnehmung  121 3.3.1 Lautstärkepegel und Lautheit  121 3.3.2 Anpassung und Maskierung  125 3.3.3 Tonhöhe   126 3.3.4 Nichtlineare Verzerrungen  127 3.3.5 Rauheit und Schärfe  127 3.3.6 Subjektive Tondauer  128 3.3.7 Hörbarkeit von Phasenänderungen  128 3.3.8 Psychoakustisches Modell  129 3.4 Räumliches Hören natürlicher Schallquellen  129 3.4.1 Wahrnehmung der Richtung   131 3.4.1.1 Horizontale Ebene  131 3.4.1.2 Vertikale Ebene  133 3.4.2 Wahrnehmung der Entfernung  134 3.4.2.1 Im-Kopf-Lokalisierung  135 Standards  136 Literatur  136 Mi­kro­fone und Lautsprecher  139 4 Physikalische Prinzipien der Schallwandler  139 4.1 4.2 Mi­kro­fone  142 4.2.1 Eigenschaften von Mi­kro­fonen  144 4.2.1.1 Übertragungsfaktor, Übertragungsmaß, Empfindlichkeit  144 4.2.1.2 Übertragungsbereich  144 4.2.1.3 Frequenzgang  145 4.2.1.4 Störpegel  149 4.2.1.5 Grenzschalldruck und Aussteuerungsgrenze  151 4.2.1.6 Ausgangsimpedanz und Nennabschlussimpedanz   151 4.2.1.7 Richtcharakteristik  151 4.2.1.8 Bauformen von Mi­kro­fonen  156 4.2.1.9 Wind- und Poppstörungen  166 Störungen durch Körperschall  168 4.2.1.10

 XXI

XXII 

 Inhalt

4.2.2 Kondensatormi­kro­fone  169 4.2.2.1 Spannungsversorgung  169 4.2.2.2 Mi­kro­fon-Vorverstärker mit analogem Ausgang  171 Mi­kro­fon-Vorverstärker mit digitalem Ausgang  173 4.2.2.3 4.2.2.4 Druckempfänger  177 4.2.2.5 Druckgradientenempfänger  178 4.2.2.6 Druckgradientenempfänger mit umschaltbarer Richtcharakteristik  180 4.2.2.7 Stereomi­kro­fone  181 4.2.3 Dynamische Mi­kro­fone  184 4.2.3.1 Tauchspulmi­kro­fon  185 Bändchenmi­kro­fon  187 4.2.3.2 4.2.4 Spezialmi­kro­fone  188 4.2.4.1 Kardioidebenenmi­kro­fon  188 4.2.4.2 Grenzflächenmi­kro­fon  189 4.2.4.3 Großmembran- und Röhrenmi­kro­fon  191 4.2.4.4 Lavalier-Mi­kro­fon  192 4.2.4.5 Kontaktmi­kro­fon  193 4.2.4.6 Kunstkopf-Mi­kro­fon  193 4.2.5 Mi­kro­fonständer  199 ­­­4.3 Einrichtungen für drahtlose Mi­kro­fone   200 4.3.1 Drahtlose Audioübertragung mit analog modulierter HF-Übertragung  201 4.3.1.1 Sender  201 4.3.1.2 Frequenzzuteilung   206 4.3.1.3 Stromversorgung  208 4.3.1.4 Antennen und Wellenausbreitung  208 4.3.1.5 Empfänger  210 4.3.1.6 Diversity-Empfang  211 Drahtlose Audioübertragung mit digital modulierter HF-Übertragung  212 4.3.2 4.4 Lautsprecher  215 4.4.1 Bauformen  216 Dynamische Lautsprecher  216 4.4.1.1 Elektrostatischer Lautsprecher  221 4.4.1.2 Akustischer Kurzschluss und Lautsprecherboxen  222 4.4.1.3 4.4.1.4 Regielautsprecher  224 4.5 Kopfhörer  224 4.5.1 Bauformen von Kopfhörern  225 4.5.2 Einrichtungen für drahtlose Kopfhörer  226 Standards  229 Literatur  229 Tonaufnahme und Tonwiedergabe  231 5 5.1 Prinzipien der räumlichen Tonübertragung  231 5.1.1 Lautsprecher-Stereofonie  232 5.1.2 Synthese des umgebenden Schallfelds  233

Inhalt 

 XXIII

Binaurale Reproduktion der Ohrsignale  234 5.1.3 5.2 Stereofonie  235 5.2.1 Phantomschallquellen  235 5.2.1.1 Phantomschallquellen bei Pegeldifferenzen  236 Phantomschallquellen bei Zeitdifferenzen  238 5.2.1.2 Phantomschallquellen beim Zusammenwirken von Pegel- und 5.2.1.3 Laufzeitdifferenzen  239 5.2.1.4 Seitliche Phantomschallquellen  240 5.2.1.5 Stereohörzonen  243 5.2.2 Aufnahmewinkel eines Stereomikrofons  245 5.2.2.1 Aufnahmewinkel bei zweikanaligen Mikrofonen  246 5.2.2.2 Aufnahmewinkel bei gleichsinnigen Pegel- und Laufzeitdifferenzen  247 5.2.2.3 Aufnahmewinkel bei dreikanaligen Mikrofonen  248 5.2.2.4 Berechnungswerkzeuge  249 5.2.3 Theorien zur Lokalisierung von Phantomschallquellen  251 5.2.3.1 Summenlokalisierung  251 5.2.3.2 Assoziationsmodell  252 5.2.4 Räumliche stereofone Abbildung  254 5.2.4.1 Prinzipien der Zweikanal-Stereofonie  255 5.2.4.2 Prinzipien der Mehrkanal-Stereofonie  257 5.2.5 Begriffe zur stereofonen Richtungsabbildung  259 5.2.6 Aspekte zur Anwendung der Aufnahmeverfahren  260 5.3 Zweikanal-Stereofonie  262 5.3.1 Übersicht über die Aufnahme- und Mikrofonverfahren  262 5.3.2 Intensitätsstereofonie  267 5.3.2.1 XY-Mikrofonverfahren   268 5.3.2.2 MS-Mikrofonverfahren  271 5.3.2.3 Äquivalenzen von XY- und MS-Mikrofonverfahren  272 5.3.2.4 Praktischer Einsatz von Stereomikrofonen  273 5.3.3 Laufzeitstereofonie   274 5.3.3.1 Klein-AB  275 5.3.3.2 Groß-AB  277 5.3.3.3 Decca-Tree  278 5.3.3.4 Praktischer Einsatz der Laufzeitstereofonie  278 5.3.4 Kombination von Intensitäts- und Laufzeitstereofonie  280 5.3.4.1 Verfahren mit Pegeldifferenzen unabhängig von der Frequenz  282 5.3.4.2 ORTF-, EBS- und NOS-Verfahren  283 5.3.4.3 Kugelflächenmikrofon  284 5.3.4.4 Andere Trennkörper  287 5.3.5 Stützmikrofonverfahren   288 5.3.5.1 Monostützmikrofone  290 5.3.5.2 Stereostützmikrofone  291 Verzögerte und raumbezogene Stützmikrofone  291 5.3.5.3 5.3.6 Einzelmikrofonverfahren  293

XXIV 

 Inhalt

5.3.7 Überwachung der Stereosignale  294 5.3.8 Monokompatibilität  297 5.4 Mehrkanal-Stereofonie  299 5.4.1 Mehrkanal-Standard  299 5.4.1.1 3/2-Lautsprecheranordnung  299 5.4.1.2 Hierarchie kompatibler Mehrkanal-Tonsysteme  301 5.4.1.3 Tieftonwiedergabe  302 5.4.2 Stereofonie in den Sektoren L-C und C-R  304 5.4.2.1 Doppel-Stereoverfahren  305 5.4.2.2 Mehrfach-AB-Verfahren  307 5.4.2.3 Decca-Tree  308 5.4.2.4 OCT-Verfahren  310 5.4.3 Einsatz der Surround-Kanäle  314 5.4.3.1 Surround Sound-Hauptmikrofone  317 5.4.3.2 Raummikrofone  323 5.4.3.3 Reportage und Dokumentation  326 5.4.4 Verwendung von Delay  327 5.4.4.1 Delay bei Einsatz von Hauptmikrofonen  328 5.4.4.2 Delay-Plan  330 5.4.4.3 Digitale Signalverarbeitung  331 5.4.5 Einsatz von Höhenlautsprechern  331 5.4.5.1 Nutzen der Höhenlautsprecher  334 5.4.5.2 Anwendung der Höhenlautsprecher  335 5.4.5.3 Höhenlautsprecher für immersiven Sound   338 5.5 Verfahren der räumlichen Tonübertragung  343 Kanalbasierte Verfahren  343 5.5.1 Nomenklatur und Notation  343 5.5.1.1 Objektbasierte Verfahren   346 5.5.2 5.5.2.1 Grundprinzipien von objektbasierten Verfahren  346 5.5.2.2 Die Aufgaben des Renderers  347 Personalisierung und Interaktion  349 5.5.2.3 5.5.2.4 Metadaten  349 Universelle Übertragung  351 5.5.2.5 Flexible Wiedergabemöglichkeiten  352 5.5.2.6 5.5.3 Schallfeldsynthese  353 5.5.3.1 Wellenfeldsynthese   354 5.5.3.2 Ambisonics  364 5.5.4 Kopfhörerwiedergabe  369 Phantomschallquellen im Kopf  371 5.5.4.1 5.5.4.2 Entzerrung der Kopfhörer  371 5.5.5 Binaurale Verfahren  374 Kopfbezogene Übertragung  374 5.5.5.1 5.5.5.2 Praktische Anwendung  377 5.5.5.3 Lautsprecherwiedergabe  377

Inhalt 

5.5.6 Binauralisierung  378 5.5.6.1 Binaurale Raumsynthese  378 5.5.6.2 Externalisierung  380 5.5.6.3 Werkzeuge für Binauralisierung  381 Gestaltung des Klangbilds  383 5.6 Grundsätze klanglicher Gestaltung  384 5.6.1 5.6.2 Klangliche Aspekte von Wortproduktionen  387 5.6.2.1 Sprachaufnahmen  389 5.5.2.2 Gesprächsrunden  392 5.6.3 Klangliche Aspekte bei Produktionen klassischer Musik  393 5.6.3.1 Aufnahmeräume  394 5.6.3.2 Verteilung der Schallquellen auf der Stereobasis  396 5.6.3.3 Tiefenstaffelung innerhalb des Stereo-Klangbilds  401 5.5.3.4 Wiedergabedynamik  402 5.6.3.5 Wiedergabe von 5.1-Mehrkanal-Stereofonie  402 5.6.3.6 Neue Aspekte bei mehrkanaliger Wiedergabe  403 5.6.3.7 Historischer Rückblick  404 5.6.4 Klangliche Aspekte bei der Produktion populärer Musik  405 5.6.4.1 Rahmenbedingungen  406 5.6.4.2 Ziele der Klangbildgestaltung  407 5.6.4.3 Mittel der Klangbildgestaltung  408 5.6.4.4 Psychologische Prinzipien  408 5.6.4.5 Experimentelle Befunde zur Klangbildgestaltung  409 5.6.4.6 Alltagsbefunde zur Klangbildgestaltung  411 5.6.5 Klangliche Aspekte bei Fernsehtonproduktionen  413 5.6.5.1 Unterhaltung und Show  414 5.6.5.2 Oper  416 5.6.5.3 Sport  417 5.6.5.4 Reportage, Magazin und Dokumentation  418 5.6.5.5 Spielfilm  419 5.6.5.6 Fernsehspiel und Sitcom  420 Standards  420 Literatur  421 6 Klanggestaltung  427 Abbildungsrichtung und Abbildungsbreite  427 6.1 6.1.1 Panorama-Potentiometer und Balanceregler  428 6.1.2 Richtungsmischer, Stereobreitenregler und Stereo-Enhancer  433 Dynamik und Lautheit  435 6.2 6.2.1 Kompressor und Limiter  435 6.2.1.1 Statisches Verhalten  436 6.2.1.2 Dynamisches Verhalten  438 6.2.1.3 Erweiterte Anwendungen  440

 XXV

XXVI 

 Inhalt

6.2.2 Expander und Gate  442 6.2.2.1 Statisches Verhalten  442 6.2.2.2 Dynamisches Verhalten  444 Erweiterte Anwendungen  444 6.2.2.3 Kombinierte Regelverstärker  444 6.2.3 6.3 Klangfarbe  446 6.3.1 Klassische Filter  446 6.3.1.1 Hochpassfilter  447 6.3.1.2 Tiefpassfilter  448 6.3.1.3 Bandpassfilter  449 6.3.1.4 Bandsperre  449 6.3.1.5 Spezialfilter  450 6.3.2 Equalizer  451 6.3.2.1 Glockenfilter  452 6.3.2.2 Schelf-Filter  453 6.3.3 Verzerrer  454 6.3.4 Enhancer  455 6.4 Tonhöhe und Tondauer  456 6.4.1 Pitch Shifting  456 6.4.2 Time Stretching  457 6.5 Raumeindruck  458 6.5.1 Analoge Hallerzeugung  459 6.5.1.1 Hallplatte  459 6.5.1.2 Hallfolie  460 6.5.1.3 Hallfeder  460 Digitaler algorithmischer Hall  461 6.5.2 Digitaler Faltungshall  463 6.5.3 Komplexe Klangveränderungen  464 6.6 6.6.1 Tremolo und Vibrato  464 6.6.2 Wah-Wah  464 6.6.3 Verzögerungseffekte  465 6.6.4 Phaser  468 6.6.5 Ringmodulator  469 6.6.6 Leslie-Kabinett  470 6.6.7 Vocoder  470 6.6.8 Kombinierte und neue Audiobearbeitungsmittel  472 6.7 Klangästhetische Aspekte  473 Zusammenhang von Reiz- und Wahrnehmungsmerkmalen  473 6.7.1 Klang und Bedeutung  474 6.7.2 6.7.3 Medienästhetische Ideale  475 6.7.4 Die Aufmerksamkeit des Hörers  476 Literatur  477

Inhalt 

Analoge Tonsignalspeicherung  483 7 7.1 Magnetische Tonsignalspeicherung  484 7.1.1 Grundlagen des Magnetismus  484 7.1.1.1 Magnetisches Feld  484 Magnetische Induktion  486 7.1.1.2 7.1.1.3 Hysteresisschleife  487 7.1.2 Aufzeichnung mit Magnetton  488 7.1.2.1 Prinzip  489 7.1.2.2 Magnettonbänder  490 7.1.2.3 Aufzeichnungsvorgang  493 7.1.2.4 Elektroakustische Eigenschaften von Magnetbändern  497 7.1.2.5 Wiedergabevorgang   505 7.1.2.6 Entzerrung des Frequenzgangs  506 7.1.2.7 Löschvorgang  511 7.1.3 Systeme zur Rauschverminderung  512 7.1.3.1 Telcom-Verfahren  513 7.1.3.2 Dolby-Verfahren  516 7.1.4 Bandschnitt und Kennbänder  518 7.1.5 Studio-Magnettonanlagen  519 7.1.5.1 Studio-Magnettonlaufwerke  520 7.1.5.2 Magnettonköpfe  523 7.1.5.3 Mehrspur-Magnettonanlagen  524 7.1.5.4 Aufzeichnung von Mono- und Stereosignalen  525 7.2 Mechanische Schallspeicherung  527 7.2.1 Aufzeichnungsverfahren  527 7.2.1.1 Mono- und Stereoaufzeichnung  528 7.2.1.2 Lichtbandbreite  530 7.2.1.3 Schneidkennlinien  530 7.2.2 Schallplattenherstellung  532 7.2.2.1 Lackplatten-Schneidverfahren  532 7.2.2.2 DMM-Schneidverfahren  533 7.2.3 Wiedergabe  533 7.2.3.1 Abtastsysteme  534 7.2.3.2 Tonarm  536 7.2.3.3 Geometrische Abtastverzerrungen  537 7.2.3.4 Laufwerk  539 7.2.3.5 Verstärker  540 7.3 Langzeitlagerung und Datenerhalt von Tonträgern  540 7.3.1 Umgebungseinflüsse  541 7.3.2 Notfallplanung und Katastrophenschutz  548 Standards  550 Literatur  551

 XXVII

XXVIII 

8 8.1

 Inhalt

Analoge Tonregieanlagen  553 Historische Entwicklung von der analogen bis zur digitalen Technik von Tonmischpulten  554 Aufbau einer Tonregieanlage  559 8.2 Leitungsführung und Anpassung  562 8.3 8.3.1 Symmetrie und Erdfreiheit  563 8.3.2 Schirmung  565 8.3.3 Kabellänge und Kabelführung  565 8.3.4 Zusammenschaltung  567 8.3.5 Erdung  568 8.3.6 Anpassung  570 8.4 Leitungsverbindungen  572 8.4.1 Klinkensteckverbindungen   573 8.4.2 Koppelfelder  575 8.4.2.1 Komplexe Koppelfelder  579 8.4.3 Kabelsteckverbindungen  581 8.4.4 Schalter  582 8.5 Mikrofonverstärker  584 8.5.1 Verstärkungseinstellung  586 8.5.2 Frequenzgang  586 8.5.3 Störpegel und Aussteuerungsfestigkeit  588 8.5.4 Mikrofon-Trennverteiler  589 8.5.5 Kommandoverstärker  589 8.6 Anschluss externer Geräte  589 8.6.1 Brummstörungen  590 Brummstörungen bei Verwendung eines Netz-Trenntransformators  591 8.6.1.1 Brummstörungen durch Masseschleifen  592 8.6.1.2 Brummstörungen durch Mehrfacherdung  592 8.6.1.3 8.6.2 DI-Box  593 8.7 Pegelsteller  595 VCA- und Motorpegelsteller  595 8.7.1 8.7.2 Überblendregler  598 Elektronische Blender  598 8.7.3 Richtungsbeeinflussung bei Intensitätsstereofonie  599 8.8 Panorama-Potentiometer oder Pan-Pot  601 8.8.1 8.8.2 Richtungsmischer  602 8.9 Knotenpunkte  605 Knotenpunkte mit Spannungsanpassung  605 8.9.1 Knotenpunkte mit Stromanpassung  606 8.9.2 8.9.2.1 Universalverstärker als Knotenpunktverstärker  608 8.10 Hilfssummen  610 Schaltungen für künstliche Verhallung  613 8.10.1 8.10.2 Schaltungen für Ausspielwege  615

Inhalt 

Spezial- und Universalverstärker  616 8.11 8.11.1 Spannungsverstärker  616 8.11.1.1 Aufholverstärker  618 8.11.1.2 Trenn- und Verteilerverstärker  618 8.11.2 Universalverstärker  620 8.11.2.1 Pegelverstärker  621 8.11.2.2 Knotenpunktverstärker  621 8.11.2.3 Trennverstärker  622 8.11.3 Anpassverstärker  623 8.11.4 Leistungsverstärker  624 8.12 Einrichtungen für die akustische Signalüberwachung  624 8.12.1 Einrichtungen und Kontrollpunkte für Abhören  625 8.12.1.1 Abhöreinheit  626 8.12.2 Vorhören, Solo, Mute  631 8.12.3 Mithören  632 8.12.4 Pegeltongenerator  633 8.13 Tonregieanlagen in Kassettentechnik  633 Standards  638 Literatur  638 9 Analoge Tonstudiomesstechnik  639 9.1 Verstärkung und Dämpfung  639 9.1.1 Betriebsgrößen  641 9.1.2 Ein- und Ausgangsscheinwiderstand  642 9.1.3 Symmetrie  642 9.2 Verzerrungen  643 9.2.1 Lineare Verzerrungen  644 9.2.2 Nichtlineare Verzerrungen  646 9.2.2.1 Messverfahren  648 9.3 Störspannungen  652 9.3.1 Unbewertete Störspannungen  652 Bewertete Störspannungen  653 9.3.2 Systemrauschen und Betriebskennlinie  654 9.3.3 9.3.4 Tief- und Hochfrequenzfestigkeit, Knackstörungen  656 9.4 Stereoparameter  656 Pegeldifferenz zwischen Stereokanälen  656 9.4.1 9.4.2 Phasendifferenz zwischen Stereokanälen  657 9.4.3 Übersprechen  659 9.5 Schalldruckpegel  659 9.5.1 Bewertete Schalldruckpegel  660 9.5.2 Lautstärkepegel und Lautheit  661 9.6 Messungen an Mikrofonen  662 9.6.1 Feld-Übertragungsfaktor und Feld-Übertragungsmaß  663 9.6.2 Frequenzgang  663

 XXIX

XXX 

 Inhalt

9.6.3 Gerichteter Schallempfang  664 9.6.3.1 Richtungsfaktor, Richtungsmaß und Richtcharakteristik  664 9.6.3.2 Bündelungsfaktor, Bündelungsgrad und Bündelungsmaß  664 Grenzschalldruck und Klirrfaktor  665 9.6.4 9.6.5 Ersatzgeräuschpegel  666 9.7 Messungen an Lautsprechersystemen  666 9.7.1 Analoge Messmethoden  666 9.7.1.1 Übertragungsmaß und Frequenzgang  666 9.7.1.2 Scheinwiderstand  668 9.7.1.3 Richtcharakteristik  668 9.7.1.4 Kennschalldruckpegel  669 9.7.2 Digitale Messmethoden: MLS-Messungen  669 9.8 Messungen und Einstellungen an Magnettonanlagen  670 9.8.1 Einstellungen und Prüfungen  670 9.8.1.1 Mechanische Funktionen  670 9.8.1.2 Entmagnetisierung   671 9.8.1.3 Wiedergabekanal  672 9.8.1.4 Aufnahmekanal  673 9.9 Messungen an Plattenspielern  675 9.10 Pegel und Pegelmaße  676 9.10.1 Pegel  676 9.10.2 Relativer und absoluter Spannungspegel  677 9.10.3 Funkhauspegel  678 9.10.4 Rechnen mit Pegeln  680 9.10.4.1 Verstärkung und Dämpfung von Pegeln  680 Addition von Spannungen und Pegeln  681 9.10.4.2 9.10.4.3 Pegeldiagramme  683 Standards  683 Literatur  684 10 Beschallung  685 10.1 Raumakustik im Zusammenwirken mit Beschallungsanlagen  686 10.1.1 Reflexionen  686 Erste Reflexionen  686 10.1.2 10.1.3 Fokussierung  687 10.1.4 Stehende Wellen  687 10.1.5 Raumresonanzen  688 10.1.6 Nachhall  688 10.1.7 Hallradius  689 10.2 Grundlegende Beschallungskonzepte  690 10.2.1 Von der zentralen zur dezentralen Beschallung  690 10.2.1.1 Zentrale Beschallung  690 10.2.1.2 Dezentrale Beschallung  691 10.2.2 Überwindung des Hallradius und Nutzung des Diffusfelds  693

Inhalt 

10.2.3 Lautsprecherpositionen  694 10.2.3.1 Frontale Beschallung mit horizontaler Position  694 10.2.3.2 Frontalbeschallung mit vertikaler Position  696 10.2.3.3 Einsatz von Delay-Lautsprechern  696 Bühnenrandbeschallung, Nahfeld  698 10.2.3.4 Einsatz und Positionierung von Subwoofer  699 10.2.3.5 10.2.3.6 Centercluster  701 10.3 Richtungsbezogene, objektbasierte Beschallung  701 10.3.1 Lokalisation  702 10.3.2 Verfahren der richtungsbezogenen Beschallung  703 10.3.2.1 Laufzeit- oder Deltastereophonie  703 10.3.2.2 Wellenfeldsynthese  704 10.3.2.3 Vector Based Amplitude Panning  705 10.3.3 Aufbau einer objektbasierten Beschallungsanlage  707 10.3.3.1 Signalfluss und Steuerung  707 10.3.3.2 Frontal- und Surround- und Höhenlautsprecher  708 10.3.4 Vorteile und Grenzen der objektbasierten Beschallung  708 10.4 Künstliche Nachhallsysteme  709 10.4.1 Regenerative Systeme  709 10.4.2 Faltungs- oder Convolver-Systeme   711 10.4.3 Kombinierte Systeme  712 10.5 Beschallungsausrüstung  713 10.5.1 Lautsprecher  713 10.5.1.1 Kennschalldruckpegel und Wirkungsgrad  713 10.5.1.2 Nennleistung  714 10.5.1.3 Spitzenschalldruck  714 10.5.1.4 Frequenzgang  715 10.5.1.5 Phasenlage  716 10.5.1.6 Richtwirkung  716 10.5.1.7 Abstrahlwinkel  718 10.5.1.8 Methoden für Richtwirkung von Lautsprechern  720 10.5.1.9 Arrays  723 10.5.1.10 Line Arrays  725 10.5.1.11 Monitorbeschallung  727 10.5.1.12 In Ear Monitoring  728 10.5.2 Mischpulte  728 10.5.2.1 FOH, Front Of House  728 10.5.2.2 Monitormischpulte  729 10.5.3 Equalizer  729 10.5.3.1 Parametrischer Equalizer  730 10.5.3.2 Grafischer Equalizer  731 10.5.4 Effekte  732 10.5.4.1 Hall  732 10.5.4.2 Delay-Echo  732

 XXXI

XXXII 

 Inhalt

10.5.4.3 Delay-Signallaufzeit  732 10.5.4.4 Kompressor, Limiter, Noise Gate  732 10.5.5 Mikrofone  733 Rückkopplungsempfindlichkeit bei Mikrofonen  733 10.5.5.1 Bühnentauglichkeit und Grenzschalldruck  734 10.5.5.2 10.5.6 Controller  734 10.5.6.1 Frequenzgangkorrektur  734 10.5.6.2 Phasenkorrektur, Alignment  734 10.5.6.3 Schutzschaltung  735 10.5.7 Verstärker  735 Dimensionierung von Verstärkern  735 10.5.7.1 10.5.7.2 Rückwärtsdämpfung  736 10.5.8 Kabel, Querschnitte  737 10.6 Strukturierte Inbetriebnahme  737 10.6.1 Systemanpassung  737 10.6.2 Delayanpassung  738 10.6.3 Raumentzerrung und Hauptequalizer  738 10.6.4 Sonderfall Open Air Beschallung  739 10.7 100 V-Technik  739 10.8 Planungs- und Simulationssoftware für Beschallungsanlagen  740 Literatur  742 11 Arbeitssicherheit und Gesundheitsschutz  743 11.1 Arbeitssicherheit  743 11.1.1 Allgemeines  743 11.1.1.1 Das duale System im Arbeitsschutz  743 11.1.1.2 Staatliche Institutionen im Arbeitsschutz  744 Berufsgenossenschaftlicher Arbeitsschutz  744 11.1.1.3 11.1.1.4 Einfluss der EU  745 11.1.2 Richtlinien und Regelwerke  746 EG-Richtlinie 2003/10/EG „Lärm“  746 11.1.2.1 11.1.2.2 Sicherheitsvorschriften für Produktionsstätten  746 Das Arbeitsschutzgesetz  748 11.1.2.3 Die Betriebssicherheitsverordnung  748 11.1.2.4 11.1.2.5 Die Musterversammlungsstättenverordnung  748 11.1.2.6 Berufsgenossenschaftliche Vorschriften und Regeln  749 11.1.3 Verantwortlichkeiten  749 Arten der Verantwortung  750 11.1.4 11.1.5 Gefährdungsbeurteilung  753 11.2 Gesundheitsschutz   755 11.2.1 Gehörgefährdung durch elektroakustische Beschallung  755 11.2.2 Hörschädigungen  757 11.2.2.1 Gehörschaden aus arbeitsmedizinischer Sicht  757 11.2.2.2 Vorübergehende und permanente Hörschwellenverschiebung  758

Inhalt 

Fehlender Lautheitsausgleich  758 11.2.2.3 11.2.2.4 Stapediusreflex  759 11.2.2.5 Gehörschäden und Musik  759 11.2.3 Gesundheitsschutz-Gehör nach DIN 15905-5  760 11.2.3.1 Verkehrssicherungspflicht  760 Schutzmaßnahmen und Information  761 11.2.3.2 11.2.3.3 DIN-Anhang  762 11.2.4 Messung der Schallimmission  763 11.2.4.1 Konsequenz der DIN 15905-5  765 11.2.4.2 Die Praxis für Veranstaltungen  765 11.2.4.3 Probleme der Norm DIN-15905-5  766 11.2.5 Elektrische Sicherheit  767 11.2.5.1 Produktionsstätten beim Hörfunk  768 11.2.5.2 Kabelverlegung  769 11.2.5.3 Anschluss elektrischer Geräte und Musikanlagen  769 11.2.5.4 Gefahren des elektrischen Stroms  769 11.2.5.5 Schutz vor einem elektrischen Schlag  771 11.2.6 Inbetriebnahme von elektrischen Geräten und Anlagen  776 11.2.6.1 Anschluss ortsveränderlicher Musikanlagen  776 11.2.7 Verhalten bei Stromunfällen  780 Standards  781 Literatur  782

 XXXIII

1 Grundlagen der Akustik

Michael Dickreiter, Wolfgang Hoeg (1.3.5 und 1.4.2)

Der Begriff Schall bezeichnet hörbare mechanische Schwingungen, Wellen und Felder eines elastischen Mediums. Die Akustik ist die Wissenschaft, die  sich  mit diesen Phänomenen befasst, also nicht nur auf den Bereich des Hörbaren beschränkt ist. Nur in einem Medium aus schwingungsfähiger Materie können sich Schallwellen ausbreiten, das kann Luft (Luftschall), Wasser (Wasserschall) oder ein Festkörper (Körperschall) sein. Vielfach wird Schall als Körperschall erzeugt und dem Ohr oder Mikrofon durch das Medium Luft als Luftschall übermittelt. Liegen diese Schallwellen im Hörbereich, haben  sie also Frequenzen zwischen 16  Hz und 20 kHz, so spricht man von Hörschall, liegen ihre Frequenzen unter 16 Hz, spricht man von Infraschall, liegen sie über 20 kHz bis 1 GHz = 1.000 MHz, von Ultraschall. Bei Frequenzen über 1 GHz spricht man von Hyperschall. Schall im alltäglichen Sinn ist nur der hörbare Schall, sog. Hörschall. Eine Schallschwingung wird von einem einzelnen Teilchen eines elastischen Mediums, z. B. einem Luftmolekül, ausgeführt. Hierbei werden zwei Energieformen periodisch abwechselnd ineinander umgewandelt, meist potentielle Energie in kinetische Energie und umgekehrt. Die Schwingungslehre beschreibt die Gesetzmäßigkeiten (Kap. 1.1). Eine Schallwelle ist die Gesamtheit schwingender Teilchen, die sich in einem elastischen Medium mit einer (Saite, Stab), zwei (Platte) oder drei Dimensionen (Körper, Luftraum) von einer Schallquelle ausgehend ausbreiten. Schallwellen transportieren Energie, nicht Materie (Kap. 1.2). Ein Schallfeld ist ein räumlich ausgedehntes Gebiet, in dem  sich Schallwellen ausbreiten und sich in komplexer Weise überlagern. Ein Schallfeld in einem geschlossenen Raum mit der Gesamtheit der Phänomene wird durch die Raumakustik beschrieben (Kap. 1.3 ff.). In Kapitel 2 werden Schallquellen, eingeschränkt auf die Akustik von Musikinstrumenten und der menschlichen Stimme, dargestellt, in Kapitel 3 die Phänomene der Schallwahrnehmung durch das Gehör. [Meyer, 2015, [Reuter, 2014], [Weinzierl, 2014] Die Akustik gehört damit zu den wichtigsten Grundlagen der klassischen wie auch der modernen Audiotechnologie. Akustik beschreibt zunächst physikalische und subjektive Phänomene der analogen Technik, sie wird jedoch zunehmend von Lösungen und Anwendungen der digitalen Audiotechnik unterstützt.

1.1 Schallschwingungen 1.1.1 Typen von Schallschwingungen Zur Bezeichnung der verschiedenen Typen von Schallschwingungen oder Schallformen kann  man  sich entweder der physikalisch-akustischen Begriffe oder der ästhetisch-musikpsychologischen Begriffe bedienen; eine Vermischung beider Begriffsfamilien führt zu Missverständnissen, da gleiche Wörter in verschiedenen Bedeutungen verwendet werden.

https://doi.org/10.1515/9783110759921-001

2 

 1 Grundlagen der Akustik

In der Akustik unterscheidet  man verschiedene Arten von Schallformen, Grundbegriffe sind in [DIN 1320] definiert. Die folgenden Schallformen sind aus einzelnen, diskreten, oder in der Realität endlich vielen sinusförmigen Komponenten zusammengesetzt (Tab. 1/1): Ton oder reiner Ton: Sinusförmige Schallschwingung im Hörbereich. Die in der Musik übliche Bestimmung des Begriffs Ton weicht von derjenigen in der Akustik ab; in der Musik wird das Schallereignis, das einer einzelnen Note entspricht, Ton genannt. In der Terminologie der Akustik wäre dies ein Klang, der meist zusätzlich Geräuschanteile enthält. Tongemisch: Aus Tönen beliebiger Frequenzen zusammengesetzter Schall. Einfacher oder harmonischer Klang: Hörschall, der aus einem Grundton und einer Reihe von Obertönen besteht, deren Frequenzen ganzzahlige Vielfache dieses Grundtons sind. In der Begriffssprache der Musik entspricht dies weitgehend dem Ton im Sinn einer Note. Mehrfacher Klang oder Klanggemisch: Hörschall, der aus mehreren einfachen Klängen zusammengesetzt ist. Eine exakte musikpsychologische Bestimmung der Begriffe „Ton“ und „Klang“ ist im Gegensatz zur physikalisch-akustischen Definition nicht möglich. Der Ton eines Musikinstruments, z. B. einer Violine, kann sich auf eine einzelne gespielte Note oder auf den Klangcharakter aller Töne, also auf den Klangcharakter des Instruments überhaupt beziehen. Ein Klang kann im engeren Sinn ein Akkord sein, aber auch der Klangcharakter eines Instruments, z. B. „Hörnerklang“, oder auch des ganzen Orchesters. Ein Ton oder ein Klang kann physikalisch-akustisch gesprochen Anteile eines einfachen oder mehrfachen Klangs, eines Schallimpulses und von Rauschen enthalten. Die Begriffe Ton und Klang sind als musikalisch-psychologische und ästhetische Begriffe also nicht genau definierbar; man könnte sie allenfalls als sinnvoll durchstrukturierte, gewollte Schallereignisse bezeichnen, die die Elemente der Musik bilden. Das Gegenteil eines  sinnvoll durchstrukturierten Schallereignisses ist Lärm, er stört, belästigt, verursacht Ärger. Auch dem Lärm entsprechen nicht bestimmte physikalische Eigenschaften eines Schallereignisses. Denn auch ein einzelner Sinuston oder sogar Musik können Lärm sein, wenn sie als störend empfunden werden; hierbei ist also die Einstellung des Hörers zum jeweiligen Schallereignis bestimmend. Tab. 1/1 fasst die terminologischen Entsprechungen in Akustik und Musik zusammen. Da die musikpsychologischen Begriffe nicht objektiv und eindeutig definierbar sind, werden bei der Beschreibung der Schallformen nachfolgend möglichst physikalisch-akustische Begriffe verwendet. Tab. 1/1. Begriffliche Entsprechungen von Ton und Klang in Akustik und Musik. Begriffe in der Akustik

Begriffe in der Musik

Ton, Sinuston, reiner Ton, einfacher Ton Tongemisch Klang, harmonischer Klang Klanggemisch, mehrfacher Klang

Ton, in der Musik selten Klang, in der Musik selten Ton Klang, Zusammenklang, Akkord

Eine zweite Gruppe von Schallformen ist in komplexer Weise aus theoretisch unendlich vielen, dicht nebeneinander liegenden Komponenten zusammengesetzt, diese Schallformen sind als Höreindruck geräuschhaft:

1.1 Schallschwingungen 

 3

Schallimpuls: Einmaliges Schallereignis von kurzer Dauer. Tonimpuls: Ton von kurzer Dauer. Rauschen: Fortdauerndes Schallsignal statistischer Natur, zusammengesetzt aus unendlich vielen, mit ihrer Frequenz unendlich nahe beieinander liegenden Tönen mit unterschiedlichen Amplituden und Phasenlagen, das als kontinuierliches Frequenzspektrum dargestellt werden kann, besondere Formen sind das „Weiße Rauschen“ und das „Rosa Rauschen“: Weißes Rauschen: Fortdauerndes Schallsignal, das theoretisch aus unendlich vielen, in ihrer Frequenz unendlich dicht nebeneinander liegenden  sinusförmigen Schwingungen besteht. Theoretisch ist der Frequenzbereich bei Weißem Rauschen nach oben hin nicht begrenzt, wodurch Weißes Rauschen aus unendlich vielen Schwingungskomponenten  mit in ihrer Summe unendlich hoher Leistung bestehen würde. Praktisch erstreckt sich aber das Frequenzband des Weißen Rauschens von 0  Hz aufwärts nicht bis ins Unendliche,  sondern ist  mehr oder weniger bei hohen Frequenzen begrenzt, z.  B. bei der Obergrenze hörbaren Schalls, also bei der Hörgrenze mit 16 bis 20 kHz, oder mit steigender Frequenz zunehmend durch das Übertragungssystem bedämpft. Die  sinusförmigen Komponenten, also Töne im physikalischen Sinn, haben nur statistisch betrachtet gleiche Amplituden, d. h., ihre Amplituden sind nicht in jedem Augenblick gleich, sondern nur im statistischen Mittel über einen längeren Zeitraum; ihre Phasenwinkel sind ebenfalls statistisch und voneinander unabhängig verteilt. Es ist deshalb nicht  möglich, aus Weißem Rauschen ein  schmalbandiges Rauschen oder gar einen Sinuston mit konstanter Amplitude herauszufiltern. In der subjektiven Wahrnehmung als Hörereignis ist Weißes Rauschen am ehesten dem Laut „sch“ vergleichbar, tiefe Frequenzen  scheinen zu fehlen,  mit  steigender Tonhöhe werden die Komponenten zunehmend lauter. Das Gehör fasst nämlich, vereinfacht gesagt, nicht gleich breite Frequenzbänder zu einem Lautstärkeeindruck zusammen,  sondern Frequenzbänder  mit Grenzfrequenzen, die gleiche Intervalle, also gleiche Frequenzverhältnisse bilden; z. B. nimmt das Gehör die Summe aller Schwingungen zwischen 100 und 110 Hz ebenso laut wahr wie die Summe aller Schwingungen zwischen 1 und 1,1 kHz. Weißes Rauschen ist ein für verschiedene Messungen geeignetes Signal, die statistischen Eigenschaften von Musik oder Sprache jedoch kann es bei Messungen nicht simulieren. Die Bezeichnung Weißes Rauschen entspricht in seiner Frequenzzusammensetzung dem weißen Licht, das ebenfalls aus allen  sichtbaren Wellenlängen  mit gleicher Amplitude zusammengesetzt ist, Entsprechendes gilt für das Rosa Rauschen. Rosa Rauschen: Beim Rosa Rauschen nimmt die Amplitude pro Frequenzverdopplung um den Faktor = 0,7071 ab, der Pegel also um 3 dB. Es handelt sich um ein Rauschen, dessen  spektrale Leistungsdichte umgekehrt proportional der Frequenz ist,  man  spricht auch von 1/f-Rauschen. Beim Weißen Rauschen bleibt die Leistung in einem absoluten Frequenzband konstant, z. B. in einem Band von 100 Hz Breite, bei Rosa Rauschen bleibt sie in einem relativen Frequenzband, also einem bestimmten Intervall konstant, z. B. in einem Terzbereich mit dem Frequenzverhältnis 5:4 von oberer zu unterer Frequenz. Rosa Rauschen entspricht in seiner statistischen Frequenz-Amplitudenverteilung im Gegensatz zu Weißem Rauschen gut dem von Musik und Sprache. Geräusch: Schallsignal, das meistens Anteile von Rauschen, Ton- und Klanggemischen enthält und oft ein nicht zweckbestimmtes Schallereignis darstellt. Lärm, akustisch  meist geräuschhafter Schall großer Intensität, ist in der Wahrnehmung eines Hörers lästiger, störender bis die Gesundheit gefährdender Schall; er kann also durchaus auch Musik sein.

4 

 1 Grundlagen der Akustik

1.1.2 Eigenschaften von Schwingungen Vorgänge, deren Verhalten nach bestimmten, periodischen Zeitabschnitten stets wieder den gleichen Zustand erreicht, werden als Schwingungen bezeichnet [Magnus, 2008], [Müller, 2003]. 1.1.2.1 Einfache Schwingungen Lässt  sich die Zeitabhängigkeit eines Vorgangs durch eine Sinus- oder Cosinusfunktion beschreiben, so heißt dieser Vorgang Sinusschwingung, harmonische oder einfache Schwingung, die dazugehörige physikalische Größe heißt Sinusgröße, z. B. Sinusspannung. Abb. 1/1 zeigt eine sinusförmige Schwingung. Zu ihrer Beschreibung werden die folgenden Begriffe verwendet [DIN 1311]: Amplitude: Der maximale Augenblickswert â, also der Scheitelwert einer Sinusgröße a, heißt Amplitude. Periodendauer: Der Zeitabschnitt, nach welchem eine Schwingung sich periodisch wiederholt, heißt Periodendauer T. Frequenz: Der Kehrwert der Periodendauer T heißt Frequenz f. Sie gibt an, wie viele Schwingungsperioden auf eine Sekunde entfallen. Die Einheit ist Hertz, abgekürzt Hz mit der Dimension 1/s. Kreisfrequenz: Der 2π-fache Wert der Frequenz heißt Kreisfrequenz ω. Phasenwinkel: Das Argument der Sinus- oder Cosinusfunktion heißt Phasenwinkel φ; er  stellt eine lineare Funktion der Zeit dar: φ = ω ⋅ t. Der Phasenwinkel tritt bei der Darstellung einer Sinusschwingung durch Projektion der Drehung eines Zeigers als Winkel zwischen Zeiger und Projektionsachse in Erscheinung. Der Phasenwinkel für t = 0 heißt Nullphasenwinkel φ0 (Abb. 1/2).

Abb. 1/1. Begriffe bei sinusförmigen Schwingungen.

Die mathematische Darstellung einer einfachen Schwingung lautet: a = â ⋅ cos ωt a = Augenblickswert der Amplitude der Sinusschwingung [m] a = â ⋅ cos 2πft â = Spitzenwert der Amplitude [m] a = â ⋅ cos 2πt/T t = Zeit [s] ω = 2πf T = Periodendauer, Umlaufdauer des Zeigers [s] f = 1/T ω = Kreisfrequenz, Frequenz [Hz, 1/s]

1.1 Schallschwingungen 

 5

Anstelle des Cosinus kann auch der Sinus stehen; dies hat auf den Schwingungsverlauf selbst keinen Einfluss, sondern nur auf die Werte zum Zeitpunkt t = 0. Cosinus- und Sinusschwingungen haben zum Zeitpunkt t = 0 eine gegenseitige Phasendifferenz von 90°, die Sinusfunktion hat im Zeitpunkt t = 0 den Wert a = 0, die Cosinusfunktion den Wert a = â. Bei einer ungedämpften einfachen oder harmonischen Schwingung ist die rückstellende Kraft – also die Kraft, die das schwingende Element zum Nullpunkt zurückzieht – proportional zur Auslenkung, verdoppelt sich die Auslenkung, verdoppelt sich auch die rückstellende Kraft.

Abb. 1/2. Einfache Schwingung als Projektion eines rotierenden Zeigers.

Sinusverwandte Schwingungen  sind Schwingungen, bei denen die Amplitude â  sich verglichen  mit der Periodendauer T nur langsam  mit der Zeit ändert und/oder bei denen der Phasenwinkel innerhalb einer Periodendauer nur wenig von der linearen Zunahme mit der Zeit abweicht. Solche sinusverwandten Schwingungen sind z. B. gedämpfte Schwingungen, bei denen die Amplitude mit der Zeit abnimmt, oder Schwebungen, deren Amplitude und Frequenz sich langsam mit der Zeit periodisch ändern, sowie amplitudenmodulierte Schwingungen, die eine periodische Änderung der Amplituden ohne Frequenzschwankungen kennzeichnet. 1.1.2.2 Überlagerung von Schwingungen Die Überlagerung von zwei einfachen oder harmonischen Schwingungen gleicher Frequenz ergibt wieder eine einfache oder harmonische Schwingung derselben Frequenz, deren Amplitude und Phase von den Amplituden der beiden  sich überlagernden Schwingungen und ihrer Phasendifferenz abhängen. Abb. 1/3 zeigt drei Fälle einer solchen Überlagerung. Weichen die Frequenzen der beiden Schwingungen ein wenig voneinander ab und sind ihre Amplituden â gleich groß, so entsteht eine Schwingung, deren Amplitude sich zwischen den Werten 0 und 2â periodisch ändert. Diese Schwingung nennt man vollkommene Schwebung, bei ungleichen Amplituden unvollkommene Schwebung (Abb. 1/4). Die Frequenz der Schwebung schwankt ebenfalls geringfügig periodisch, bei der sehr ähnlichen amplitudenmodulierten Schwingung mit dem Modulationsgrad 1 bleibt die Frequenz hingegen konstant.

6 

 1 Grundlagen der Akustik

Weichen die Frequenzen der beiden sich überlagernden Schwingungen erheblich voneinander ab, so ergibt sich keine harmonische Schwingung mehr.

Abb. 1/3. Überlagerung zweier Schwingungen a1 und a2 mit gleicher Amplitude und Frequenz sowie mit beliebiger Phasendifferenz, z. B. 72° (a), ohne Phasendifferenz (b) und mit 180° Phasendifferenz (c), a1 ……, a2 -----, a1 + a2 _____.

Abb. 1/4. Durch Überlagerung zweier Schwingungen mit gleicher Amplitude und geringem Frequenzunterschied entstehende sog. vollkommene Schwebung.

1.1.2.3 Zusammengesetzte Schwingungen Jede auch noch  so unregelmäßig verlaufende, aber periodische Schwingung lässt  sich in  sinusförmige Teilschwingungen zerlegen. Diesen Vorgang nennt  man harmonische Analyse oder Fourier-Analyse. Sie umfasst das Ermitteln der Frequenzen der einzelnen Teilschwingungen und die Bestimmung ihrer Amplituden. Das Ergebnis einer harmonischen Analyse ergibt ein sog. Amplitudenspektrum oder einfach Spektrum. Dies ist die grafische

1.2 Schallfelder 

 7

Darstellung der Gesamtheit aller Teilschwingungen eines Signals  mit den dazugehörigen Amplitudenwerten. Die Frequenzen der einzelnen Teilschwingungen sind immer ganzzahlige Vielfache einer Grundschwingung, deren Frequenz  mit der Frequenz der zu analysierenden Schwingung übereinstimmt (Abb. 1/5). Ein solches Spektrum besteht also aus einzelnen Linien,  man  spricht von Linienspektrum. Das Amplitudenspektrum genügt allerdings nicht, um den Zeitverlauf der periodischen Schwingung vollständig zu beschreiben; hierzu ist zusätzlich die Angabe der Nullphasenwinkel aller Teilschwingungen in einem Phasenspektrum erforderlich. Für viele praktische Zwecke, wie Erkenntnisse über die Klangfarbe eines musikalischen Klangs oder über die Zusammensetzung und Störwirkung eines Störgeräuschs, kann auf das Phasenspektrum jedoch verzichtet werden. Alle periodischen Vorgänge haben Linienspektren;  sie  setzen  sich aus ganzzahligen Vielfachen einer Grundfrequenz f zusammen. Sie errechnet  sich aus der Periodendauer T der zu analysierenden Schwingung: f = l/T. Je größer die Periodendauer T wird, umso tiefer liegt also die Grundfrequenz f und umso näher beisammen liegen die Vielfachen dieser Grundfrequenz. Lässt man im Gedankenexperiment die Periode beispielsweise einer Rechteckschwingung immer länger, schließlich unendlich lang werden, so kommt man zur sog. Sprungfunktion (Abb.  1/6a), einem einmaligen Vorgang, der  sinngemäß eine extrem tiefe Grundfrequenz, eigentlich 0 Hz, und eigentlich unendlich dicht beieinander liegenden Teilschwingungen entsprechen. Somit haben Einzelvorgänge so dicht liegende Komponenten, dass ein kontinuierliches Spektrum entsteht, das durch die Einhüllende der eigentlich unendlich vielen Komponenten gekennzeichnet ist, nämlich durch eine sog. Spektralfunktion. Dies gilt sinngemäß allgemein für nichtperiodische Signale, z. B. Rauschen oder Geräusche, die als eine Folge von Einzelereignissen aufgefasst werden können, Die Spektralfunktion wird durch die Leistungsdichte, d. h., durch die Leistung pro relativer oder absoluter Bandbreiteneinheit beschrieben und grafisch dargestellt. In der Praxis liegen die Teilschwingungen umso weniger dicht und die Grundfrequenz umso weiter von 0 Hz entfernt, wie der Übertragungsbereich des Systems oben begrenzt ist. Abb.  1/5 zeigt einige Beispiele periodischer Schwingungen und ihrer Teiltonspektren, Abb. 1/6 einiger nichtperiodischer Vorgänge mit ihren Spektralfunktionen.

1.2 Schallfelder Wenn eine Schallquelle das sie umgebende Medium, z. B. Luft, zum Mitschwingen anregt, so entsteht um die Schallquelle eine  sich ausbreitende Schallwelle, ein Schallfeld. Ohne Medium, also im Vakuum, wird kein Schallfeld erzeugt. Jede Schallwelle ist verbunden mit räumlichen und zeitlichen Schwankungen von Dichte und Druck des Mediums  sowie  mit Schwankungen der Geschwindigkeit der um ihre Ruhelage pendelnden Teilchen. Im sog. freien Schallfeld kann sich der Schall völlig ungehindert in alle Richtungen ausbreiten, er trifft nicht auf Hindernisse; er erreicht den Hörer oder das Mikrofon nur auf direktem Weg, daher auch Direktschall genannt.

8 

 1 Grundlagen der Akustik

Abb. 1/5. Einige Schwingungsverläufe mit den dazugehörigen Amplitudenspektren; die Spektren sind nach der 12. Harmonischen abgeschnitten, setzen sich aber bei b, c und d theoretisch bis ins Unendliche fort; die Amplituden der Teilschwingungen sind etwa dreimal vergrößert gezeichnet. Die Spektren gelten nur für den eingeschwungenen Zustand. Bei b, c und d entsteht noch eine Teilschwingung mit der Frequenz 0, d. h., eine Gleichkomponente, z. B. eine Gleichspannung.

Im sog. diffusen Schallfeld wird der Schall vielfach an den Wänden und Gegenständen eines Raums reflektiert, gebeugt, zerstreut oder gebündelt; im diffusen Schallfeld sind eigentlich viele verschiedene freie Schallfelder einander überlagert. Die Schallenergie ist im diffusen Schallfeld im Gegensatz zum freien Schallfeld im Idealfall gleichmäßig über den ganzen Raum verteilt, eine Vorzugsrichtung der Schallausbreitung gibt es nicht. Zur vollständigen Beschreibung eines komplexen Schallfelds ist die Angabe von Druck und der Bewegungsgeschwindigkeit der Teilchen, der sog. Schnelle, erforderlich; die Angabe des Drucks enthält keine Information über die Bewegungsrichtung der Teilchen, die Schnelle gibt keine Auskunft über die treibende Kraft dieser Bewegung. [Fasold, 2003], [Kuttruff, 2004], [Veit, 2005], [Hentschel, 2009], [Lerch, 2009], [Möser, 2009]

1.2 Schallfelder 

 9

Abb. 1/6. Spektralfunktionen einiger einmaliger Vorgänge, a. Spektralfunktion der Sprungfunktion, z. B. Einschalten einer Gleichspannung, b. Spektralfunktion eines Rechteckimpulses, c. Spektralfunktion einer plötzlich einsetzenden bzw. eingeschalteten Sinusschwingung, d. Spektralfunktion eines sehr kurzen Knacks, genannt auch Nadelimpuls, Stoßfunktion oder Dirac-Stoß, e. Spektralfunktion eines Knalls.

1.2.1 Schallausbreitung in Luft Die Schallquelle bringt in ihrer unmittelbaren Umgebung die Luftteilchen zum Schwingen; diese übertragen bei Zusammenstößen die Schwingungen weiter auf die ihnen benachbarten Teilchen usw.,  so dass  sich die Schwingung der Schallquelle als Schallwelle über das Medium ausbreitet. Dabei schwingen die Teilchen um ihre Ruhelage herum in der Ausbreitungsrichtung der Schallwelle, es handelt sich um eine sog. Longitudinalwelle. Sie ändern dabei periodisch ihre Bewegungsgeschwindigkeit und ihre Bewegungsrichtung. Durch ihre Auslenkung aus der Ruhelage verursachen  sie periodische Schwankungen der Dichte und

10 

 1 Grundlagen der Akustik

damit Druckschwankungen. Abb.  1/7  macht anhand der Auslenkung der Luftteilchen die Ausbreitung einer Schallwelle anschaulich.

Abb. 1/7. Schematische Darstellung der Ausbreitung einer Schallwelle in Luft in 15 aufeinander folgenden Zeitpunkten.

Die Ausbreitungsgeschwindigkeit der Schallwelle in Luft wird als Schallgeschwindigkeit c [m/s] bezeichnet. Sie hängt von der Temperatur ab, was sich z. B. auf die Stimmung der Blasinstrumente und der Orgel auswirkt. Bei 10 °C beträgt die Schallgeschwindigkeit etwa 338 m/s, pro 1 °C nimmt sie um 0,6 m/s zu und beträgt demnach bei 20 °C etwa 344 m/s und bei 30  °C  etwa 350  m/s. Einen vernachlässigbaren Einfluss auf die Schallgeschwindigkeit haben der stationäre Luftdruck, die Feuchtigkeit und der Gehalt an Kohlendioxyd unter in der Praxis auftretenden Bedingungen. Wenn  sich eine Schwingung in einem Medium als Welle ausbreitet, treten zu einem bestimmten Zeitpunkt in jeweils gleichen Abständen in der Ausbreitungsrichtung immer wieder dieselben Schwingungszustände oder Phasen auf, z. B. die größte Bewegungsgeschwindigkeit oder die größte Dichte der Luftmoleküle. Diesen Abstand bezeichnet man als Wellenlänge λ (Abb. 1/8). Betrachtet man z. B. den Schalldruckverlauf an einer Stelle im zeitlichen Ablauf, so kann dasselbe Schwingungsbild beobachtet werden wie bei der Betrachtung entlang einer Welle in einem bestimmten Zeitpunkt. Beim Zeitbild der Schwingung ergibt sich aus dem zeitlichen Abstand zweier gleicher Schwingungszustände die Dauer einer Schwingungsbewegung als Periodendauer T. Die Anzahl der Schwingungen pro Sekunde heißt Frequenz f. 1 f = T

f = Frequenz [Hz] T = Periodendauer [s]

Zwischen der Schallgeschwindigkeit c, der Wellenlänge λ und der Frequenz f eines Tons besteht die Beziehung:

1.2 Schallfelder 

c λ = f

 11

λ = Wellenlänge [m] c = Schallgeschwindigkeit [m/s] f = Frequenz [Hz, 1/s]

Abb. 1/8. Periodendauer und Wellenlänge einer Schwingung.

Tab. 1/2 gibt für Luftschall einige Wellenlängen und die dazugehörigen Frequenzen an. Tab. 1/2. Frequenz und Wellenlänge in Luft. Frequenz f

Wellenlänge λ

16 Hz 20 Hz 100 Hz 1.000 Hz = 1 kHz 10.000 Hz = 10 kHz 16.000 Hz = 16 kHz 20.000 Hz = 20 kHz

21,2 m 17 m 3,4 m 0,34 m 0,034 m 0,021 m 0,017 m

Die Zeit, die eine Schallwelle benötigt, um eine bestimmte Strecke zurückzulegen, wird als Laufzeit t bezeichnet. Sie errechnet sich aus der Beziehung: d t = c

t = Laufzeit [s] d = Distanz, die die Schallwelle zurücklegt c = Schallgeschwindigkeit, 344 m/s bei 20 °C  

Für eine Distanz von 34 m ist die Laufzeit t also 0,1 s = 100 ms, für 1 m rund 3 ms; ein Echo ist hörbar, wenn reflektierter Schall 50 ms entsprechend 17 m Schallumweg nach dem Primärschall eintrifft.

12 

 1 Grundlagen der Akustik

Während die Luftteilchen einer Schallwelle  stets in der Ausbreitungsrichtung dieser Welle schwingen, also Longitudinalschwingungen ausführen, gibt es bei Festkörpern bzw. Flüssigkeiten neben der Longitudinalwelle, die hier als Dichtewelle auftritt, mehrere andere Wellenformen: Oberflächenwellen, Biegewellen, Torsionswellen, Transversal- oder Schubwellen und Dehnwellen (Abb.  1/9). Die Schallgeschwindigkeit von Körperschall ist im Allgemeinen wesentlich höher als die des Luftschalls,  sie liegt bei einigen tausend  m/s, und damit sind auch die Wellenlängen wesentlich größer als bei Luftschall.

Abb. 1/9. Wellenformen in Festkörpern.

Mit den Vorgängen bei der Schallausbreitung in Wasser befasst sich die Hydroakustik. Wie in Luft gibt es im Wasser Longitudinalwellen, die sich allerdings mit einer viel höheren Schallgeschwindigkeit ausbreiten, nämlich mit ca. 1.440 m/s bei 10 °C Wassertemperatur. Die Dämpfung der Schallwellen in Wasser ist besonders gering, weshalb sie sich über sehr große Entfernungen ausbreiten können. Da elektromagnetische Wellen unter Wasser sehr stark bedämpft werden, nimmt Wasserschall hier bei der sog. Sonar-Ortung die Funktion des Radars ein, z. B. bei der Messung der Wassertiefe (Echolot), beim Erfassen von Fischschwärmen u. a. 1.2.1.1 Kugelwelle und ebene Welle Da sich die Schallwelle in Luft geradlinig nach allen Richtungen ausbreitet, liegen die Punkte gleicher Phasen, also z. B. gleichen Drucks, auf konzentrischen Kugelflächen um eine allseitig

1.2 Schallfelder 

 13

gleichmäßig abstrahlende punkt- oder kugelförmige Schallquelle. Mit zunehmendem Abstand von der Schallquelle nähern  sich die Flächenelemente dieser Kugelschalen immer  mehr ebenen Flächenelementen, die Kugelwelle nimmt also mit wachsender Entfernung zur Schallquelle allmählich die akustischen Eigenschaften einer ebenen Welle an. Bei Kugelwellen sind alle Schallfeldgrößen auf Kugelschalen um die Schallquelle konstant, während sie bei ebenen Wellen in Ebenen senkrecht zur Ausbreitungsrichtung konstant sind (Abb. 1/10).

Abb. 1/10. Kugelwelle und ebene Welle.

In der ebenen Welle  sind Druck und Schnelle  stets in Phase. Wo also der Druck  seinen größten Wert erreicht, ist auch die Bewegungsgeschwindigkeit der Teilchen am größten. In der Kugelwelle sind Druck und Schnelle in Abhängigkeit von der Frequenz und dem Abstand zur Schallquelle gegeneinander in der Phase versetzt. 1.2.1.2 Schalldruck, Schallschnelle und Schallkennimpedanz Der Schalldruck ist der durch die Schallschwingung hervorgerufene Wechseldruck. Die Druckschwankungen der Schallwelle überlagern  sich dem atmosphärischen Gleichdruck. Akustische Berechnungen werden häufig  mit dem Schalldruck durchgeführt, da er durch eine einzige Zahlenangabe definiert – eine  sog.  skalare Größe – und  somit  mathematisch relativ einfach zu verwenden ist. Der Schalldruck wird in Pascal (Pa) oder Newton/m2 (1 N/m2 = 1 Pa), früher bevorzugt in μbar (1 μbar = 0,1 Pa), angegeben. Die im Hörschall üblicherweise vorkommenden Schalldruckwerte liegen zwischen p0, dem geringsten bei 1 kHz wahrnehmbaren Schalldruck von 2 ⋅ 10-5 Pa, und dem Schalldruck der Schmerzgrenze von etwa 1,5 ⋅ 102 Pa. Ein mäßig lauter Ton hat einen Schalldruck von etwa 0,1 Pa. Der normale atmosphärische Luftdruck beträgt etwa 1.000 Hektopascal bzw. 105 Pa entsprechend 1 bar; der durchschnittliche Schalldruck ist damit nur der millionste Teil des Atmosphärendrucks. Die  momentane Geschwindigkeit,  mit der ein  schwingendes Teilchen um  seinen Ruhepunkt  schwingt, ist die Schallschnelle, eine  sog. vektorielle Größe, die zusätzlich zu einem Zahlenwert durch eine Richtungsangabe definiert ist. Man benutzt den Ausdruck Schnelle an Stelle von Geschwindigkeit, um Verwechslungen  mit der Ausbreitungsgeschwindigkeit der Schallwelle c zu vermeiden. Die Schallschnelle der Teilchen, die in einer Schallwelle schwingen, ist sehr gering. Sie beträgt im Mittel z. B. bei einem Schalldruck von 0,1 Pa in Luft nur 0,25 mm/s.

14 

 1 Grundlagen der Akustik

Schalldruck und Schallschnelle werden meist als Effektivwert angegeben, dem quadratischen Mittelwert einer Wechselgröße. Bei sinusförmigen Schwingungen ist der Effektivwert gleich dem Spitzenwert dividiert durch √2, also etwa das 0,7-fache des Spitzenwerts. Bei anderen Schwingungsformen nimmt der Effektivwert andere Werte an. Schalldruck p und Schallschnelle v haben im Fernfeld einer Schallquelle, also im annähernd ebenen Schallfeld, einen analogen Verlauf; sie sind bei gleichbleibender Amplitude der Frequenz f direkt und dem Abstand von der Schallquelle r umgekehrt proportional, bei konstanter Schallleistung und somit annähernd konstanter Lautstärke sind Schalldruck und Schallschnelle nur zur Entfernung umgekehrt proportional; für die Augenblickswerte gilt: p ~ v

p = Schalldruck [N/m²] f = Frequenz [Hz] r = Abstand der Schallquelle [m] t = Zeit [s] λ = Wellenlänge [m] v = Schallschnelle [m/s]

Während  sich der Wert des Schalldrucks im Nahfeld der Schallquelle wie im Fernfeld verhält,  steigt die Schallschnelle im Nahfeld in komplexer Weise viel  stärker an als der Schalldruck; das ist bei Mikrofonen, die auf die Schallschnelle (Bändchenmikrofone) oder die Schalldruckdifferenz – auch Schalldruckgradient genannt – reagieren (Druckgradientenmikrofone), zu beachten, man spricht hierbei vom Nahbesprechungseffekt (siehe Kap. 4.2.1). Der Anstieg der Schnelle an einem bestimmten Punkt im Nahfeld ist von der Frequenz abhängig: je tiefer die Frequenz, umso stärker ist der Anstieg, der durch Schnelle- und Druckgradientenwandler als Anhebung tiefer Frequenzen wirksam wird, sofern er nicht elektrisch ausgeglichen wird. Weiterhin ist bei gegebener Frequenz der Anstieg des Druckgradienten bzw. der Schnelle vom Abstand zur Schallquelle abhängig. Tab.  1/3 gibt für verschiedene Frequenzen an, bei welchem „kritischen Abstand“ von der Schallquelle eine Pegelerhöhung um 3 dB gegenüber hohen Frequenzen eintritt. Tab. 1/3. Kritische Schallquellenabstände für verschiedene Frequenzen bzw. Töne. Frequenz

musikalischer Ton

kritischer Abstand von der Schallquelle

16,25 Hz 32,50 Hz 65 Hz 130 Hz 260 Hz 520 Hz

C“ C‘ C c c‘ c“

6,4 m 3,2 m 1,6 m 0,8 m 0,4 m 0,2 m

Der Quotient aus Schalldruck und Schallschnelle ist in der ebenen Welle stets und an jedem Raumpunkt konstant, er wird als Schallkennimpedanz Z0 bezeichnet, früher als Schallwellenwiderstand.

1.2 Schallfelder 





 15

p = Schalldruck [Pa] v = Schallschnelle [m/s] Z0 = Schallkennimpedanz der ebenen Welle [Ns/m3]

Die Schallkennimpedanz der ebenen Welle Z0 errechnet sich aus der Dichte und der Schallgeschwindigkeit. Bei Normaldruck und 20 °C ist die Schallkennimpedanz der Luft Z0 = 408 Ns/m3, in Wasser z. B. 1,48 ⋅ 106 Ns/m3. Im Nahfeld einer Schallquelle, d. h., in einer Kugelwelle, ist die Schallkennimpedanz nicht mehr überall konstant, die in diesem Fall als spezifische Schallkennimpedanz bezeichnete Größe ist eine komplexe Größe mit Wirk- und Blindanteil. 1.2.1.3 Schalldruckpegel Um die auftretenden großen Unterschiede des Schalldrucks besser erfassen zu können, verwendet  man zur Kennzeichnung des Schalldrucks im Allgemeinen den absoluten Schalldruckpegel L, auch kurz Schallpegel genannt. Ein Vorteil der Verwendung des Pegelmaßes ist, dass es besser dem menschlichen Lautstärkeempfinden entspricht. Der Schallpegel ist das 20-fache logarithmierte Verhältnis des Schalldrucks zu einem vereinbarten Bezugsschalldruck p0. Maßeinheit ist das dB [DIN 5493], siehe zum Pegelmaß auch Kap. 9.10. Lp = absoluter Schalldruckpegel [dB] p = Schalldruck [Pa] p0 = Bezugsschalldruck = 2 ⋅ 10-5 Pa Die Größe p0 ist ein genormter Bezugsschalldruck [DIN 45630], der etwa der Hörschwelle entspricht. Die Hörschwelle liegt für 1 kHz bei 4 dB, für 2 kHz bei - 4 dB; die Schmerzgrenze ist für 1 kHz bei 130 dB, für 2 kHz bei 120 dB. Der Bereich mittlerer Lautstärken entspricht einem Schallpegel von ungefähr 60 bis 80 dB.

Abb. 1/11. Bewertungskurven zur Messung des bewerteten Schallpegels.

Verwendet  man als Bezugsschalldruck einen beliebigen, frei gewählten Druck,  so handelt es  sich um den  sog. relativen Schalldruckpegel. Da das Gehör den Schalldruck in Abhängigkeit von der Frequenz unterschiedlich bewertet, hat man für Messungen auch einen sog. bewerteten Schalldruckpegel oder bewerteten Schallpegel eingeführt, der entsprechend den Eigenschaften des Gehörs insbesondere Frequenzen zwischen 500 und 5.000 Hz bei der

16 

 1 Grundlagen der Akustik

Messung berücksichtigt. Je nach der Lautstärke wird dabei eines der drei genormten Filter nach [DIN EN 62672] entsprechend den Bewertungskurven A, B oder C der Messung zugrunde gelegt (Abb.  1/11). Das Filter  A gilt für kleine Schallpegel, es ergibt die niedrigsten und damit  meist günstigsten Messwerte auch für größere Schallpegel und wird deshalb gerne, aber ungerechtfertigt, auch für diese verwendet. Die zeitliche Bewertung des Schalls spielt dabei eine große Rolle, deshalb wird im Allgemeinen  mit der  schnellen und definierten Bewertung I (Impuls) gemessen. Für Näheres zur Lautstärke und zum Schalldruckpegel siehe Kap. 3.3.1. Der bewertete Schallpegel ist nur grob ein Maß für die empfundene Lautstärke. Wie laut man subjektiv ein Schallereignis empfindet, beschreiben der Lautstärkepegel und die Lautheit genauer, siehe Kap. 3.3.1. 1.2.1.4 Schallleistung und Schallintensität Während die  mathematische Beschreibung des Schallfelds am einfachsten  mit Hilfe des Schalldrucks oder Schalldruckpegels erfolgt, verwendet man zur Beschreibung der Schallquelle in erster Linie die Energiegrößen Schallleistung und – wie auch zur Beschreibung des Energiegehalts eines Schallfelds – die Schallintensität. Die Schallintensität I ist die Schallleistung, die durch eine Flächeneinheit, die senkrecht zur Ausbreitungsrichtung der Schallwelle steht, hindurchströmt. Die Einheit ist also W/m2. Die Schallintensität I einer ebenen Welle ist gleich dem Produkt aus effektivem Schalldruck und effektiver Schallschnelle: I = p eff = I = p eff ⋅ v eff v eff = Z0 = =

Schallintensität [W/m²] effektiver Schalldruck [Pa] effektive Schallschnelle [m/s] Schallkennimpedanz der ebenen Welle [Ns/m3] 408 Ns/m³ unter Normalbedingungen in Luft

Für Normalbedingungen im Raum gilt also

Die gesamte Schallleistung einer Schallquelle ergibt  sich als Summe aller Schallintensitäten, die auf Flächenelementen, die zur Ausbreitungsrichtung  senkrecht  stehen. Diese Flächenelemente liegen auf der Oberfläche einer die Schallquelle einhüllenden Kugel, in deren Mittelpunkt die Schallquelle strahlt. Damit ergibt sich im freien Schallfeld für die Schallintensität im Abstand r von einer kugelförmig nach allen Seiten gleichmäßig abstrahlenden Schallquelle in Abhängigkeit von der Schallleistung P die Beziehung:

I = gesamte Schallintensität [W] im Abstand r von der Schallquelle r = Abstand von der Schallquelle [m] P = Schallleistung [W]

1.2 Schallfelder 

 17

Die akustische Leistung von Schallquellen ist, gemessen an den Größenordnungen von  mechanischen Leistungen und Wärmeleistungen,  sehr gering (Tab.  1/4). Während der Wert des Schalldruckpegels vom Abstand des Messpunkts zur Schallquelle abhängig ist, ist der Schallleistungspegel davon unabhängig, denn er beschreibt die Eigenschaften der Schallquelle selbst. Tab. 1/4. Schallleistungen einiger Schallquellen. Schallquelle

Schallleistung P

Schallleistungspegel LP

Unterhaltungssprache menschliche Stimme (Höchstwert) einzelne Musikinstrumente Presslufthammer Orgel, Pauke Orchester Alarmsirene

0,000 001 bis 0,000 01 W 0,001 bis 0,01 W bis 0,3 W 1W bis 10 W bis 100 W 1.000 W

60 bis 70 dB 90 bis 100 dB 115 dB 120 dB 130 dB 140 dB 150 dB

So wie der Schalldruck auch im  dB-Maß als Schalldruckpegel L angegeben wird,  so kann auch die Schallleistung als Schallleistungspegel Lp und die Schallintensität als Schallintensitätspegel LI in dB angegeben werden. Als Bezugswert ist für die Schallleistung 1 pW = 10-12 W und für die Schallintensität 1 pW/m2 = 10-12 W/m2 gebräuchlich [DIN 1320].

1.2.2 Schallausbreitung im Raum Ein freies Schallfeld in einem Raum existiert praktisch nur in eigens dafür hergerichteten sog. „schalltoten“, besser reflexionsarmen Räumen, im Freien angenähert auch z. B. über einer schneebedeckten Fläche oder einer Sandfläche. In Räumen stellen sich der ungehinderten, geradlinigen Schallausbreitung immer Hindernisse entgegen, vor allem die Raumbegrenzungen, aber auch Gegenstände im Raum, die die Schallausbreitung beeinflussen; diese Einflüsse sind stets frequenzabhängig: –– Die totale oder teilweise Reflexion der Schallwelle an Flächen bewirkt eine Änderung der Ausbreitungsrichtung je nach Größe der Fläche entweder im gesamten Frequenzbereich bei großen Flächen oder nur im Bereich höherer Frequenzen bei kleineren Flächen. Nach innen gekrümmte sog. konkave Flächen (Hohlspiegel) führen zu einer Schallbündelung oder Schallstreuung, je nach Abstand der Schallquelle zur Fläche, nach außen gekrümmte, sog. konvexe Flächen (Streuspiegel) stets zu einer Schallstreuung. –– Die Beugung der Schallwelle an Hindernissen im Schallweg bewirkt eine Änderung der geradlinigen Ausbreitungsrichtung besonders im Bereich tieferer Frequenzen oder ein völliges Umgehen von Hindernissen. –– Die Brechung der Schallwelle spielt in der Raumakustik keine Rolle. –– Die totale oder teilweise Absorption der Schallwelle bewirkt, dass der Schallwelle Energie entzogen wird, wodurch sie geschwächt oder vernichtet wird, in der Regel ist die Absorption frequenzabhängig.

18 

 1 Grundlagen der Akustik

1.2.2.1 Schallreflexion Für die Betrachtung der Schallreflexion eignet  sich die Darstellung der Schallausbreitung als Schallstrahl analog der Lichtausbreitung. Es gelten dabei die aus der Optik bekannten Gesetze der Reflexion an ebenen Spiegeln bzw. an Streu- und Hohlspiegeln. Bedingung für die Gültigkeit der Gesetze ist, dass der Durchmesser der reflektierenden Fläche mindestens einige Wellenlängen der reflektierten Schallwelle misst. Schallreflexion an ebenen Flächen Trifft ein Schallstrahl auf eine hinreichend große ebene Fläche (Abb. 1/12), so wird er unter demselben Winkel (α‘ in Abb. 1/12) reflektiert, unter dem er auf die Fläche trifft (α). Einfallender und reflektierter Strahl liegen dabei in einer Ebene, die senkrecht auf der reflektierenden Fläche steht. Durch entsprechende Ausrichtung der reflektierenden Fläche kann der Schallstrahl in jede gewünschte Richtung gelenkt werden, was bei der raumakustischen Gestaltung Anwendung findet. Trifft ein Schallstrahl auf eine rechtwinklige Ecke, so wird er zweimal so reflektiert, dass er parallel zum einfallenden Strahl zurückkehrt (Abb. 1/12).

Abb. 1/12. Schallreflexion an einer ebenen Fläche und an einer rechtwinkligen Ecke, je zwei Beispiele.

Zwischen parallelen, reflektierenden Wänden kann es zu sog. stehenden Wellen kommen: Eine senkrecht auftreffende Schallwelle wird hier immer wieder mit ihrer eigenen Reflexion überlagert. Dadurch können sich an gewissen Punkten die Schallwellen ganz oder teilweise gegenseitig auslöschen, an anderen Punkten verstärken. Im Gegensatz zur fortschreitenden Welle gibt es also ortsfeste Auslöschungen und Maxima, die bei Aufnahmen, z. B. bei tiefen Orgeltönen, und bei Messungen eine erhebliche Störung darstellen. Bedingung für das Zustandekommen  stehender Wellen ist, dass der Wandabstand gleich der halben Wellen-

1.2 Schallfelder 

 19

länge oder einem ganzzahligen Vielfachen davon ist. Umgekehrt gibt es für jeden Abstand eine Schallwelle mit entsprechender Frequenz und damit eine stehende Welle. Abb. 1/13 zeigt die Druckverteilung in stehenden Wellen; bei vollständiger Reflexion ist der Schall in den Druckknoten ausgelöscht, in den Druckbäuchen verdoppelt. Eine stehende Welle kann bei einem bestimmten Wandabstand also immer nur für eine Frequenz und deren harmonische Obertöne auftreten. Ferner entsteht eine stehende Welle nur bei einem Dauerton. In der Praxis treten stehende Wellen als sog. Raummoden oder Raumresonanzen besonders in kleineren Räumen auf; sie kennzeichnen neben den wenig verzögerten Reflexionen Kleinräumigkeit, die typische „Wohnzimmerakustik“. Bei der Aufnahme können solche Resonanzen durch oft nur geringfügiges Verschieben des Mikrofons unschädlich gemacht werden.

Abb. 1/13. Druckverteilung in stehenden Wellen zwischen zwei parallelen Wänden.

Bei impulsartigem Schall entsteht zwischen parallelen Wänden ein Flatterecho, da das Signal dauernd hin und her reflektiert wird. Bei größerem Wandabstand ist dabei die  schnelle Abfolge einzelner Echos wahrnehmbar, bei kleinerem Wandabstand von weniger als etwa 8 m wird die Abfolge der Echos so rasch, dass ein sog. Klangecho entsteht: Der Schallimpuls erhält eine Art Nachhall, der indes nur eine bestimmte Tonhöhe hat, die vom Wandabstand und dem Standort des Hörers abhängt. Schallreflexion an gekrümmten Flächen Trifft eine Schallwelle auf eine nach innen gewölbte, eine konkave Fläche, so müssen je nach dem Abstand zwischen Schallquelle und reflektierender Hohlfläche vier verschiedene Situationen unterschieden werden: 1. Der Abstand der Schallquelle zur reflektierenden Fläche ist größer als der halbe Krümmungsradius r/2 der Fläche, jedoch kleiner als der Radius r: Der gesamte reflektierte Schall wird in einem Punkt, der außerhalb des Krümmungsradius liegt, gesammelt (Abb. 1/14). 2. Der Abstand der Schallquelle zur reflektierenden Fläche ist gleich dem halben Krümmungsradius r/2 der Fläche: Die auseinanderlaufenden Schallstrahlen verlaufen nach der Reflexion parallel (Abb. 1/15).

20 

 1 Grundlagen der Akustik

Abb. 1/14. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche größer als der halbe Krümmungsradius r/2.

Abb. 1/15. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche gleich dem halben Krümmungsradius r/2.

3. Der Abstand Schallquelle zur reflektierenden Fläche ist kleiner als der halbe Krümmungsradius r/2 der Fläche: Die Schallstrahlen streben nach der Reflexion auseinander, die Anordnung zerstreut den Schall (Abb. 1/16).

Abb. 1/16. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zur reflektierenden Fläche kleiner als der halbe Krümmungsradius r/2.

4. Der Abstand Schallquelle zur reflektierenden Fläche ist größer als der Krümmungsradius r: In diesem Fall ergibt sich eine noch stärker zerstreuende Wirkung (Abb. 1/17).

1.2 Schallfelder 

 21

Abb. 1/17. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche größer als der Krümmungsradius r.

Solche gewölbten Flächen sind vor allem die Gewölbe alter Kirchen und anderer historischer Gebäude. Es ist in jedem einzelnen Fall zu prüfen, inwieweit ein Gewölbe eine den Schall zerstreuende oder sammelnde Wirkung hat. Die Fokussierung einer Schallwelle kann bei Darbietungen und Aufnahmen zu einer unerwünschten Heraushebung einzelner Schallquellen aus einem größeren Schallkörper führen, die besonders auch deshalb als störend empfunden wird, weil die Schallquelle im Gewölbe selbst lokalisiert wird. Demgegenüber erhöht die Schallstreuung die im Allgemeinen erwünschte Diffusität eines Raums (siehe Kap. 1.3.5) und führt damit zu einer gleichmäßigeren Schallerfüllung des Raums. Nach außen gewölbte,  sog. konvexe Flächen, haben unabhängig vom Abstand der Schallquelle zur Fläche bzw. zum Hörer eine den Schall zerstreuende Wirkung. 1.2.2.2 Schallbeugung Ist die Ausdehnung eines Gegenstands, auf den eine sinusförmige Schallwelle bei ihrer Ausbreitung trifft, in der Größenordnung der Wellenlänge des Schalls oder kleiner, so wird dieses Hindernis von der Schallwelle so umgangen, als ob es nicht vorhanden wäre (Abb. 1/18). Da die Wellenlänge des Hörschalls zwischen etwa 20 m und 2 cm (siehe Tab. 1/2) liegt, wird es im Allgemeinen in einer aus vielen Teilfrequenzen zusammengesetzten Schallwelle relativ tieffrequente Anteile geben, die um das Hindernis herumgebeugt werden; höherfrequente Anteile hingegen werden von dem Hindernis reflektiert, gelangen also nicht hinter das Hindernis, wo nun ein Schallschatten entsteht. Damit wirkt ein Hindernis, das sich zwischen Schallquelle und Hörer oder Mikrofon befindet, wie ein Höhenfilter, ein komplex zusammengesetzter Klang wird dumpfer, es wird linear verzerrt. An einer Kante wird eine Schallwelle in den Schallschatten hineingebeugt, und zwar umso stärker, je tiefer die Frequenz ist. Einfluss der Wellenlänge Um den Schall reflektieren zu können, muss eine Fläche mindestens einen Durchmesser haben, der mehreren Wellenlängen der zu reflektierenden Schallwelle entspricht. Ist die Ausdehnung geringer, so wird der Schall um das Hindernis herum gebeugt. Selbst wenn der Durchmesser des Hindernisses der doppelten Wellenlänge entspricht, wird der Schall noch fast vollständig

22 

 1 Grundlagen der Akustik

herumgebeugt. Erst bei rund 5-facher Ausdehnung erscheint ein deutlicher Schallschatten. Abb. 1/18 zeigt an einigen Beispielen die Schallschattenbildung durch einen Zylinder.

Abb. 1/18. Schallbeugung an einem Zylinder für verschiedene Verhältnisse von Wellenlänge λ zum Durchmesser des Zylinders d.

Wenn eine Schallwelle nicht mehr um das Hindernis herumgebeugt wird, wirkt das Hindernis als Reflektor. Die Bedingungen für das Zustandekommen einer vollständigen Reflexion hängen von verschiedenen Faktoren ab: Der Wirkungsbereich eines Reflektors reicht zu umso tieferen Frequenzen hinab, je größer die reflektierende Fläche ist, je kleiner ihr Abstand zur Schallquelle ist, je kleiner ihr Abstand zum Hörer ist und je steiler die Schallwelle auf den Reflektor trifft. Für die tiefste noch reflektierte Frequenz fu gilt: fu = tiefste reflektierte Frequenz [Hz] c = Schallgeschwindigkeit [m/s] d = Durchmesser des Reflektors [m] α = Einfallswinkel des Schallstrahls [°] a1 = Entfernung Reflektor – Schallquelle [m] a2 = Entfernung Reflektor – Hörer [m] 1.2.2.3 Schallbrechung Unter Brechung versteht  man die Richtungsänderung des Schallstrahls beim Übergang zu einem Medium  mit einer anderen Schallgeschwindigkeit. In der Raumakustik  spielt die Schallbrechung praktisch keine Rolle. Im Freien, wo der Schall weit größere Strecken zurücklegen kann, kommt es aber durch Temperaturunterschiede einzelner Luftschichten zu Schallbrechungen, da die Schallgeschwindigkeit von der Temperatur abhängt. Liegt z. B.

1.2 Schallfelder 

 23

eine wärmere Luftschicht über einer kälteren wie bei einer Inversionswetterlage, wird der Schall zur Erde hin gebeugt, es entstehen deutlich hörbare Überreichweiten des Schalls; das ist typisch für Föhnwetterlagen oder für den frühen Morgen, wenn die Sonne erst die oberen Luftschichten erwärmt hat. Bei umgekehrter Schichtung, also im Normalfall, wird der Schall von der Erde weg nach oben gebeugt, der akustische Horizont liegt deshalb höher als der optische Horizont. 1.2.2.4 Schallabsorption Bereits bei der Schallausbreitung in Luft, besonders aber beim Auftreffen auf Hindernisse wird dem Schall durch Absorption Energie entzogen [Fuchs, 2010]. Als Maß für die Absorption wird der Absorptionsgrad α angegeben. Er ist eine Zahl zwischen 1 für totale Absorption und 0 für fehlende Absorption, d. h., totale Reflexion; er kann auch in  % angegeben werden. Der Absorptionsgrad α ist gleich dem Verhältnis von absorbierter Energie zu auftreffender Energie; bei der absorbierten Energie ist die durch die Wand hindurchgehende Energie eingeschlossen. Das Verhältnis der Schallleistungen oder Schallintensitäten führt zu demselben Ergebnis. Die Bestimmung des Absorptionsgrads erfolgt im Hallraum [DIN EN ISO 354] oder im sog. Kundtschen Rohr. Absorptionsgradwerte über 1 findet man gelegentlich angegeben, sie tragen der Tatsache Rechnung, dass die wirksame Fläche eines Absorbers etwas größer ist als seine geometrische Fläche. Die Gesamtabsorption einer Wand oder eines Raums, das sog. Absorptionsvermögen A, ergibt sich als Produkt von Absorptionsgrad α und der absorbierenden Fläche S. A ist also gleich der äquivalenten Absorptionsfläche  mit a  = 1, auch äquivalente Absorptionsfläche oder „Fläche offenes Fenster“ genannt. A = α ⋅ S

A = Absorptionsvermögen [m²] α = Absorptionsgrad [dimensionslos] S = absorbierende Fläche [m²]

Bei unterschiedlichen Materialien  mit verschiedenen Absorptionsgraden ergibt  sich  A als Summe der Teilabsorptionsvermögen: A = α1 ⋅ S1 + α2 ⋅ S2 + … Eine wesentliche Eigenschaft eines Absorbers ist die Frequenzabhängigkeit seines Absorptionsgrads, die sich einerseits aus den Materialeigenschaften, andererseits aus der konstruktiven Anordnung wie dem Wandabstand, einer Abdeckung usw. ergibt. Man unterscheidet im Hinblick auf die spektrale Wirksamkeit Höhenabsorber, Mittenabsorber und Tiefenabsorber. Die wichtigsten Funktionsprinzipien der Schallabsorption sind Reibung und mitschwingende Massen: Reibung durch Luftbewegung in Poren: Durch die Bewegung der schwingenden Luftteilchen in offenporigen Materialien wie Faserstoffen oder offenporigen Schäumen wird Schallenergie durch Reibung entzogen und in Wärmeenergie umgewandelt. Die Absorption ist bei höheren Frequenzen in einem breiten Frequenzbereich wirksam.

24 

 1 Grundlagen der Akustik

Reibung von durch Resonanz verstärkter Luftbewegung in Helmholtz-Resonatoren: Die Luftbewegung wird im Hals der Hohlraum-Resonatoren durch Resonanz verstärkt; dadurch wird die Reibung und damit die Absorption vergrößert. Diese Absorber sind nur in einem schmalen Frequenzband um die Resonanzfrequenz wirksam. Anregung von Platten zum Mitschwingen: Dem Schallfeld wird dadurch Energie entzogen, dass Platten, die verglichen mit Luft ein sehr hohes spezifisches Gewicht haben, zum Mitschwingen angeregt werden, in ihrer Bewegung aber durch federnde Unterlagen und innere Reibung gedämpft werden. Die Absorption ist schmalbandig, kann aber durch Kombination verschiedener Elemente und Materialien breitbandig gestaltet werden. Die Absorber müssen an der Decke und auf mindestens zwei zueinander senkrecht stehenden Wandflächen angeordnet werden und  sollten anteilmäßig zur Größe der jeweiligen Raumbegrenzungsfläche verteilt werden. Der dabei auf den Boden entfallende Anteil der Absorber wird zusätzlich an der Decke angeordnet. Die genaue Lage der Absorber richtet sich danach, welche Flächenanteile für nützliche Schallreflexionen, z. B. Deckenspiegel in Konferenzräumen und Konzertsälen, benötigt werden bzw. wo schädliche Reflexionen unterdrückt werden müssen. Die Absorptionsgrade häufig anzutreffender Wandoberflächen zeigt Tab. 1/5. Tab. 1/5. Absorptionsgrade α verschiedener Materialien bei Wandoberflächen. Absorptionsgrade α bei verschiedenen Frequenzen Material

125 Hz

250 Hz

500 Hz

1.000 Hz

2.000 Hz

4.000 Hz

Beton, unverputzt Putz auf Mauerwerk Teppich, mittlere Dicke Akustikplatte, 2 cm dick auf Wand aufgeklebt Akustikplatte, 2 cm dick mit 2 cm Wandabstand Vorhänge

0,01 0,02 0,05 0,05

0,01 0,02 0,08 0,15

0,02 0,03 0,20 0,55

0,02 0,04 0,30 0,90

0,02 0,05 0,35 1,0

0,03 0,05 0,40 1,0

0,10

0,20

0,85

1,0

1,0

1,0

0,05

0,10

0,25

0,30

0,40

0,50

Die Absorption durch die Luft selbst macht sich nur im Bereich hoher Frequenzen von etwa 5 kHz an bemerkbar und nimmt mit steigender Frequenz zu, wodurch die Nachhallzeit insbesondere größerer Räume bei hohen Frequenzen weitgehend durch die Luftabsorption bestimmt wird. Höhenabsorber Höhenabsorber absorbieren hauptsächlich im Bereich hoher Frequenzen. Meist handelt es  sich dabei um  sog. poröse Absorber, zu denen in erster Linie Faserstoffe zählen, also z. B. Vorhänge, Teppiche, Polstermöbel, Platten aus Stein- und Glaswolle. Bei diesen Absorbern strömt die Luft bei ihrer Schwingungsbewegung in den zahlreichen Poren und Kanälen des Materials hin und her. Die dabei durch die Reibung erzeugte Wärmeenergie wird der Schallenergie entzogen, ist aber so gering, dass sie nicht zu einer messbaren Temperaturerhöhung des Absorbers führt.

1.2 Schallfelder 

 25

Da die Absorptionswirkung eines Materials mit der Schallschnelle im Absorber ansteigt, ist ein Absorber dann am wirksamsten, wenn er sich im Bereich eines Schnellemaximums der Schallwelle befindet, in einem Schnellenullpunkt ist er praktisch nicht wirksam. Eine an einer harten Wand reflektierte Welle hat aber an der Reflexionsfläche einen Schnellenullpunkt, im Abstand von 1/4 Wellenlänge von der Wand ein Schnellemaximum. Deshalb ist die Absorption zu tieferen Frequenzen hin umso wirksamer, je dicker die poröse Schicht ist oder/und je größer ihr Abstand zur Wand ist (Abb. 1/19). Die Verbesserung der Absorption bei einem Lattenunterbau zeigt Abb. 1/20.

Abb. 1/19. Einfluss der Wellenlänge λ, der Absorptionsdicke d und des Abstands Absorber – Wand a auf die Absorption.

Abb. 1/20. Verlauf des Absorptionsgrades α handelsüblicher Akustikplatten, a. direkt auf die Wand gesetzt, b. auf Lattenrost, 2,2 cm vor der Wand befestigt.

Oft haben Schallabsorber für hohe Frequenzen aus optischen und akustischen Gründen Abdeckungen aus Holz, Metall o. a., die mit einer großen Zahl von Öffnungen versehen sind. Die Abdeckungen bewirken eine Ausdehnung der Absorption nach tieferen Frequenzen hin,

26 

 1 Grundlagen der Akustik

während Schall höherer Frequenzen etwas weniger absorbiert wird. Tab. 1/5 nennt für Akustikplatten und Vorhänge die Absorptionsgrade dieser Höhenabsorber. Ein universeller, bei Bedarf leicht anzubringender Höhenabsorber ist ein frei hängender Vorhang aus nicht zu leichtem Stoff. Der Vorhang absorbiert wirksam bei Wellenlängen unterhalb des vierfachen Abstands von Wand zu Vorhang. Daraus lässt sich die Formel für die untere Grenzfrequenz fu ableiten, oberhalb der die Absorption einsetzt; Falten ergeben einen gleitenden Übergang von nicht absorbierten tiefen Frequenzen zu absorbierten höheren Frequenzen und einen gleichmäßigeren Frequenzgang der Absorption. fu = untere Grenzfrequenz [Hz] d = Abstand zwischen Wand und Vorhang [cm] Auch Publikum hat eine starke Absorptionswirkung. Damit kann es die Akustik eines Raums erheblich beeinflussen. Die Absorption wirkt bereits von 200 bis 500  Hz an aufwärts und erreicht für höhere Frequenzen Werte, die denen von Akustikplatten vergleichbar  sind (Abb. 1/21). Bei einer Ausstattung mit Polsterstühlen ist der Unterschied in der Akustik von besetztem und unbesetztem Saal bei akustisch optimierter Bestuhlung nicht groß, bei Verwendung von Holzstühlen oder Bänken hingegen kann sich die Akustik durch das Publikum grundlegend verändern; dies trifft insbesondere für Kirchen zu, vor allem, wenn sie relativ klein sind. [Kath, 1964, 1965], [Meyer, E, 1965], [Mommertz, 1993], [Eggenschwiler, 1999]

Abb. 1/21. Absorptionswirkung von Publikum, a. Personen auf Holzstühlen, b. Polsterstühle ohne Personen, c. Polsterstühle mit Personen.

1.2 Schallfelder 

 27

In wenig bedämpften Räumen  mit viel Publikum bestimmt die Absorption des Publikums weitgehend die Nachhallzeit, so dass in solchen Räumen in erster Linie das Raumvolumen pro Hörer, die sog. Volumenkennzahl K von Räumen, die Nachhallzeit bestimmt: Bei K = 8 bis 10 m3 ergibt sich eine Nachhallzeit von etwa 2 s, ein sehr guter Wert für Räume für Musikaufführungen mit Orchester, bei K = 6 bis 7 m3 liegt sie bei etwa 1,5 s, für Kammermusik der geringste akzeptable Wert, für das gesprochene Wort aber ein günstiger Wert (siehe Tab. 1/12). Mittenabsorber Durch konstruktive Maßnahmen an Höhenabsorbern, wie vergrößerter Wandabstand, größere Schichtdicke und perforierte Abdeckung des Absorbers, wird ein Höhenabsorber auch im mittleren Frequenzbereich um 500 Hz wirksam. Seltener werden spezielle Mittenabsorber, sog. Lochabsorber, verwendet, gelochte oder geschlitzte Platten vor einem Hohlraum, dessen Begrenzungsflächen teilweise  mit Fasermaterial belegt  sein können. Man bezeichnet solche Konstruktionen als Helmholtz-Resonatoren, da sie als schwingungsfähiges, lufterfülltes Hohlraumsystem mit einer Eigenfrequenz, bei der die Absorption am stärksten ist, wirken. Die Lage der Frequenz größter Absorption kann durch die Konstruktion gewählt werden. Abb. 1/22 zeigt den typischen Absorptionsverlauf eines Mittenabsorbers nach Helmholtz. Diese Resonatoren wirken relativ schmalbandig; die absorbierende Auskleidung des Hohlraums macht die Absorption breitbandiger.

Abb. 1/22. Typischer Absorptionsverlauf eines Helmholtz-Mittenabsorbers.

Die Resonanzfrequenz von Helmholtz-Resonatoren errechnet sich wie folgt und ist damit in weiten Bereichen beeinflussbar. c S ≈ 54 ⋅ f = V ⋅L S 2π ⋅ V ⋅L

f = Resonanzfrequenz [Hz] c = Schallgeschwindigkeit [m/s] S = Fläche des Resonatorhalses [m2] V = Volumen des Resonators [m3] L = Länge des Resonatorhalses [m]

28 

 1 Grundlagen der Akustik

Ein Beispiel für einen Helmholz-Resonator ist das fahrende Anto  mit leicht geöffneter Scheibe; die zu beobachtende starke Tieftonresonanz kann durch Veränderung der Fensteröffnung – S in der Formel – beeinflusst werden. Ein anderes Beispiel ist eine angeblasene Flasche. Tiefenabsorber Tiefenabsorber bestehen meist aus Sperrholzplatten, die auf einem Lattenrahmen möglichst luftdicht vor eine Wand montiert werden. Der Zwischenraum zwischen Sperrholz und Wand wird  mit  schalldämpfenden Faserstoffen ausgefüllt. Die Schallwelle bringt die Platte zum Schwingen, durch innere Reibung der Platte und durch die Dämpfung der bewegten Luft im Fasermaterial wird dieser Schwingung Energie entzogen. Tiefenabsorber sind wie Mittenabsorber Resonanzsysteme, die Resonanzfrequenz nimmt mit zunehmendem Flächengewicht der schwingenden Platte und mit größer werdendem Wandabstand ab. Die Resonanzfrequenz wird zwischen etwa 70 und 300 Hz gelegt, je nach den jeweiligen raumakustischen Anforderungen (Abb. 1/23). Durch aufgesetzte Gewichte kann die Resonanzfrequenz verändert bzw. noch korrigiert werden. So können etwa die Holzkassetten einer Decke unterschiedlich abgestimmt werden; damit kann die Gesamtabsorption auf einen breiten Frequenzbereich ausgedehnt werden. Ein besonders hohes Flächengewicht haben Metallplatten, sie können damit besonders Platz sparend eingesetzt werden, z. B. in Übertragungswagen.

Abb. 1/23. Typischer Absorptionsverlauf eines Tiefenabsorbers, a. Plattenabsorber, b. nicht hinterpolsterte Platte.

Bei Platten, die frei im Raum schwingen wie aufgehängte Decken, Fenster und Türen sinkt die Resonanzfrequenz wegen der fehlenden Federwirkung, die sonst durch das eingeschlossene Luftpolster entsteht,  so tief ab, dass  sich ein gleichmäßiger Verlauf der Absorptionskurve einstellt (Abb. 1/23b). Besetzte oder unbesetzte Saalbestuhlung kann je nach Konstruktion der Stuhllehnen auch als Tiefenabsorber wirken, der bei etwa 130 bis 170 Hz eine Pegelabsenkung von 15 bis 20 dB bewirkt, nachdem der Schall eine Bestuhlung von 20 bis 25 m überstrichen hat.

1.2 Schallfelder 

 29

1.2.2.5 Schalldämmung Als Schalldämmung bezeichnet man die Fähigkeit von Baumaterialien, den Durchgang von Schall durch Wände und Decken eines Raums zu hemmen. Ein Maß für die Schalldämmung ist das Schallisolationsmaß [DIN 1320] oder Schalldämmmaß R [DIN 4109]. Darunter versteht man das in dB angegebene Verhältnis der auf eine Wand auftreffenden Schallintensität I1 oder des Schalldrucks p1 zur gesamten durchgelassenen Schallintensität I2 bzw. zum gesamten durchgelassenen Schalldruck p2. R = Schalldämmmaß [dB] I1 = auf die Wand auftreffende Schallintensität [W/m²] I p I = durch die Wand hindurchgehende Schallintensität [W/m²] R = 10 ⋅ log 1 = 20 ⋅ log 1 2 I p 2 2 p = auf die Wand auftreffender Schalldruck [Pa] 1 p2 = durch die Wand hindurchgehender Schalldruck [Pa] Die Schalldämmmaße sind frequenzabhängig, sie steigen meist mit der Frequenz erheblich an. Um dennoch mit einer einzigen Zahl das Schalldämmverhalten von Wänden, Decken usw. angeben zu können, wird in [DIN 4109] das Luftschallschutzmaß LSM definiert. Der Wert des LSM, angegeben in dB, gibt an, wie sich die gemessene Schalldämmung zu der in [DIN 4109] angegebenen Bezugskurve im Mittel verhält. LSM = 0 dB bedeutet, dass die Schalldämmanforderungen nach [DIN 4109] erfüllt sind; Wände zwischen Wohnungen sollen LSM = 0 dB haben. Tab. 1/6 nennt die Schalldämmmaße diverser Materialien. Gute Schalldämmung gegen Luftschall ergeben luftdichte, schwere und harte Materialien wie Stein und Holz. Das Schalldämmmaß hängt in erster Linie von der Masse einer Trennwand ab. Aus diesem Grunde sind die meist sehr leichten Akustikplatten und andere Absorber schlechte Dämmstoffe. Eine wesentliche Verbesserung der Schalldämmung ergeben zweioder mehrschalige Konstruktionen. Körperschall, der durch das Mitschwingen von Konstruktionsteilen weitergeleitet wird, wird durch  schallweiche, elastische Zwischenteile wie Gummi oder Kork gedämpft. Eine häufig  störende Form des Körperschalls ist der Trittschall. Er wird als Körperschall durch elastische Schichten bedämpft, also durch den sog. schwimmenden Estrich, eine harte Platte auf einer elastischen Schicht, und auch durch Teppichboden. Als Luftschall kann Trittschall z. B. durch abgehängte Decken vermindert werden. Tab. 1/6. Schalldämmmaße verschiedener Materialien Material, Dicke Blocksteine, 25 cm Kalksandstein, 12 cm, 20 cm Beton, 12 cm, 20 cm Gipsplatten, 6 cm, 10 cm Holzspanplatten, 1 cm, 4 cm Backsteinwand, 11 cm, verputzt leichte Zimmertür schalldämmende Spezialtür doppelt verglaste Fenster Regiefenster

Schalldämmmaß 49 bis 54 dB 46 bis 50 dB, 50 bis 55 dB 47 bis 52 dB, 53 bis 59 dB 30 bis 34 dB, 36 bis 40 dB 17 bis 20 dB, 26 bis 30 dB 44 bis 48 dB 10 bis 20 dB 35 bis 45 dB 30 bis 40 dB bis 65 dB

30 

 1 Grundlagen der Akustik

1.3 Raumakustik Die Raumakustik befasst  sich  mit den akustischen Erscheinungen und Bedingungen in geschlossenen Räumen. Hierbei spielt der subjektive Höreindruck stets eine entscheidende Rolle, er muss immer in die Betrachtungen einbezogen werden [Meyer, 2004], [Hentschel, 2009], [Beranek, 2010]. Für die raumakustische Planung stehen heute komplexe, aber auch vereinfachende Computer­programme zur Verfügung, die mittlerweile sehr gute Voraussagen über die zu erwartende Raumakustik ermöglichen.

1.3.1 Zeitlicher Aufbau des Schallfelds Strahlt eine Schallquelle in einem Raum allseitig einen Schallimpuls ab, so wird dieser von den Raumbegrenzungsflächen und von den Gegenständen im Raum in Abhängigkeit vom Material und geometrischer Form und Größe der Gegenstände reflektiert, absorbiert oder gebeugt, auch zerstreut oder gebündelt. Dadurch treffen am Ort eines Hörers nach dem Direktschall, der auf dem kürzesten Weg den Hörer erreicht, zunächst einige einzelne Reflexionen, die  sog. ersten Reflexionen ein, deren Verzögerung, Stärke und Einfallsrichtung für das Hörereignis von großer Bedeutung  sind. Die Folge der Reflexionen verdichtet  sich rasch und bildet den Nachhall, der daher mit einer Verzögerung gegenüber dem Direktschall einsetzt (Abb. 1/24). Dauer und Stärke des Nachhalls sind im Allgemeinen überall im Raum gleich, zumindest ähnlich. Die Gesamtheit des reflektierten Schalls  stellt das im Idealfall gleichmäßig den Raum erfüllende diffuse Schallfeld dar, das dadurch gekennzeichnet ist, dass es keine Vorzugsrichtung der Schallausbreitung enthält. Das diffuse Schallfeld baut sich umso schneller auf, je kleiner der Raum ist, d. h., je häufiger der Schall pro Zeiteinheit reflektiert und gebeugt wird. Wenn ein Raum viele Streukörper wie Säulen usw. aufweist, bzw. Wände und Decke eines Raums nicht eben, sondern strukturiert sind, ist die Gleichmäßigkeit des Diffusschallfelds am größten. Dabei müssen die streuenden Flächen und Körper in ihren Abmessungen groß gegenüber der Wellenlänge des zu reflektierenden Schalls sein, um wirksam zu sein. Eine z. B. in Form von Kassetten strukturierte Wand kann daher gleichzeitig für tiefe Frequenzen wie eine große, ebene Fläche wirken, während der Schall bei höheren Frequenzen diffus gestreut wird. Hohlflächen wirken im Allgemeinen Schall sammelnd und beeinträchtigen die Diffusität des Schallfelds. Ein gleichmäßig über den Raum verteiltes, wirklich diffuses Schallfeld kann  sich nur bei breitbandigem, impulshaltigem Schall, z. B. Sprache, Musik oder Rauschen, aufbauen. Besteht dagegen der Schall aus  sinusförmigen Dauertönen oder  stationärem,  schmalbandigem Rauschen,  so bilden  sich auch in  schiefwinkligen Räumen, auch bei  strukturierten Raumbegrenzungsflächen, stehende Wellen, deren Druckmaxima und -minima sich ortsfest an bestimmten Raumpunkten befinden und beim Abschreiten des Raums leicht zu lokalisieren sind. Stehende Wellen oder Raummoden treten umso mehr und stärker auf, je kleiner ein Raum und je tiefer die Frequenz ist. Wenn sie bei der Aufnahme stören, kann oft durch eine kleine Verschiebung des Mikrofons aus dem Druckmaximum oder -minimum Abhilfe geschaffen werden.

1.3 Raumakustik 

 31

Abb. 1/24. Zeitliche Folge der Reflexionen in einem Raum bei Impulsschall.

Bei andauernden Schallsignalen, nicht nur bei Rauschen und Sinustönen z. B., sondern vielfach auch bei Musik, ergibt sich ein anderer zeitlicher Aufbau des diffusen Schallfelds. Der Schalldruck steigt bei Einschalten der Schallquelle zunächst auf seinen endgültigen Wert an und bildet dabei den sog. Anhall, der einen Klangeinsatz weich oder hart wirken lässt; kurzer Anhall macht den Klangeinsatz prägnant bis hart, langer Anhall weich bis verschwommen. Nach Abschalten der Schallquelle schließt sich wie bei Impulsschall der abklingende Nachhall an (Abb. 1/25).

Abb. 1/25. Zeitlicher Auf- und Abbau des Schalldrucks im diffusen Schallfeld bei Dauerschall.

Zur akustischen Raumgestaltung gehören vor allem die folgenden Aufgaben: Gute Abstrahlmöglichkeit der Schallquellen, geeignete Lenkung des Direktschalls und eine optimale Gestaltung der Verzögerungen der ersten Reflexionen (siehe Kap. 1.2.2 und 1.3.3), optimale Gestaltung der Nachhallzeit und ihrer Frequenzabhängigkeit einschließlich der Realisierung

32 

 1 Grundlagen der Akustik

einer guten Diffusität des Nachhalls, d. h., eine gleichmäßige Verteilung der Hallenergiedichte im Raum (siehe Kap. 1.3.4) und eine Vermeidung von Raummoden.

1.3.2 Begriffe der Hörakustik Die Akustik eines Raums und ihre Qualität ergibt sich aus dem komplexen Zusammenwirken der geometrischen Form des Raums und  seiner Einrichtung, der akustischen Wirksamkeit der Oberflächen und den Eigenschaften des abgestrahlten Schalls als objektive Faktoren auf der einen Seite und der  subjektiven, bewertenden Wahrnehmung das Raumschalls durch den Hörer mit seinen Erfahrungen, Erwartungen und Anforderungen auf der anderen Seite. Einen Zusammenhang zwischen den objektiven und subjektiven Faktoren herzustellen, ist ein wesentliches Ziel der raumakustischen Forschung. Diese Zusammenhänge  sind inzwischen soweit bekannt, dass die exakte akustische Planung eines Saals zu einem guten Ergebnis führt, sofern nicht Kompromisse durch divergierende, unerfüllbare Anforderungen insbesondere im Hinblick auf  sehr unterschiedliche Nutzungen geschlossen werden  müssen. Seit dem 19. Jahrhundert wurden die auch aus heutiger Sicht besten Säle gebaut, deren Konzeption zunächst mehr auf Erfahrungen der Architekten als auf genauem akustischem Wissen beruhte. Um die subjektiven Aspekte der Raumakustik erfassen zu können, mussten Begriffe definiert werden, die einerseits physikalisch begründet sind, andererseits die subjektive Bewertung des Höreindrucks erfassen. Die folgenden übergreifenden Begriffe werden für die Hörakustik eines Raums verwendet [Kuhl, 1977], [Lehmann, 1980], Tab. 1/7 fasst sie zusammen. Die Hörsamkeit ist ganz allgemein die Eignung eines Raums für bestimmte Schalldarbietungen. Gute Hörsamkeit für Sprachdarbietungen besagt z. B., dass ohne Benutzung elektroakustischer Verstärkung eine gute Sprachverständlichkeit an allen Plätzen des Raums gewährleistet ist. Die Durchsichtigkeit kennzeichnet bei Musikdarbietungen trotz zusätzlichem Raumschall als Zeitdurchsichtigkeit die Unterscheidbarkeit zeitlich aufeinanderfolgender Töne und als Registerdurchsichtigkeit die Unterscheidbarkeit gleichzeitig gespielter Instrumente oder Instrumentengruppen oder deren Register oder Tonhöhenbereiche. Die Durchsichtigkeit bezeichnet also die Klarheit einer Musikdarbietung,  sie ist vergleichbar der Wortverständlichkeit bei Sprachdarbietung. Schallreflexionen, die bei Musik bis spätestens 80 ms nach dem Direktschall eintreffen, erhöhen die Durchsichtigkeit und die Empfindung der Räumlichkeit, spätere Reflexionen mindern die Durchsichtigkeit und erhöhen die Halligkeit. Für Sprache ist diese Zeitgrenze bei 50 ms anzusetzen. Der Raumeindruck ist die Hörempfindung, die  man in einem teilweise oder ganz umschlossenen Raum beim Erklingen eines Schallereignisses von dem Raum hat. Der Raumeindruck hat die Komponenten: –– die Empfindung, im gleichen Raum wie die Schallquelle zu sein, nicht, wie z. B. bei Zweikanal-Stereowiedergabe, durch ein Fenster in den Aufnahmeraum hineinzuhören, –– die Empfindung der Größe, insbesondere Breite und Tiefe, des Raums,

1.3 Raumakustik 

 33

–– die Empfindung der Halligkeit, d. h., die Tatsache, dass außer dem Direktschall Diffusschall vorhanden ist, der nicht als Wiederholung des Direktschalls, d. h., als Echo wahrgenommen wird, die Empfindung der Räumlichkeit, d. h., die Wahrnehmung, dass der Raum eine größere Ausdehnung hat als die Schallquelle. Im Gegensatz zum Hall ist das Echo eine einmalige Wiederholung eines Schallereignisses; es gibt dem Hörer über die Entfernung einer weiter entfernten Wand Auskunft. Zu weiteren Begriffen und Parametern zur Beschreibung und  subjektiven Beurteilung der Qualität von Hörereignissen in Räumen siehe auch Kap. 19.7.3. Tab. 1/7. Begriffe der Hörakustik und ihre Bedeutung. Begriff

Unterbegriffe

Kurzdefinition

Hörsamkeit

1. Sprachhörsamkeit, 2. Musikhörsamkeit

Oberbegriff für die akustische Eignung eines Raums für Sprachdarbietung (1.) bzw. Musikdarbietung (2.)

Durchsichtigkeit

1. Zeitdurchsichtigkeit, 2. Registerdurchsichtigkeit

Klarheit einer akustischen Darbietung durch Unterscheidbarkeit aufeinander folgender (1) bzw. gleichzeitiger (2) Schallereignisse

Raumeindruck

1. Einbezogensein des Hörers, 2. Raumgröße, 3. Halligkeit, 4. Räumlichkeit, 5. Echo

Empfindung von Größe und Ausgestaltung eines Raums

akustisches Gleich- 1. Gleichgewicht der gewicht Lautstärken, 2. Gleichgewicht der Dynamik, 3. Gleichgewicht der Klangfarben

Mischung der einzelnen Schallquellen

1.3.3 Direktschall und erste Reflexionen Die ausreichende Versorgung der Hörer mit Direktschall ist eine Grundbedingung für gute Hörsamkeit in Räumen für Sprach- und Musikdarbietung. Optische Sichtverbindung gewährleistet noch nicht die notwendige Direktschallversorgung; der Anteil an Direktschall im Schallfeld muss denjenigen an Diffusschall übertreffen oder die ersten, weniger als 50 bis 80 ms verzögerten Reflexionen müssen in ihrer Gesamtheit stark genug sein, um ein klares Klangbild vor dem akustischen Hintergrund des Diffusfelds zu zeichnen. Die Stärke und Verzögerung der ersten Reflexionen beeinflusst das Hörereignis in verschiedener Weise: Alle Reflexionen erhöhen die Lautstärke des Direktschalls, die Deutlich-

34 

 1 Grundlagen der Akustik

keit  steigt aber nur dann, wenn  sie um weniger als 50  ms entsprechend 17  m Umweg der Schallwelle verzögert sind. Frühe Reflexionen mit einer Verzögerung von 0,8 bis etwa 20 ms entsprechend 0,3 bis 7 m Umweg verursachen bei der Tonaufnahme gleichzeitig eine unangenehme Klangfärbung, die durch Summierungen und Auslöschungen zwischen Direktschall und Reflexionen entsteht; sie stören also bei Tonaufnahmen und sind möglichst zu unterdrücken. Dies betrifft Reflexionen mit einem Umweg von weniger als 7 m. Reflexionen mit einer Laufzeitdifferenz von 20 bis 50 ms entsprechend 7 bis 17 m Umweg bestimmen die empfundene Raumgröße; ein Raum erscheint umso größer, je  mehr die ersten Reflexionen verzögert sind, umso kleiner und enger, je früher sie eintreffen. Außer der Verzögerung haben Richtung und Stärke der ersten Reflexionen erheblichen Einfluss: seitlich einfallender Schall wird deutlicher gehört und hat sich für das Hörereignis als wesentlich günstiger erwiesen als von oben oder von hinten einfallender Schall. Die Reflexionen an den Seitenwänden vergrößern die Räumlichkeit einer Darbietung, d. h., die Empfindung, dass z. B. ein Soloinstrument auf der Bühne für den Hörer akustisch nicht punktförmig, sondern ausgedehnt erscheint. Ein Maß hierfür ist der Seitenschallpegel LF, Lateral Fraction, nach Barron und Marshall [Barron, 1981]. Weniger wahrnehmbar sind Reflexionen, die aus derselben Richtung wie der Direktschall kommen. Der Pegel einer Reflexion darf bei Sprache bis zu 10 dB über dem des Direktschalls liegen, ohne dass sie die Lokalisierung des Direktschalls stört. Je größer die Verzögerung ist, umso eher werden die Reflexionen wahrgenommen. Deutliche Einzelreflexionen mit einer Verzögerung von mehr als 50 ms werden als  störendes Echo wahrgenommen. Der Einfluss von ersten Reflexionen, d. h., ihr positiver oder negativer Beitrag zur Hörsamkeit bei Musikdarbietungen, hängt zudem in starkem Maße von der Art und dem Stil der Musik ab. Zur Beurteilung der Reflexionen in einem Raum werden  sog. Reflektogramme aufgenommen, auch Echogramme oder Impulsantworten eines Raums genannt. Dabei wird der Schalldruck in Abhängigkeit von der Zeit nach einer Impulsanregung, z. B. durch einen Pistolenschuss, dargestellt. Störende Einzelreflexionen können  so leicht identifiziert werden. Abb.  1/26 zeigt Reflektogramme eines Raums  mit guter (a) und  schlechter (b) Hörsamkeit. Solche Reflektogramme können auch bei akustischen Raummodellen, die z. B. im Maßstab 1:10 hergestellt werden, gewonnen werden.

a b Abb. 1/26. Reflektogramme von Räumen unterschiedlicher Hörsamkeit (Zeitraster 10 ms), a. schlechte Hörsamkeit durch starke Einzelreflexion nach Reflexionslücke, b. gute Hörsamkeit durch gleichmäßig abnehmende Reflexionsfolge ohne herausragende Einzelreflexionen.

1.3 Raumakustik 

 35

Um die Sprachverständlichkeit bzw. die Durchsichtigkeit und den Raumeindruck bei Musikwiedergabe zu verbessern, werden die ersten Reflexionen nach den Gesetzen der Schallreflexion auf die Hörerplätze geleitet (siehe Kap.  1.2.2), wobei auch  spezielle freihängende Reflektoren Verwendung finden. Wichtig für eine gute Verständigung der Musiker untereinander sind Deckenreflexionen über der Bühne.

1.3.3.1 Deutlichkeitsgrad und Klarheitsmaß In Zusammenhang mit der Bewertung des Reflektogramms eines Raums wurde der Begriff der Deutlichkeit eingeführt. Die für die Hörsamkeit eines Raums wichtigen Reflexionen treffen innerhalb von 100 bis 200 ms nach dem Direktschall beim Hörer ein. Reflexionen mit einer Verzögerung bis 50 ms erhöhen dabei die Silbenverständlichkeit oder Deutlichkeit der Sprache. Setzt man die Schallenergie, die innerhalb dieser 50 ms eintrifft, zur gesamten eintreffenden Schallenergie ins Verhältnis, so erhält man die Definition der Deutlichkeit in Prozentwerten ausgedrückt. Hohe Deutlichkeit entspricht einer hohen Silbenverständlichkeit, Musik lässt sie aber trocken wirken. Eine Deutlichkeit unter 50 % entspricht einem harten Klangeinsatz, von über 50  % einem weichen. Zwischen der physikalisch definierten Deutlichkeit an einem Ort im Raum und der subjektiv erfassten Durchsichtigkeit lässt sich kein enger Zusammenhang feststellen; deshalb sollte besser von Deutlichkeitsgrad oder 50-msEnergieanteil gesprochen werden. Die Definition des Klarheitsmaßes verfolgt ähnliche Ziele wie der Deutlichkeitsgrad. Danach ist das Klarheitsmaß definiert als 10-facher Logarithmus des Verhältnisses der bis 50 ms (Sprachklarheitsmaß, Deutlichkeitsmaß) bzw. 80 ms (Musikklarheitsmaß, Durchsichtigkeitsmaß) eintreffenden Schallenergie zur gesamten danach eintreffenden Schallenergie. Wenn die Werte positiv sind, ist die Deutlichkeit der Sprache bzw. die Durchsichtigkeit der Musik ausreichend.

1.3.4 Hall Hall als Oberbegriff ist der gesamte diffuse Schall in einem Raum. Wird eine Schallquelle in einem Raum plötzlich eingeschaltet, so baut sich das diffuse Feld erst danach als Anhall auf, es begleitet dann das Schallereignis als Mithall und klingt nach Abschalten der Schallquelle als Nachhall ab. Dabei haben die verschiedenen Schallfeldgrößen einen unterschiedlichen Verlauf (Abb. 1/27). Die Lautstärkeempfindung entspricht am besten dem Schalldruckpegel. Nachhall, die wichtigste Erscheinungsform des Halls, ist das Verschwinden des Schallfelds in einem Raum nach Abschalten der Schallquelle, d. h., das Abklingen des diffusen Schallfelds, das im Idealfall den Raum gleichmäßig erfüllt; in der Hörakustik ist Nachhall das Ausklingen des Hörereignisses nach Abschalten der Schallquelle. Je länger der Nachhall dauert, umso besser verteilt  sich der Schall im Allgemeinen auf den gesamten Raum. Die Schallenergie nimmt dann exponentiell ab, der Schalldruckpegel linear. Die Abnahme der Schallenergie erfolgt umso  schneller, je größer die Absorption der Raumbegrenzungen ist und je häufiger die Schallstrahlen reflektiert werden, d. h., also je kleiner ein Raum ist.

36 

 1 Grundlagen der Akustik

Abb. 1/27. Schematische Darstellung des Nachhalls für Schalldruckpegel, Schalldruck und Schallenergiedichte.

Die Schallenergiedichte w des diffusen Schallfelds in einem Raumvolumen von 1 m3 hängt von dem Absorptionsvermögen  A und der zugeführten Schallleistung P ab; das Absorptionsvermögen wird durch die Nachhallzeit T erfasst. Die Schallenergiedichte w steigt dabei proportional mit der Nachhallzeit T und sinkt mit zunehmendem Raumvolumen:

P⋅T w= 13,8V

w = Schallenergiedichte [Ws/m³] P = abgestrahlte Schallleistung [W] T = Nachhallzeit [s] V = Raumvolumen [m³]

In der Praxis sind die Werte für die Schallenergiedichte w relativ klein: typische Werte für eine laute Musikdarbietung in einem Konzertsaal liegen im Bereich um 10-4 Ws/m3, denn die Leistung einer Schallquelle (Tab. 1/4) ist sehr gering und verteilt sich zudem auf den ganzen Raum. 1.3.4.1 Nachhallzeit Nach dem Vorschlag des Akustikers Wallace Clement Sabine (1868 – 1919) wird unter der Nachhallzeit T derjenige Zeitabschnitt, gemessen in  s, verstanden, innerhalb dessen nach Abschalten einer Schallquelle die Schallenergie in einem Raum auf den  millionsten Teil abfällt. Diesem Energieabfall entspricht ein Abfall des Schalldrucks auf 1/1.000 bzw. des Schalldruckpegels um 60 dB (Abb. 1/28). Die Nachhallzeit kann berechnet oder gemessen werden. Für die Berechnung wird am häufigsten die einfache Nachhallformel nach Sabine verwendet; sie wurde von Sabine empirisch gefunden, von Jäger dann auch aus Energiebetrachtungen theoretisch abgeleitet. Die Formel gilt insbesondere für längere Nachhallzeiten. Demnach ist die Nachhallzeit umso länger, je größer das Raumvolumen und je geringer die gesamte Absorption der Raumbegrenzungen ist. Da das Volumen eines Raums mehr zunimmt als seine gesamte Oberfläche, haben größere Räume bei gleicher Beschaffenheit der Begrenzungsflächen längere Nachhallzeiten

1.3 Raumakustik 

 37

als kleinere Räume. Die Anzahl der Reflexionen einer Schallwelle pro Zeiteinheit sinkt mit der Raumgröße, weil die Wege zwischen den Reflexionen  mit der Raumgröße zunehmen. Raumvolumen verlängert also grundsätzlich die Nachhallzeit, eine Grundregel raumakustischer Planung.

Abb. 1/28. Definition der Nachhallzeit durch den Abfall des Schalldruckpegels nach Abschalten der Schallquelle.



T = Nachhallzeit [s V = Raumvolumen [m²] A = gesamtes Absorptionsvermögen [m²]

Da dieser Sabineschen Formel einige Vereinfachungen zu Grunde liegen, hat Eyring 1930 eine genauere Formel abgeleitet. Die Nachhallformel nach Eyring gilt auch bei kürzeren Nachhallzeiten. Die noch genauere Nachhallformel nach Knudsen berücksichtigt zusätzlich die Luftabsorption, wird aber in der Praxis kaum angewendet, da ihr Ergebnis innerhalb der Messtoleranz liegt. Die Messung der Nachhallzeit erfolgte bis 2009 nach [DIN 52216]. Es wurden Nachhallzeiten in dem Frequenzbereich von 125  Hz bis 4,0  kHz in Terz-, d.  h. 1/3‑Oktav-Schritten bestimmt, in Ausnahmefällen von 100 Hz bis 6,3 kHz. Seit 2009 wird der neue Standard [DIN EN ISO 3382], Teil 1 für Aufführungsräume, Teil 2 für normale Räume mit komplexen Messverfahren angewendet. Als Schallsignal für die Messung dienen Weißes Rauschen oder Rauschen in Terzbandbreite. Pistolenschüsse werden nur in großen Räumen mit langer Nachhallzeit verwendet. Moderne Messverfahren nutzen spezielle Messsignale, deren Impulsantwort ausgewertet wird. Der Schallpegelverlauf beim Nachhallvorgang wird aufgezeichnet. Zur Auswertung wird die mittlere Steigung der Kurve ermittelt. Dabei wird nur der Bereich zwi-

38 

 1 Grundlagen der Akustik

schen - 5 und -35 dB ausgewertet [Vorländer, 1994]. Man unterscheidet bei der Nachhallzeit von Zuhörerräumen drei verschiedene Zustände: 1. unbesetzter Zustand, 2. Studiozustand, nur Orchester in üblicher Stärke, 3. besetzter Zustand mit 80 bis 100 % Publikumsbesetzung. Da bei der Darbietung von Musik besonders der Beginn des Abklingvorgangs bestimmend ist für die Wahrnehmung der Raumakustik – das weitere Ausklingen wird meist durch neue Schallereignisse überdeckt –, wurde die sog. Anfangsnachhallzeit gesondert definiert; dabei wird der Pegelbereich der Nachhallkurve zwischen 0 und - 15 dB (Initial Reverberation Time), zwischen 0 und - 20 dB (nach Kürer und Kurze) oder zwischen 0 und - 10 dB (Early Decay Time, EDT, nach Jordan) ausgewertet. Die Dauer des Abklingvorgangs, der bei Abschalten eines Schallereignisses tatsächlich wahrgenommen wird, stimmt nur in Ausnahmefällen mit der Nachhallzeit überein. Deshalb wird als Nachhalldauer die Zeitspanne definiert, innerhalb der ein Nachhallvorgang hörbar ist. Die Nachhalldauer hängt demnach vom Schallpegel der Schallquelle, von deren spektraler Zusammensetzung  sowie vom Störgeräusch im Raum ab. Dabei hat der Schallpegel in der Praxis der Tonaufnahme die größte Bedeutung. Die Nachhalldauer nimmt  mit dem Schallpegel stark zu. Deshalb wirkt ein Raum umso halliger, je lauter die Schallquelle ist. Bei leisen Stellen ist oft nur wenig Raumhall hörbar. So verändert sich der hörbare Anteil des Raums am Schallereignis ständig mit der Lautstärke: Die Intimität von leisen Stellen in der Musik wird durch den geringeren Raumeindruck unterstützt, laute Stellen erhalten Gewicht durch einen starken Raumeindruck. Die wahrgenommene Raumgröße atmet mit der Musik. Optimale Nachhallzeiten Die von den meisten Mitwirkenden einer Darbietung und vom Publikum bzw. von den Hörern einer entsprechenden Aufnahme in ihrer Mehrheit als optimal empfundene Nachhallzeit hängt von verschiedenen Faktoren ab: an erster Stelle von der Art der Darbietung, bei Musik vom Stil bzw. von der Epoche, aus der die Musik stammt, aber auch vom Tempo und Rhythmus sowie von der Besetzung, ja von der Interpretation eines Musikstücks, weiterhin von der Feinstruktur des Nachhallverlaufs, also von der Verteilung und Stärke der ersten Reflexionen und der Anfangsnachhallzeit,  sowie der Frequenzabhängigkeit der Nachhallzeit. Schließlich weckt der optische Eindruck von einem Raum adäquate Erwartungen an den Nachhall, denen die akustische Wahrnehmung nicht widersprechen sollte. Diese vielfältigen Einflüsse haben dazu geführt, dass die Nachhallzeit eines Raums heute als nicht mehr allein entscheidend angesehen wird. Da ein Raum ohnedies im Allgemeinen für  mehrere Darbietungsarten genutzt wird, kann es  sich bei der optimalen Nachhallzeit nur darum handeln, Richtwerte für den Nachhall im mittleren Frequenzbereich anzugeben, die  möglichst nicht unter- oder überschritten werden  sollten. Neben physikalischen, hörpsychologischen und darbietungsbezogenen Gesichtspunkten einer optimalen Nachhallzeit hat sich auch gezeigt, dass ein gewisser Zeitgeschmack von Einfluss ist. So wurden in den 1950er Jahren kürzere Nachhallzeiten im Konzertsaal- und Studiobau gewünscht als in den folgenden Jahrzehnten. Für Opernhäuser gelten wegen der erforderlichen Sprachverständlichkeit kürzere Werte als in Konzertsälen. Die Nachhallzeit für Kirchen ist demgegenüber zumindest in historischen Bauwerken länger. Tab. 1/6 gibt Richtwerte für Nachhallzeiten in verschiedenen Räumen  mit unterschiedlicher Zweckbestimmung an, detaillierte Angaben hierzu siehe Kap. 1.5, siehe hierzu auch die Tab. 1/11 bis 1/13.

1.3 Raumakustik 

 39

Bei Räumen für Sprachdarbietungen steht die Sprachverständlichkeit im Vordergrund, die kürzere Nachhallzeiten verlangt. Da aber die Lautstärke am Ort des Hörers mit der Nachhallzeit ansteigt, muss mit steigender Raumgröße auch die Nachhallzeit etwas zunehmen. Für Sprecherräume bei Tonaufnahmen gelten die kürzesten Nachhallzeiten. Bei mittleren und hohen Frequenzen besteht für größere Räume eine relativ hohe Korrelation zwischen der Nachhallzeit T und der Volumenkennzahl K, da hier die Luftabsorption wegen der längeren Schallwege überwiegt. K gibt das Raumvolumen in  m3, das auf einen Zuhörerplatz entfällt, an:

T = Nachhallzeit [s] K = Volumenkennzahl [m³/Platz]

Damit kann für eine gegebene Raumgröße die optimale Zuhörerzahl abgeschätzt oder umgekehrt für eine geplante Hörerzahl die optimale Raumgröße bestimmt werden (Tab. 1/8). Tab. 1/8. Richtwerte für optimale Nachhallzeiten. Art des Raums Sprecherstudio Hörspielstudio großes Fernsehstudio Vortragssaal, Theater Opernhaus Konzertsaal, großes Musikstudio Kirche

optimale Nachhallzeit T

Volumenkennzahl K

0,3 s 0,6 s 0,8 s 0,7 bis 1,2 s 1,5 bis 1,8 s 1,8 bis 2,5 s 2,5 bis 3,0 s

3 bis 5 m3/Platz 6 bis 7 m3/Platz 8 bis 10 m3/Platz 10 bis 12 m3/Platz

Frequenzabhängigkeit der Nachhallzeit Eine wesentliche Qualität des Nachhalls bzw. des Klangs eines Raums allgemein ergibt sich aus der Frequenzabhängigkeit der Nachhallzeit bzw. der Veränderung der Klangfarbe des Nachhalls mit der Zeit, die praktisch in allen Räumen gegeben ist; frequenzunabhängigen Nachhall können nur elektronische Hallgeräte liefern, ein solcher Hall kann deshalb unnatürlich wirken. Die Frequenzabhängigkeit der Nachhallzeit führt dazu, dass sich der Nachhall im Verklingen zunehmend dunkler färbt bzw. dass das Diffusfeld gefärbt ist und somit eine allgemeine Klangfärbung der Darbietung zur Folge hat,  sofern der Diffusanteil nicht nur klein ist. Diese Klangfärbung wird durch die Frequenzabhängigkeit der Absorber und der Luftabsorption verursacht. Höcker in den Frequenzkurven sind dabei leichter zu hören als Senken. Die Frequenzkurve des Nachhalls ändert ihre Gestalt mit dem Messort in einem Raum in gewissem Umfang, was bei tiefen Frequenzen, z. B. Orgeltönen, zu hörbaren Klangfärbungen führen kann. Bei streifendem Schalleinfall über Bestuhlung und Publikum werden Frequenzen im mittleren und hohen Bereich bedämpft (siehe Kap. 1.2.2.4). Räume mit vorwiegend offen liegenden Steinwänden haben die längste Nachhallzeit im Bereich tiefer Frequenzen, der Klang einer Darbietung wird hier dadurch dumpf. Längere Nachhallzeit im  mittleren Frequenzbereich gibt dem Klang eine warme Färbung,  schwingungsfähige Raumbegrenzungen wie Holzverkleidungen und Bilder fördern diesen Klang-

40 

 1 Grundlagen der Akustik

charakter. In Aufnahmestudios und  modernen Konzertsälen versucht  man, die Frequenzabhängigkeit des Nachhalls relativ gering zu halten. Die Klangfärbung des Nachhalls wird durch das sog. Bassverhältnis oder Bass Ratio BR nach Beranek als Verhältnis der Nachhallzeiten bei tiefen Frequenzen (125 und 250 Hz) zu derjenigen bei mittleren Frequenzen (500 und 1.000 Hz) beschrieben. Allen Räumen ist eine Abnahme der Nachhallzeit mit steigender Frequenz oberhalb von 1 bis 2 kHz gemeinsam; sie wird von der Absorption der Luft verursacht. Dadurch kann die Nachhallzeit 3,1 s bei 5 kHz und 1,2 s bei 10 kHz niemals überschreiten. Ist die Nachhallzeit mit einem einzigen Wert angegeben, so bezieht sich diese Angabe auf 500 oder 1.000 Hz. Abb. 1/29 zeigt die Typen der Nachhallkurven.

Abb. 1/29. Schematische Nachhallkurven mit verschiedenen Frequenzabhängigkeiten: a. Nachhall unnatürlich spitz: nur mit elektronischen Hallgeräten realisierbar, b. Nachhall klangneutral: Aufnahmestudios und moderne Konzertsäle, c. Nachhall mittenbetont und warm: historische Säle mit Holzvertäfelung, d. Nachhall dumpf: große Kirchen mit großen Steinflächen.

Anhall Betrachtet  man die Energieverhältnisse beim Aufbau des Raumschallfelds, also beim Anhall, so ist eine Unterscheidung des Höreindrucks nach „hartem“ und „weichem“ Schall­ einsatz  sinnvoll. Harter Schalleinsatz liegt vor, wenn  mehr als die Hälfte der gesamten Schallintensität bis spätestens 50 ms nach dem Einsetzen der Schallquelle beim Hörer eintrifft, weicher Schalleinsatz, wenn weniger als die Hälfte erst nach diesem Zeitabschnitt eintrifft. Harter Schalleinsatz ist der Sprachverständlichkeit und Präsenz dienlich, weicher Schalleinsatz fördert ein weiches, rundes Klangbild insbesondere bei Musik, während es bei Sprache zur Undeutlichkeit führt. Auf dieser Unterscheidung beruht auch die Definition des Begriffs der Deutlichkeit (siehe Kap. 1.3.3). 1.3.4.2 Hallradius und Hallabstand In unmittelbarer Nähe einer Schallquelle dominiert auch in halligen Räumen der Direktschall über den Diffusschall. Mit zunehmender Entfernung von der Schallquelle verrin-

1.3 Raumakustik 

 41

gert sich im Nahbereich einer allseitig abstrahlenden Schallquelle der Schallpegel mit jeder Entfernungsverdopplung um jeweils 6 dB, bei den meisten Schallquellen sind es wegen ihrer gerichteten Schallabstrahlung eher 3 bis 4 dB. Demgegenüber ist der Schallpegel des diffusen Schalls bei längeren Nachhallzeiten im ganzen Raum gleich. Direkter und diffuser Schall überlagern sich. In einem bestimmten Abstand rH von der Schallquelle, dem sog. Hallradius, auch als kritischer Abstand, Grenzradius oder Äquivalententfernung bezeichnet – nicht aber als Hallabstand, sind die Schalldruckpegel von direktem und diffusem Schall gleich groß. Der Gesamtschallpegel in diesem Punkt ist um 3 dB höher als jede der beiden Komponenten (Abb. 1/30). Innerhalb des Hallradius überwiegt der Direktschall mit seiner Richtungsinformation über den Ort der Schallquelle, außerhalb überwiegt der Diffusschall ohne Richtungsinformation.

Abb. 1/30. Überlagerung von Direkt- und Diffusschall und Hallradius rH.

Der Hallradius rH nimmt mit dem Raumvolumen V zu, verringert sich aber mit zunehmender Nachhallzeit T: rH = Hallradius [m] V = rH 0,057 ⋅ V = Raumvolumen [m³] T T = Nachhallzeit [s] In Abb. 1/31 kann der Hallradius rH für verschiedene Raumvolumina V und Nachhallzeiten T abgelesen werden.

42 

 1 Grundlagen der Akustik

Abb. 1/31. Hallradius rH [m], abhängig vom Raumvolumen V [m3] und der Nachhallzeit T [s].

Die sich aus der Formel bzw. Abb. 1/31 ergebenden Hallradien sind überraschend klein. So beträgt der Hallradius in einem 120  m3 großen Hörspielstudio  mit einer Nachhallzeit von 0,35 s, also einem stark gedämpften Raum, etwa 1 m und selbst z. B. in dem 15 680 m3 großen Sendesaal des NDR-Hannover bei einer Nachhallzeit ohne Publikum von 2,1 s nur etwa 5 m. Der Hallradius ist jedoch für allseitig gleiche Schallabstrahlung und allseitig gleichen Schall­ empfang definiert, Bedingungen, die in der Praxis nur selten erfüllt sind. Musikinstrumente und Lautsprecher zeigen  mit  steigender Frequenz eine zunehmende Richtwirkung, erfasst durch den Bündelungsgrad γ, die den sog. effektiven Hallradius rH e£f frequenzabhängig vergrößert; der effektive Hallradius gilt nur für Tonaufnahmen mit Mikrofonen ohne Richtwirkung: rHeff = effektiver Hallradius [m] V = Raumvolumen [m³] T = Nachhallzeit [s] γ = Bündelungsgrad der Schallquelle [dimensionslos] Bei Musikinstrumenten ist der Bündelungsgrad γ frequenzabhängig, besonders  stark bei Blechblasinstrumenten; bei 10 kHz z. B. kann er auf Werte um 5 ansteigen, d. h., rHeff kann sich um den Faktor √5 ≈ 1,7 erhöhen, im Allgemeinen liegt dieser Faktor bei 1,2 bis 1,5. Auch durch den gerichteten Schallempfang wird der Hallradius vergrößert, bei nierenund achtförmiger Richtcharakteristik um den Faktor 1,7, bei der Superniere um den Faktor 1,9, bei der Hyperniere um den Faktor 2, bei der Keule um einen noch etwas größeren Wert. Mit diesen Werten muss der tatsächliche Hallradius rH ebenfalls noch multipliziert werden. In der Praxis der Tonaufnahme multiplizieren sich also die Korrekturen des Hallradius aus gerichteter Schallabstrahlung und gerichtetem Schallempfang. Der tatsächlich zu berück-

1.3 Raumakustik 

 43

sichtigende Hallradius z. B. bei Nierenmikrofonen liegt damit um den Faktor 2 bis 5 über dem nach der Formel für rH errechneten Wert. Während der Hallradius den Abstand von der Schallquelle bezeichnet, an dem Direktund Diffusschall gleiche Pegel haben, beschreibt der Hallabstand die Pegeldifferenz von Direkt- zu Diffusschall in einem beliebigen Abstand von der Schallquelle. Im Abstand des Hallradius von der Schallquelle ist der Hallabstand also 0 dB.

1.3.5 Diffusität Diffusität, genauer Schalldiffusität, beschreibt den Grad und die Art der Verteilung von reflektiertem Schall einer Schallquelle in einem Raum und über die Zeit. Der Begriff stellt eine weitere Möglichkeit dar, die akustischen Eigenschaften eines Raums zu beschreiben [Remmers, 2006]. Man unterscheidet dabei zwischen örtlicher oder räumlicher und zeitlicher Diffusität. Die örtliche Diffusität wird als die Gleichmäßigkeit des Schalleinfalls hinsichtlich Schalleinfallsrichtung und Intensität an einem bestimmten Ort definiert. Die zeitliche Diffusität beschreibt die  statistische Verteilung des Eintreffens reflektierter Schallsignale am Messort über die Zeit, also den zeitlichen Verlauf eines Reflektogramms. Beide Komponenten nehmen  mit der Vielfalt von Reflexionsmöglichkeiten in einem Raum zu. Die Schalldiffusität beschreibt damit die raumakustischen Eigenschaften, die sich ergeben, wenn die Begrenzungsflächen eines Raums und die in ihm enthaltenen Gegenstände nicht nach Art eines Spiegels in nur einer Richtung reflektieren, sondern eben diffus in alle Richtungen. Daraus ergibt sich u. a. auch der Unterschied zwischen dem sog. freien Schallfeld, in dem praktisch keine Reflexionen auftreten, und dem diffusen oder  statistischen Schallfeld (siehe Kap.  1.3.1). Bisher gibt es keine  mathematische Beschreibung der Diffusität als physikalische Größe und folglich auch keine direkt zugeordnete Maßeinheit. Für eine indirekte Bestimmung von physikalischen Kenngrößen der Diffusität können z. B. folgende Messverfahren angewendet werden: die Konstanz der räumlichen Energiedichteverteilung, die Langzeitmittelung des Betrags des Intensitätsvektors und die zeitliche und räumliche Inkohärenz des Schalldrucks [Remmers, 2006]. In der Raumakustik wird eine hohe Diffusität unter anderem durch konvex gekrümmte oder hinreichend gegliederte Begrenzungsflächen und die damit verbundene diffuse Reflexion des Schalls erreicht. Bewährt haben sich auch Diffusoren, die nach dem Prinzip der λ/2-Transformation wirken, sog. Schroeder-Diffusoren. Dabei handelt es sich z. B. um eine Anein­­anderreihung verschieden tiefer, kastenförmiger Hohlräume. Sie sind auch als industrielle Erzeugnisse verfügbar und können ggf. auch nachgerüstet werden. Um ein ausgeglichenes Schallfeld in Hör- oder Aufnahmeräumen sicherzustellen, sollte Diffusität möglichst immer gleichzeitig mit Mitteln zur Reflexion und zur Absorption erreicht werden. Räume  mit hoher bzw. ausgeglichener Diffusität führen  meist zu einer besseren Hörsamkeit und einem besserem Raumeindruck, sowohl beim natürlichen Hören als auch bei der Schallaufnahme, insbesondere bei den Hauptmikrofonverfahren. Räume  mit geringer oder wenig ausgeglichener Diffusität weisen oft raumakustisch störende Eigenschaften auf wie einzelne Eigenresonanzen, Fehllokalisierung durch  starke Einzelreflexionen, Flatter­ echos o. ä.

44 

 1 Grundlagen der Akustik

1.4 Akustik von Aufnahmestudios Die Akustik der Aufnahmestudios ist  sowohl unter bau- als auch unter raumakustischen Gesichtspunkten zu betrachten [Friesecke, 2012]. Bauakustische Probleme  sind in erster Linie die Schalldämmung gegen Außengeräusche wie Verkehrs- und Fluglärm, Trittschall, Aufzüge u. a., aber auch die Unterdrückung von Geräuschen der Klimaanlage. Raumakustische Gesichtspunkte sind u. a. die ersten Reflexionen und der Nachhall mit ihren verschiedenen Parametern, aber auch Gesichtspunkte wie etwa die akustische Verständigung der Musiker untereinander. Die Anforderungen an ein Studio bzw. die günstigsten Werte der akustischen Daten eines Studios hängen von seiner Zweckbestimmung ab.

1.4.1 Störgeräuschpegel Im Bereich des Hörfunks bzw. der Wort- und Musikproduktion, der Bearbeitung und Beurteilung von Aufnahmen, werden an die Raumruhe sehr hohe Anforderungen gestellt, die in bauakustischer Hinsicht und im Hinblick auf Klima- und Lichtanlagen einen hohen Aufwand erfordern. Für die höchstzulässigen Störgeräusche sind die Empfindlichkeit des Gehörs, die Lautstärke der Schallquellen, die Abstände der Mikrofone von den Schallquellen, die spek­­ trale Zusammensetzung der akustischen Inhalte, die technische Ausrüstung bei der Aufnahme wie z.  B. das Betriebsrauschen und die Anzahl der Mikrofone, der betriebliche Ablauf und andere Faktoren von komplexem Einfluss. Das Rauschen der Mikrofone und Aufzeichnungsanlagen ist heutzutage allerdings so gering. dass es nicht mehr berücksichtigt werden muss. Es ist nicht  möglich, die höchstzulässigen Störgeräusche durch einen einzigen Wert anzugeben, da die Empfindlichkeit des Gehörs stark frequenzabhängig ist. Für den Bereich des öffentlich-rechtlichen Rundfunks mussten demnach Grenzkurven definiert werden, die Terz-Schallpegel nach [DIN 45641] im Bereich von 50 Hz bis 10 kHz als Tabelle oder als Grenzkurven (GK) angeben [IRT, 1995]. Neben der Raumnutzung z. B. als Sprecherraum wird auch die zugehörige Programmsparte berücksichtigt, was zu einer Differenzierung der Anforderungen in mehrere verschiedene Grenzkurven geführt hat. Die Störgeräusche dürfen unabhängig von ihrem Pegel keine tonalen oder periodischen Schallstrukturen enthalten, dies gilt für den gesamten Frequenzbereich von 125 Hz bis 20 kHz. Tab. 1/9 gibt zur Orientierung für einige Räume und Programmsparten die höchstzulässigen Grenzkurven GK an, die nicht überschritten werden dürfen, wenn nicht Qualitätsminderungen hingenommen werden können. Die Kurven orientieren sich im unteren Frequenzbereich an den international vor allem in der Klimatechnik verwendeten Noise-Rating-Kurven NR nach [ISO R 1996, überarbeitet 2003]. Diese folgen grob den Kurven gleicher Lautstärkepegel bzw. den Messkurven für den A-bewerteten Schalldruckpegel. Abb. 1/32 zeigt die Grenzkurven.

1.4 Akustik von Aufnahmestudios 

 45

Tab. 1/9. Beispiele für die Grenzkurven von höchstzulässigen Störgeräuschen [IRT, 1995]. Raum

Programmsparte

Hörfunk-Produktionsstudios

Hörspiel Kammermusik Orchestermusik U-Musik, Popmusik Sprachaufnahmen Tonbearbeitung alle alle

Fernseh- Produktionsstudios Bearbeitungsräume mit Bürocharakter, Redaktionen

Grenzkurve GK

entspricht etwa

GK0 GK0 GK5 GK15 GK10 bis GK15 bis GK20 bis GK25

14 dBA 14 dBA 18 dBA 26 dBA 22 dBA bis 26 dBA bis 30 dBA bis 34 dBA

Abb. 1/32. Grenzkurven GK für höchstzulässige Schalldruckpegel in Studios des Hörfunks und Fernsehens [IRT, 1995].

1.4.2 Raumakustik von Aufnahmestudios und Regieräumen Für die Ausbreitung des Direktschalls und die Bedeutung der ersten Reflexionen gelten zunächst die Ausführungen in Kap.  1.2.3. Abweichend davon  müssen die ersten Reflexionen  mit besonderer Aufmerksamkeit gemessen, oft zusätzlich unterdrückt oder bedämpft werden. Während die ersten Reflexionen beim Hören im natürlichen Schallfeld nützlich sind, weil sie die Lautstärke und Deutlichkeit erhöhen, können sie bei Mikrofonaufnahmen das Klangbild negativ beeinflussen. Tonaufnahmen aus „trockenen“ Studios, d. h., aus Studios  mit kurzer Nachhallzeit, können bei zu  starken ersten Reflexionen „topfig“, auch

46 

 1 Grundlagen der Akustik

unerwartet hallig klingen, Musikaufnahmen aus hinreichend großen Räumen kleinräumig erscheinen. Die Ursache hierfür bilden zu starke oder zu frühe Schallrückwürfe, die, immer auf den Mikrofonort bezogen, gegenüber dem Direktschall eine Laufzeitdifferenz von etwa 15 bis 50 ms aufweisen. Besonders bei Schallaufzeichnungen aus kleinen Studios ist die hörbare Klangfärbung störend, die durch Schallrückwürfe entsteht, deren Laufzeitdifferenzen gegenüber dem Direktschall nur 0,8 ms bis 15 ms betragen. Diese Klangfärbungen bleiben unhörbar, wenn der Schalldruckpegel einer Reflexion  mindestens 13  dB unter dem des Direktschalls liegt. Sind zwei derartige Reflexionen vorhanden, so muss diese Pegeldifferenz für jeden der Rückwürfe etwa 15 dB, bei vier Reflexionen etwa 18 dB betragen. Ein Hörspielkomplex umfasst neben dem sog. schalltoten Raum zwei weitere Studios mit unterschiedlichen Nachhallzeiten von etwa 0,4  s und 0,6  s bis  maximal 1,0  s. Die Studios können zusätzlich eine gedämpfte Ecke oder Schnecke enthalten, in der die Studionachhallzeit ohne Einfluss bleibt. Wie in allen Studios, in denen nur Wortproduktionen durchgeführt werden, wird die Nachhallzeit nur für Frequenzen über 80  Hz konstant gehalten, da die Sprache für tiefere Frequenzen keine hörbaren Komponenten enthält, Raumresonanzen somit nicht anregt. Sog.  schalltote Räume, besser reflexionsarme Räume, für Hörspielzwecke  mit einer Nachhallzeit unter 0,2  s werden an der Decke und den Wänden  mit Mineralfasermatten belegt. Wenn die Einbautiefe dieser Anordnung etwa 0,3 m beträgt und der Boden mit einem dicken, weichen Teppich bedeckt ist, lässt  sich ein nachhallfreier Raum für diese Zwecke ausreichend realisieren. Im Gegensatz zu Hörspielstudios benötigt man für Sprecher- und Interviewstudios keine Mindestraumgrößen. In Räumen mit einem Volumen von 30 m3 und weniger lassen sich einwandfreie Produktionen durchführen, wenn  sich Sprecherplätze und Mikrofonorte festlegen lassen. In diesem Fall ist es möglich, durch eine gezielte raumakustische Verkleidung die schädliche Wirkung der ersten Schallreflexionen, die vom Sprechertisch und von Boden, Decke und Wänden ausgehen, zu vermeiden. Kleine Studios liegen dann mit ihrer Nachhallzeit an der Hörbarkeitsgrenze von etwa 0,2 bis 0,3 s; bei tiefen Frequenzen ist die Nachhallzeit i. Allg. etwas länger, weil sie nicht so leicht zu bedämpfen ist wie bei höheren Frequenzen. In großen Musikstudios für klassische Musik sorgen nahe Wandflächen und eine ebene Decke bzw. Reflektoren in optimaler Höhe für den akustischen Kontakt zwischen den Musikern. Durch ein Zusammenrücken des Orchesters lässt sich dieser Kontakt verbessern. Die Nachhallzeit des Studios mit Orchester und Publikum sollte etwa 1,8 bis 2,0 s betragen. Studios für konventionelle unterhaltende Musik oder Soundtracks für Filme mit traditioneller Instrumentalbesetzung sollen die Möglichkeit bieten, einzelne Instrumente und Instrumentengruppen, deren Schalldruckpegel sehr unterschiedlich sein können, gleichzeitig, aber akustisch getrennt aufzuzeichnen. Ein Auseinanderrücken der einzelnen Gruppen, das Vermeiden von Reflexionen  sowie eine kurze Nachhallzeit, d.  h., geringerer Diffusschallpegel,  sind dafür notwendig, aber nicht immer ausreichend. Dämmende bzw. absorbierende Schallwände  müssen in diesem Fall die Ausbreitung des direkten Schalls zwischen den Gruppen verhindern bzw. das Mikrofon vor Diffusschall abschirmen. Es kann darüber hinaus sogar erforderlich sein, dass besonders lautstarke oder besonders leise Instrumente

1.4 Akustik von Aufnahmestudios 

 47

in kleinen, fast völlig geschlossenen, schalldämmenden Kojen gespielt und aufgenommen werden müssen. In Fernsehstudios verzichtet man aus wirtschaftlichen Gründen auf den Einbau von speziellen Tiefenabsorbern. Dicke Mineralfasermatten, mit denen Decke und Wände vollflächig belegt  sind, bilden eine ausreichende Absorption. Der  sich dabei ergebende Anstieg der Nachhallzeit für Frequenzen unter 125 Hz bleibt unhörbar, da bei Fernseh-Tonproduktionen eine elektrische Absenkung der tiefen Frequenzen üblich ist. Kritisch sind bei Fernsehaufnahmen die Reflexionen an Kulissen, da diese Rückwürfe oft mit einer geringen, den Räumlichkeitseindruck ungünstig beeinflussenden Laufzeitdifferenz auf das Mikrofon treffen. Ein Synchronstudio für Nachvertonungen entspricht etwa einem Hörspielstudio mit einer Nachhallzeit bis 0,4 s. 1.4.2.1 Elektronische Systeme zur Veränderung der Raumakustik Trotz der Möglichkeit, einer Aufnahme künstlichen Hall aus Hallgeräten bzw. allgemein künstliche Rauminformationen hinzufügen zu können (siehe dazu Kap.  6.5), kann in bestimmten Fällen auch eine Veränderung der Nachhallzeit des Aufnahmeraums selbst sinnvoll sein [Rümer, 1990]. Damit kann in einem Hörspielkomplex u. U. ein Studio eingespart werden. Musikstudios  müssen nicht nur aufnahmetechnisch für die Aufnahme geeignet  sein,  sondern auch für die Musiker und ggf. für das Publikum bestimmte akustische Anforderungen erfüllen; so kann z. B. die Anpassung der Nachhallzeit an die veränderten akustischen Gegebenheiten bei Anwesenheit von Publikum oder an die Musik verschiedener Stilarten wünschenswert sein. Schließlich kann ein Studio oder allgemein ein Hörraum damit multifunktional gestaltet werden. Neben den raumgeometrischen bzw. raumakustischen Maßnahmen zur Variation der Nachhallzeit und Schalllenkung in Hörräumen entstanden im Zuge der Vervollkommnung von Beschallungstechnik und Signalverarbeitung zahlreiche elektronisch gestützte Lösungen zur Nachhallzeitverlängerung in Konzertsälen, Theatern und anderen Hörräumen, insbesondere aber auch in sog. Mehrzwecksälen, die für eine variable Nutzung von Sprechtheater, Oper, Operette und Musical bis zur Sportveranstaltung vorgesehen  sind. Sie werden dabei  meist in als akustisch unzureichend empfundenen Räumen nachträglich eingebaut und teilweise auch unter der Bezeichnung Acoustic enhancement  systems vermarktet. Die meist für Konzertdarbietungen zu kurze Nachhallzeit solcher Räume, die oft in der Größenordnung von etwas über 1 s liegt, kann mit solchen Installationen auf etwa 2 s verdoppelt werden. Dies entspricht einer physikalisch maximal möglichen Erhöhung der Nachhallenergie um 3 dB. In bisher realisierten Anwendungen werden im Wesentlichen zwei verschiedene Lösungsansätze verfolgt, nämlich In-line-Systeme mit synthetischer Erzeugung von Raumsignalen und regenerative oder Feedback-Systeme, die eine zu große Schallabsorption der Raumbegrenzungen durch elektroakustische Verstärkung ausgleichen. In-line Systeme zur synthetischen Erzeugung von Raumsignalen Hierbei werden Signale von ausgewählten Mikrofonen abgegriffen und einer zentralen Bearbeitungseinheit zugeführt, die entweder diskrete Reflexionen unterschiedlicher Intensität

48 

 1 Grundlagen der Akustik

und Verzögerung erzeugt, welche zu bestimmten Reflexionsfolgen, einem  sog. Nachhallschwanz, aufsummiert werden oder die als kompakte Einheit eines elektronischen Nachhallerzeugers ein geeignetes Nachhallsignal generieren. Die  so gewonnenen Raumsignale werden dann über eine Vielzahl von Raumlautsprechern, die vorzugsweise im Seiten- und Deckenbereich angeordnet sind, in den Zuhörerbereich abgestrahlt. Solche Systeme, die auch unter der Bezeichnung Ambiofonie-Anlagen bekannt geworden  sind, werden in der Regel in Verbindung  mit einem Beschallungssystem zur Schallverstärkung eingesetzt, wobei entweder die gleichen, im Bühnenbereich angeordneten Mikrofone zur Signalgewinnung benutzt werden oder zusätzliche im Nahfeld angeordnete Mikrofone. Frühere Lösungen, die bereits ab den 1960er Jahren bekannt wurden, verwenden einfache Verzögerungseinrichtungen auf Magnettonbasis [Franssen, 1964] oder elektronische Verzögerungsgeräte in Verbindung  mit einer Delta-Stereofonie-Beschallungsanlage (DSS) [Steinke, 1987] zur Realisierung der erforderlichen Signalverzögerungen. Moderne Lösungen, die erst nach Verfügbarkeit hochwertiger digitaler Nachhallerzeuger entstanden  sind und bei denen erstmals auch die Bezeichnung In-line-System verwendet wird, benutzen hingegen zentrale digitale Nachhallgeneratoren auf DSP-Basis wie z.  B. in den Systemen LARES (Lexicon Acoustic Reinforcement and Enhancement System) [Griesinger, 1990], ACS (Acoustic Control System), SIAP (System for Improved Acoustic Performance) oder VIVACE. Regenerative oder Feedback-Systeme Eine andere Philosophie wird von den  sog. regenerativen Systemen verfolgt, wo versucht wird, die für den Aufbau des Nachhallfelds nachteilige Absorption im Zuhörerbereich  mit elektroakustischen Mitteln zu kompensieren und den erforderlichen Raumschallanteil zu erhöhen. Dies geschieht durch die Anordnung von typisch 30 bis100 einzelnen Verstärkerkreisen, jeweils bestehend aus Mikrofon und zugeordnetem Lautsprecher, die an den Begrenzungsflächen des Raums verteilt sind und den an dieser Stelle auftreffenden Schall entweder frequenzselektiv (AR-System) oder breitbandig (MCR-System u. a.) verstärken. Eine frühe Form eines regenerativen Systems wurde bereits in den 1940er Jahren von Vierling in der Berliner Staatsoper eingesetzt, ab den1960er Jahren kamen dann – nach Vorliegen verbesserter hardwaretechnischer Voraussetzungen – verschiedene weitere Systeme auf den Markt, wie das Assisted Resonance (AR) System [Parkin, 1965], später Systeme wie MCR (Multiple-Channel Reverberation), CARMEN (Contrôle Actif de la Réverbération par Murs virtuels à Effet Naturel), CONSTELLATION u. a. Daneben gibt es noch Lösungen, die beide Prinzipien miteinander verbinden, z. B. bei den Systemen VRAS (Variable Room Acoustics System) oder VAP (Virtual Acoustics Prozessing). Auch das Prinzip der Wellenfeldsynthese (WFS) wurde bereits zur Erzeugung eines  synthetischen Raumschallfelds eingesetzt (Seebühne Bregenz). Die meisten der genannten Lösungen wurden bereits weltweit erfolgreich in namhaften Veranstaltungsräumen und Theatern installiert. Eine vergleichende Darstellung aktueller Systeme findet sich z. B. in [Kok, 2011]. Alle oben beschriebenen Anordnungen stellen jeweils autarke elektroakustische Systeme dar, die unabhängig von Beschallungslösungen arbeiten und ausschließlich der Erhöhung der Nachhallenergie dienen. Eine Ausnahme bildet hier

1.4 Akustik von Aufnahmestudios 

 49

das System VIVACE, das ähnlich wie bei dem erwähnten Delta- Stereofonie-Verfahren zusätzlich auch zur Direktschallversorgung eingesetzt werden kann. Die Mehrheit der Systeme benötigt nach  sorgfältiger Einmessung und ggf. einer Parameterauswahl für konkrete Nutzungsfälle in der Regel keine durchgängige Bedienung oder Überwachung. Dies erfordert jedoch eine hohe Konstanz und Betriebssicherheit der Anlage, um unangenehme Störungen wie Rückkopplungen oder andere Störeffekte zu vermeiden. Trotzdem  muss der Toningenieur bei der Schallaufnahme für ein zusätzlich betriebenes Beschallungssystem oder eine Aufzeichnung oder Übertragung ausreichende Mikrofonabstände zu den Lautsprechern des jeweils installierten Nachhallverstärkungssystems einhalten, um unerwünschte Rückwirkungen wie Klangverfärbungen, unausgeglichene Raumschallanteile oder auch Rückkopplungen zu vermeiden. 1.4.2.2 Schallkabinen Eine kostengünstige und flexible Möglichkeit, akustisch entkoppelte Aufnahmebedingungen für kleine Formationen oder Einzelschallquellen zu realisieren, besteht in der Aufstellung einer oder mehrerer Schallkabinen, auch Aufnahme- Ton-, Gesangs-, Sprecher- oder Studiokabine bzw. Soundbox genannt. Eine solche Kabine, die im Prinzip in jedem ausreichend großen, auch akustisch unbehandelten Raum aufgestellt werden kann, hat eine ausreichende Schallabsorption im Inneren, so dass eine Nachhallzeit zwischen 0,1 und 0,5 s erreicht wird und unerwünschte Eigenresonanzen hinreichend unterdrückt werden. Sie hat eine Schalldämmung über 40 dBA oder je nach Anforderung auch deutlich höher bei mittleren und hohen Frequenzen, so dass weder eine Beeinflussung des aufgenommenen Schalls im Innern noch eine Störung anderer Schallquellen außerhalb der Kabine erfolgt. Die Kabine ist in der Regel aus standardisierten Wand- und Deckenelementen zusammengesetzt, die die erforderlichen akustischen Eigenschaften nach innen und außen realisieren. Eine solche Modulbauweise ermöglicht die Realisierung unterschiedlicher Kabinengrößen, von etwa 1,5 · 1,5 m an aufwärts bis zu einem Vielfachen davon und erlaubt im Bedarfsfall auch eine einfache Demontage und Umsetzung in einen anderen Raum. Die  schalldichte Montage erfordert eine akustisch gedämpfte Belüftung, die in der Regel als aktive Versorgung  mit Frischluft und Abluftaustritt durch Überdruckkanäle ausgelegt ist. Schalldichte Türen, Leitungsdurchführungen und Fenster für Sichtkontakt sind ebenfalls verfügbar. Die aufnahmetechnischen Anwendungen sind sehr vielfältig, sie reichen von einfachen Sprach- oder Gesangsaufnahmen über Einzelinstrumente bis hin zu kleineren Gruppen. Grundsätzlich ist bei einer Nutzung im Aufnahmebetrieb zu beachten, dass die Abstände zwischen Mikrofonen und Schallquellen größer  sind als die Abstände der Mikrofone zu den Begrenzungsflächen der Kabine, um unerwünschte Klangfärbungen oder Reflexionen zu minimieren. Daraus ergeben sich auch die Mindestanforderungen an die Größe der Kabine. Solche Kabinen bzw. Module, die von verschiedenen Herstellern angeboten werden, erfreuen sich vor allem in der Popmusikbranche steigender Beliebtheit wegen der unkomplizierten und flexiblen Installation und des enormen Kostenvorteils gegenüber einem akustisch ausgebauten Studio. Sie eignen  sich auch als  schalldichte Übungsräume für Instrumente, ebenso als einfache Räume für akustische Messungen der Audiometrie.

50 

 1 Grundlagen der Akustik

1.4.3 Akustik von Regieräumen Regieräume sollen optimale Bedingungen für die Beurteilung von Aufnahmen bieten. Ihre akustischen Eigenschaften beeinflussen allerdings den Klang der Lautsprecherwiedergabe. Deshalb wird mit gewissem Recht immer wieder gefordert, dem Regieraum die Akustik der typischen häuslichen Abhörsituation zu geben, also die eines durchschnittlichen Wohnraums. Da es nicht möglich ist, einen solchen Raum zu definieren, werden Regieräume akustisch so ausgestattet, dass sie im Vergleich zu durchschnittlichen Wohnräumen reflexionsarm  sind, d. h., dass der Raum  möglichst wenig Einfluss auf die Schalldarbietung nimmt [Völker, 1992, 1994], [Schneider, 1992], [Spikofski, 1989], [Wollherr, 1983]. Die Anforderungen für Bezugsabhörräume und sog. High-quality-Regieräume sind in nationalen und internationalen Empfehlungen festgelegt, u. a. in [EBU Tech 3276, 1998], [ITU-R BS.1116], ebenso die entsprechenden Tests, im Detail erläutert in Kap.  19.6.1. Nur wichtige Merkmale  sind hier zusammengefasst: Die Grundfläche  soll für einen Bezugsabhörraum  mindestens 40  m2, für einen Regieraum mindestens 30 m2 betragen, das Volumen weniger als 300 m3; erforderlich ist eine geometrische und akustische Symmetrie bezüglich der Achse Lautsprecher – Abhörplatz, die Freiheit von Flatterechos,  stehenden Wellen u.  a. Die Nachhallzeit universell benutzbarer Regieräume liegt bei etwa 0,3 s, bei Wohnräumen liegt sie um 0,4 s; meist steigt sie unterhalb 125 Hz nach unten an. Längere Nachhallzeiten sind für klassische Musik durchaus geeignet, bei Sprache und rhythmischer Popmusik hingegen  machen  sie den Raum zu hallig [Wollherr, 1983]. Wichtiger als ein bestimmter Wert der Nachhallzeit ist, dass ihr Frequenzgang um nicht mehr als etwa 10 % für terzbreites Rauschen vom Durchschnittswert abweicht. Die Angaben zur Nachhallzeit haben bei solch kurzen Nachhallzeiten weniger Aussagekraft als bei längeren Nachhallzeiten. Die besten Erkenntnisse liefert hier das Reflektogramm oder die Impulsantwort des Regieaums (siehe Kap. 1.3.3). Darin können einzelne zu starke Reflexionen erkannt und danach im Regieraum gezielt abgedämpft werden. Die absorbierenden Flächen werden im Allgemeinen gleichmäßig auf Wände und Decke verteilt, wobei mit der jeweiligen Anordnung gezielt zu starke Reflexionen besonders im Bereich der Abhörplätze vermieden werden sollen. Beim Abhören  mit  sog. Nahfeldmonitoren – das  sind kleine Lautsprecherboxen, die, unmittelbar auf den Regietisch gestellt, wegen des geringen Abstands den Abhörplatz überwiegend  mit Direktschall versorgen – kann der Einfluss des Regieraums  minimiert werden; allerdings erfüllen solche Lautsprecher nicht oder nur eingeschränkt die Qualitätsforderungen an Regielautsprecher. Ebenso können  sie die Abhörbedingungen beim Hörer nur näherungsweise abbilden, da es bis heute keine allgemeingültigen Anforderungen an einen sog. Heimabhörstandard gibt. Zu den Anforderungen an Regieräume siehe im Einzelnen Kap. 19.6.1. 1.4.3.1 Akustik von Übertragungswagen und kleiner Abhörräume Die Abhörbedingungen in kleinen Abhörräumen, also ganz besonders in Übertragungswagen, sind besonders kritisch. Ursache hierfür sind stehende Wellen, auch Raumresonanzen oder Raummoden genannt (siehe Kap. 1.3.2). Sie kommen zwar in Räumen jeder Größe vor,

1.4 Akustik von Aufnahmestudios 

 51

jedoch treten  sie in kleinen Räumen in dem besonders kritischen Frequenzbereich zwischen 100 und 1.000  Hz auf; denn je größer der Raum ist, umso tiefer liegt der kritische Bereich störender Raumresonanzen. Im Gegensatz zu sich frei ausbreitenden Schallwellen, bei denen der Schallpegel gleichmäßig mit der Entfernung abnimmt, die Klangfarbe also im Raum gleichbleibt, bilden stehende Wellen im Raum ein Muster von Schalldruckminima und -maxima, die zu einer beachtlichen Ortsabhängigkeit der Klangfarbe führen kann, eine Tatsache, die bei der Tonaufnahme große Probleme aufwirft. Es ist in diesem Fall nicht möglich, durch Frequenzgangkorrekturen der Lautsprechersignale Verbesserungen vorzunehmen. Stehende Wellen können nur durch völlige Reflexionsfreiheit bzw. vollständige Absorption der Wände unterbunden werden. Je mehr Schall von den Wänden reflektiert wird, desto ausgeprägter  sind die ortsabhängigen Klangfarbenänderungen. Es gelingt heute durch Schichtung unterschiedlicher Absorbermaterialien, auch in Übertragungswagen  stehende Wellen oberhalb von 200  Hz weitgehend zu vermeiden und  somit die Abhörbedingungen akzeptabel zu gestalten [Fuchs, 2010]. Gelegentlich werden große Tonübertragungswagen mit seitlich erweiterbaren Regiekabinen ausgestattet, deren raumakustische Eigenschaften durchaus denen von stationären Regieräumen nahe kommen.

1.4.4 Akustik großer Aufnahmestudios und Konzertsäle Grundsätzlich sind die akustischen Anforderungen an Konzertsäle und an große Aufnahmestudios, die im Allgemeinen ja zugleich als Konzertsäle genutzt werden, gleich. Im Gegensatz zu Rundfunkstudios  sind Konzertsäle jedoch Bestand unterschiedlicher historischer Bauepochen. Die raumakustischen Eigenschaften können von Saal zu Saal deshalb sehr verschieden sein, weil architektur-stilistische Gestaltungselemente, aber auch unterschiedliche akustische und optische Ziele die Raumakustik mitbestimmen [Forsyth, 1992], [Sotiropoulou, 1995], [Weinzierl, 2002], [Meyer, 2004], [Beranek, 2010], [Steinke, 2012]. Die Nachhallzeit von Opernhäusern wird einerseits wegen der notwendigen Wortverständlichkeit kürzer gewählt, andererseits bedingen die traditionellen Bauformen der Opernhäuser große Absorptionsflächen und damit kürzere Nachhallzeiten. Die Nachhallzeiten von Kirchen können außerordentlich verschieden sein, je nach Baustil und Größe [Eggenschwiler, 1999], [Meyer, 2003]. Eine Orientierung über die zweckmäßigen Grenzen, innerhalb derer die Nachhallzeiten im  mittleren Frequenzbereich im Allgemeinen liegen, gibt Abb.  1/33 für Konzertsäle und Opernhäuser in Abhängigkeit von ihrer Raumgröße. Bei der Frequenzabhängigkeit der Nachhallzeit ist meist eine Anhebung der Nachhallzeit im Frequenzbereich zwischen 500 und 2.000 Hz zu beobachten. Abb. 1/34 zeigt dies für besetzten und unbesetzten Zustand einiger bekannter Konzertsäle. Interessant ist die Tatsache, dass gute Säle auffallend unterschiedliche Frequenzabhängigkeiten der Nachhallzeit haben. Tab.  1/11 nennt die Daten einiger international als raumakustisch gut anerkannter historischer und moderner Konzertsäle und Opernhäuser nach [Beranek, 2010].

52 

 1 Grundlagen der Akustik

Abb. 1/33. Zweckmäßige Bereiche der Nachhallzeit bei mittleren Frequenzen für vollbesetzte Konzertsäle und Opernhäuser in Bezug auf die Raumgröße.

Abb. 1/34. Frequenzabhängigkeit der Nachhallzeit bekannter Konzertsäle nach [Sotiropoulou, 1995]. 1. Musikvereinssaal, Wien, unbesetzt, 5. Herkulessaal, München, unbesetzt, 1‘ besetzt 5‘ besetzt 2. alte Philharmonie, Berlin, zerstört, unbesetzt, 6. Laeiszhalle, Hamburg, unbesetzt 2‘ besetzt 7. Royal Festival Hall, London, unbesetzt, 3. Symphony Hall, Boston, unbesetzt 7‘ besetzt 4. Oetkerhalle, Bielefeld, unbesetzt

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 53

Für alle Konzertsäle gilt, unabhängig von ihrer Entstehungszeit, dass auch der hohe Qualitätsstandard  moderner Geräte für künstliche Verhallung bei Aufnahmen von klassischer Musik die gute Akustik eines Raums nicht ersetzen kann. Einerseits bestimmt die Raum­ akustik das Tempo und die Artikulation, allgemein die Interpretation bei der Aufführung von Musik mit, andererseits repräsentiert die übliche und notwendige Aufstellung der Mikrofone im Nahbereich bei vorgesehener elektronischer Verhallung die spezielle Klangfarbe am Aufnahmeort;  sie ist Ausgangspunkt für die  spezielle Klangfärbung des elektronischen Halls, der natürliche Hall hingegen integriert die Klangabstrahlung der Instrumente in alle Raumrichtungen. Deshalb kann künstlicher Hall dem natürlichen Raumeindruck grundsätzlich nicht gleichwertig sein. Die architektonischen, akustischen und sozialen Anforderungen an Konzertsäle unterliegen wie alle kulturellen Manifestationen einer historischen Entwicklung. So ist es kaum möglich, allgemein zu beschreiben, wie ein guter Konzertsaal klingen und aussehen soll. Nur gemessen an heutigen Anforderungen, erscheinen viele der älteren Säle als ungeeignet oder gar schlecht, während sie zu ihrer Zeit als gut anerkannt waren. Grundsätzlich gehört aber eine „authentische“ Raumakustik zu dem derzeit aktuellen Bemühen um ein authentisches Klangbild.

1.5 Historische Konzertsäle, Opernhäuser und Kirchen Konzertsäle, Opernhäuser und Kirchen haben akustische Eigenschaften, die von den architektonischen Grundsätzen und Stilmerkmalen der Epoche, in der  sie erbaut wurden, geprägt sind. [Beranek, 2010], [Dickreiter, 2011], [Forsyth, 1992], [Meyer, 2003] Bis ins 18. Jahrhundert gab es nur wenige Räume, die für Musikaufführungen besonders geplant und ausgestaltet waren. Kirchenmusik wurde in Kirchen aufgeführt, die je nach Stil eine längere oder kürzere Nachhallzeit haben. Kammermusik wurde in kleineren Räumen  mit  meist  stark gedämpfter Raumakustik und Feldmusik im Freien dargeboten. Konzertmusik mit Orchester wurde in den großen Fest- und Tanzsälen, den sog. Redouten, von Schlössern und Residenzen  sowie in Ratssälen aufgeführt. Größere Räume  speziell für Musikaufführungen in eigens erbauten Konzert- und Opernhäusern entstanden erst im Verlauf des 18. Jahrhunderts, verbunden mit der zunehmenden Beteiligung des Bürgertums an der Musikpflege.

1.5.1 Konzertsäle des 18. Jahrhunderts Der Konzertsaal des 18. Jahrhunderts ist noch kein entwickelter Bautyp mit typischen Merkmalen wie etwa die Barockkirche dieser Zeit. Die ersten eigentlichen Konzertsäle wurden in England errichtet für die Veranstaltung öffentlicher Konzerte für alle Bürger und gegen Eintrittsgeld. Konzerte waren wirtschaftliche Unternehmungen, Komponisten und Musiker waren auf die Akzeptanz ihrer Musik durch das Publikum angewiesen. Kennzeichnend für die Konzertsäle  sind relativ kleine Räume  mit Grundflächen um 200 bis 40    m2, darin ein dicht gedrängtes Publikum, woraus  sich ein geringes Raumvolumen pro Platz und eine bemerkenswert kurze Nachhallzeit von 1 bis 1,5 s ergibt. Einer der wichtigsten Konzertsäle

54 

 1 Grundlagen der Akustik

in London, dem europäischen Musikzentrum jener Zeit,  sind ab 1775 die Hanover Square Rooms  mit knapp 1  s Nachhallzeit; auf 240  m2 waren 800 Zuhörer  stehend untergebracht, pro Zuhörer  standen nur 2 bis 3  m3 Raumvolumen und eine Fläche von knapp 0,5  ·  0,5  m zur Verfügung. Wichtige öffentliche Aufführungsorte waren in London und anderswo auch Konzertgärten, Vergnügungsparks  mit den unterschiedlichsten Unterhaltungsmöglichkeiten, wo in halboffenen Pavillons oder in geschlossenen Räumen vor sehr zahlreichem Publikum musiziert wurde, z. B. auch Werke wie Orgelkonzerte von Georg Friedrich Händel. Die weitere Entwicklung des Konzertsaalbaus ging zum Ende des 18. Jahrhunderts von England nach Deutschland über. Im deutschsprachigen Raum gab es im 18. Jahrhundert außerhalb des höfischen Musiklebens nur geringe öffentliche musikalische Aktivitäten. Größere Konzertsäle waren weder an den Höfen noch im öffentlichen Bereich erforderlich. Musiziert wurde meist in Räumen, die nicht speziell für Konzerte vorgesehen waren [Weinzierl, 2002]. Unter den Räumen, die als Konzertsäle genutzt wurden, sind herausragende Beispiele diejenigen Säle, in denen Joseph Haydn seine Werke – wie auch in dem genannten Londoner Saal zwischen 1791 und 1795 – aufführte: Der Konzertsaal des Schlosses Esterháza in Ungarn ist ein kleiner Saal für 200 Zuhörer mit einer Nachhallzeit von 1,2 s, bei tiefen Frequenzen auf 2,3 s ansteigend. Dieser Konzertsaal wurde von Haydn 1766 bis 1784 genutzt. Dagegen hatte der Große Saal im österreichischen Eisenstadt, wo Haydn zwischen 1760 und 1765 mit seinem Orchester musizierte, eine Nachhallzeit von 1,7  s, ansteigend auf 2,8  s für tiefe Frequenzen; für die 400 Zuhörer stand ein Volumen von fast 7.000 m3 zur Verfügung, pro Platz also über 17 m3, ein für Konzertsäle ungewöhnlich großes Volumen. [Meyer, 1978] Wohl der berühmteste Konzertsaal, der noch im 18. Jahrhundert entstanden ist, ist das sog. Alte Gewandhaus in Leipzig, das 1781 erbaut und 1894 wieder abgebrochen wurde. Es wurde besonders in der ersten Hälfte des 19. Jahrhunderts ein viel genutzter und auch für diese Zeit typischer Konzertsaal. Mit einer Nachhallzeit von geschätzt 1,3 s und 400, nach einem Umbau 1842 570 Hörerplätzen, bei einem Volumen von rund 5 m3 bzw. später knapp 4 m3 pro Sitzplatz erklang die Musik präsent und relativ laut; die Holzvertäfelung und der Holzfußboden waren gute Tiefenabsorber, so dass eine gleichmäßige Absorption über den gesamten Frequenzbereich angenommen werden kann. Auffällig ist die Anordnung der Sitzreihen parallel zur Saalachse. Dies war nicht typisch, betonte aber die gesellschaftliche Funktion öffentlichen Konzertlebens, da man bei dieser Sitzanordnung während des Konzerts  sehen und gesehen werden wollte und konnte. Hier wurden viele der bekanntesten Werke der Klassik aufgeführt, ein herausragender Kapellmeister dieser Zeit war Felix Mendelssohn-Bartholdi (1809 – 1847). Das Alte Gewandhaus stellt den Beginn einer eigentlichen Tradition des Konzertsaalbaus dar. Es wurde 1884 durch das wegen seiner Akustik gerühmte und vielfach kopierte Zweite oder Neue Gewandhaus nach Plänen von Martin Gropius ersetzt. 1943 wurde der berühmte Saal durch Luftangriffe schwer beschädigt, die zunächst geplante Wiederherstellung wurde aufgegeben und an anderer Stelle 1981 ein dritter, wieder Neues Gewandhaus genannte Konzertsaal eröffnet. Der Blick auf die erhaltenen bzw. bekannten Konzertsäle des 18. Jahrhunderts zeigt, dass man von typischen raumakustischen Verhältnissen noch nicht sprechen kann. Typisch war am ehesten der präsente, nicht durch Nachhall überdeckte Klang, der der fein ziselierten

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 55

und durch kleinteilige Phrasierungen geprägten Musik des Spätbarock, der Frühklassik und Klassik sehr gut entspricht.

1.5.2 Konzertsäle des 19. Jahrhunderts Zum Ende des 18. und Beginn des 19. Jahrhunderts zeigen  sich als Folge der wachsenden Beteiligung des Bürgertums am Musikleben charakteristische Veränderungen im Konzertleben: Konzerte werden nun von professionellen Gesellschaften und einzelnen Personen, wie Konzertunternehmer, Komponisten oder Künstlern, nach wirtschaftlichen Gesichtspunkten veranstaltet und sind öffentlich zugänglich. Sie ziehen immer mehr Besucher an, zunehmend größere Räume  mit entsprechend größeren Orchestern werden erforderlich. Erstmals entsteht ein größerer Bedarf an Räumen speziell für Musikaufführungen. Die Komponisten konzipieren ihre Werke nun nicht mehr für bestimmte Anlässe und Räume, da sie an verschiedenen Orten aufgeführt werden. Damit geht die in früheren Jahrhunderten weitgehend übliche Bindung der Musik an den Aufführungsraum vielfach verloren. Musik soll jetzt beeindrucken, auch im moralischen Sinn wirksam werden, geeignete Mittel hierfür sind auch Masse und Lautstärke, also große Orchester- und vor allem Chorbesetzungen,  mit denen sich das Bürgertum nun an Aufführungen beteiligt. Die Oratorien Händels, Haydns, Mendelsohns und vieler anderer, die heute kaum mehr Beachtung finden, und Beethovens 9. Sinfonie tragen viel zur Gründung von Chören und Orchestern bei. Dies architektonisch zu unterstützen, führte vielfach dazu, Konzertsälen einen weihevoll würdigen Ausdruck zu verleihen, sie Kirchen oder Tempeln nachzuempfinden; daher rührt auch der noch heute in Konzertsälen übliche Einbau einer großen Orgel. Der Konzertsaalbau des 19. Jahrhunderts geht in den deutschsprachigen Ländern zunächst keine grundsätzlich neuen Wege. Aus dem Ballsaal, der sog. Redoute, dem häufigsten Aufführungsraum barocker höfischer Musik, wird die Rechteckform mit ebenem Fußboden übernommen, es entsteht der klassische Konzertsaaltyp, der sog. Schuhschachtelsaal. Vor allem im späteren 19. Jahrhundert wird dies der vorherrschende Typ, um die Wende zum 20. Jahrhundert wird er zum Standard. Der Schuhschachtelsaal ist relativ schmal – Breite zu Länge verhalten sich vielfach wie 1 : 2 – und hat eine hohe Decke, eine auf die Seite gestellte Schuhschachtel eben. Dadurch entsteht ein relativ großes Raumvolumen pro Zuhörer. Der Fußboden ist eben, am Ende des Saals befindet sich die erhöhte Bühne mit Orgel, um den Saal läuft eine Galerie,  mit nützlichen Schallreflexionen an deren Unterseite. Solche Säle wurden in erster Linie für Orchester- und Chorkonzerte mit einem Publikum von 1.500 bis 2.000  Personen gebaut. Die Säle wurden in allen damals üblichen historisierenden Stilen gestaltet. Der typische Schuhschachtelsaal hat einen vergleichsweise kurzen Nachhall; er fördert einen üppigen, vollen Klang, der genau zur Musik der Zeit passt, oder passt die Musik zu den Räumen? Die für alle Plätze nahen Seitenwände reflektieren den Schall wirksam und erzeugen gering verzögerte, seitliche erste Reflexionen, die die Schallquelle scheinbar vergrößern, also die Raumeindruck betonen. Die Zuhörer sitzen relativ gedrängt und vergleichsweise nah beim Orchester, was der Musik auch Intimität und Präsenz verleiht. Akustische Überlegun-

56 

 1 Grundlagen der Akustik

gen wurden noch nicht angestellt, Erfahrung aus gebauten Sälen zählte. Die Grundform der Schuhschachtel allein ist allerdings noch keine Garantie für gute Raumakustik. Die wegen ihrer Akustik noch heute als die besten Konzertsäle der Welt geltenden Säle gehören dem Schuhschachteltyp an, sie galten als Vorbilder und wurden vielfach nachgeahmt, nämlich der Große Musikvereinssaal in Wien von 1870 und das Neue Gewandhaus in Leipzig von 1884, das Vorbild war u. a. für das Concertgebouw in Amsterdam von 1888 und beide zusammen für die Symphony Hall in Boston von 1900. Der Große Musikvereinssaal in Wien von Theophil Hansen wurde 1870 für 1.680 Zuhörer eröffnet, er gilt als der beste Konzertsaal der Welt. Bei knapp 9 m3 Volumen pro Sitzplatz liegt die Nachhallzeit etwas über 2 s. Die Wände sind verputzt, durch hohe Fenster unterbrochen und  stark gegliedert. Die  schallharten Wände fördern einen vollen Bassklang. Die umlaufende Galerie wird von vergoldeten Karyatiden getragen, die Stuckdecke ist reich verziert und ebenfalls vergoldet; daher der Beiname „Goldener Saal“. Der Alte Gewandhaussaal in Leipzig, 1781 für nur 400 Zuhörer erbaut, war trotz seiner kurzen Nachhallzeit von ca. 1,3  s und  seiner großen akustischen Direktheit und Intimität bis 1894, bis zu seinem Abriss, ein als gut anerkannter Konzertsaal, auch für die voluminöse Musik der Romantik. Das Neue Gewandhaus, nach Plänen von Martin Gropius erbaut, wurde 1884 eröffnet. Sein kleiner Saal war eine Kopie mit nun 640 Plätzen, sein großer Saal eine proportional vergrößerte annähernde Kopie des Alten Gewandhaussaals für 1.560 Zuhörer. Die Grundfläche bildeten zwei nebeneinander gelegte Quadrate mit 18,9 m Kantenlänge, die Höhe betrug 14,9 m, die klassischen Maße eines Schuhschachtelsaals. Wie im Musikvereinssaal zog sich ringsherum die Galerie, auf der über der Bühne eine Konzertorgel Platz fand. Die Nachhallzeit war mit geschätzt 1,5 s deutlich kürzer als die des Wiener Saals. So bot das Neue Gewandhaus nicht ganz das Klangvolumen des Musikvereinssaals, eignete sich aber möglicherweise besser für die Musik der Klassik. Die Konzertprogramme waren auch mehr als in Wien auf die Musik der Vergangenheit, also auf die Klassik, ausgerichtet. Der dritte berühmte Schuhschachtelsaal auf europäischem Boden ist das Concertgebouw in Amsterdam mit 2.200 Plätzen, von van Gendt erbaut und 1888 eröffnet. Die Nachhallzeit ist  mit 2,2  s etwas länger als im Musikvereinssaal,  sein Volumen fast doppelt  so groß wie das des Neuen Gewandhauses. Wegen der größeren Saalbreite kommen die ersten Reflexionen spät, der Klang ist durchmischter und weniger klar als im Wiener und Leipziger Saal; er eignet sich eher für die monumentalen Werke des späten 19. Jahrhunderts wie etwa die Sinfonien Anton Bruckners und Gustav Mahlers als für die Musik der Klassik. Die akustischen Daten der Konzertsäle, die heute allgemein als die besten angesehen werden, zeigt Tab. 1/11. Die Mehrzahl dieser Säle entstammt dem 19. Jahrhundert. Eine Wissenschaft von der Raumakustik, die als Grundlage der vielen akustisch guten Säle anzusehen wäre, gab es damals noch nicht. Allenfalls herrschte die Vermutung, dass ein optisch schöner Saal auch akustisch gut sein müsse; dazu gehört z. B. die Beachtung ganzzahliger Raumproportionen. Zudem stützte man sich auf bewährte Raumdimensionen und Gestaltungsmittel. Die Forschungen von Sabine, die 1898 zur Nachhallformel führten, konnten erstmals bei der Symphony Hall in Boston, eröffnet 1900, in der Planung mit Beratung durch Sabine berücksichtigt werden.

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 57

1.5.3 Konzertsäle des 20. Jahrhunderts Der Konzertsaalbau ist im 20. Jahrhundert durch die Entwicklung der Wissenschaft von der Akustik und ihrer Anwendung auf die raumakustische Planung geprägt. Die Bestimmung von akustischen Kriterien für die gewünschte raumakustische Qualität wird zunehmend präziser und erreicht nach der Jahrhundertmitte einen bis heute zunehmend weiterentwickelten Wissensstand, der eine relativ zuverlässige Planung ermöglicht. Gute Konzertsäle können jedoch nur verwirklicht werden, wenn nicht Anforderungen gestellt werden z.  B. nach zu großen Sälen und nach unvereinbaren Nutzungskonzepten. Schon 1650 hat Athanasius Kircher die Gesetzmäßigkeiten der Ausbreitung von Schall analog zu Lichtstrahlen beschrieben, z. B. auch die Konstruktion eines Flüstergewölbes. Die wichtige Erkenntnis, dass der Publikumsbereich so ansteigen soll, dass jede Person dieselbe Sicht auf die Bühne hat und damit auch optimale Hörbedingungen für Direktschall bestehen – heute als Überhöhungskurve bezeichnet – wurde von John Russell 1838 formuliert. Schon bei den antiken Theatern verwirklicht, ist diese Erkenntnis erst im 20. Jahrhundert wieder in die Planungen eingegangen. Die erste Zusammenfassung akustischen Wissens hat Rayleigh 1878 in „The Theory of Sound“ vorgelegt. Den nächsten wichtigen Schritt in der Forschung machte Wallace Clement Sabine, als er 1898 die Formel für die Nachhallzeit durch Experimente entdeckte und damit dieses Kriterium in die Planungen einbezogen werden konnte. Sabine wendete erstmals für die Planung der Boston Symphony Hall die Nachhallformel für den Zusammenhang zwischen Nachhallzeit, Raumgröße und der Absorption der verwendeten Materialien an; dieser Saal von 1900, der mit seinen vom Leipziger Neuen Gewandhaus abgeleiteten Proportionen ein typischer Schuhschachtelsaal ist, gehört noch heute zu den besten Konzertsälen. Das Spannungsfeld zwischen raumakustischer Planbarkeit und der Schwierigkeit,  subjektive Qualitätskriterien in objektive Planungen zu übersetzen, beherrscht die Wissenschaft von der Raumakustik und den Konzertsaalbau des 20. Jahrhunderts. Ein weiteres, wesentliches Merkmal der Konzertsäle des 20. Jahrhunderts ist die Anpassung an größere Zuhörerzahlen, teils um die steigende Nachfrage zu befriedigen, teils aus wirtschaftlichen Gründen. Die Vergrößerung wird erreicht durch eine Verbreiterung der Säle. Die Seitenwandreflexionen können dabei raumakustisch nicht  mehr ausreichend genutzt werden, sie werden durch Deckenreflexionen ersetzt, die Decke muss dafür – um Echos zu vermeiden – relativ niedrig bleiben. Gleichzeitig wird aus Gründen des Komforts der Platzbedarf pro Person vergrößert. Dies alles führt zu kürzeren Nachhallzeiten und einem Überwiegen des Direktschalls; es entstehen im Gegensatz zu den Sälen des 19. Jahrhunderts Säle mit einem direkten, klaren Klang mit geringerem Raumeindruck und Räumlichkeit. Gleichzeitig verändert die Musik im 20. Jahrhundert durch rhythmische und harmonische Differenzierung ihre Strukturen so, dass gerade Konzertsäle mit den beschriebenen Eigenschaften erforderlich werden. Die europäischen Konzertsäle der 1920er und 1930er Jahre sind durch die Anwendung des Schallstrahlenmodells der Raumakustik auf die gesamte Raumoberfläche gekennzeichnet. Diese Verwissenschaftlichung der Raumakustik  stellt eine Abwendung von der Planungsweise des 19. Jahrhunderts dar, in dem die Erfahrungen akustisch oft nur zufällig gelungener Säle genutzt wurden. Zunächst blieben Berechnungen der Nachhallzeit – obwohl 1898 von Sabine schon entwickelt – außer Acht. Ziel der Planungen war, den gesamten Direktschall

58 

 1 Grundlagen der Akustik

Tab. 1/11. Daten von als raumakustisch gut anerkannten, internationalen Konzertsälen nach [Beranek, 2010]. vollendet im Jahr

Saal, Stadt

Raumvolumen V

Anzahl Volumenkenn­Plätze N zahl K = V/N

Nachhallzeit mit Publikum (ohne Publikum)

1781

Altes Gewandhaus, Leipzig

2.130 m3

400

5,5 m3 / Platz

1,3 s, geschätzt

1870

Musikvereinssaal, Wien

15.000 m3

1.680

8,9 m3 / Platz

2,0 s (3,0 s)

1887

Neues Gewandhaus, Leipzig

10.600 m3

1.560

6,8 m3 / Platz

1,5 s, geschätzt

1887

Concertgebouw, Amsterdam

18.780 m3

2.037

9,2 m3 / Platz

2,0 s (2,6 s)

1891

Carnegie Hall, New York

24.270 m3

2.804

8,7 m3 / Platz

1,8 s (2,0 s)

1895

Tonhalle, Zürich

11.400 m3

1.546

7,4 m3 / Platz

2,0 s (3,2 s)

1900

Symphony Hall, Boston

18.750 m3

2.625

7,1 m3 / Platz

1,9 s (2,5 s)

1984

Konzerthaus, neugestalteter Wieder­ aufbau des Königlichen Schauspielhaus (1821), Berlin

28.000 m³

1.500

10,3 m³ / Platz

2,0 s (2,2 s)

1935

Konzerthaus, Göteborg

11.900 m3

1.286

9,3 m3 / Platz

1,6 s (1,7 s)

1953

Herkulessaal, München

13.590 m3

1.287

10,6 m3 / Platz

1,8 s (2,3 s)

1956

Liederhalle, Stuttgart

16.000 m3

2.000

8,0 m3 / Platz

1,6 s (2, s 1)

1963

Philharmonie, Berlin

21.000 m3

2.218

9,5 m3 / Platz

1,9 s (2, s 2)

1981

Neues Gewandhaus, Leipzig

21.000 m3

1.900

11,0 m3 / Platz

2,0 s (2,2 s)

1987

Kammerphilharmonie, Berlin

11.000 m3

1.138

9,7 m3 / Platz

1,8 s (2,1 s)

1998

Festspielhaus, Baden-Baden

20.100 m3

2.500

8,0 m3 / Platz

1,9 s (2,1 s)

1998

Festspielhaus, Luzern

21.000 m3

1.900

11,0 m3 / Platz

2,0 s (2,2 s)

2017

Elbphilharmonie, Hamburg

23.000 m³

2.100

11 m³ / Platz

2,4 s

2017

Pierre-Boulez-Saal, Berlin

7.600 m³

682

11 m³ / Platz

1,7 s (2,1 s)

20.000 m3

2.000

10 m3 / Platz

2,0 s

durchschnittliche, gerundete Werte von als gut anerkannten Sälen

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 59

durch Spiegelung an Wand- und Deckenoberflächen auf den Publikumsbereich hinzuleiten. Dadurch entstehen die sog. Direktschall-Auditorien des frühen 20. Jahrhunderts. Diese Räume hatten die Grundform halbierter Trichter, gestaltet nach denselben Prinzipien wie die Grammophontrichter jener Zeit, die in einem bedämpften Wohnraum ebenfalls hauptsächlich ein Direktschallfeld erzeugen. Die Salle Pleyel in Paris, 1927 eröffnet, ist der erste Saal dieser Art; charakteristisch für ihn ist die große Deutlichkeit des Klangs, durch die starken Deckenreflexionen ein „monofoner“, wenig räumlicher Klang. Bei den zahlreichen Neubauten nach 1950 werden die inzwischen vertieften wissenschaftlichen Erkenntnisse über Raumakustik umfassend bei Planungen angewendet, sowohl in Bezug auf die Lenkung der den Schall verstärkenden Reflexionen als auch auf die Gestaltung von Nachhallzeit und -farbe sowie die Verteilung des Diffusschalls. Kennzeichnend für diese Säle ist vielfach eine relativ niedrige Decke mit parabelähnlicher Form, ein ansteigender Publikumsbereich und große, freitragende Balkone für die Aufnahme eines zahlreichen Publikums. Nach 1960 setzte sich ein neuer Typ von Konzertsaal durch, der Zentralsaal, vorgeprägt in den antiken runden Amphitheatern  mit ansteigenden Publikumsrängen, realisiert aber auch schon 1871 in der Royal Albert Hall in London und Freiluftbauwerken wie der Hollywood Bowl von 1922 für 17.000 Personen. Der Zentralsaal mit ansteigenden Publikumsbereichen um die Bühne bietet jedem Zuhörer größere Nähe zu den Künstlern, einen besseren „Hörblick“. Wie bei allen großen Sälen fehlen auch hier zunächst seitliche Reflexionen, die der Musik Räumlichkeit geben, die Schallquellen also vergrößern und den Hörer mit Klang einhüllen. Bei den Zentralsälen werden diese Reflexionen durch sog. Weinbergtreppen erzeugt. Durch in der Höhe gestaffelte Publikumsteilbereiche entsteht eine gegliederte Landschaft mit einem zeltartigen Dach, die an vielen Plätzen relativ nahe  seitliche Reflexionsflächen bietet. Der bekannteste Saal dieses Typs ist die Philharmonie in Berlin von Hans Scharoun, eröffnet 1963, mit 2.218 Sitzplätzen und 1,9 s Nachhallzeit. Bereits 1956 wurde das Weinbergtreppenprinzip im Mozartsaal der Stuttgarter Liederhalle von Abel und Gutbrot durchaus mit Bezug auf die die Stadt umgebenden Weinberge angewandt. Auch die Elbphilharmonie von den Architekten Herzog & de Meuron, 2017 in Hamburg eröffnet, gehört dem Weinbergtypus an [Fuchs, 2018]. Konsequenter noch ist das Prinzip der zentralen Bühne bei der Berliner Kammerphilharmonie nach Plänen von Hans Scharoun verwirklicht, 1987 eröffnet sowie in dem 2017 eröffneten Pierre-Boulez-Saal des Architekten Frank Gehry, als kleiner ovaler Saal ohne Weinbergterrassen. Neu an den Zentralsälen ist die Beachtung der  sozialen Komponente des Konzertbesuchs: Die Zuhörer bilden unter sich und mit den Musikern durch engen visuellen Kontakt eine Gemeinschaft. Diese architektonische Konzeption versucht, die Trennung von Bühne und Publikum aufzuheben und die Musik „in den Mittelpunkt“ zu stellen. Nachteilig ist die unausgeglichene Klangbalance seitlich und hinter der Bühne. Abwandlungen des Amphitheatertyps mit seiner zentralen Bühne ergeben fächerförmige Räume, auch mit Weinbergtreppen, verwirklicht z. B. 1985 bei der Philharmonie im Gasteig in München oder einen tulpenförmigen Grundriss wie bei der Kölner Philharmonie von 1986. Neben der Entwicklung des Zentralsaals lässt  sich international auch ein Trend zur Rückkehr zum Schuhschachtelsaal des 19. Jahrhunderts beobachten, jetzt geleitet von einem

60 

 1 Grundlagen der Akustik

umfangreichen Wissen über Raumakustik, nicht aus nostalgischen Gründen. Noch nie wurden so viele neue Konzertsäle gebaut wie in unserer Zeit.

1.5.4 Opernhäuser und Theater Während der Konzertsaal als Bautyp erst im 19. Jahrhundert auf breiter Basis entwickelt wurde,  sind Opernhäuser  seit dem 17. Jahrhundert eigens für Opernaufführungen nach gesellschaftlichen und  musikalischen Bedürfnissen errichtete Bauwerke, die  meist  mit großem Aufwand erstellt und betrieben wurden. Der Opernbesuch war im Gegensatz zum Theaterbesuch bis ins 19. Jahrhundert ein gesellschaftliches Ereignis ersten Ranges für die höheren  sozialen Schichten. Aber bereits im 17. Jahrhundert wurde vor allem in Venedig ein marktwirtschaftlich orientierter Opernbetrieb eingerichtet, der durchaus allen Schichten offenstand. Soziale Veränderungen haben deshalb in der Geschichte der Opernhäuser direkt auf ihre Architektur und Akustik eingewirkt, und natürlich auf die Musik, die sich „verkaufen“ musste. Die Oper entstand in Italien um 1600. Da  sie  sich zunächst als eine  mit zeitgenössischen musikalischen Mitteln gestaltete Wiederbelebung der antiken Tragödie verstand, lag es nahe, auch ihre Aufführungsstätten an dem antiken halbrunden Theater zu orientieren. Der erste Bau dieses Typs war das noch existierende Teatro Olimpico in Vicenza, das im Kleinformat den griechischen und römischen Vorbildern folgt und Ausgangspunkt für die Grundrisse der Opernhäuser bis heute ist. Aus dieser halbrunden Grundform wurden die unterschiedlichen Grundrisse aller historischen Opernhäuser abgeleitet. Die halbrunde Form wurde zu einem U verlängert oder zur Hufeisenform abgewandelt; die dritte, vor allem im 18. Jahrhundert viel verwendete Grundform war die angeschnittene Ellipse. Bereits bei den Opernhäusern des 17. Jahrhunderts werden vor die Wände mehrstöckig Logen gesetzt und das ebene Parkett bestuhlt, um ein möglichst zahlreiches zahlendes Publikum unterbringen zu können, im Parkett die billigen, in den Logen die teureren Plätze. Mehrere Architekten der italienischen Familie GalliBibiena, die zwischen 1700 und 1780 in ganz Europa Opernhäuser bauten, fügten der Opernhaustypologie den glockenförmigen Grundriss hinzu; ein erhaltenes Opernhaus dieses Typs ist das Markgräfliche Opernhaus in Bayreuth. Noch heute ist die Mailänder Oper, das berühmte Teatro alla Scala, von Giuseppe Piermarini erbaut und 1778 eröffnet, das großartigste und eines der größten Opernhäuser überhaupt, gefolgt von San Carlo in Neapel. Mit ursprünglich 2.800, heute 2.300 Plätzen bei 260 Logen in sieben Stockwerken über dem Grundriss einer abgeschnittenen Ellipse hat es ungewöhnliche Ausmaße, auch für heute, besonders aber zur Entstehungszeit. Akustisch allerdings wird es nicht gelobt. Die Hoftheater jener Zeit fassten meist nur 400 bis 500 Personen. Der Klassizismus um 1800 fügte den traditionellen Grundrissen einen weiteren hinzu, den des angeschnittenen Kreises. Obwohl diese Grundformen und manche Details und spezielle Einrichtungen zu ihrer Zeit auch unter dem Gesichtspunkt der Akustik diskutiert wurden – meist mit zweifelhaften Argumenten,  sind für die Raumakustik der Barocktheater die  sehr wirksame Absorption durch das Publikum und die mit Stoffen ausgekleideten Logen bestimmend; bei einer

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 61

Nachhallzeit um 1 s ist ein klares, direktes und intimes Klangbild typisch, die bevorzugte Holzauskleidung absorbiert besonders den tiefen Frequenzbereich, während sie hohe Komponenten reflektiert. Diese Raumakustik erfüllt die Forderungen der Musik dieser Zeit, sie bietet gute Wortverständlichkeit und macht die feinen Strukturen und Nuancen der Phrasierung hörbar; ein solches Klangbild galt als wünschenswert. Dieser Opernhaustyp und mit ihm seine typische Akustik bleiben im Wesentlichen bis ins späte 19. Jahrhundert auch für Neubauten erhalten, bei traditionellen Opernhausbauten sogar bis ins 20. Jahrhundert. Im 19. Jahrhundert wurden Opernhäuser im traditionellen Stil des italienischen Typs gebaut, wie  sie im 17. und 18. Jahrhundert entwickelt worden waren, auch weiterhin  mit barocker Innendekoration. Herausragende europäische Opernhausneubauten waren u.  a. Covent Garden in London 1858, die Staatsoper in Wien 1868 und die Grand Opéra, heute Opéra Garnier, in Paris 1875. Daneben entstanden Opernhäuser unterschiedlicher Größe, auch in kleinen Residenzstädten, als Zeichen eines aufstrebenden Bürgertums und kunstbeflissener Herrscher vor allem in Europa in großer Zahl. Die Wiener Architekten Fellner und Helmer bauten als spezialisiertes Architekturbüro zwischen 1870 und 1900 europaweit rund 50 Theater und Opernhäuser des barocken Typs. Oper blieb ein gesellschaftliches Ereignis, die Bauwerke waren v.  a. dieser Funktion angepasst, nicht den Anforderungen des musikalischen Kunstwerks Oper. Raumakustische Fragen spielten bei der Planung immer noch keine Rolle, man nutzte die Erfahrungen mit immer wieder demselben Bautyp. Ein neuartiger, durchaus revolutionärer Typ eines Opernhauses entstand erst 1876, als Richard Wagner nach  seinen Ideen das Festspielhaus – nicht Opernhaus in Bayreuth für die Aufführung seines vier Abende umfassenden Werks „Der Ring des Nibelungen“ entwarf und bauen ließ. Die neue Konzeption ist charakterisiert durch fächerförmige und ansteigende gleich begünstigende Anordnung der Sitzplätze mit guter Sicht von allen Plätzen auf die Bühne – beim traditionellen italienischen Opernhaus blickt ein Großteil des Publikums eben auf das Publikum, einen versenkten und verdeckten Orchestergraben  mit Durchmischung der einzelnen Instrumentalklänge zu einem homogenen, im hohen Frequenzbereich gedämpften Gesamtklang, Wagners „mystischer Abgrund“ zwischen Publikum und Bühne. Verglichen mit traditionellen Opernhäusern hat das Haus eine etwas längere Nachhallzeit von 1,6  s, eine Verkleinerung der gesellschaftlich genutzten Pausen- und Zugangsflächen auf ein Mindestmaß – der Besuch sollte ein vorrangig musikalisches Ereignis sein, nicht ein gesellschaftliches. Kennzeichnend ist auch die Schmucklosigkeit des Bauwerks innen und außen, die Verdunklung des Zuschauerraums während der Vorstellung zur Erhöhung der Konzentration auf das musikalische und szenische Geschehen. Auch die Wahl des Standorts in einer Kleinstadt in der Provinz ohne gesellschaftliche und  städtische Einbindung unterstreicht den Willen, das musikalische Ereignis in den Vordergrund zu stellen. Wagners Idee eines Festspielhauses ist architektonisch, akustisch, musikalisch und gesellschaftlich ein radikaler Gegenentwurf zum traditionellen Opernhaus des italienischen Typs und zum gesellschaftlichen Ereignis Opernbesuch. Max Littmann hat das Auditorium des Prinzregententheaters in München 1901 mit einigen Änderungen nach diesem Vorbild erbaut, weitere Nachfolgebauten gibt es nicht. Aber einige Elemente von Wagners Entwurf sind heute selbstverständlich: die guten Sichtverhältnisse, die Verdunklung des Zuschauerraums und der längere Nachhall (Tab. 1/12).

62 

 1 Grundlagen der Akustik

Im 20. Jahrhundert wurden zunächst im Wesentlichen die aus dem 19. Jahrhundert erhaltenen Opernhäuser des italienischen Barocktyps weiter bespielt, und, soweit zerstört, auch wieder in diesem Stil aufgebaut; Modernisierungen betreffen vor allem die technischen Anlagen, die Feuersicherheit und den Komfort. In überraschender Zahl wurden gerade in den letzten Jahrzehnten weltweit auch neue Opernhäuser bzw. Festspielhäuser erbaut. Sie unterscheiden  sich aber, abgesehen vom Einbau des Orchestergrabens, nicht in grundsätzlichen Gesichtspunkten vom Konzertsaalbau des 20. Jahrhunderts. Tab. 1/12. Daten von historischen Opernhäusern nach [Beranek, 2010]. vollendet im Jahr

Saal, Stadt

Raumvolumen V

Anzahl Plätze N

Volumenkennzahl K = V/N

Nachhallzeit mit Publikum (ohne Publikum)

1748

Markgräfliches Opernhaus, Bayreuth Teatro alla Scala, Mailand Semperoper, Dresden Festspielhaus, Bayreuth

5.500 m3

450

12,2 m3/Platz

0,9 s, geschätzt

11.652 m3

2.289

5,1 m3/Platz

12.480 m3

1.284

9,7 m3/Platz

10.308 m3

1.800

5,7 m3/Platz

1,2 s (1,2 s) 1,6 s (1,7 s) 1,3 s (1,6 s)

1778 1841 (1985) 1876

Gelegentlich werden in vorhandene Theatersäle nachträglich Einrichtungen zur Verlängerung des Nachhalls eingebaut (siehe Kap. 1.4.2.1), um sie auch für Konzertaufführungen besser nutzbar zu machen.

1.5.5 Kirchen Kirchenräume variieren sowohl in ihrer Größe als auch in ihrer Architektur und Innenausstattung so stark, dass unter dem Aspekt der Akustik eine Unterscheidung nach einzelnen Stilepochen getroffen werden  muss. Der Bestand an Kirchengebäuden  stammt im Wesentlichen aus der Zeit vom Mittelalter  mit Romanik und Gotik über die Renaissance bis zum Ende der Barockzeit, die Kirchen des 19. Jahrhunderts gehen weitgehend historisierend auf frühere Stilepochen zurück. Erst die Kirchen, die im 20. Jahrhundert errichtet wurden, zeigen zumindest teilweise neue architektonische Formen: Die Verständlichkeit des gesprochenen Worts wird zu einem wichtigen Kriterium, das bedeutet weniger Nachhall und größere Nähe. [Eggenschwiler, 1999], [Meyer, 2003] Allen Stilen ist gemeinsam, dass zwischen der Nachhallzeit des besetzten und unbesetzten Kirchenraums ein erheblicher Unterschied besteht. Da in älteren Kirchen  meist Holzbänke oder Holzstühle verwendet werden, erhöhen die Besucher die Schallabsorption erheblich bzw. verkürzen die Nachhallzeit; je größer der Kirchenraum ist, umso geringer ist allerdings dieser Einfluss. Bei kleineren Kirchen können Sitzkissen diesen Unterschied etwas

1.5 Historische Konzertsäle, Opernhäuser und Kirchen 

 63

verringern. Eine statistische Auswertung von 150 Kirchen in der Schweiz ergibt für die verschiedenen Epochen typische Werte der Nachhallzeiten (Tab. 1/13). Abgesehen von den unterschiedlichen Nachhallzeiten auf Grund der sehr unterschiedlichen Volumina der Kircheninnenräume kann man für die Kunststile der Epochen der Gotik, der Renaissance- und Barockzeit typische Nachhallfärbungen feststellen, bedingt durch die Materialien der Ausgestaltung der Räume. Beim älteren Kirchenbau haben Fragen der Akustik – man denkt hier zunächst an die Wortverständlichkeit – keine Bedeutung. Die Kirchen des Mittelalters ragten in ihrer Größe und Höhe weit über die  städtische Bebauung hinaus,  sie waren Symbole der Macht der Kirche, sollten durch Größe und kunstvolle Ausführung und Ausstattung beeindrucken und ein Zeichen des Gotteslobs sein. Der Kultus als solcher stand im Vordergrund, nicht die Verständlichkeit des Worts. Diese Größe ist der Grund für die generell langen Nachhallzeiten, die ihrerseits Kirchen eine Sonderstellung verleiht. Erst die Reformation rückte das Wort in den Vordergrund. Insbesondere durch die erheblichen Besucherzahlen und den nun erforderlichen Einbau zahlreicher Besucheremporen erreichten evangelische Kirchen weit geringere Nachhallzeiten. Ein gutes Beispiel hierfür ist die Thomaskirche in Leipzig, ein ursprünglich gotisches Bauwerk mit langer Nachhallzeit, besonders im tiefen Frequenzbereich;  sie wurde  mit hölzernen Emporen ausgestattet, die zusammen mit den zahlreichen Besuchern erst die akustischen Bedingungen für J. S. Bachs Musik schufen, nämlich eine Nachhallzeit um 2 s mit Mittenbetonung. Gotische Kirchenräume  sind im Allgemeinen gekennzeichnet durch große Raumvolumina und sehr geringe Schallabsorption besonders bei tiefen, aber auch mittleren Frequenzen, verursacht durch steinerne Oberflächen und fehlende Tiefenabsorber. Dies führt typisch zu einer  sehr langen Nachhallzeit von bis zu 12  s  mit einem ausgeprägten Maximum bei 100 Hz oder darunter. Der Nachhall hat also eine ausgesprochen dunkle Färbung und auch durch  seine lange Dauer eine  stark verdeckende Wirkung. Der Hallradius ist relativ groß, bedingt durch die großen Raumvolumina. Romanische Kirchen  sind  meist kleiner, verhalten sich aber ähnlich, sofern sie eine steinerne Gewölbedecke haben, Holzdecken verringern die Dunkelfärbung des Nachhalls. Tab. 1/13. Statistische Nachhallzeiten aus 150 schweizer Kirchen [Eggenschwiler, 1999], k = katholisch, e = evangelisch-reformiert, b = besetzt mit Publikum, u = unbesetzt, ohne Publikum. Romanik, Gotik (vor 1530)

Renaissance, Barock (1530 bis 1815)

Klassizismus, Historismus (1815 bis 1915)

Gegenwart (nach 1915)

Durchschnittswerte über alle Epochen

3,7 s (k, u) 2,4 s (k, b) 3,1 s (e, u) 1,9 s (e, b)

3,0 s (k, u) 2,3 s (k, b) 2,2 s (e, u) 1,2 s (e, b)

4,1 s (k, u) 2,2 s (k, b) 2,5 s (e, u) 1,4 s (e, b)

3,3 s (k, u) 1,8 s (k, b) 2,6 s (e, u) 1,4 s (e, b)

3,5 s (k, u) 2,1 s (k, b) 2,6 s (e, u) 1,5 s (e, b)

Barocke Kirchen  sind gekennzeichnet durch kürzeren Nachhall als gotische Kirchen, ein Maximum der Nachhallzeit im  mittleren Frequenzbereich um 500  Hz und klare Höhen,

64 

 1 Grundlagen der Akustik

verursacht durch zahlreiche, die Tiefen absorbierende Gestaltungselemente aus Holz und Putzflächen. Der Helligkeit des Barockraums entspricht also die Helligkeit der Klangfärbung. Insgesamt zeigen Barockkirchen eine weitaus bessere Eignung für Musikdarbietung oder Tonaufnahmen als romanische oder gotische Kirchen. Renaissancekirchen haben ähnliche akustische Eigenschaften wie Barockkirchen.

Standards [DIN 1311] Schwingungen und schwingungsfähige Systeme, Tl. 1 Grundbegriffe [DIN 1320] Akustik; Begriffe [DIN 4109] Schallschutz im Hochbau; Anforderungen [DIN 5493-2] Logarithmierte Größenverhältnisse, Maße, Pegel und Einheiten [DIN 18041] Hörsamkeit in kleinen bis mittelgroßen Räumen [DIN 45405] Störspannungsmessung in der Tontechnik, zurückgezogen [DIN 45630] Teil l Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall, Teil 2: Normalkurven gleicher Lautstärkepegel [DIN EN ISO 3382-1] Akustik – Messung von Parametern der Raumakustik, Teil 1: Aufführungsräume [DIN EN ISO 3382-2] Akustik – Messung von Parametern der Raumakustik, Teil 2: Nachhallzeit in gewöhnlichen Räumen [DIN EN 61672] Elektroakustik – Schallpegelmesser, Teil 1: Anforderungen [EN ISO 354] Akustik – Messung der Schallabsorption in Hallräumen [BS.1116] ITUR Recommendation BS.1116-,1 Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems. 1997 [EBU Tech 3276] EBU Doc. Tech. 3276-E 2nd ed.: Listening conditions for the assessment of sound programme material – monophonic and two-channel stereophonic incl. Supplement 1: Multichannel sound, Geneva, 2004 [ISO 1996] Acoustics – Description, measurement and assessment of environmental noise, 2003, Part 1: Basic quantities and assessment procedures[ ITU-R BS.1116] Methods for the subjective assessment of small impairments in audio systems, 3rd Edition, February 2015

Literatur [Barron, 1981] Barron, M. und Marshall, A. H.: „Spatial impression due to early lateral reflections“, in: Journal Sound and Vibr. 7, 1981, S. 211ff. [Beranek, 2010] Beranek, L.: Concert Halls and Opera Houses. Music, Acoustics and Architecture, 2010, Springer, New York [Dickreiter, 2011] Dickreiter, M.: Mikrofonaufnahme, 4. Aufl. 2011, Hirzel [Eggenschwiler, 1999] Eggenschwiler, K. und Baschnagel, K.: Aktuelle Aspekte der Kirchenakustik, EMPA (Eidgenössische Materialprüfungs- und Forschungsanstalt), 1999, Dübendorf [Fasold, 2003] Fasold, W. und Veres, E.: Schallschutz und Raumakustik in der Praxis, 2003, Bauwesen [Forsyth, 1992] Forsyth, M.: Bauwerke für Musik, Konzertsäle und Opernhäuser, Musik und Zuhörer vom 17. Jahrhundert bis zur Gegenwart, 1992, Saur

Literatur 

 65

[Franssen, 1964] Franssen, N. V.: „Sur l’amplification des champs acoustiques“, in: Acoustica 20, 1968, S. 315 ff. [Friesecke, 2012] Friesecke, A.: Studio Akustik – Konzepte für besseren Klang, 3. Aufl. 2012, PPV Medien [Fuchs, 2010] Fuchs, H. V.: Schallabsorber und Schalldämpfer: Innovative akustische Konzepte und Bauteile mit praktischen Anwendungen in konkreten Beispielen, 3. Aufl. 2010, Springer [Fuchs, 2018] Fuchs, H. V.: „Die Elbphilharmonie im Vergleich mit anderen Konzertsälen von Rang“, in: Forstschritte der Akustik, 44. Jahrestagung der DAGA 2018, S. 1104 ff. [Griesinger, 1991] Griesinger, D.: „Verbesserung der Raumakustik durch zeitvariablen künstlichen Nachhall“, in: Bericht 16. Tonmeistertagung Karlsruhe 1990, S. 451ff., 1991, Saur [Hentschel, 2009] Hentschel, Th.: Praktische Raumakustik: Grundlagen, Konzept und Methoden, 2009, VDM-Verlag [IRT, 1995] Höchstzulässige Schalldruckpegel von Dauergeräuschen in Studios und Bearbeitungsräumen bei Hörfunk und Fernsehen, IRT, Akustische Information 1.11-1/1995 [Kath, 1964] Kath, U. und Kuhl, W.: „Messungen zur Schallabsorption von Personen auf ungepolsterten Stühlen“, in: Acustica 1964, S. 50 ff. [Kath, 1965] Kath, U. und Kuhl, W.: „Messungen der Schallabsorption von Polsterstühlen mit und ohne Personen“, in: Acustica 1965, S. 127 ff [Kok, 2011] Kok, B.: „Technologie- und Marktübersicht: Acoustic enhancement systems“, in: Production Partner 4, 2011, S. 108 ff. [Kuhl, 1977] Kuhl, W.: „In der Raumakustik benutzte hörakustische Termini“, in: Acustica 1977, S. 57 ff. [Kuttruff, 2004] Kuttruff, H.: Akustik, 2004, Hirzel [Kuttruff, 2019] Kuttruff, H.: Room Acoustics, 2019, CRC Press [Lehmann, 1980] Lehmann, P. und Wilkens, H.: „Zusammenhang subjektiver Beurteilungen von Konzertsälen und raumakustischen Kriterien“, in: Acustica 1980, S. 256 ff. Lerch, R, Sessler, G., Wolf , D.: Technische Akustik: Grundlagen und Anwendungen, [Lerch, 2022] 2022, Springer [Magnus, 2008] Magnus, K. und Popp, K.: Schwingungen, 8. Aufl., 2008, Vieweg & Teubner [Meyer, E, 1965] Meyer, E., Kuttruff, H. und Schulte, P.: „Versuche zur Schallausbreitung über Publikum“, in: Acustica 1965, S. 175ff. [Meyer, 1978] Meyer, J.: „Raumakustik und Orchesterklang in den Konzertsälen Joseph Haydns“, in: Acustica 41, 1978, S. 145 ff. [Meyer, 2003] Meyer, J.: Kirchenakustik, 2003, Bochinsky Meyer, J.: Akustik und musikalische Aufführungspraxis, [Meyer, 2015] 6. Aufl., 2015, PPVMedien [Mommertz, 1993] Mommertz, E.: „Einige Messungen zur streifenden Schallausbreitung über Publikum und Gestühl“, in: Acustica 1993, S. 42 ff. Möser, M.: Messtechnik der Akustik, 2009, Springer [Möser, 2009] [Müller, 2003] Müller, G. und Möser, M.: Technische Akustik, 3. Aufl. 2003, Springer [Parkin, 1965] Parkin, P. H. und Morgan, K.: „Assisted Resonance in the Royal Festival Hall, London“, in: Journal Sound & Vibr. 2 (1965) Reichardt, W.: „Definition und Messgrundlagen eines ‚wirksamen Hallabstandes‘ als [Reichardt, 1974] Maß für den Raumeindruck bei Musikdarbietungen“, in: Zeitschr. f. elektr. Informations- und Energietechnik, 1974, S. 225 ff. [Remmers, 2006] Remmers, H. Kappelmann, M. und Blau, M.: „Messung und Bewertung der Diffusität des Schallfeldes in einem Hallraum“, in: 32. Deutsche Jahrestagung für Akustik (DAGA) Braunschweig 2006 [Reuter, 2014] Reuter, Chr., Auhagen, W., Herausgeber: Musikalische Akustik, 2014, Laaber

66 

 1 Grundlagen der Akustik

[Rümer, 1990] [Schneider, 1992] [Sotiropoulou, 1995] [Spikofski, 1989] [Steinke, 1987] [Steinke, 2012] [Thienhaus, 1962] [Völker, 1992] [Völker, 1994] [Vorländer, 1994] [Weinzierl, 2002] [Weinzierl, 2014] [Wollherr, 1983]

Rümer, C.: „Brauchen wir eine wandelbare Akustik. Konzertsäle und Rundfunkstudios mit veränderbaren Nachhalleigenschaften“, in: Runfunktechn. Mitt. 1990, S. 101 ff. Schneider, R. und Spikofski, G.: „Untersuchungen zur Wahrnehmbarkeit früher Reflexionen und des Nachhalls in Abhörräumen“, in: Bericht 17. Tonmeistertagung Karlsruhe 1992, S. 631 ff., 1993, Saur Sotiropoulou, A. G., Hawkes, R. J. und Fleming, D. B.: „Concert Hall Acoustic Evaluations by Ordinary Concert Goers“, in: Acustica 1995, S. 1 ff. Spikofski, G. und Holzkämper, S.: „Wahrnehmbarkeit von Reflexionen in Regieräumen – neue Ergebnisse“, in: Bericht 15. Tonmeistertagung Mainz 1988, S. 463 ff., 1989, Saur Steinke, G., Fels, P., Ahnert, W. und Hoeg, W.: „Das Delta-Stereofonie-System“, in: db-Magazin f. Studiotechnik 1987, H. 1/2 Steinke, G. und Herzog, G.: Der Raum ist das Kleid der Musik, Musik-Aufnahmesäle und Hörspielstudios im Funkhaus Berlin Nalepastrasse sowie weitere Aufführungsund Hörräume. Raumakustische Eigenschaften – Aufnahmetechnologische Bedingungen, Adlershof 2012 Thienhaus, E.: Artikel „Akustik“, in: Die Musik in Geschichte und Gegenwart (MGG), Bd. 11, Sp. 31 ff., 1. Aufl. 1962, Bärenreiter Völker, E.-J.: „Akustik und Abhörqualität in Regieräumen – das leidige Thema“, in: Bericht 17. Tonmeistertagung Karlsruhe 1992, S. 612 ff., 1993, Saur Völker, E.-J.: „Regieräume für Musikwiedergabe“, in: Rundfunktechn. Mitt. 1982, S. 112 ff. Vorländer, L. und Bietze, H.: „Comparison of Methods for Measuring Reverberation Time“, in: Acustica 1994, S. 205 ff. Weinzierl, S.: Beethovens Konzerträume. Raumakustik und symphonische Aufführungspraxis an der Schwelle zum modernen Konzertwesen, 2002, Bochinsky Akustische Grundlagen der Musik, 2014, Laaber Wollherr, H.: „Gestaltung des Abhörbereiches in einem Tonübertragungswagen“, in: Rundfunktechn. Mitt. 1983, S. 62 ff.

2 Schallquellen Michael Dickreiter Schallquellen, dazu gehören die  menschliche Stimme und Musikinstrumente,  sind Energiewandler, die eine zugeführte  mechanische oder elektrische Energie in Schallenergie umwandeln. Bei den akustischen Musikinstrumenten und bei der  menschlichen Stimme wird mechanische Energie vom Menschen aufgebracht, bei elektronischen Musikinstrumenten, aber auch bei der Kirchenorgel über deren Blasbalg wird die Schallenergie aus elektrischer Energie gewonnen. Weiterhin kann Schall durch Naturkräfte entstehen, z.  B. durch Wind und Wasser, oder in der technischen Umwelt, von Maschinen, diese Schallquellen werden hier nicht besprochen. Ein Aspekt ist hierbei die Klangstruktur, hier geht es hauptsächlich um Schwingungen und deren Eigenschaften, ein zweiter Aspekt betrifft die Art und Weise der Schallabstrahlung und damit die von den Schallquellen ausgehenden Schallwellen oder in ihrer Gesamtheit die diese umgebenden Schallfelder. [Meyer, 2015], [Roederer, 1999], [Weinzierl, 2014]

2.1 Menschliche Stimme 2.1.1 Akustische Eigenschaften Die  menschliche Stimme ist ein  sehr vielseitiger Schallerzeuger [Seidner, 2004]. Sie kann Klänge und Geräusche verschiedenster akustischer Zusammensetzung, anhaltend oder rasch wechselnd, erzeugen. Abb. 2/1 zeigt schematisch das Stimmorgan mit den angeschlossenen Resonanzräumen  sowie ein vereinfachendes  mechanisches Modell der Stimmlippen oder Stimmbänder und ihrer Schwingungen. Der Luftstrom, der beim Ausatmen aus der Lunge kommt, die sog. Exspirationsluft, erregt bei stimmhaften Lauten erzwungene Schwingungen der Stimmlippen im Kehlkopf;  sie werden in den angeschlossenen Resonatoren, dem  sog. Ansatzrohr, bestehend aus Mund, Nase, Nasennebenhöhlen und Rachen, modifiziert. Bei stimmlosen Lauten wie z. B. H, P, T, K werden die Hohlräume des Ansatzrohrs nur durch die Luftströmung angeblasen, oder es entstehen Strömungsgeräusche beim Durchströmen von Einengungen des Luftstroms an den Zähnen, der Zunge oder im Rachen; die Stimmlippen schwingen bei geöffnetem Zustand dabei nicht. Für die stimmlosen Zischlaute F, S, SCH und CH sind Strömungsgeräusche charakteristisch, die insbesondere beim S, SCH und F bis in hohe Frequenzbereiche hineinreichen. Beim stimmhaften S und SCH treten zu den Geräuschkomponenten der stimmlosen Form periodische Schwingungen der Stimmlippen hinzu. Die stimmlosen Explosivlaute P, B, T, D, K und G entstehen durch plötzliches Öffnen des durch die Lippen (P, B) oder die Zunge (T, D, K, G) verschlossenen Luftwegs. Dabei entlädt sich der angestaute Überdruck explosionsartig. Bei den stimmhaften Halbvokalen M, N, R und L tritt neben die Klangerzeugung durch die Stimmlippen die Klangerzeugung durch das Anblasen von Hohlräumen. Das R ist durch eine ausgeprägte Amplitudenmodulation gekennzeichnet. Tab. 2/1 fasst die akustischen Eigenschaften der Sprachlaute oder Phoneme als die kleinsten akustischen Bestandteile der Sprache zusammen. https://doi.org/10.1515/9783110759921-002

68 

 2 Schallquellen

Vokale und Umlaute sind im Gegensatz zu den anderen Sprachlauten Klänge. Bei ihnen erregen die teiltonreichen Stimmlippenschwingungen (Abb. 2/1) in Mund, Nase und Rachen Resonanzen, deren Frequenzlagen insbesondere von der Mund- und Zungenstellung abhängen. Jeder Vokal wird so charakterisiert durch sog. Formanten; das sind Frequenzbereiche, innerhalb derer unabhängig vom Stimmlippengrundton alle Teiltöne in einem bestimmten Frequenzband durch Resonanz verstärkt werden. Die wichtigsten Formantbereiche der Vokale gibt Abb. 2/2 an.

Abb. 2/1. Stimmorgan, vereinfachendes mechanisches Modell der Stimmlippen, Schwingungen der Stimmlippen.

Emotionen, wie Freude, Angst, Wut, prägen sich in der Klangfarbe der Stimme durch unterschiedliche Hervorhebungen der Formanten im Frequenzbereich bis 3,7 kHz aus. Durch Filterung können Emotionen zurückgenommen, aber nicht glaubhaft verstärkt werden [Bisping, 1990], [Legenstein, 2014]. Die Grundfrequenz der Stimmlippenschwingung, die Sprechmelodie, ändert  sich bei Sprache dauernd;  sie liegt bei Männern zwischen etwa 120 und 160  Hz, bei Frauen und Kindern zwischen etwa 220 und 330 Hz. Tab. 2/1. Akustische Eigenschaften von Sprachlauten. Lautart

akustische Eigenschaften

Vokale: A, E, I, O, U, Umlaute: Ä, Ö, Ü

harmonische Klänge, Grundfrequenz ist die Sprechtonhöhe mit 120 bis 160 Hz bei Männern bzw. 220 bis 330 Hz bei Frauen, Charakterisierung durch Formantgebiete (Abb. 2/2), Komponenten bis etwa 5 kHz harmonische Klänge mit der Grundfrequenz der Sprechtonhöhe, zusätzlich kontinuierliche Spektralanteile durch Strömungsgeräusche an Einengungen des Ansatzrohrs nur geräuschhafte, kontinuierliche Spektren nur geräuschhafte, kontinuierliche Spektren mit Komponenten bis über die obere Hörgrenze, besonders beim S kurzzeitige, impulsartige Vorgänge mit kontinuierlichen Spektren

stimmhafte Konsonanten: L, M, N, R, W u. a. stimmlose Konsonanten: H Zischlaute: F, S, SCH, Z Explosivlaute: P, B, T, D, K, G

2.1 Menschliche Stimme 

 69

Abb. 2/2. Formantbereiche der Vokale der deutschen Sprache.

2.1.1.1 Sprachspektrum Bei der großen Vielfalt der Sprachlaute mit unterschiedlichsten Spektren ist es sinnvoll, sich auf statistisch ermittelte Durchschnittsspektren der Sprache zu beziehen, nicht auf Einzellaute. Komponenten unter 80 Hz bei männlicher Sprache bzw. 100 Hz bei weiblicher Sprache fallen bei üblichem Abstand des Zuhörers von einem Sprecher unter die Hörschwelle, können also bei der Aufnahme weggefiltert werden, ohne dass klangliche Verfälschungen der Sprache hörbar werden. Bei tiefen Frequenzen ist der absolute Schalldruckpegel annähernd unabhängig von der Sprechstärke, nur der Abstand des Sprechers hat hierauf einen bestimmenden Einfluss. Nimmt man das Spektrum laut gesprochener Sprache als Bezug, sind die tieffrequenten Anteile von im Original leise gesprochener, aber z. B. um 20 dB verstärkter, unnatürlich lauter Sprache um denselben Betrag relativ  stärker als bei tatsächlich laut gesprochener Sprache. Normalerweise bei  männlicher Sprache unhörbare Komponenten unter 80  Hz erscheinen dabei im Klangbild. Das ist die Ursache der unnatürlichen Klangfärbung, des Dröhnens leise aufgenommener, aber laut wiedergegebener Sprache. Betonte Tiefen unterstützen aber auch den Eindruck besonderer Nähe. Dabei ist männliche Sprache empfindlicher für diesen Effekt als weibliche; für Durchsagen im öffentlichen Bereich oder für Ansagen in lärmerfüllter Umgebung, z. B. Verkehrsdurchsagen im Radio, sind demnach weibliche Stimmen besser geeignet. Die Sprachspektren  sind von der Sprechlautstärke

70 

 2 Schallquellen

abhängig, je lauter gesprochen wird, umso obertonreicher ist das Sprachspektrum (Abb. 2/3 und 2/4). Die statistischen Sprachspektren zeigen charakteristische Maxima: das erste Maximum ist geschlechtsspezifisch und kennzeichnet die Sprechtonhöhe; bei männlichen Sprechern liegt sie um 150 Hz, bei Sprecherinnen um 250 Hz. Weitere Maxima liegen bei Sprecherinnen um 500 Hz und um 1.500 Hz, bei laut sprechenden Männern ebenfalls um 1.500 Hz. Die wesentlichen Komponenten der Sprache beschränken sich auf das Frequenzband von 100 Hz bei Männern bzw. 200 Hz bei Frauen bis 10 kHz; darüber gibt es nur noch Spektralkomponenten von Zischlauten S, SCH, Z und F.

Abb. 2/3. Durchschnittliche Spektren deutscher Sprache von männlichen Sprechern, für leise, mittellaut und für laut gesprochene Sprache, Schalldruckpegel je Terzbereich.

Abb. 2/4. Durchschnittliche Spektren deutscher Sprache von Sprecherinnen, für leise, mittellaut und laut gesprochene Sprache, Schalldruckpegel je Terzbereich.

2.1 Menschliche Stimme 

 71

2.1.1.2 Sprachschallpegel Der Sprachschallpegel ist der durch Sprache hervorgerufene Schallpegel in einem gegebenen Abstand vom Sprecher. Da sich Sprache in ihrem Pegel und Spektrum dauernd ändert, ist die Angabe eines gemittelten Spitzenpegels sinnvoll; die Angabe in bewerteten Pegeln (siehe Kap. 1.2.1.3) erleichtert den Vergleich mit Störgeräuschen. Demnach beträgt der Schallpegel in 60 cm Entfernung vor dem Mund eines Sprechers etwa 60 dBA, er erhöht sich bei lauterem Sprechen um 6 dB und erreicht bei unnatürlich lautem Sprechen Werte von etwa 76 dBA bei Männern bzw. 68 dBA bei Frauen. Die Werte liegen bei 30 cm Abstand rund 4 dB höher, bei 120 cm 4 dB niedriger. Die extremen Formen des Sprechens, Murmeln und sehr lautes Sprechen, erweitern die Dynamik nach unten bzw. oben nochmals um etwa 5 dB. Die genannten Werte gelten für die ausgebildete „Mikrofonstimme“, die durch einen gleichmäßigeren Lautstärkeverlauf gekennzeichnet ist als die „Bühnenstimme“. Die Pegelstruktur von Sprache kann als Abfolge von Impulsen gekennzeichnet werden, gebildet durch die einzelnen Phoneme. Das führt zu einem Durchschnittspegel, der um rund 12 dB unterhalb des Spitzenpegels liegt. Dadurch wirkt Sprache leiser als z. B. Popmusik mit derselben Aussteuerung, aber lauter als klassische Musik. Dies ist wichtig für ein Gleichgewicht der Lautstärken von Musik und Sprache z. B. im Sendungsablauf (siehe Kap. 19.4). 2.1.1.3 Singstimme In akustischer Hinsicht  sind die Unterschiede zwischen Sprech- und Singstimme nicht  so erheblich, wie dies vom Höreindruck her erscheint. Da nur Laute mit harmonischen Spektren eine Tonhöhe besitzen, werden diese im musikalischen Ablauf der Stimmführung besonders hervorgehoben und gedehnt. Während sich die Sprechtonhöhe gleitend und häufig ändert, ist die Singtonhöhe an bestimmte Tonstufen, an die Tonstufen der Tonleiter gebunden. Die Formantbereiche werden besonders bei der weiblichen Stimme der jeweiligen Grundtonhöhe in einem gewissen Rahmen angepasst; im Allgemeinen entsteht daraus eine Verdunklung des Vokalcharakters. Von erheblicher Bedeutung für die Klangfarbe der  männlichen Singstimme ist der  sog. Singformant zwischen 2,8 und 3  kHz verbunden  mit einer generellen Verstärkung höherer Klangkomponenten, der der Stimme ein Durchsetzungsvermögen auch gegen ein lautes Orchester gibt. Dieser Formant tritt bei der Sprache nicht auf. Kennzeichnend für die ausgebildete Stimme ist weiterhin das Vibrato verbunden mit einem Tremolo der Stimme, also Tonhöhen- und Lautstärkeschwankungen. Besondere Betonung und Dehnung der Vokale, Umstimmung der Formanten, Singformant, Vibrato und größere Lautstärke und Dynamik kennzeichnen rein akustisch also im Wesentlichen die Stimme  mit besonderer Gesangsausbildung. Dynamik und Höchstpegel der Singstimme hängen selbstverständlich von dem Musikstil und dem jeweiligen Sänger ab. Hohe Frauenstimmen, also Soprane, und hohe Männerstimmen, also Tenöre, erreichen mit 50 bis 60 dB die größten Dynamikwerte, die Spitzenpegel können bei üblichem Mikrofonabstand über 100 dB liegen. Der Tonhöhenbereich einer Singstimme ist ihre Stimmlage. Sopran, Alt, Tenor und Bass sind die Hauptstimmlagen (Abb. 2/5). Die Eignung einer Stimme bzw. eines Gesangssolisten für bestimmte Rollentypen kennzeichnet das Stimmfach, z. B. dramatischer Sopran, Koloratursopran, lyrischer Alt, Heldentenor, jugendlicher Liebhaber, Bassbuffo.

72 

 2 Schallquellen

Abb. 2/5. Ton- und Frequenzlagen der Singstimmen.

2.1.2 Gerichtete Schallabstrahlung Wie die Musikinstrumente hat auch die menschliche Stimme keine allseitig gleiche Schallabstrahlung,  sondern eine frequenzabhängige Schallbündelung, besonders im Frequenzbereich über 2 kHz. Wandert man mit einem Mikrofon um einen Sprecher, so ändert sich also die Klangfarbe der Stimme. Abb. 2/6 zeigt, wie sich die Spektren bei Aufnahme von der Seite und von hinten vom Spektrum bei Aufnahme von vorne unterscheiden.

Abb. 2/6. Unterschiede der Spektren von Gesang bei verschiedenen Aufnahmerichtungen.

Der gewohnte und erwartete Sing- und Sprachklang ergibt sich in der Hauptabstrahlrichtung des Munds. Oft werden aber die von Moderatoren, Rednern oder Reportern benutzten Mikrofone an einer um den Hals gelegten Schnur getragen oder an der Kleidung befestigt vor der Brust getragen (siehe Kap.  4.2.4.4). Solche Mikrofone werden Lavalier-Mikrofone genannt. Dadurch ergeben sich aber am Ort des Mikrofons Klangverfälschungen, hervorgerufen durch die Schallabstrahlung der Brust und die Abstrahleigenschaften des Munds. Neben verstärk-

2.1 Menschliche Stimme 

 73

ter Tiefen- und verringerter Höhenabstrahlung verursacht eine Anhebung von etwa 6  dB in einem  schmalen Frequenzband bei 700  Hz bei Sprechern bzw. etwas darüber bei Sprecherinnen eine Klangfärbung (Abb.  2/7). Wird der Frequenzgang des Mikrofons korrigiert (Abb.  4/39), was bei einigen Lavalier-Mikrofonen geschieht, ist ein Unterschied zwischen Aufnahmen vor dem Mund und der Brust kaum hörbar.

Abb. 2/7. Frequenzgang von Sprache vor der Brust des Sprechers.

2.1.3 Sprachverständlichkeit Unter Sprachverständlichkeit versteht man nicht ein akustisches Merkmal der Sprache, auch wenn sie undeutlich artikuliert wird; es handelt sich vielmehr um Merkmale, die die Sprache bei der Aufnahme, Übertragung oder Wiedergabe hinzugefügt werden, beginnend etwa bei dem Raumhall, bei Nebengeräuschen, Frequenzgangveränderungen bis hin zur Wiedergabe. Die Sprachverständlichkeit ist ein grundlegendes Kriterium für die Beurteilung der Hörsamkeit von Räumen für Sprachdarbietungen (siehe Kap. 1.3.2) und für die Übertragungsqualität in der Tontechnik. Die Silben- oder Phonemverständlichkeit wird ermittelt, weil auch Einzelsilben, z. B. Zahlen, verständlich sein sollen. Sie wird gemessen in % der richtig verstandenen Silben bezogen auf die Gesamtzahl einer Reihe von Prüfsilben. Dabei werden Testsilben ohne Bedeutung verwendet wie z. B. „pus“ oder „fog“. Die Wortverständlichkeit liegt grundsätzlich über der Silbenverständlichkeit, die Satzverständlichkeit über der Wortverständlichkeit. Eine Silbenverständlichkeit von etwa 70 – 90 %, entsprechend einer Satzverständlichkeit von rund 95 %, wird als gute bezeichnet; eine Silbenverständlichkeit von 90 – 95 % ergibt eine Satzverständlichkeit1 von 100 %. Abb. 2/8 zeigt die Silben-, Wort- und Satzverständlichkeit als Beispiel in Abhängigkeit von der oberen Grenzfrequenz der Übertragung und die Wortverständlichkeit in Abhängigkeit vom Störabstand der Übertragung. Auf die Verständlichkeit haben weitere Gegebenheiten Einfluss, in Räumen besonders die Nachhallzeit und ihr Frequenzgang. Der Sprachübertragungsindex erfasst in Prozentangaben die Verständlichkeit, die insbesondere zur Warnung von Personen und die Räumung eines Gebäudes wichtig ist [DIN EN IEC 60268-16].

74 

 2 Schallquellen

Abb. 2/8. Silben-, Wort- und Satzverständlichkeit, abhängig von der oberen Grenzfrequenz des Übertragungssystems.

Zur Verbesserung der Sprachverständlichkeit gibt es  mittlerweile eine große Anzahl von Tools, die automatisiert eine Mischung so umformen, dass das gesprochene Wort hervorgehoben und damit seine Verständlichkeit verbessert wird. Dafür werden verschiedene Technologiebausteine einzeln oder in Kombination genutzt, die Tools gestatten meist mehrere Parameter nach Gehör einzustellen. Wesentlicher Bestandteil der Verfahren ist die Trennung von Sprache und Hintergrund, die leicht möglich ist, wenn die Sprache in der Mitte, am besten in einem eigenen Dialogkanal, aufgenommen wurde. Eine Anhebung des Sprachpegels um etwa 8 dB und eine Anhebung des Frequenzgangs im Sprachkanal ab etwa 4 kHz können die Verständlichkeit erheblich verbessern. Weitere Erläuterungen finden sich in Kap. 17.7.1.3 und 17.7.2.

2.2 Musikinstrumente 2.2.1 Akustische Eigenschaften Für akustische Untersuchungen der Klangeigenschaften von Musikinstrumenten ist es wegen der großen Zahl einzelner Messdaten notwendig, anschauliche Formen der grafischen Darstellung zu finden. Für die Erfassung der Klangeigenschaften müssen zwei Größen angegeben werden: die Frequenzen der Klangkomponenten und ihre Stärke; notwendig ist in bestimmten Fällen auch die Darstellung des zeitlichen Verlaufs dieser Größen. Damit ergibt sich für die vollständige Darstellung eines Schallereignisses eine dreidimensionale bzw. pseudodreidimensionale grafische Darstellung. Entsprechend dem Ziel einer akustischen Veranschaulichung kann aber auch eine der drei Darstellungsebenen herausgegriffen werden (Abb. 2/9). Ein Beispiel einer pseudodreidimensionalen Darstellung zeigt Abb. 2/10.

2.2 Musikinstrumente 

 75

Die Schallgrößen können entweder linear als Amplitude bzw. Frequenz angegeben werden oder logarithmiert und auf einen Bezugswert bezogen als Pegel oder bei Frequenzen als reines Zahlenverhältnis, d. h., als Intervall; als Intervalle kommen vor allem Terzen mit dem Frequenzverhältnis 5 : 4, Oktaven mit dem Frequenzverhältnis 2 : 1 und Dekaden mit dem Frequenzverhältnis 10 : 1 in Betracht. Die Wahl der jeweiligen Darstellungsweise hängt davon ab, was untersucht oder dargestellt werden soll.

Abb. 2/9. Möglichkeiten der Darstellung eines Klangs bzw. musikalischen Tons.

76 

 2 Schallquellen

Abb. 2/10. Beispiel für eine pseudodreidimensionale Klangdarstellung, Ausschnitt aus dem Wort MontrEAL.

Die nachfolgend im Einzelnen erläuterten akustischen Eigenschaften der Musikinstrumente werden im Detail in Tab.  2/4 zusammengefasst. [Meyer, 2015], [Roederer, 1999], [Fletcher, 1998], [Dickreiter, 2007], [Howard, 2009], [Terhardt, 1998] Jeder Einzelton eines Instruments kann in zwei oder drei zeitlich aufeinander folgende Abschnitte geteilt werden (Abb. 2/11): –– Klangeinsatz, Einschwingen: Zeitabschnitt, in dem  sich der Klang aus der Ruhe bis zu seinem eingeschwungenen Zustand entwickelt, –– Quasistationärer Schwingungszustand: zentraler Zeitabschnitt des Tons, in dem der Klang als weitgehend unveränderlich betrachtet werden kann; auch die stets vorhandenen, für die Klangcharakteristik sehr wichtigen kleinen Schwankungen können noch im Rahmen des quasistationären Zustandes gesehen werden, –– Ausklingen: Zeitabschnitt, in dem der Klang nach dem Ende  seiner Anregung bis zur völligen Ruhe ausklingt, vergleichbar dem Nachhall eines Raums.

Abb.  2/11. Zeitliche Abschnitte eines musikalischen Tons.

2.2 Musikinstrumente 

 77

2.2.1.1 Klangeinsatz Der Klangeinsatz ist ein jeweils einmalig ablaufender Vorgang kurzer Dauer. Kurze Klangeinsätze dauern bis etwa 10  ms, lange Klangeinsätze, wie etwa beim Kontrabass, zwischen 100 und 500 ms; typisch ist eine Dauer von 15 bis 50 ms. Kurzen Klangeinsätzen kann kein Spektrum, das aus einzelnen Linien zusammengesetzt ist, zugeordnet werden,  sondern nur eine sog. Spektralfunktion, die Einhüllende einer Unzahl dicht nebeneinander liegender Spektrallinien. Ein  solches kontinuierliches Spektrum empfindet  man als kurzzeitiges Geräusch, als Knack etwa. Das trifft z. B. auch bei einem plötzlich eingeschalteten Tonsignal zu, bei dem Geräuschanteile entstehen, die als Einschaltknack hörbar werden. Erfolgt der Einschaltvorgang nicht plötzlich,  sondern kontinuierlich während eines längeren Zeitabschnitts, so verringern sich auch die Geräuschanteile bzw. der Einschaltknack. Dementsprechend  sinkt der Anteil geräuschhafter Komponenten  mit der Dauer des Klangeinsatzes. Je größer die Bandbreite eines Resonanzsystems oder eines Filters ist, umso kürzer ist die Einschwingzeit. Man betrachtet das Einschwingen als beendet, wenn die Amplitude den Bereich von ± 10 % ihres Werts im eingeschwungenen Zustand nicht mehr verlässt. Musikinstrumente  sind  sehr komplexe Schwingungssysteme, bei denen Resonanzen und ihre Wechselwirkungen eine besondere Rolle  spielen. Gerade aber Resonanzen verhindern einen raschen, knackenden Klangeinsatz, weshalb die Klangeinsätze der  meisten Musikinstrumente weicher als geschaltete Sinustöne klingen. Der spezifische Klangeinsatz prägt einen Instrumentenklang ebenso wie der Teiltonaufbau, die Formanten, Geräuschanteile und Pegelschwankungen. Es herrscht eine sehr große Vielfalt der Natur des Klangeinsatzes: Harte Klangeinsätze von wenigen Millisekunden Dauer z. B. bei Schlaginstrumenten und Zungenpfeifen der Orgel, bilden das eine Extrem, weiche Klangeinsätze von mehr als 0,5 s Dauer z. B. bei den tiefen Lippenpfeifen der Orgel und beim Kontrabass, das andere. Lange, deutlich hörbare Klangeinsätze verdeutlichen einen Melodieverlauf, besonders wenn andere Stimmen gleichzeitig gespielt werden. Wichtig für den Klangcharakter ist auch, in welcher Reihenfolge und mit welcher Stärke die einzelnen Teiltöne einsetzen. Blechblasinstrumente können sog. Vorläuferimpulse haben, die dem Klang, je nach ihrer Länge, Prägnanz verleihen oder als sog. Kiekser störend wirken. 2.2.1.2 Quasistationärer Klangabschnitt Der quasistationäre Klangabschnitt ist bei akustischen Musikinstrumenten praktisch immer, bei elektronischen Musikinstrumenten je nach Art der Klangerzeugung dauernden Veränderungen unterworfen: Durch Überlagerung sich geringfügig in der Frequenz unterscheidender Klangkomponenten oder Töne entstehen Schwebungen, also Pegelschwankungen,  so beim Klavier, bei der Orgel, bei Chören und bei mehrfach besetzten Orchesterstimmen. Das Vibrato der Singstimme, der Streichinstrumente und der meisten Blasinstrumente entsteht durch periodische Frequenzschwankungen, verbunden mit Pegelschwankungen. Der Begriff Tremolo wird für reine Pegelschwankungen, entstanden durch dichte Aneinanderreihung kurzer Klänge, verwendet. Zu diesen leicht wahrnehmbaren Schwankungen können geringere oder stärkere unregelmäßige, mikrozeitliche Schwankungen, also Rauheiten (siehe Kap. 3.3.5) hinzukommen, die  meist nicht bewusst als  solche wahrgenommen werden. Sie entstehen bei der Überla-

78 

 2 Schallquellen

gerung der harmonischen Komponenten  mit Geräuschkomponenten und charakterisieren das sog. Gattungstimbre: es lässt den Hörer erkennen, ob es sich bei einem Instrument um ein Streich-, Holzblas- oder Blechblasinstrument handelt, bevor er noch erkannt hat, ob es sich z. B. um eine Violine oder um ein Violoncello handelt. Tab. 2/2 fasst die wesentlichen Eigenschaften des Spektrums des quasistationären Klang­ abschnitts zusammen. Das Amplitudenspektrum gibt keine Auskunft über die Phasenlagen der einzelnen Komponenten. Ihr Einfluss kann hörbar sein, wenn auch nicht so bestimmend wie Pegel und Frequenzen der Klangkomponenten. Die Hörbarkeit hängt stark von der jeweiligen Struktur des Spektrums ab; bei Kopfhörerwiedergabe sind Phasenverschiebungen noch am leichtesten zu erkennen. Um 1 kHz nimmt das Gehör Phasenänderungen am deutlichsten wahr. Sie bewirken eine Klangfarbenänderung oder eine Änderung der Klangrauheit. Eine Phasenverschiebung von 10° bis 30° ist im Allgemeinen noch nicht hörbar. Diese Forderung wird von den Geräten der Tonstudiotechnik erfüllt. Tab. 2/2. Eigenschaften von Klangspektren und ihre Bedeutung für die Wahrnehmung und die Tonübertragungstechnik. Eigenschaft des Spektrums

Bedeutung für die Wahrnehmung

Bedeutung für die Tonübertragungstechnik

Frequenzumfang und Teiltonstärke gering

Klang weich, nichtlineare Verzerrungen leicht hörbar

empfindlich gegen nichtlineare Verzerrungen und Übersteuerungen

Frequenzumfang und Teiltonstärke groß

Klang scharf und laut

empfindlich gegen nichtlineare Verzerrungen und Übersteuerungen im obersten Übertragungsbereich

harmonisches Linienspektrum

Tonhöhencharakter deutlich, Klarheit des Klangs

unharmonisches Linienspektrum

Tonhöhencharakter, undeutlich, Klang „unsauber“

kontinuierliches Spektrum, Geräuschspektrum

Klang geräuschhaft

Formanten, resonanzartiges Hervortreten bestimmter Frequenzbereiche

Vokalcharakter, Klang ähnlich z. B. A, O, Ä, kennzeichnend vor allem für Doppelrohrblatt- und Blechblasinstrumente

Teiltonaufbau Die periodischen Schwingungsvorgänge des eingeschwungenen Klangs setzen sich aus dem Grundton und Obertönen zusammen, deren Frequenzen jeweils ein ganzzahliges Vielfaches der Frequenz des Grundtons sind. Spricht man von Teiltönen, Partialtönen oder Harmonischen, so wird die Grundfrequenz mitgezählt, spricht man von Obertönen, so wird die

2.2 Musikinstrumente 

 79

Grundfrequenz nicht mitgezählt. Naturtöne werden bei Blasinstrumenten die durch das sog. Überblasen erklingenden Töne genannt; sie entsprechen etwa, aber nicht genau, den Teiltönen. Abb. 2/12 zeigt die ersten 16 Teiltöne der Teiltonreihe. Der 7., 11. und 14. Teilton liegt tiefer, der 13. Teilton höher als der entsprechende Ton in der heute üblichen  sog. temperierten Stimmung der Instrumente. Die übrigen Töne sind in der sog. reinen Stimmung, sie unterscheiden  sich nur geringfügig von den entsprechenden Tönen unserer temperierten Stimmung. Lediglich der 2. Teilton, die Oktave, passt exakt in das heute benutzte System der musikalischen Stimmung, die sog. temperierte Stimmung. Wegen der einfachen, ganzzahligen Frequenzverhältnisse der Teiltöne zueinander verschmelzen diese vollkommen zu einem einheitlichen Klangeindruck. Der Grundton oder 1. Teilton ist keineswegs immer am  stärksten,  sehr oft, gerade bei lauten Klängen, liegt die größte Intensität bei höheren Teiltönen. Fällt der Grundton in den Bereich sehr tiefer Frequenzen, so ist seine Intensität meist recht gering. In diesem Fall bildet das Gehör,  sogar wenn der Grundton völlig fehlt, aus dem Obertonspektrum den Grundton subjektiv nach, er wird dann Residualton genannt. Liegt der 1. Teilton im Bereich hoher Frequenzen, so überwiegt er meist in seiner Intensität über die anderen Teiltöne. Sind die ungeradzahligen Teiltöne stärker als die geradzahligen, so wird der Klang gedeckt bis hohl. Beispiele hierfür sind die Klänge der sog. gedackten Orgelpfeifen und der tiefen Tonlage der Klarinette. Das Hervortreten der geradzahligen Teiltöne, insbesondere des 2., 4., und 8. Teiltons, fördert ein helles, offenes Klangbild.

Abb. 2/12. Teiltonaufbau eines Klangs entsprechend dem Ton C. Die Teiltöne mit Pfeil nach unten klingen tiefer als notiert, mit Pfeil nach oben höher als notiert.

Über den jeweiligen Frequenzumfang des Klangs eines Musikinstruments kann nur eine allgemeine Aussage gemacht werden. Er hängt nicht nur von der Spielweise und dem jeweiligen Instrument ab, sondern insbesondere von der gespielten Dynamikstufe, aber auch von den raumakustischen Verhältnissen. Angaben über Frequenzumfänge haben also stets statistischen Charakter. Unterhalb des 1. Teiltons gibt es keine stationären Schwingungen mehr; nur die Geräuschanteile des Klangs reichen unter die Grundtonfrequenz. Formanten Viele Musikinstrumente haben über ihren ganzen Tonbereich hinweg einen bestimmten, für  sie typischen Klangcharakter. Dieser wird einerseits durch die relative Stärke der einzelnen Teiltöne bestimmt, andererseits durch sog. Formanten. Wie es bei den Vokalen von Sprache und Gesang bestimmte feste Frequenzbereiche gibt, in denen die Teiltöne unabhängig von der Lage des Grundtons verstärkt werden, so wird auch die Klangfarbe von Musikin-

80 

 2 Schallquellen

strumenten durch einen oder mehrere solcher Formantbereiche charakterisiert. Während bei Streichinstrumenten diese Formantbereiche durch Resonanzen des Resonanzkörpers und des darin eingeschlossenen Luftvolumens aus dem Spektrum der schwingenden Saite herausgehoben werden, werden die Formanten bei den Blasinstrumenten bei der Tonbildung im Mundstück erzeugt. Durch die besondere Schwingungsform des Anblasvorgangs entstehen die Formanten bereits bei der Tonerzeugung, nicht erst durch Resonanzen. Hat ein Instrumentenklang zwei Formanten, so bilden deren Maxima ein charakteristisches Intervall, ein einfaches Zahlenverhältnis. Beim Wechsel von einem leisen zu einem lauten Klang springt das Maximum von einem tieferen in einen höheren Formantbereich. Geräuschkomponenten Weiterhin  sind Geräuschanteile im  stationären Klang eine wesentliche Komponente des Klangcharakters eines Musikinstruments. Sie entstehen bei Streichinstrumenten durch Unregelmäßigkeiten des Bogens beim Streichen der Saite, bei Blasinstrumenten als Strömungsgeräusch beim Anblasen. Bei den Doppelrohrblattinstrumenten Oboe, Englisch Horn und Fagott  sinkt  mit wachsender Gebrauchsdauer des Rohrblatts der Pegel des Geräuschspek­ trums. Die Nebengeräusche tragen nicht nur zur Klangcharakteristik bei, sondern erhöhen auch die Lebendigkeit des Klangs. Die Flöte enthält als charakteristische Klangkomponente einen besonders deutlich wahrnehmbaren Geräuschhintergrund. 2.2.1.3 Ausklingvorgang Nach Beendigung der Erregung eines Klangs ist in den Resonanzsystemen des Musikin­ struments noch Energie gespeichert, die im Ausklingvorgang abgegeben wird. Je weniger ein Resonanzsystem bedämpft ist, desto länger klingt es nach. Meist  sind höhere Teiltöne stärker bedämpft, so dass sich beim Ausklingen die Klangfarbe dunkler und weicher färbt. Die längste Nachklingzeit haben Instrumente mit gezupften und geschlagenen Saiten wie Cembalo, Gitarre, Harfe oder Klavier. Da bei diesen Instrumenten eine kontinuierliche Klanganregung fehlt, besteht der ganze Klang nur aus dem Einschwing- und Ausklingvorgang. Die kürzeste Ausklingzeit haben Blasinstrumente, da das schwingende Luftvolumen nur einen geringen Energieinhalt besitzt. Der Nach- oder Abklingvorgang kann durch verschiedene Kenngrößen erfasst werden [DIN 1311]. In der musikalischen Akustik ist eine Definition analog zur Nachhallzeit oder Nachhalldauer (siehe Kap. 1.3.4) als Nachklingzeit bzw. Nachklingdauer besonders anschaulich. Bei Tonaufnahmen kann es bei der langen Nachklingdauer, z. B. des Klaviers mit 20 bis 40 s, des Cembalos und der Zupfinstrumente dadurch zu Problemen kommen, dass einzelne Töne z. B. am Schluss eines Satzes  sehr lange nachklingen, wenn  sie vom Musiker nicht bewusst abgedämpft werden; oft müssen sie dann durch Blenden beendet werden. Ein anderes Phänomen lange nachklingender Instrumente ist die Tatsache, dass sie sozusagen ihren eigenen Nachhall mitbringen, der den Raumhall überdecken kann. So kann es z. B. bei einer Gesangsaufnahme mit Klavier geschehen, dass der Sänger mit Explosivlauten den Raumhall deutlicher anstößt als das Klavier, er also scheinbar in einem größeren Raum ist als das Klavier. Räume mit viel Hall sind für solche Aufnahmen also weniger geeignet.

2.2 Musikinstrumente 

 81

2.2.1.4 Musikalische Dynamik Die  musikalische Dynamik beschreibt die Stärkegrade,  mit denen ein Klang auf einem Musikinstrument oder  mit der  menschlichen Stimme hervorgebracht wird. Die Stufen der Dynamik tragen traditionell italienische Bezeichnungen (Tab. 2/3), wie auch die Tempo- und Vortragsbezeichnungen. Tab. 2/3. Stufen der musikalischen Dynamik. Abkürzung, italienisch

Dynamikstufe, italienisch

Dynamikstufe, deutsch

ppp pp p mp mf f ff fff

pianissimo possibile pianissimo piano mezzopiano mezzoforte forte fortissimo forte fortissimo

so leise wie möglich sehr leise leise halbleise halblaut laut sehr laut so laut wie möglich

Die einzelnen Dynamikstufen oder -grade sind zwar durch den Pegel des Klangs gegeben, weit wichtiger ist aber ihre jeweils spezifische Klangstruktur. Es ist nämlich nicht möglich, durch einfaches Erhöhen der Abhörlautstärke oder durch Annäherung an die Schallquelle – in beiden Fällen  steigt der Pegel an – einem pp-Klang in einen ff-Klang zu verwandeln. Die verschiedenen Dynamikstufen sind wohl mit verschiedenen Pegelabstufungen verbunden, umgekehrt können aber verschiedene Pegelabstufungen allein nicht unterschiedliche Dynamikstufen erzeugen. Aus diesem Grund kann die Dynamik auch in einem bestimmten Rahmen komprimiert werden, ohne dass der musikalische Ablauf deutlich beeinträchtigt wird. Die Abstufung der Dynamik ist eines der wesentlichen musikalischen Gestaltungsmittel. Sie wird durch unterschiedliche Klangerzeugung erreicht. Die dynamischen Grade unterscheiden sich außer in Dauer und Struktur des Einschwingvorgangs hauptsächlich im  spektralen Aufbau des quasistationären Klangs. Je höher der dynamische Grad ist, umso mehr Teiltöne werden ausgebildet und umso mehr erhöht sich der Pegel der höheren Teiltöne. Abb. 2/13 zeigt dies am Beispiel verschiedener Klarinettenspektren. Daraus wird deutlich, dass die  spektralen Unterschiede der Dynamikstufen bei dem tiefen Ton viel ausgeprägter sind als bei dem hohen Ton. Wegen der geringeren Anzahl von Teiltönen bei hohen Tönen sind hier nicht nur die Spektren der Dynamikstufen relativ ähnlich, überhaupt nähern  sich die verschiedenen Instrumente im hohen Tonbereich in ihren Spektren einander an, d. h., sie klingen ähnlicher. Natürlich  steigt  mit der Stärke eines Klangs auch  sein Pegel an, aber dies geschieht auch, wenn man sich einer Schallquelle nähert, wenn man die raumakustischen Gegebenheiten verändert oder bei der Aufnahme den Pegel anhebt. Dies bewirkt aber keine Klangveränderung im Sinne einer Steigerung des Dynamikgrads. Abb. 2/14 gibt einen ungefähren Überblick über die zu erwartenden Dynamikbereiche bei Ausnutzung der spieltechnischen Möglichkeiten, auch über das Verhältnis der Pegel der verschiedenen Instrumente zueinander [Meyer, 1990]. Besonders starke Pegelunterschiede bzw. eine besonders große Dynamik

82 

 2 Schallquellen

zeigen Klarinette, Horn, Posaune und Pauke. Bei den Tasteninstrumenten haben Klavier und Orgel eine sehr große, das Cembalo oder auch die Blockflöte eine recht geringe Variationsbreite des Pegels.

Abb. 2/13. Spektren der Klarinette in verschiedenen Dynamikstufen, links: tiefer Ton, rechts: hoher Ton.

Streichinstrumente  sind durchschnittlich halb  so laut wie Holzblasinstrumente, d.  h., um etwa 10 dB niedriger im Pegel; Holzblasinstrumente sind ihrerseits 5 bis 10 dB niedriger als Blechblasinstrumente. Die Gesamtdynamik eines Orchesters kann 60 bis 80 dB betragen, in besonderen Fällen 100 dB oder mehr, je nach Besetzung und Stil der Musik sowie je nach ihrer Interpretation. Die Dynamikwerte bei Studioproduktionen sind im Allgemeinen höher als bei Konzerten mit Publikum, weil die Abwesenheit von Saalgeräuschen hier ein besonders ausgeprägtes Pianissimo zulässt. 2.2.1.5 Stimmung der Instrumente Die Stimmung eines Instruments umfasst zwei Festlegungen: –– die Festlegung der absoluten Tonhöhe durch Definition des Kammertons a‘, –– die Festlegung der relativen Tonhöhen der einzelnen Töne zueinander.

2.2 Musikinstrumente 

 83

Abb. 2/14. Dynamikumfang von Musikinstrumenten, Orchester und Stimme.

Die absolute Tonhöhe wird nach einer Stimmgabel oder einem elektronischen Generator auf Grund eines internationalen Übereinkommens für den Kammer- oder Stimmton, genauer Normalstimmton a‘ eingestimmt [ISO 16] und in eine deutsche Norm übernommen [DIN 1317]. Orchester übernehmen den Stimmton traditionell von der Oboe bzw. dem Klavier oder der Orgel. Seit der Londoner Stimmtonkonferenz 1939 hat der Kammerton bei 20 °C  die Frequenz 440  Hz, 1971 wurde diese Empfehlung vom Europarat nochmals bestätigt. Meist wird jedoch höher eingestimmt, z. B. oft auf 442 Hz, aber auch bis 445 Hz oder noch höher. Die Stimmtonhöhe hat in der Vergangenheit verschiedenste Werte angenommen. Sie hing von der Gattung ab: der Opernton in Opernhäusern, der Kammerton in der herrschaftlichen Kammer, der Orgel-, Kirchen-, Chor- oder Cornettton für die Kirche, war aber auch je nach Ort und Zeit unterschiedlich; nach 1800 verschwinden die Unterschiede allmählich. 1788 wurde in Frankreich für a‘ 409 Hz (frühe Pariser Stimmung), 1858 435 Hz (Pariser Stimmung) festgelegt und in den angrenzenden Ländern zunehmend übernommen. Demnach kann es keine einheitlich richtige  sog. historische Stimmung geben, im Allgemeinen versteht  man heute darunter einen Kammerton von 415 Hz; ein Halbton unterhalb des aktuellen Kammertons mit

84 

 2 Schallquellen

440 Hz. Der oft diskutierte Charakter einer Tonart ist bei rein akustischer Betrachtung also kaum oder nicht nachvollziehbar. Für die relative Stimmung der einzelnen Töne untereinander, also der Intervalle zwischen den einzelnen Tönen des Tonsystems, gibt es mehrere Möglichkeiten: –– die heute übliche sog. gleichschwebend temperierte Stimmung, –– die reine Stimmung, –– verschiedene historische Stimmungen, insbesondere Barockstimmungen. Gleichschwebend temperierte Stimmung: Temperiert gestimmt, wie man verkürzt sagt, sind alle modernen Instrumente, bei denen der Spieler keinen oder wenig Einfluss auf die Bildung der Tonhöhe hat, wie z. B. das Klavier. Bei dieser Stimmung sind alle Halbtöne gleich groß und haben das Frequenzverhältnis : 1 oder etwa 106 : 100. Für die Größe eines Halbtons bzw. allgemein von Intervallen wurde 1875 von John Ellis als logarithmische Maßeinheit das Centmaß eingeführt; ein Halbton ist dabei mit 100 Cent definiert, eine Oktave mit ihren 12 Halbtonschritten hat also 1.200  Cent. Das Centmaß ist besonders nützlich beim Vergleich verschiedener historischer Stimmungen. Bei der temperierten Stimmung gibt es keine Unterschiede zwischen den Tonarten auf Grund der Stimmung. Reine Stimmung: Instrumente, bei denen der Spieler erst während des Spiels die genaue Tonhöhe frei fixiert, was hauptsächlich bei Streichinstrumenten und Sängern zutrifft, können demgegenüber teilweise in der  sog. reinen Stimmung  spielen bzw.  singen, zumal dann, wenn sie nicht mit temperiert gestimmten Instrumenten zusammenspielen, sondern nur untereinander Intervalle und Akkorde intonieren. Bei dieser Stimmung haben die Intervalle ganzzahlige, einfache Frequenzverhältnisse wie die Teiltöne eines Klangs gemäß Abb. 2/12. Sie vermischen sich beim Zusammenspiel vollständig miteinander, ein besonderes Klangerlebnis. Das Intervall einer Quinte z. B. erscheint zwischen dem 2. und 3. Teilton, hier c“ und g“, das Intervall hat das Zahlenverhältnis 3 : 2 = 1,5. in der temperierten Stimmung hat dieses Zahlenverhältnis den nicht gerade einfachen Wert . Allerdings kann diese Stimmung in der Praxis nur angewendet werden, wenn die Tonhöhe ständig beeinflusst werden kann, also besonders bei Sängern sowie Streich- und Blasinstrumenten. Das Tonsystem der reinen Stimmung ist kein geschlossenes, widerspruchsfreies System. Historische Stimmungen: Bevor sich die gleichschwebend temperierte Stimmung nach 1800 allmählich durchsetzen konnte, waren verschiedene andere temperierte Stimmungen in Gebrauch, die die unterschiedlichsten Kompromisse zwischen reiner und gleichschwebend temperierter Stimmung darstellen: in der Renaissance die sog. mitteltönigen Stimmungen, zwischen 1600 und 1800 die sog. Barockstimmungen, vielfach die Stimmungen Werckmeister-II und -III sowie Kirnberger-III. Sie geben den einzelnen Tonarten unterschiedliche Intervallstrukturen und damit auch einen speziellen, individuellen Klangcharakter [Forss, 2007].

2.2.2 Akustische Instrumente Nachfolgend werden die akustischen Eigenschaften der Musikinstrumente beschrieben. Für Fragen der Instrumentenkunde wird auf die zahlreich vorhandene Literatur verwiesen, z. B.

2.2 Musikinstrumente 

 85

[Baines, 2010], [Dickreiter, 2007], [Marimovici, 2008]. Tab. 2/4 fasst die wichtigsten akustischen Eigenschaften der Instrumente zusammen. 2.2.2.1 Streichinstrumente Von den verschiedenen Typen der Streichinstrumente, die im Laufe der Geschichte entwickelt und gespielt wurden, sind in der heutigen Musikpraxis v. a. die Violine oder Geige (franz.: violon, ital.: violino, engl.: violin), die Viola oder Bratsche (franz.: alto, ital.: viola, alto, engl.: viola), das Violoncello, oft umgangssprachlich  mit Cello abgekürzt, (franz.: violoncelle, ital.: violoncello, engl.: violoncello) und der Kontrabass oder die Violone (franz.: contre­ basse, basse double, ital.: violone, contrabasso, basso, engl.: double bass) in Gebrauch. Im grundsätzlichen Aufbau gleichen sich diese Instrumente, sie unterscheiden sich aber in ihrer Größe und damit in ihrem Tonbereich. Lediglich der Kontrabass weicht in einigen Konstruktionsmerkmalen vom Typus dieser Instrumente ab. Der Spieler  streicht  mit dem  mit Pferdehaar bespannten Bogen oberhalb des Steges über die Saiten, die er dadurch zum Schwingen erregt. Die Saitenschwingungen werden über den Steg auf den Schall- oder Resonanzkörper übertragen und von diesem umgeformt und abgestrahlt. Das Streichen wird in den Noten mit „col arco“ oder „arco“, das Zupfen mit „pizzicato“, abgekürzt pizz., bezeichnet. Durch einen auf den Steg aufgesetzten Dämpfer, „sordino“, wird die Eigenresonanz des Stegs herabgesetzt, der Klang wird dadurch schwächer und dunkler.

Abb. 2/15. Grundtonbereiche der Streichinstrumente (schwarze Noten), Saitenstimmung (weiße Noten).

Die Tonumfänge der Grundtöne der Instrumente sowie die Stimmung ihrer vier Saiten zeigt Abb. 2/15. Die Violine wird im Violinschlüssel notiert, die Bratsche im Altschlüssel. Kontrabass und Violoncello werden hauptsächlich im Bassschlüssel notiert. Der Kontrabass, der im Orchester gespielt wird, hat noch eine fünfte Saite, er klingt eine Oktave tiefer als notiert. Für Aufführungen der Musik des Barocks werden oft Gamben, insbesondere die Tenorgambe oder Viola da gamba, die etwa in der Tonlage des Violoncellos steht, verwendet. Der Kontrabass, der aus der Familie der Gamben stammt, hat noch Merkmale dieser Instrumente. Violine und Viola Die Violine hat einen relativ unregelmäßigen Teiltonaufbau, der  sich bei weniger guten Instrumenten von Ton zu Ton ändert. Ursache hierfür  sind die komplizierten Resonan­z­ eigenschaften des Resonanzkörpers, auf die die Materialeigenschaften und die Konstruktion großen Einfluss nehmen. Der Pegel des Grundtons überragt nur im Frequenzbereich oberhalb

86 

 2 Schallquellen

etwa 640 Hz den Pegel höherer Teiltöne, bei den tiefsten Tönen liegt er sogar bis 25 dB unter dem Pegel des jeweils stärksten Teiltons. Ein wichtiges Qualitätsmerkmal des Violinklangs ist die Ausprägung von Formanten, die der Violine neben dem Vibrato einen gesanglichen, der Stimme verwandten Klangcharakter verleihen. Eine typische Formantlage für die tiefen Töne ist der Bereich um 275 Hz, verursacht von der Hohlraumresonanz des Resonanzkörpers; ein wichtiger zweiter Formant liegt zwischen 500 und 700 Hz. [Cremer, 1998], [Leonhardt, 1997] Gute Instrumente zeigen besonders zwischen 190 und 650 Hz sowie zwischen 1,3 und 4 kHz relativ starke Teiltonbereiche. Weitere Formanten sind zwischen 2,0 und 2,6 kHz sowie zwischen 3 und 4 kHz. Relativ stark sind die Geräuschanteile ausgebildet, die durch das Streichen entstehen. Sie können bis 30 dB stärker als bei Blasinstrumenten sein. Der Geräuschpegel nimmt in demselben Maße zu wie der Gesamtpegel. Der Spieler kann die Klangfarbe und Lautstärke mit der Bogenführung innerhalb bestimmter Grenzen beeinflussen: Die Streichgeschwindigkeit bestimmt vor allem die Lautstärke, der Bogendruck und die Anstrichstelle auf der Saite die Klangfarbe [Meyer, 1992]. Da die Viola im Bau der Violine entspricht und nur unerheblich größer als diese ist, sind ihre Klangeigenschaften auch sehr ähnlich. Sie ist etwas obertonärmer als die Violine. Die Formantbereiche liegen etwas tiefer, nämlich bei etwa 220, 350 und 600  Hz. Ein weiterer Formant um 1,6 kHz gibt der Viola oft einen etwas näselnden Klang. Violoncello und Kontrabass Wie bei der Violine sind die Grundtöne der tiefsten Töne beim Violoncello sehr schwach ausgeprägt, sie liegen oft bis zu 20 dB unter den stärksten Komponenten dieser Klänge. Oberhalb von etwa 3  kHz  sind die Teiltöne relativ  schwach. Typische Formanten liegen um 240  Hz, zwischen 300 und 500 Hz sowie zwischen 600 und 900 Hz. Manche Instrumente haben bei 1,5  kHz beim Spiel auf der A-Saite einen Formanten, der ähnlich wie bei Viola dem Klang näselnden Charakter verleiht. Andere Instrumente besitzen zwischen 2 und 3 kHz einen Formanten, der den Klang hell färbt. Typisch für den Violoncelloklang ist eine ausgesprochene Senke im Spektrum zwischen 1,0 und 1,2 kHz, also im Bereich des stärksten Violinformanten. Die Einschwingzeit des Violoncelloss liegt bei 60 bis 100  ms. Dadurch  spricht bei  schnellen Tonfolgen der Grundton oft nicht richtig an, der Klang wird in diesem Fall  spitz und geräuschhaft. Auch beim Kontrabass sind die Grundtöne im tiefsten Tonbereich schwach ausgebildet, ihr Pegel ist sogar um etwa 30 dB geringer als derjenige der stärksten Teiltöne. Die wichtigsten Klangkomponenten für die tiefen Kontrabasstöne liegen im Frequenzbereich zwischen 70 und 250 Hz, ein Nebenformant liegt bei 400 Hz. Harmonische Anteile über 1,5 kHz treten kaum auf. Im Bereich der höheren Kontrabasstöne erweitert  sich das Spektrum bis etwa 2,5 kHz. Höher als die harmonischen Klanganteile reicht das Geräuschspektrum mit seinem typischen „Sirren“, hervorgerufen durch das Streichen; es tritt vor allem dann hervor, wenn die Kontrabässe allein spielen, da es anderenfalls durch den Klang höherer Instrumente im Gehöreindruck verdeckt wird. Der Einschwingvorgang dauert länger als bei anderen Streichinstrumenten. Deshalb entwickelt der Kontrabass bei schnellen Tonfolgen nicht seine Klangfülle; außerdem treten hierbei die starken Geräuschanteile der Einschwingvorgänge besonders hervor.

2.2 Musikinstrumente 

 87

2.2.2.2 Holzblasinstrumente Holzblasinstrumente, kurz auch einfach „Holz“ genannt, ist die Sammelbezeichnung für eine Gruppe von Instrumenten des Orchesters, die vor allem Flöte (franz.: flute, ital.: flauto, engl.: flute), Oboe (franz.: hautbois, ital.: oboe, engl.: oboe), Klarinette (franz.: clarinette, ital.: clarinetto, engl.: clarinet), Saxophon (franz. und engl.: Saxophone, ital.:  saxofono) und Fagott (franz.: basson, ital.: fagotto, engl.: basson) einschließlich ihrer Sonderformen umfasst. Wohl ist die Mehrzahl dieser Instrumente aus Holz, aber auch entsprechende Konstruktionen aus Metall, besonders Flöte und Saxophon, werden zu den Holzblasinstrumenten gezählt, da  sie  sich in ihrer Spielweise grundsätzlich von den Blechblasinstrumenten unterscheiden. Der Klang wird entweder durch das Anblasen einer Kante bei Flöten, die Schwingung eines einfachen Rohrblatts bei Klarinette und Saxophon oder eines doppelten Rohrblatts bei Oboe und Fagott als stehende Welle einer Luftsäule erzeugt. Die Tonhöhe wird hauptsächlich durch Schließen oder Öffnen der Grifflöcher verändert, was eine Längenveränderung der  schwingenden Luftsäule bewirkt. Außer dem Grundton der  schwingenden Luftsäule können auch deren Obertöne angeblasen werden, das Instrument „überbläst“. Da sie nicht wie die Obertöne ideal harmonisch zum Grundton liegen, werden sie zur Unterscheidung Naturtöne genannt. Die Grundtonumfänge der wichtigsten Holzblasinstrumente zeigt Abb. 2/16. [Wackernagel, 2005]

Abb. 2/16. Grundtonumfänge der Holzblasinstrumente.

Flöte Den Klang der Flöte, auch Große Flöte oder Querflöte, charakterisiert ein  sehr gleichmäßiger Teiltonaufbau:  mit Ausnahme der tiefsten Töne und  sehr lauter Töne ist der Grundton am  stärksten, was  so deutlich  sonst bei keinem Orchesterinstrument zutrifft. Die Amplitude der Teiltöne nimmt  mit  steigender Ordnungszahl  stetig ab. Formanten gibt es dabei kaum; wenn  solche doch vorhanden  sind, kennzeichnen  sie nicht den Flötenklang als  solchen,  sondern den individuellen Klangcharakter des einzelnen Instruments. Die Anblasgeräusche können deutlich hervortreten. Die höchsten Klangkomponenten liegen je nach der Höhe des angeblasenen Tons bei 3 bis 6 kHz. Typisch für den leisen Flötenklang ist eine starke Schwankung in der zeitlichen Pegelfeinstruktur. Von allen Blasinstrumenten benötigt die Flöte die längste Zeit zum Einschwingen. Kennzeichnend dafür sind die sog. Vorläufertöne, kurze Töne im Frequenzbereich zwischen 2 und 4 kHz, die vor dem eigentlichen Ton anklingen und dem Klangeinsatz einen besonderen Charakter verleihen.

88 

 2 Schallquellen

Tab. 2/4. Übersicht über die Klangeigenschaften der Musikinstrumente. Instrument

Notation

Quasistationärer Zustand Grundtonumfang

Obertonstruktur

Violine

Violinschlüssel

g - etwa c‘‘‘‘ = 196 - 2.100 Hz

große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 10 kHz

Viola

Bratschenschlüssel, Altschlüssel

c - etwa c‘“ = 130 – 1.050 Hz

große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 7 kHz,  max. 10 kHz

Violoncello

Bassschlüssel, hohe Stellen im Tenor- bzw. Violinschlüssel

C - etwa c“ = 65 - 520 Hz

große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 7 kHz,  max. 10 kHz

Kontrabass

Bassschlüssel transponierend, wird eine Oktave höher notiert

E‘ (C) - etwa c‘ = 41 (33) - 260 Hz

große Variabilität, Grundton schwach, Komponenten bis 7 kHz, über 1,5 kHz schwach

Horn in F

Violinschlüssel, H‘ - etwa f‘ auch Bassschlüs= 62 - 700 Hz sel, transponierend, (Instrument in F) wird eine Quinte höher bzw. Quarte tiefer notiert

unterer Tonbereich durch Formanten, oberer durch das Überwiegen des Grundtons gekennzeichnet, Komponenten bis über 5 kHz im ff

Trompete in B

Violinschlüssel, transponierend, wird ein Ganzton höher notiert

e - etwa d‘“ = 164 – 1.175 Hz (Instrument in B)

sehr obertonreich, Komponenten bis 15 kHz im ff, Grundton im ganzen Tonbereich schwach

E - etwa c“ = 82 - 520 Hz (Tenorposaune)

Grundton schwach, obertonreich, Komponenten bis 5 kHz (mf), über 10 kHz im ff

Posaune Altposaune Tenorposaune Bassposaune

Altschlüssel Tenorschlüssel Bassschlüssel

Tuba

Bassschlüssel

etwa B“ - a‘ = 29 - 440 Hz

Grundton schwach, Komponenten nur bis 1,5 - 2 kHz

Klavier, Flügel oder Piano

Violin- und Bassschlüssel

A“ - c‘““ = 27,5 - 4.200 Hz

gleichmäßig abnehmende Obertonamplitude, Grundton überwiegt außer in der tiefen Lage, Komponenten bis über 10 kHz

Cembalo

Violin- und Bassschlüssel

C - f“ (u. a.) = 65 - 1.400 Hz

Grundton schwach, sehr obertonreich, Komponenten bis über 6 kHz

2.2 Musikinstrumente 

Quasistationärer Zustand

Einschwingvorgang

Formantbereiche

Geräuschkomponenten

um 400 Hz, 800 – 2..000 Hz, 2.000 – 2.600 Hz, 3.000 – 4.000 Hz

relativ starkes, typisches Anstrichgeräusch, starker Einfluss der Streichart

 89

Ausklingvorgang

30-60 ms, bei weichem beim gestrichenen Ton Klangeinsatz bis 300 ms, Abreißen des Klangs, Geräuschkomponenten, beim pizz. 40-800 ms beim pizz. 10 ms

um 220, 350, 600 und 1.600 Hz, 3.000 – 3.500 Hz

30-60 ms, bei weichem beim gestrichenen Ton Klangeinsatz bis 200 ms, Abreißen des Klangs, Geräuschkomponenten, beim pizz. 50-600 ms beim pizz. 10 ms

um 250 Hz, zwischen 300 und 500 Hz, 600 und 900 Hz, Senke zwischen 1.000 und 1.200 Hz

60-100 ms, bei kurzen Klängen sehr geräuschhaltig, Grundton spricht zuletzt an

beim gestrichenen Ton Abreißen des Klangs, beim pizz. 50-200 ms (pp), bis 1,4 s (ff) beim gestrichenen Ton Abreißen des Klangs, beim pizz. durchschnittlich etwa 1 s, max. 1,6 s

zwischen 70 und 250 Hz, um 400 Hz, um 800 Hz nur in der hohen Lage

relativ starkes, typisches Anstrichgeräusch („Sirren“) mit Komponenten bis 10 kHz

100-200 ms, bei kurzen Tönen sehr geräuschhaltig und näselnd, beim pizz. 15-25 ms

um 340 Hz, 750, 1225,

schwach

20-100 ms, „Vorläuferim- Abreißen des Klangs puls“ mit Komponenten bis 1 kHz

2.000 und 3.500 Hz, nur im unteren Tonbereich

1.200 – 1.500 Hz, 2.000 und 3.000 Hz

20-180 ms, sehr präg­ nanter Klangeinsatz durch kurzen „Vorläuferimpuls“ mit Komponenten bis 2-3 kHz

480 - 600 Hz, 1.200 Hz

schwacher „Vorläuferimpuls“, 20-40 ms, bei weichem Klangeinsatz etwa 70 ms

210 - 230 Hz

kurzer Klangeinsatz

selten vorhanden

vorhanden, in einzelnen Bereichen mit größerer Amplitude

10-30 ms, sehr geräuschhaltig

20-30 s im tiefen Tonbereich, 5-10 s im hoher Tonbereich, wenn nicht früher abgedämpft wird

500 - 700 Hz, 2.000 – 3.000 Hz

schwach

sehr kurz

ähnlich wie beim Klavier

90 

 2 Schallquellen

Instrument

Notation

Quasistationärer Zustand Grundtonumfang

Obertonstruktur

Große Flöte

Violinschlüssel

h - etwa c““ = 247-2100 Hz

Grundton überwiegt, mit steigender Obertonfrequenz abnehmende Teiltonintensität, Frequenzbereich bis 3-6 kHz

Kleine Flöte, Piccolo

Violinschlüssel transponierend, wird eine Oktave tiefer notiert

d“ - c‘““ = 587 – 4.200 Hz

wie Große Flöte, jedoch Komponenten bis 10 kHz

Oboe

Violinschlüssel

h(b) - etwa f“ = 247 -1.400 Hz

obertonreich, Grundton schwach, Komponenten bis 9 kHz (mf), über 12 kHz (ff)

Englisch Horn

Violinschlüssel transponierend, wird eine Quinte höher notiert

e (es) - b“ = 165 - 933 Hz

wie Oboe

Klarinette in B (A)

Violinschlüssel transponierend, wird einen Ganzton (kleine Terz) höher notiert

d (eis) - etwa g“‘ = 147 – 1.570 Hz

d-d‘: ungeradzahlige Obertöne schwach, es‘-g“: nur noch 1. Oberton schwach, über g“: gleichmäßiger Obertonaufbau

Bassklarinette in B Violinschlüssel D (Cis) - etwa f‘‘ transpon., eine = 74 - 700 Hz None höher notiert, Bassschl. transponierend, ein Ganzton höher notiert

Grundton stark, ungeradzahlige Obertöne noch schwächer als bei der Klarinette

Fagott

Bassschlüssel (Tenorschlüssel)

B‘ - etwa c“ = 58 - 520 Hz

obertonreich, Komponenten im ff bis über 12 kHz

Kontrafagott

Bassschlüssel transponierend, wird eine Oktave höher notiert

B“ - etwa c‘ = 29 - 260 Hz

obertonreich, Grundton schwach

Pauke

Bassschlüssel

Große Pauke: D - c = 73 - 130 Hz, Kleine Pauke: H - g = 124 - 196 Hz

keine harmonische Struktur, jedoch dominierende Komponenten, die dem Paukenschlag eine bestimmbare Tonhöhe geben

Trommel

in einem Notensystem oder auf moderne Notation auf einer einzelnen Linie

keine bestimmbare Tonhöhe

Becken Triangel

2.2 Musikinstrumente 

Quasistationärer Zustand

Einschwingvorgang

 91

Ausklingvorgang

Formantbereiche

Geräuschkomponenten

keine typischen Formanten

Geräuschkomponenten mit Tonhöhencharakter, mit dem jeweiligen Grundton identisch

charakteristisch durch Abreißen des Klangs Vorläuferton mit etwa 50 ms und Geräuschanteile, von allen Holzblasinstrumenten am längsten

keine typischen Formanten, gelegentlich Nebenformant bei 3.000 Hz

wie Große Flöte

ähnlich wie Große Flöte

bei 1.100 Hz, bei 2.700 und 4.500 Hz

gering

sehr klar, keine Geräuschanteile, 20 - 40 ms, auch im staccato noch klar

bei 1.000 Hz, bei 2.000 und 4.000 Hz, bei 750 Hz

wie Oboe, im staccato noch kürzer, im ganzen Tonbereich 15 ms

nur im oberen Tonbereich über g“, zwischen 3.000 und 4.000 Hz

klar und prägnant, 1 5- 20 ms, ohne Geräuschanteile, weicher Einsatz etwa 50 ms

keine typischen Formanten

ähnlich wie Klarinette

500 Hz (1.150, 2.000 und im pp besonders im Bereich 3.500 Hz) um 3.000 Hz

klar und prägnant, ohne Geräuschanteile

250 Hz (400 - 500, 800 Hz)

klar, etwa 35 ms

keine Formatstruktur

starke Komponenten bis 1.000 Hz, schwächer bis etwa 4.000 Hz

bis 50 ms, keine harmonischen Komponenten

Komponenten bis 1.500 kHz (Große Tr.), 8.000 Hz (Kleine Tr.)

maximal 50 ms

Komponenten zwischen 800 und 9.500 Hz

etwa 400 ms

Komponenten zwischen 1.000 etwa 200 ms und 17.000 Hz, stark um 13.000 Hz

Geräuschanteile bis 300 ms, 1. Oberton bis 1 s

92 

 2 Schallquellen

Die Kleine Flöte oder Piccolo steht im Tonumfang etwa eine Oktave höher als die Große Flöte. Ihre Klangeigenschaften entsprechen denjenigen der Großen Flöte. Die harmonischen Klangkomponenten reichen aber bis etwa 10 kHz. Oboe und Englisch Horn Der Klang der Oboe ist sehr hell und offen. Dies bewirken einerseits die stark ausgeprägten Obertöne, die im Mezzoforte-Klang bis etwa 9 kHz, im Fortissimo-Klang bis 12 kHz reichen, andererseits der deutlich ausgeprägte Hauptformant bei 1,1  kHz und die Nebenformanten bei 2,7 und 4,5 kHz. Die Grundtöne sind schwach ausgebildet und liegen etwa 25 dB unter dem Pegel der stärksten Komponenten. Im Bereich der höchsten Obertöne treten die Formanten weitgehend zurück. Der Klang verliert hier deshalb an Eigenart. Piano- und Forte-Klang unterscheiden sich in der Klangfarbe sehr stark. Die Einschwingzeit des Klangs ist sehr kurz, Geräuschanteile treten dabei kaum auf. Deshalb eignet sich die Oboe auch für das Spiel sehr kurzer Töne. Das Englisch Horn (franz.: cor anglais, ital.: corno inglese) ist eine Variante der Oboe mit um eine Quinte tieferen Tonbereich. Als Besonderheit besitzt  sie einen birnenförmigen Schallbecher. Die Klangeigenschaften entsprechen denen der Oboe, der Hauptformant liegt etwas tiefer, nämlich bei 1 kHz. Bei 700 Hz liegt ein charakteristischer Nebenformant. Eine weitere Variante der Oboe ist die Oboe d‘amore, sie ist ähnlich wie das Englisch Horn gebaut, ihr Tonbereich beginnt jedoch zwei Ganztöne höher als bei diesem. Klarinette und Saxophon Der Klang der Klarinette ist nicht im ganzen Tonbereich einheitlich, man spricht deshalb von den verschiedenen Registern der Klarinette. Im Tonbereich zwischen d und d‘ bestimmt das Übergewicht der ungeradzahligen Teiltöne den Klang, dieses lässt sich bis zum 15. Teilton verfolgen. Die Pegelunterschiede zu den geradzahligen Teiltönen betragen etwa 25 dB, teilweise sogar bis 40 dB. Oberhalb von gis“ ist der Grundton am stärksten, an ihn schließt sich eine stetig fallende Obertonreihe an (Abb. 2/13). Für dieses höchste Register bildet sich ein Formant zwischen 3 und 4 kHz aus, während bei den tieferen Registern keine charakteristischen Formanten zu finden  sind. Kennzeichnend für den Klarinettenklang ist auch der geringe Geräuschanteil, der vor allem im obersten Register die Klarheit und Helligkeit des Klangs fördert. Die Klarinette bietet eine außerordentlich große Dynamik. Mit der Dynamikstufe ändert sich der Teiltonaufbau sehr stark. Während im pp in der eingestrichenen Oktave das Spektrum nur bis etwa 1,5 kHz reicht, enthält es im ff Komponenten bis über 12 kHz. Die Einschwingvorgänge sind wie die der Oboe kurz, prägnant und ohne wesentliche Geräuschanteile. Bei der Bassklarinette treten die ungeradzahligen Teiltöne noch stärker hervor als bei der normalen Klarinette, ihr Klang ist dadurch noch düsterer und hohler. Das Saxophon besitzt wie die Klarinette ein einfaches Rohrblatt, ist aber konisch und aus Metall. Es ist aus der Kombination der Bassklarinette mit der Ophikleide, einem Blechblasinstrument in der Basslage, um 1840 von dem Belgier Adolf Sax entwickelt worden. Das Instrument wird in acht Tonlagen gebaut: Sopranino, Sopran, Alt, Tenor, Bariton, Bass und Kontrabass. Im Klang sind die ersten Obertöne stark ausgebildet. Auf Grund seiner konischen Form werden die geradzahligen Obertöne ebenso stark wie die ungeradzahligen angeregt.

2.2 Musikinstrumente 

 93

Fagott Der Fagottklang ist wie der Oboenklang  sehr obertonreich. Kennzeichnend ist ein  scharf ausgeprägter Hauptformant bei 500 Hz, der dem Fagottklang den Vokalcharakter eines „o“ verleiht. Nebenformanten liegen bei 1,15, 2 und 3,5  kHz. Im ff geht das Spektrum bis über 12  kHz hinaus. Der Klangeinsatz ist wie bei der Oboe präzis und kurz, Das Kontrafagott reicht mit seinem Tonumfang eine Oktave tiefer als das Fagott. Seine Grundtonfrequenzen gehen bis etwa 30 Hz hinunter. Der Hauptformant liegt um 250 Hz. 2.2.2.3 Blechblasinstrumente Blechblasinstrumente, Sammelbezeichnung für Trompete (franz.: trompette, ital.: tromba, clarino, engl.: trumpet), Horn (franz.: cor, ital.: corno, engl.: french horn), Posaune (franz., ital., engl.: trombone) und Tuba (alle Sprachen) nebst ihren Nebeninstrumenten besitzen verglichen mit den Holzblasinstrumenten eine sehr lange Resonanzröhre aus Blech, bei der es keine Grifflöcher gibt. Die einzelnen Instrumententypen unterscheiden sich hauptsächlich in der Formgebung dieser Röhre und des Mundstücks. Beim Spiel wird weitgehend von der Naturtonreihe der Röhre Gebrauch gemacht, indem durch verschiedene Lippenspannungen die einzelnen Naturtöne der stehenden Welle im Rohr angeblasen werden. Wegen der recht langen Resonanzröhre sind die Naturtöne weitgehend identisch mit den Teiltönen. Zur Erzeugung der Töne, die zwischen den Naturtönen liegen, kann die Länge des Rohrs und damit der Tonhöhe bei der Trompete, Horn und Tuba durch Ventile oder bei der Posaune ein ausziehbares Rohrstück, einen Zug, um bis zu etwa 40 % verlängert werden. Die Tonumfänge zeigt Abb. 2/17. [Bahnert, 2004] Bei allen Blechblasinstrumenten lassen sich auch die Spektren in zwei Tonbereiche aufteilen: Im unteren Tonbereich kennzeichnet ein Formant den Klang, während im oberen Tonbereich der Grundton am stärksten hervortritt und die Obertöne mit steigender Ordnungszahl relativ gleichmäßig in ihrem Pegel abnehmen. Im unteren Tonbereich ist ein Formant um 340 Hz kennzeichnend

Abb. 2/17. Grundtonumfänge der Blechblasinstrumente.

Horn Während bei leisen Tönen Formanten eine geringe Rolle spielen, gewinnen mit zunehmender Lautstärke noch weitere Formanten bei 750 Hz, 1,25 und 2 kHz an Bedeutung. Im pp reicht das Spektrum etwa bis 1,5 kHz, im ff bis über 5 kHz. Die Geräuschanteile sind sehr gering. Frequenzanteile unter 200 Hz nehmen wenig Einfluss auf den Klangcharakter, da sie schwach ausgeprägt sind. Der Klangeinsatz ist durch einen kurzen Vorläuferimpuls gekennzeichnet,

94 

 2 Schallquellen

der vorwiegend harmonische Klangkomponenten unter 1  kHz enthält, ein zu  stark ausgeprägter Vorläuferimpuls tritt als „Kiekser“  störend in Erscheinung. Verschließt die rechte Hand des Spielers die Stürze teilweise (Halbstopfen), werden die Klangkomponenten um 3 und über 10 kHz formantartig verstärkt, der Klang wirkt eng und wie aus größerer Entfernung, bei stärkerem Verschließen (Vollstopfen) kann der Ton bis um einige Halbtöne erniedrigt werden, wie beim Gebrauch der Ventile. Obwohl Hörner Blechblasinstrumente sind, stehen sie musikalisch den Holzblasinstrumenten sehr nahe, da sie sich besonders gut in den Klang der Holzbläsergruppe einfügen; gelegentlich werden auch diesen zugerechnet. In der Partitur werden sie zwischen Holz- und Blechblasinstrumenten eingeordnet. Trompete Die Trompete ist eines der obertonreichsten Instrumente des Orchesters. Bereits bei geringen Lautstärken reicht ihr Spektrum bis über 5  kHz hinaus, im ff  sogar bis an die Hörgrenze. Ein starker Hauptformant liegt bei 1,2 bis 1,5 kHz, Nebenformanten bei 2 und 3 kHz. Der Grundton überwiegt nur bei den höchsten Tönen, wodurch ein gleichmäßig heller Klang gefördert wird. Geräuschanteile sind sehr schwach. Den prägnanten Klangeinsatz der Trompete kennzeichnet wie beim Horn ein Vorläuferimpuls, dessen Spektrum im Bereich zwischen 2 und 3 kHz ein Maximum hat. Durch verschiedene, in die Klangstürze eingesetzte Dämpfer kann der Klang stark verändert werden: Der normale, der konische Dämpfer unterdrückt vor allem die Frequenzen unter 1,5  kHz und hebt Frequenzen über 4  kHz an, der gewölbte Dämpfer unterdrückt die Komponenten über 2,5 kHz. Mit dem Wah-Wah-Dämpfer kann die Klangfarbe durch Verschieben der Formanten während des Spiels variiert werden. Posaune und Tuba Das Posaunenspektrum ist durch einen Formanten zwischen etwa 480 und 600 Hz gekennzeichnet, ein weiterer wichtiger Formant liegt um 1,2  kHz. Darüber nimmt die Amplitude der Teiltöne langsam ab, so dass im mf das Spektrum noch bis 5 kHz reicht. Der Grundton dominiert selten. Beim Einschwingvorgang tritt nur ein schwacher Vorläuferimpuls auf. Das Spektrum der Tuba, Basstuba und Kontrabasstuba reicht nur etwa bis 1,5  kHz, im oberen Tonbereich bis 2 kHz, der Klang ist also obertonarm. Auch die Grundtöne sind schwach ausgebildet. Der Hauptformant liegt zwischen 210 und 250  Hz. Die Einschwingzeit der Töne ist sehr kurz, dadurch kann die Tuba eine sehr prägnante Basslinie spielen. 2.2.2.4 Klavier und Cembalo Der Klavierklang  setzt  sich aus dem Einschwing- und Ausklingvorgang zusammen, einen quasistationären Zeitabschnitt wie bei Blas- und Streichinstrumenten gibt es nicht. Der Einschwingvorgang dauert sehr kurz, er ist durch die Spielweise bei gleichbleibender Lautstärke nicht zu beeinflussen. Beim Ausklingvorgang überwiegt der Grundton, abgesehen von dem Bereich der tiefen Töne. Der Pegel der Obertöne nimmt mit steigender Ordnungszahl stetig ab. Charakteristische Formanten treten nicht auf. Das Spektrum reicht bis über 10  kHz in den oberen Tonlagen, bis etwa 3 kHz in den unteren Tonlagen. Die Stärke der Obertöne ist von der erzeugten Klangstärke und damit vom Anschlag abhängig. Mit einer Taste des Kla-

2.2 Musikinstrumente 

 95

viers werden bei der tiefsten Oktave eine, eine Oktave darüber zwei und darüber drei gleich gestimmte Saiten gleichzeitig angeschlagen. Dadurch können Schwebungen, also Amplitudenschwankungen entstehen. Kennzeichnend für den Klavierklang sind auch die ausgeprägten Geräuschanteile beim Einschwingvorgang. Eine weitere Besonderheit ist, dass die Obertöne, besser Naturtöne, nicht streng harmonisch, also nicht exakt ganzzahlige Vielfache der Grundfrequenz sind, sondern jeweils etwas höher liegen, die Obertonreihe ist gespreizt. Dieser Effekt, verursacht durch die relative Dicke der Saiten, tritt besonders bei kleinen In­­ strumenten mit ihren kürzeren Saiten auf und mindert deren Klangqualität. Das Cembalo, wichtigstes Tasteninstrument der Barockzeit, zeichnet sich durch besonders großen Obertonreichtum und besonders langes Ausklingen aus, es wirkt fast wie ein quasistationärer Zustand. Ein Bereich  starker Klangentwicklung liegt zwischen 500 und 700 Hz, ein weiterer Bereich zwischen 2 und 3 kHz. Tiefe Klangkomponenten sind schwach. Das Cembalo weist eine außerordentlich hohe zeitliche Klangdichte auf, die es bei gleicher Aussteuerung viel lauter erscheinen lässt als z. B. das Klavier. 2.2.2.5 Orgel Die Orgel ist das größte, bautechnisch komplexeste Musikinstrument. Ihr Platz ist in Kirchen und großen Konzertsälen. Neben der großen Kirchen- bzw. Konzertorgel gibt es kleinere, transportable Instrumente, die  sog. Orgelpositive oder einfach Positive. Insbesondere der Klang großer Orgeln ist in einem Maße wandelbar wie sonst bei keinem anderen Instrument. Schallerzeuger sind die Orgelpfeifen, die durch unterschiedliche Bauarten eine breite Palette unterschiedlichster Klänge erzeugen können. Orgeln sind Einzelanfertigungen, die entsprechend ihrer musikalischen Funktion, aber auch, was es sonst bei keinem Instrument gibt, entsprechend der jeweiligen Raumakustik geplant und gebaut  sind. Ihre außergewöhnliche Größe und Lautstärke korrespondiert  mit der ebenfalls außergewöhnlichen Größe des Kirchen- und Konzertraums. Bei der Aufnahme ist nicht nur zu beachten, dass der Orgelklang in besonderem Maße mit der Erwartung des Raumklangs aus einem großen Raum verbunden ist,  sondern dass die Orgel selbst erhebliche räumliche Ausdehnung besitzt. Barocke Orgeln, aber auch moderne Orgeln, die nach dem sog. Werkprinzip der Barockorgeln gebaut sind, sind in einzelne sog. Werke gegliedert; jedem Manual ist dabei eine Gruppe von Registern zugeordnet, die in sich eine ausgewogene, aber von den übrigen Werken der Orgel sich unterscheidende sog. Disposition besitzt. Die einzelnen Werke sind nach traditionellen Regeln angeordnet: Oberhalb des Spieltischs befindet sich das sog. Hauptwerk, darüber und darunter sind zwei kleinere Werke, das Oberwerk und das Brustwerk; das Rückpositiv  steht im Rücken des Spielers. Fernwerke sind von der eigentlichen Orgel getrennt im Raum aufgestellt. Das Pedalwerk ist auf die beiden Pedaltürme aufgeteilt, die links und rechts des Hauptwerks stehen. Dessen Pfeifen  stehen nicht entsprechend einer chromatischen Tonleiter nebeneinander,  sondern wechseln bei jedem Ton die Seite. Dadurch springt eine Melodie zwischen den Pedaltürmen hin und her, ein Effekt, der bei Aufnahmen nicht eingefangen werden sollte; durch größeren Mikrofonabstand oder zwei zusammengemischte Mikrofone ist dies zu vermeiden.

96 

 2 Schallquellen

2.2.2.6 Akustische Gitarre und E-Gitarre Die Gitarre gibt es heute in einer Typenvielfalt wie  sonst nur bei wenigen Instrumenten. Grundsätzlich muss zwischen der akustischen und der Elektro- oder E-Gitarre unterschieden werden. Dazu existiert eine kombinierte Form dieser beiden Typen, nämlich die halbakustische oder Semi-Akustikgitarre. Alle traditionellen Gitarren, die ohne elektrische Tonabnahme und Tonverstärkung arbeiten, gehören zu den Akustikgitarren; der Begriff wurde erst geschaffen, als es notwendig wurde, diese Gitarren von der Gruppe der Elektro-Gitarren zu unterscheiden. Die Konzertgitarre oder Spanische Gitarre ist der klassische Typ der traditionellen akustischen Gitarre; sie ist mit sechs Nylonsaiten bespannt und wird mit den Fingerkuppen gezupft oder geschlagen. Akustik-Gitarren mit Stahlbesaitung, sog. Westerngitarren, werden entweder mit einem Plektrum oder mit den Fingern gezupft oder als Schlaggitarre geschlagen. Schlaggitarren haben neben dem Schallloch eine Schutzplatte. Neben der sechssaitigen Gitarre gibt es auch die voller klingenden zwölfsaitigen Instrumente; die beiden hohen Saiten sind hierbei im Einklang verdoppelt, die vier tiefen in der Oktave. Zwölfsaitige Gitarren haben Stahlbesaitung, weil Nylonsaiten zu weit ausschwingen. Das Schallloch ist der Ort größter Schallabstrahlung sowohl tiefer als auch hoher Frequenzkomponenten. Die Elektro-Gitarre oder E-Gitarre kombiniert akustische Tonerzeugung mit elektrischer Verstärkung und Formung des Tons. Sie verfügt über ein bis drei Tonabnehmer oder Pickups, die die Saitenschwingungen an verschiedenen Stellen abnehmen; der stegnahe Pickup gibt einen spitzeren, der Pickup am Griffbrett gibt einen weicheren Klang. E-Gitarren benötigen Stahlsaiten, weil die Pickups nur auf Metall ansprechen. Die Tonabnehmer  sind im Allgemeinen elektromagnetische Wandler, deren Bauweise und Qualität Einfluss auf den Grundklang einer E-Gitarre nimmt. Es werden Einfachspulabnehmer,  sog. Single Coil, und Doppelspulabnehmer, sog. Humbucker, verwendet; Single Coil-Pickups sind heller, metallischer im Klang, Humbucker-Pickups mittenbetonter. Die Humbucker-Systeme haben eine bessere Brummunterdrückung. Die verschiedenen Tonabnehmer einer Gitarre können einzeln oder parallel geschaltet werden. An der Gitarre selbst können nur einfache Klangformungen eingestellt werden. Aufwändigere Klangbeeinflussungen werden in separaten Effektgeräten, auch kombiniert mit dem Gitarrenverstärker, realisiert. Die Effektgeräte können auch für die Klangformung von Keyboards verwendet werden (Tab. 2/5). Es gibt die folgenden Grundtypen von E-Gitarren: Solidbody: Eine E-Gitarre benötigt vom Prinzip her keinen Resonanzkörper. Die Solidbody hat keinen schwingungsfähigen Resonanzkörper, sondern nur ein massives Brett (Solid Body) in der Form eines Resonanzkörpers oder in einer anderen Form. Die Solidbody ist die klassische Form der E-Gitarre und E-Baasgitarre. Akustikgitarre mit Pickup: Um die akustische Gitarre in die Musikpraxis der populären Musik trotz ihres schwachen Klangs einbeziehen zu können, wird sie auch mit Pickups versehen.

2.2 Musikinstrumente 

 97

Semiakustik-Gitarre: Ihr Korpus nimmt konstruktiv eine Zwischenstellung zwischen akustischer Gitarre und Solidody ein. Tab. 2/5. Gitarren-Effekte. Effekt (englisch)

Erläuterung

Chorus

Stimmvervielfachung durch gering zeitverzögerte und in der Tonhöhe versetzte Zumischung desselben Signals, subjektive Intensivierung Kompressor, der eine Tonverlängerung ohne abfallenden Pegel bewirkt Signalverzögerung nichtlineare Verzerrungen mit einstellbaren Eigenschaften einstellbare Filter zeitverzögerte Zumischung desselben Signals mit fester Verzögerung (KammfilterFrequenzgang), Verzögerungszeit schwingend sich verändernd (Vibrato-Effekte) Verhallung mit Hallgerät Lautsprecherkabinett mit rotierenden Lautsprechern, auch elektronisch Abschaltung in Signalpausen Verzerrungen wie ein Röhrenverstärker, d. h., zunehmend mit steigendem Pegel zeitverschobene Zumischung desselben Signals, Frequenzgang einer Kammfilterkurve, auch schwingend einstellbare Anhebung in einem stufenlos einstellbaren Frequenzbereich Klangbeeinflussung durch die Mundresonanz des Musikers bei jedem Ton automatisch durchlaufendes Filter mechanische Zusatzeinrichtung am Gitarrensteg oder elektronisches Effektinstrument Durchlauffilter, das individuell gesteuert wird

Compression, Sustain Delay Distorsion Equalizer, EQ Flanger

Reverb Leslie Noise Gate Over Drive, Tube Screamer Phaser Spectrum Talkbox Touch Wah Vibrato Wah Wah

E-Bass: Die Elektro-Bassgitarre ist in ihrer musikalischen Funktion zunächst ein Ersatz für den gezupften Kontrabass gewesen, bildet aber inzwischen eine Ergänzung der Gitarrenpalette im tiefen Tonbereich. Sie wird mit oder ohne Resonanzkörper gebaut. Doppelhalsgitarre (engl. Double neck guitar): Dieses Instrument vereint zwei Gitarren in einem Instrument; an dem verbreiterten Korpus  sind zwei Hälse angebracht. Die Double Neck besteht entweder aus einer sechs- und einer zwölfsaitigen Gitarre oder einer sechssaitigen und einer Bassgitarre. Pedal Steel Gitarre: Von der Solidbody abgeleitetes Instrument mit zwei Hälsen mit jeweils 10 oder 12 Saiten. Die linke Hand führt einen Gleitstahl (steel bar) zur Saitenverkürzung, mit der rechten Hand wird durch Zupfringe gezupft. Mit acht Pedalen ist das auf vier Beinen waagrecht liegende Instrument durch verschiedene Effekte beeinflussbar. Elektro-Hawaiigitarre: Der charakteristische Glissando-Klang der Hawaii-Gitarre entsteht dadurch, dass auf dem Griffbrett ein sog. Kamm die Saiten niederdrückt, der gleitend von

98 

 2 Schallquellen

Griff zu Griff bewegt wird. Dieser Effekt kennzeichnet auch die Pedal-Steel-Gitarre und ist mit dem Slide-Spiel auch bei anderen Gitarren möglich. Bei der Aufnahme der E-Gitarren kann der Klang entweder vom Gitarrenlautsprecher  mit Mikrofon abgenommen oder als elektrisches Signal direkt vom Gitarrenverstärker übernommen werden (Direct Injection). Vielfach werden auch beide Möglichkeiten kombiniert. Für den E-Bass ist die elektrische Direktabnahme üblich. Bei der Direktabnahme und bei der Mikrofonabnahme können Sicherheitsprobleme dadurch entstehen, dass bei gleichzeitiger Berührung fehlerhaft verarbeiteter, Spannung führender Geräteteile der Gitarrenanlage und des geerdeten Mikrofons gefährliche Körperströme fließen können. Durch Verwendung von Trenntransformatoren für die Instrumente oder sog. DI-Boxen können diese Gefahren ausgeschlossen werden (siehe hierzu Kap. 8.6). 2.2.2.7 Schlaginstrumente Schlaginstrumente, Perkussion oder engl. percussion besitzen, anders als Streich- und Blasinstrumente, keinen quasistationären Zeitabschnitt in ihrem Klang. An den Anschlagvorgang  schließt  sich wie bei Klavier und Cembalo unmittelbar der Ausklingvorgang an. Die  meisten Schlaginstrumente werden durch geräuschhafte und unharmonische Schwingungskomponenten gekennzeichnet, damit hat ihr Klang keinen deutlichen Tonhöhencharakter; im gesamten Klang überwiegen  meist Geräuschanteile. Für einige Schlaginstrumente  sind allerdings quasiharmonische Klangkomponenten im Ausklingvorgang charakteristisch, die einen Tonhöhencharakter erzeugen. Bei der Pauke reicht das Frequenzspektrum des Anschlags bis etwa 4 kHz, die stärksten Komponenten liegen unter 1 kHz; im Ausklingvorgang bewirkt eine Reihe quasiharmonischer Teiltöne, insbesondere der zweite Teilton, dass eine bestimmbare Tonhöhe hörbar wird. Dadurch kann die Pauke eine Bassstimme spielen. So wird sie u. a. in der Barockmusik und teilweise auch in der klassischen Musik als spezifisches Bassinstrument der Blechbläser eingesetzt. Auch die Tom-Toms lassen eine diskrete Tonhöhe erkennen. Große und Kleine Trommel besitzen keine bestimmbare Tonhöhe, sondern nur Geräuschcharakter. Die wichtigsten Frequenzkomponenten liegen bei der Großen Trommel zwischen 100 und 1.500 Hz, bei der Kleinen Trommel zwischen 100 und 8.000 Hz. Auch das Becken hat keine bestimmbare Tonhöhe. Beim Anschlag baut  sich der geräuschartige Klang langsam auf, um erst nach etwa 0,4 s seine größte Intensität zu erreichen. Das Spektrum reicht von 0,8 bis 10 kHz, Komponenten außerhalb dieses Frequenzbereichs sind sehr schwach. Einzelne Frequenzbereiche im Spektrum treten hervor. Auch beim Triangel liegen die einzelnen Klangkomponenten so dicht und unharmonisch, dass sich keine bestimmbare Tonhöhe ausbildet. Das Spektrum reicht von 1 bis 17 kHz mit hervortretenden Komponenten zwischen 12 und 14  kHz, damit hat das Triangel unter den Orchesterinstrumenten das nach hohen Frequenzen hin am weitesten reichende Spektrum.

2.2 Musikinstrumente 

 99

2.2.3 Schallabstrahlung Schallquellen, die klein gegenüber den Wellenlängen des abgestrahlten Schalls sind, strahlen den Schall weitgehend ungerichtet nach allen Seiten ab; größere Schallquellen mit den Dimensionen im Bereich der hörbaren Schallwellen konzentrieren die Schallabstrahlung auf eine oder mehrere Richtungen. Da die Wellenlängen der Spektralkomponenten musikalischer Klänge zwischen etwa 10 m und 2 cm liegen können, bündeln die Instrumente den Schall frequenzabhängig, dabei teilweise auch in sehr komplexer Form. Als grobe Faustregel kann gelten, dass Frequenzen im Bassbereich unter etwa 250  Hz kugelförmig ungerichtet, Frequenzen darüber zunehmend gerichtet abgestrahlt werden. Die gerichtete Schallabstrahlung wirkt sich auf die Klangfarbe und den Schallpegel im Direktfeld mehr oder weniger stark aus, nicht aber im Diffusfeld. Da die Mikrofone aber meist im Direktfeld aufgestellt werden, hat die gerichtete Schallabstrahlung der Instrumente bei Tonaufnahmen größere Bedeutung als beim direkten Hören. Die gerichtete Schallabstrahlung oder Richtcharakteristik der Instrumente  macht es möglich, mit dem Mikrofon den Klangcharakter des Instruments bei der Aufnahme mitzubestimmen. Mikrofonstandort und Richtcharakteristik der Instrumente haben einen größeren Einfluss auf die Aufnahme als die die Auswahl des Mikrofons; dies gilt in erster Linie bei relativ geringem Mikrofonabstand und besonders bei der Anwendung des Einzelmikrofonverfahrens (siehe Kap. xxxx). Stark gerichtete Abstrahlung lässt den Klang eines Musikinstruments auch über größere Entfernungen noch präsent erscheinen, sie erhöht damit die Lokalisierbarkeit der Instrumente, verringert aber gleichzeitig die Klangverschmelzung z. B. bei einem Sinfonieorchester. Gerichtete Klangabstrahlung kann den Hallradius erheblich vergrößern, im höheren Frequenzbereich der Blechblasinstrumente durchaus um den Faktor 10, im Schnitt etwa um den Faktor 1,5 bis 2 (siehe Kap. 1.3.4). Die folgenden Darstellungen der gerichteten Klangabstrahlung der Instrumente zeigen die Bereiche, innerhalb derer der Pegel um nicht mehr als 3 dB unter den Maximalwert abfällt. Die dargestellten Bereiche sind, etwas vereinfacht gesagt, also die Bereiche, innerhalb derer eine Klangfarbenänderung praktisch nicht wahrnehmbar ist. Die Betrachtung  muss  sich dabei auf ausgewählte Frequenzen oder Frequenzbänder beschränken, die einen guten Einblick in das Schallabstrahlungsverhalten geben. [Meyer, 2015], [Albrecht, 2017] 2.2.3.1 Streichinstrumente Die Richtcharakteristiken der Streichinstrumente kommen dadurch zustande, dass Decke und Boden des Korpus, in einzelnen Zonen mit unterschiedlicher Amplitude und Phase schwingen; hinzu kommt die Abstrahlung des im Resonanzkörper eingeschlossenen Luftvolumens über die sog. f-Löcher, das einen Helmholtz-Resonator darstellt (siehe Kap. 1.2.2.4), Da die Form der Instrumente weitgehend standardisiert ist, können allgemein gültige Abstrahleigenschaften festgestellt werden, obwohl auch individuelle Eigenschaften der Holzstruktur und der Ausarbeitung darauf Einfluss nehmen. Grundsätzlich ist die Richtwirkung bei den Streichinstrumenten nicht  so ausgeprägt wie bei den Blasinstrumenten;  sie ist komplexer und stärker vom Einzelinstrument abhängig. Kleine Veränderungen des Mikrofonstandorts

100 

 2 Schallquellen

wirken sich nicht so deutlich aus. Der Wahl des Mikrofontyps kommt unter diesen Umständen eine größere Bedeutung zu. Eine Besonderheit, die  sich bei Tonaufnahmen auswirken kann,  sind die teilweise in schmalen Winkelbereichen wirksamen starken Einbrüche in der Schallabstrahlung. Das wird z. B. deutlich beim Frequenzgang der Geige in Abb. 2/18: Bei der Aufnahme im Nahbereich mit nur einem Mikrofon ist der Frequenzgang sehr stark zerklüftet, fast einer Kammfilterkurve vergleichbar. Bei der Aufnahme mit sechs Mikrofonen, angeordnet in einem größeren Winkelbereich, und anschließender Mischung, also Mittelung der Frequenzgänge, ist der resultierende Frequenzgang deutlich geglättet. Das Diffusfeld in einem Raum bildet in gleicher Weise einen Mittelwert über die Frequenzgänge in den verschiedenen Richtungen und glättet den Frequenzgang. Die stark zerklüftete Frequenzkurve kann zu einer ungewohnten Klangschärfe, einem metallischen Klang führen, der beim natürlichen Hören wegen des hierbei größeren Diffusschallanteils nicht oder weniger in Erscheinung tritt. Für die Praxis ergibt sich daraus, dass ein gewisser Diffusschallanteil vorteilhaft ist; dies lässt sich durch einen eher größeren Mikrofonabstand erreichen. Es zeigt auch, dass für Aufnahmen von Streichinstrumenten eher Räume  mit einem gewissen Nachhall gewählt werden  sollten. Künstliche Verhallung von Streichinstrumenten bei Nahaufnahmen vermeidet dem einem Kammfilter ähnlichen Frequenzgang nur, wenn ein gesondertes Hallmikrofon in etwas größerer Entfernung in einem nicht zu trockenen Raum aufgestellt wird..

Abb. 2/18. Frequenzkurven eines Violinklangs im Direktfeld, gemessen mit einem Mikrofon in Haupt­ abstrahlrichtung bzw. mit 6 Mikrofonen mit anschließender Mittelung in anderen Richtungen [Meyer, 1992].

2.2 Musikinstrumente 

 101

Bis etwa 500 Hz ist die Schallabstrahlung weitgehend kugelförmig. Darüber verengt sie sich allmählich, um zwischen 1 und 1,2  kHz  senkrecht zur Decke des Resonanzkörpers eine deutliche Bündelung zu erfahren. Darüber wird der Abstrahlbereich insgesamt wieder breiter,  spaltet  sich dabei aber wechselnd in einzelne Abstrahlbereiche auf, zwischen denen schmale Zonen geringerer Abstrahlung liegen (Abb. 2/19). Die Abstrahlung etwa senkrecht über der Decke ist die günstigste Richtung für die Aufnahme; zum einen wird in diese Richtung bevorzugt der Schall des Hauptformanten des Instruments abgestrahlt, zum anderen ist in diesem Winkelbereich der Abstand zwischen dem Geräuschpegel des Instruments und seinen harmonischen Komponenten am größten.

Abb. 2/19. Abstrahlcharakteristiken der Violine und Viola, nach [Meyer, 2015].

Abb. 2/20. Abstrahlcharakteristik des Violoncellos, nach [Meyer, 2015].

Allseitig ungerichtet abgestrahlt wird Schall beim Violoncello nur bis etwa 200 Hz wegen der größeren abstrahlenden Flächen. Um 1 kHz wird der Schall bevorzugt nach oben abgestrahlt, für Frequenzen zwischen 2 und 5 kHz teilt sich die Richtwirkung in zwei Zonen, eine zum

102 

 2 Schallquellen

Boden, eine senkrecht nach oben gerichtet (Abb. 2/20). Gerade dieser Frequenzbereich trägt aber wesentlich zum Klangcharakter dieser Instrumente bei. Bei gleicher Grundtonhöhe wirken die Violoncelli tatsächlich oft schärfer als die Violinen; eine Mikrofonposition über dem Violoncello kann diesen durchaus wünschenswerten Unterschied hervorheben. Schon von Frequenzen um 100 Hz an aufwärts strahlt der Kontrabass den Schall gerichtet ab. Dabei sind für die einzelnen Frequenzbereiche wechselnde Hauptabstrahlrichtungen festzustellen, die sich teilweise auch in zwei getrennte Zonen aufspalten. Sie liegen jedoch in dem Halbraum vor der Decke des Instruments. 2.2.3.2 Holzblasinstrumente Die Holzblasinstrumente strahlen die Klangkomponenten bis rund 1 kHz bevorzugt aus den Grifflöchern ab, also  senkrecht zur Schallröhre;  mit ansteigender Frequenz neigt  sich der Abstrahlbereich zunehmend zur Schallstürze hin. Die höheren harmonischen Komponenten werden schließlich besonders aus der Schallstürze abgestrahlt (Abb. 2/21).

Abb. 2/21. Abstrahlcharakteristik der Oboe und Klarinette, nach [Meyer, 2015].

Die Richtwirkung ist bei den Holzblasinstrumenten so ausgeprägt, dass sie bei Tonaufnahmen eine weit wichtigere Rolle spielt als die Wahl des Mikrofontyps. Es ist möglich, allein durch die Mikrofonaufstellung zwischen einem weichen, vollen Klang vor den Grifflöchern und einem scharfen, engen, aber auch präsenterem Klang vor der Stürze sowie allen Klangcharakteristiken dazwischen zu wählen. Mit zunehmender Entfernung vom Instrument werden diese Unterschiede immer geringer, weil die Abstrahlung aus allen Richtungen durch den Diffusschall zunehmend integriert wird.

2.2 Musikinstrumente 

 103

Bei der Großen Flöte oder Querflöte verursacht das Zusammenwirken der Schallabstrahlung von Schallstürze, dem Fußstück, und Anblasloch auch  schon unter 1  kHz eine Aufspaltung der Schallabstrahlung in einzelne getrennte Zonen. Der Klang aus dem Fußstück wirkt so eng und scharf, dass Mikrofone in diesem Bereich im Allgemeinen nicht aufgestellt werden. Über dem Mundstück ist relativ viel Atemluft hörbar, was z.  B. bei Jazzflötisten durchaus erwünscht sein kann. Rund und weich ist der Klang über den Grifflöchern. Beim Fagott ist zu beachten, dass die Stürze nach oben gerichtet ist, hohe Klangkomponenten entsprechend auch nach oben abgestrahlt werden. Über dem Fagott wirkt sein Klang aber u. U. etwas eng. Bei den Saxophonen, mit Ausnahme des Sopransaxophons, fallen die Zonen der Abstrahlung tieferer Klangkomponenten aus den Grifflöchern und höherer Komponenten aus der Stürze im Nahbereich in derselben Richtung zusammen. 2.2.3.3 Blechblasinstrumente Bei Blechblasinstrumenten wird der Schall praktisch ausschließlich von der Schallstürze abgestrahlt. Sie ist wesentlich größer als bei Holzblasinstrumenten und vermag deshalb den Schall verstärkt zu bündeln. Zudem ist die Schallröhre zwischen Mundstück und Stürze völlig geschlossen, von ihr wird also praktisch kein Schall abgestrahlt. Verglichen mit den Holzblasinstrumenten wird der Schall schon bei tieferen Frequenzen gebündelt; bereits bei Frequenzen um 500 Hz ist die Richtwirkung deutlich. Die Richtcharakteristik ist, abgesehen vom Horn, rotationssymmetrisch. Durch die Wahl des Mikrofonstandorts kann wie bei den Holzblasinstrumenten im Direktschallbereich, also innerhalb des Hallradius, in erheblichem Umfang die Klangcharakteristik gewählt werden; auch hier ist der Mikrofonstandort wesentlich wichtiger als der Mikrofontyp (Abb. 2/22). Der Klangcharakter der Instrumente direkt vor der Stürze ist hell bis  scharf, aber im Gegensatz zu den Holzblasinstrumenten ist dieser Mikrofonstandort durchaus für die Tonaufnahme zu bevorzugen, da tiefe und mittlere Frequenzkomponenten im Gegensatz zu den Holzblasinstrumenten auch von der Stürze abgestrahlt werden. Die Abstrahleigenschaften des Horns weisen einige Besonderheiten auf, da das Instrument im Gegensatz zur Trompete und Posaune schräg nach hinten und mit der rechten Hand im Schalltrichter gehalten wird. Das führt zu einem typisch diffusen, indirekten Hornklang, der bei den Komponisten auch zu einer entsprechenden musikalischen Verwendung führt; es verbindet klanglich die Gruppe der Holz- mit derjenigen der Blechbläser, oft wird es speziell für Ferneffekte verwendet. Für das Horn im Orchester problematisch ist deshalb das Einzelmikrofonverfahren, da das Mikrofon hierbei im Nahfeld vor die Stürze aufzustellen ist; damit wird die typische Klangcharakteristik im Orchesterklang nicht horngemäß, die Hörner klingen untypisch präsent. Die Abstrahlcharakteristik des Horns ist verglichen etwa mit derjenigen der Posaune, die in derselben Tonlage spielt, relativ komplex. Die Schallbündelung im Bereich hinter dem Spieler beginnt bereits bei etwa 150 Hz.

104 

 2 Schallquellen

Abb. 2/22. Abstrahlcharakteristik der Blechblasinstrumente ohne Horn, nach [Meyer, 2015].

2.2.3.4 Konzertflügel Die Klangabstrahlung eines Konzertflügels ist  sehr komplex, klare Angaben wie bei Blasoder Streichinstrumenten sind nur bedingt möglich; konkrete Empfehlungen für bestimmte Mikrofonstandorte sind im Einzelfall kritisch zu prüfen. Dafür kommt der Balance zwischen Direkt- und Raumschall, also dem Mikrofonabstand, eine besondere Wichtigkeit zu. Der geöffnete Konzertflügel strahlt für das Publikum den Schall insbesondere über die Reflexionen an dem um 45° geöffneten Deckel ab, die hohen Frequenzen am stärksten in dem Winkelbereich von ±  5° um die Mittelachse, ein deutlicher Höhenabfall ergibt  sich außerhalb ±  30°, tiefere Frequenzen werden allseitig abgestrahlt. Die wahrgenommene Gesamtlautstärke wird von der Richtung praktisch nicht beeinflusst, ebenso wenig wie von dem geschlossenen Deckel, der allerdings hohe Frequenzen deutlich bedämpft. Im Nahbereich der Mikrofonaufnahme sind die Verhältnisse komplexer, da hier die direkte Abstrahlung der Saiten, die Bodenreflexionen des Resonanzkörpers und mit abnehmendem Abstand zunehmende Anschlagsgeräusche der Hämmer hinzukommen, je nach Position des Mikrofons.

2.2 Musikinstrumente 

 105

Gerade die Balance zwischen dem Hammergeräusch, das einen deutlichen Anschlag vermittelt, und dem Klang der schwingenden Holzteile ist hier maßgebend. Nimmt man die Unterschiede zwischen einzelnen Instrumenten hinzu, wird die Frage der Schallabstrahlung noch komplexer, so dass in der Praxis die Suche einer optimalen Mikrofonposition sich weniger auf ein theoretisches Vorwissen stützen kann als bei anderen Instrumenten. 2.2.3.5 Kirchen- und Konzertorgel Die Kirchen- und Konzertorgel ist  mit ihrer körperlichen Ausdehnung und konstruktiven Gestalt das größte Musikinstrument; die konstruktiven Unterschiede zwischen den verschiedenen Instrumenten und ihre Ausdehnung  sind  so groß, dass allgemeingültige nützliche Aussagen zur Schallabstrahlung kaum möglich sind. Orgeln sind grundsätzlich angepasste Einzelanfertigungen. Hinzu kommt, dass die einzelnen Orgelpfeifen des Pedals chromatisch Ton für Ton abwechselnd auf die beiden Pedaltürme aufgeteilt sind, was keinen musikalischen, damit hörenswerten Sinn ergibt. Die große Kirchenorgel als Musikinstrument ist konzipiert als komplexes, den Raum klanglich füllendes Instrument, bei dem die örtliche Herkunft des Klangs keine Rolle spielt und auch nicht spielen soll. Ihre Aufgabe erfüllt die Orgel in erster Linie in der klanglichen Ausgestaltung des Gottesdienstes und einer emotionalen Einbindung seiner Besucher. Aus diesem Grund wird auch bei Orgelaufnahmen größter Wert auf die Vermittlung eines eindrucksvollen Raumklangs gelegt, für den die Abstrahlcharakteristik eine untergeordnete Bedeutung hat.

2.2.4 Elektronische Instrumente Elektronische Instrumente und Verfahren sind heute aus der Musikproduktion nicht mehr wegzudenken, sie tragen geradezu den Bereich der Popularmusik, weite Teile der Filmmusik, von Musicals, Tonunterlegungen von Fernsehspielen, Werbung usw. Es handelt  sich dabei nicht nur um Musikinstrumente im klassischen Sinn, sondern in hohem Maße um die Musikproduktion und Klangmanipulation in komplexen Verfahren. Ermöglicht hat diese Entwicklung die digitale Tonverarbeitung  mit  sog. DSPs, digitalen Signalprozessoren oder auch digitalen Sound-Prozessoren, die eine Bearbeitung von Signalen, z. B. auch analogen Audiosignalen, kontinuierlich in Echtzeit ermöglichen. Nicht vergleichbar mit traditionellen akustischen Instrumenten, die nach einer teils Jahrhunderte dauernden Entwicklungsphase weitgehend standardisiert sind und nur in Details noch weiterentwickelt werden, verläuft die Entwicklung bei elektronischen Instrumenten und Verfahren parallel mit der Entwicklung der Digitaltechnik geradezu stürmisch. In kurzen Abständen erscheinen neue Geräte und Softwaretools auf dem Markt und verdrängen die bisherigen. Deshalb werden hier nur grundlegende Verfahren und Begriffe behandelt, beginnend mit einem kurzen Rückblick auf die historische Entwicklung, aus der auch heute noch wichtige Instrumente geblieben sind, zumindest als Vorbild für digitale Lösungen.

106 

 2 Schallquellen

2.2.4.1 Historische Entwicklung Elektroakustische Instrumente und ihre Musik entwickelten sich einerseits aus dem Wunsch von Komponisten und Musikern, neue Klänge für eine neue Musik zu erzeugen, andererseits einfach aus den neuen Möglichkeiten, die die Elektrotechnik seit den 1920er Jahren schuf, also Tongeneratoren, Verstärker, Filter, Motoren u. a. Schon bald wurden mit Strom betriebene Instrumente entwickelt, darunter 1928 die Ondes Martinot, 1930 das Trautonium (siehe dazu Kap.  2.2.4.3) und 1934 die Hammond-Orgel. Mit der Erfindung des Tonbandgeräts in den 1940er Jahren wurde es möglich, aufgenommene Töne bei der Tongebung abzuspielen wie etwa beim Mellotron und komplexe Klangentwicklungen in kleine Schritte zu zerlegen, um sie dann hintereinander zu bearbeiten und auf mehrspurigen Tonbandgeräten zusammenzuführen. Aus diesen Entwicklungen gingen im Bereich klassischer Musik zwei Strömungen hervor: Die Elektronische Musik, die Klänge synthetisierte und einen Schwerpunkt beim Westdeutschen Rundfunk hatte, und die in Paris entwickelte musique concrète, die sich bevorzugt mit Montagen von aufgenommenen Geräuschen und Klängen befasste. Zu den ersten rein elektronischen Musikinstrumenten gehört das 1930 von Trautwein entwickelte Trautonium, das über ein Bandmanual die Frequenz einer Sägezahnschwingung  steuert, und  mit dem zweimanualigen Mixturtrautonium von Sala weiterentwickelt wurde; es baut auf subharmonische Schwingungen, die neue ungewöhnliche Klangfarben ermöglichen,  sowie auf weiteren den Klang gestaltenden Komponenten. Subharmonische Schwingungen  sind Vielfache der Wellenlänge des Grundtons im Gegensatz zu Harmonischen, die Vielfache der Frequenz des Grundtons sind. Salas Instrument erlangte in der Filmmusik zu Hitchcocks Film „Die Vögel“ bleibende Bedeutung, namhafte Komponisten haben für diese Instrumente komponiert, die aber dennoch keine Verbreitung gefunden haben. In der Entwicklung der Popularmusik haben einige historische Klassiker, auch Vintages genannt, größere Bedeutung erlangt und in gewissem Umfang auch behalten: Hammondorgel Die Hammondorgel, auch kurz Hammond, ist eine nach ihrem Erfinder benannte elektromechanische Orgel. 1934 erfunden und in den Vereinigten Staaten von Amerika zunächst als Ersatz für die Pfeifenorgel gedacht, wurde sie über den Einsatz als Unterhaltungsinstrument schnell zum Instrument des Jazz. Als Orgelersatz in amerikanischen Kirchen verwendet, fand sie in die Gospel-Musik Eingang. Von dort breitete sich das Instrument in Rock, Soul, Funk, Reggae u. a. aus. Popularität erlangte  sie in den 1960er und 1970er Jahren, als viele Bands das Instrument benutzten, v. a. das ab 1955 produzierte legendäre Modell B-3 mit Lesliet. Aber auch heute noch ist ihr unverwechselbarer Klang bzw. dessen digitale Simulation in der Popularmusik verbreitet. Allen Instrumenten gemeinsam ist der Aufbau mit zwei Manualen und Pedal analog einer einfachen Kirchenorgel. Das Obermanual wird als Swell, das Schwellwerk der Kirchenorgel, das Untermanual als Great, als Hauptwerk der Orgel bezeichnet. Zur Tonerzeugung rotieren metallene Tonräder mit einem gewellten Rand vor elektromagnetischen Tonabnehmern, für jeden Ton der Klaviatur ein Rad mit der Anzahl von Zähnen, die  seiner Frequenz entspricht. Auf Grund der Form der Tonräder ergibt  sich eine  sinusähnliche Schwingung, die durch Filterschaltungen weiter geglättet wird, so dass praktisch eine Sinusform entsteht, die Wiedergabe erfolgt über einen Lautsprecher, meist in Verbindung mit einem Leslie-Kabinett, einem sich drehenden Lautsprechersystem, das durch den

2.2 Musikinstrumente 

 107

Doppler-Effekt den Klang in der für die Hammondorgel typischen Weise  moduliert (siehe auch Kap. 6.6.6). Mellotron Das Mellotron ist ein elektromechanisches Tasteninstrument, das um 1960 erfunden wurde. Es arbeitet mit bespielten Tonbändern. Jeder Taste ist dazu ein eigener Tonbandstreifen zugeordnet, der auf Tastendruck abgespielt wird und z. B. originale Streicher- oder Bläsertöne enthalten kann. Das Mellotron ist ein charakteristisches Instrument des Progressive Rock der I 970er Jahre, es nimmt die Idee des Samplers vorweg. Clavinet Das Clavinet ist ein analoges, elektromechanisches Keyboard, der Klang ähnelt dem eines Cembalos. Es wurde besonders in den 1970er Jahren bei vielen Funk- und Rock-Aufnahmen eingesetzt. Das Instrument folgt dem Prinzip des Clavichords, einem bis ins 18. Jahrhundert verbreiteten Tasteninstrument. Es hat für jeden Ton eine stimmbare Saite, die an einem Ende bedämpft ist. Unter jeder Taste der Klaviatur befindet sich eine Tangente, die beim Drücken der Taste die Saite auf einen kleinen Block schlägt. Die Saite schwingt nun im ungedämpften Teil und wird dort über einen elektromagnetischen Tonabnehmer abgenommen. Nach Loslassen der Taste wird die gesamte Saite wieder bedämpft. Lautstärke und Charakter des Tons können durch die Anschlagstärke beeinflusst werden. Auf Grund der Anschlagsgeräusche entsteht ein charakteristischer Klangeinsatz, der von vielen Spielern erwünscht ist und als wichtiges Element des Klangs aufgefasst wird. Fender Rhodes-Piano und Wurlitzer-E-Piano Wie beim Clavinet werden über eine Klaviatur  mechanische Schwingungen erzeugt, beim Fender Rhodes aber von Stäben, elektromagnetisch abgenommen, verstärkt und über Lautsprecher wiedergegeben. Beim Wurlitzer-E-Piano erfolgt die Tongebung durch Metallzungen, die eine Platte eines Kondensators darstellen. Die Instrumente werden nicht mehr hergestellt, fanden jedoch im Jazz, Funk, Pop u. a. der 1960er bis 1980er Jahre Verwendung. Der RhodesKlang ist wegen unharmonischer Oberschwingungen glockenähnlich, das Wurlitzer-Piano ist im Forte hart und durchsetzungsfähig, im Piano eher weich und dem Vibrafon ähnlich. E-Gitarre Die E-Gitarre gehört  mit ihrer akustischen Klangerzeugung, aber elektrischen Verstärkung und Klangformung wie Hammondorgel und Clavinet zu den elektromechanischen Instrumenten, den sog. Elektrofonen. Zur E-Gitarre siehe Kap. 2.2.2. 2.2.4.2 Elektronische Klangerzeugung Um das komplexe Feld der modernen elektronischen Instrumente und Verfahren zu verstehen, kann man zwischen Klangsynthese und Klangveränderung oder -manipulation unterscheiden. Synthesemethoden  stellen dabei Techniken dar,  mit deren Hilfe Klänge elektronisch, d. h. heute, digital erzeugt werden, bei den Methoden der Klangveränderung handelt es  sich um Strategien, vorhandene akustisch oder elektronisch erzeugte Klänge zu verän-

108 

 2 Schallquellen

dern. Für den Musiker ist es allerdings oft unerheblich, wie die Klänge tatsächlich erzeugt werden. Elektronische Klangerzeuger generieren Klänge, meist gesteuert durch eine Klaviatur, ein Keyboard, wie man bei elektronischen Instrumenten sagt, aber auch durch ein digitales Steuersignal,  meist im MIDI-Format. Es gibt eine Reihe von Prinzipien zur Klangerzeugung, von denen hier nur die wichtigsten erläutert sind. Die vielfach angewandte subtraktive Synthese geht bereits von vorhandenen Sounds aus, die  sie verändert, für den Musiker ist dies allerdings unerheblich. Bei den Verfahren der Klangveränderung im engeren Sinn kommen wieder akustisch bzw. mechanisch erstellte Klänge ins Spiel, die verändert werden. Zur Klangveränderung siehe insbesondere auch Kap. 6 6. Die wichtigsten Prinzipien der Klang­erzeugung sind: Additive Synthese: Bei der additiven Synthese oder Fourier-Synthese wird das Klangspek­ trum aus einem Grundton und den dazu harmonischen Obertönen zusammengesetzt, also aus  sinusförmigen Tönen  mit Frequenzen, die ein Vielfaches der Grundfrequenz haben. Jedem Einzelton wird Amplitude, Frequenz und Phase zugewiesen; um die Klänge lebendiger zu machen, kann jeder Tonkomponente eine eigene Hüllkurve zugeordnet werden. Diese Synthese folgt dem Fourierschen Prinzip, wonach jede Gestalt einer periodischen Schwingung aus einzelnen Sinuskomponenten zusammengesetzt werden kann (siehe Kap. 1.1.2.3). Subharmonische Klangstrukturen: Natürliche Schallquellen wie akustische Instrumente erzeugen Töne, die in der Regel aus einem Grundton  mit Obertönen bestehen, deren Frequenzen ganzzahlige Vielfache der Frequenz des Grundtons sind, sie sind sog. harmonische Teiltöne. Herkömmliche elektronische Klangerzeuger folgen in der Regel diesem Prinzip. Im Gegensatz dazu werden  subharmonische Klangstrukturen durch ganzzahlige Frequenzteilungen aus dem Grundton abgeleitet, ihre Frequenzen betragen also 1/2, 1/3, 1/4 usw. der Frequenz des Grundtons und bilden die sog. Untertöne bzw. werden zu sog. subharmonischen Mixturen zusammengesetzt. Subharmonische Klangstrukturen weisen einen  sehr eigenen, ungewohnten Klang auf, der so in der traditionellen akustischen Welt nicht vorkommt. Subharmonische Mixturen wurden um 1930 erstmalig von Trautwein mit seinem Mixturtrautonium realisiert, das später von Sala weiterentwickelt wurde. In den 1960er Jahren entstanden in Berlin verschiedene Nachbauten und Weiterentwicklungen solcher Instrumente, darunter das im Unterschied zum Trautonium auf einer normalen Klaviatur  spielbare  sog. Subharchord [Schreiber, 1964], das als einer der ersten Hybrid-Synthesizer, d. h., teils analog, teils digital arbeitende Klangerzeugung, betrachtet werden kann. Insgesamt hat sich das Prinzip der subharmonischen Klangstrukturen trotz seiner vielfältigen und interessanten Klangmöglichkeiten bisher jedoch nicht breit etablieren können. Physical Modeling: Diese Methode der Klangerzeugung versucht, den physikalischen Vorgang der Klangerzeugung selbst durch Algorithmen zu erfassen, für einen Streicherklang etwa wird die Saitenanregung durch den Bogen, die Schwingung der Saiten und die Funktion des Resonanzkörpers rechnerisch dargestellt. Dies kann von einfach bis sehr aufwändig geschehen. Zu diesem Verfahren wird auch die sog. Karplus-Strong-Synthese gezählt; dieser Algorithmus wird besonders zur Bildung von Klängen von Saiteninstrumenten benutzt. Als Ausgangsmaterial werden kurze Zeitabschnitte eines Geräuschs verwendet, die verändert und in der erforderlichen Anzahl pro Sekunde wieder zu einer periodischen Schwingung zusammengesetzt werden.

2.2 Musikinstrumente 

 109

Wavetable-Synthese: Man versteht unter dieser Synthese die Klangerzeugung auf der Basis fertiger, digitaler Schwingungsformen, die entweder durch additive oder subtraktive Nachbearbeitung geformt und zu Klängen verarbeitet werden. Diese Schwingungen liegen als fest abgespeicherte Zahlentabellen, sog. wavetables, im ROM-Speicher des Synthesizers vor. Das Verfahren braucht deutlich weniger Rechenleistung als z. B. Granularsynthese oder Physical Modeling. Subtraktive Synthese: Bei der subtraktiven Synthese geht man von sehr obertonreichen Wellenformen aus, z.  B. einer  sägezahnförmigen Schwingung, die alle Teiltöne enthält (siehe dazu auch Kap. 1.1.1.3). Mit einfacher oder mehrfacher Filterung werden bestimmte Teile des Spektrums entfernt. Das Filter kann von außen zeitabhängig steuerbar sein, damit es durch Modulationen, Hüllkurven o. a. lebendiger, echter wirkt. Dieses Verfahren ist auch analog gut realisierbar und gehört zu den ersten, vielfach angewandten Verfahren, stellt aber eigentlich ein Verfahren der Klangveränderung dar. 2.2.4.3 Verfahren der elektronischen Klangveränderung Eine Vielfalt von Verfahren wird für die Veränderung vorhandener Klänge oder Sounds angewendet, siehe dazu auch Kap. 6.2 bis 6.6: Amplitudenmodulation: Bei der Amplitudenmodulation oder AM z. B. einer Schwingung wird die Amplitude bzw. die Lautstärke periodisch durch eine zweite Schwingung verändert, indem die Schwingungen  miteinander  multipliziert werden,  musikalisch ausgedrückt ist dies ein sog. Tremolo. Erfolgt die Modulation eines Sinustons ebenfalls durch einen Sinuston mit mehr als etwa 20 Hz, so werden mit den zwei Sinustönen mehrere weitere hörbare Teiltöne erzeugt. Dadurch entsteht aus einer Frequenz von z. B. 1  kHz und einer Modulationsfrequenz von 400 Hz ein Spektrum aus der Summe und der Differenz der beiden Frequenzen, also zusätzliche Sinustöne mit 600 und 1,4 kHz. Mit AM werden insbesondere komplexe Spektren verändert bzw. verzerrt. Analog wird eine AM realisiert, indem zwei Signale gemischt und über eine nichtlineare Kennlinie übertragen werden. Überträgt  man einen einzelnen Sinuston über eine solche Kennlinie, so entstehen neue Töne mit dessen ganzzahligen Vielfachen. Frequenzmodulation: Bei der Frequenzmodulation oder FM, die analog  mit einfachen Mitteln zu realisieren ist, wird eine Schwingung, allg. ein Klang durch eine zweite Schwingung in  seiner Tonhöhe periodisch verstimmt, bei wenigen Frequenzänderungen pro Sekunde musikalisch ein Vibrato. Wird bei diesem Verfahren eine Schwingung mit einer Frequenz von mehr als 20 bis 30 Hz verstimmt, entstehen neue hörbare komplexe Schwingungen. Die FM wurde in den 1980er Jahren in der Popmusik zu einer  mit Synthesizern häufig benutzten Methode. Sie ist allerdings eine schwer zu kontrollierende und in ihrer Wirkung kaum vorherzusagende Art der Klangveränderung. Phasenmodulation: Die in ihrer klanglichen Wirkung der Frequenzmodulation ähnliche Phasenmodulation oder PM wird bei den digitalen Verfahren der Klangbearbeitung bevorzugt; analog ist PM nur aufwändig zu realisieren. Die zu modulierende Schwingung wird dabei mit derselben Schwingung, deren Phase aber zwischen 0° und 180° schwingt, moduliert. Auch die Ergebnisse dieser Form der Modulation sind nicht einfach vorauszusehen.

110 

 2 Schallquellen

Granularsynthese: Bei diesem digitalen Verfahren wird eine komplexe Schwingung z B. von einem Instrument in viele sehr kurze Klangabschnitte zerschnitten, die dann über Rechenanweisungen, sog. Algorithmen, in Gestalt, Wiederholungsmustern und Reihenfolge verändert und neu zusammengesetzt werden. Die Granularsynthese ist wohl das radikalste Verfahren der Klangveränderung. Die Zeitabschnitte  sind  mit Werten unter 50  ms  so kurz, dass  sie nicht mehr als Impulse empfunden werden, sondern als Klangfarben. Die grains, also die Mikro-Klangabschnitte, können in vielfältigster Weise bearbeitet und verändert werden, wiederholt, gedreht, überlappt, vertauscht usw. Diese Technik eröffnet ungeahnte Möglichkeiten der Klangveränderung, besser Neugestaltung, das Verfahren besitzt ein großes kreatives Potential: Man kann einen Klang z. B. verlängern oder sehr stark aufrauen, ihm ein anderes Spektrum geben oder beliebige Veränderungen der Tonhöhen erstellen. Der resultierende Klang ist zwar abhängig von dem bearbeiteten Klang, jedoch sind die Gestaltungsmöglichkeiten der einzelnen grains so immens, so dass sich neue Klangkombinationen bzw. Klangstrukturen ergeben. Dies  macht die Granularsynthese praktisch zu einem Verfahren der Klangerzeugung, nicht nur Klangveränderung. Wave Sequencing: Das Verfahren beruht wie die Granularsynthese auf einem Zerschneiden eines Schwingungsverlaufs und anschließendes Bearbeiten der Zeitabschnitte, diese  sind hier jedoch länger. Beim Sampling  sind  sie lang genug, dass der Klang der gesampelten Schwingung erhalten bleibt. Phase-Vocoder: Der Phase-Vocoder wurde 1965 von Flanagan und Golden entwickelt. Wie der Name  schon  sagt, ist der Phase-Vocoder eine Art Vocoder (siehe Kap.  6.6.7), d.  h., ein Gerät zur Ver- und Entschlüsselung von Stimmen. Phase-Vocoder funktionieren allgemein gesagt wie eine Filterbank, bei der die Filter in Reihe geschaltet sind und jedes Filter einen bestimmten Bereich der Frequenzen herausfiltert und deren Lautstärke ermittelt. Die Daten der Lautstärke und Frequenz der einzelnen Frequenzbänder werden zur Resynthese eines Klangs benutzt. Dadurch wird der Klang wieder neu zusammengesetzt. Man ersetzt einen Klang durch einen anderen, wobei wesentliche Klangeigenschaften und zeitliche Strukturen erhalten bleiben. Filtert man im Vocoder z. B. Sprache und setzt bei der Resynthese an die Stelle der Oszillatoren einen Bläserakkord, so kann man diesen Akkord sprechen oder singen lassen. Der Phase-Vocoder kann auch Übergänge zwischen verschiedenen Klängen erzeugen: eine Stimme kann langsam in einen Flötenton übergehen, das sog. Morphing, oder es kann eine Zeitkompression oder Zeitdehnung erzielt werden, ohne das Spektrum zu verändern, man kann einen Titel beschleunigen, ohne seine Tonhöhen zu verändern. Ringmodulator: Mit der Ringmodulation lassen sich unharmonische Obertonspektren erzeugen, metallische Klänge, siehe Kap. 6.6.5. Transitional Synthesis: Rechnerisch wird durch Interpolieren ein fließender Übergang zwischen zwei ähnlichen Ereignissen gestaltet. Direct Digital Synthesis: Ein Computer rechnet das digitale Material vorhandener Schwingungsformen nach bestimmten Rechenvorschriften um, wodurch neue Klänge entstehen. Composite Synthesis: Bei diesem Verfahren  mischt  man künstlich erzeugte und natürliche Klänge in Form von Samples zu einem neuen Klang.

2.2 Musikinstrumente 

 111

2.2.4.4 Klangsteuerung durch MIDI Die Weiterverarbeitung von Klängen zu kompletten Musikstücken oder Titeln kann entweder live erfolgen, d. h., die Interpretation und die Wiedergabe über Lautsprecher sind zeitgleich, oder ein Titel wird produziert, die Wiedergabe erfolgt dann stets von einem Tonspeicher zu einem anderen Zeitpunkt. Für die Aufnahme, Speicherung und Steuerung von elektronischen Musikinstrumenten und die Bearbeitung von elektronischen oder akustischen Klängen werden einige Geräte oder Softwaremodule benutzt, die hier nur kurz definiert werden. Für die digitale Musikproduktion  selbst wird auf die Literatur verwiesen, z.  B. [Bremm, 2004, 2007], [Conrad, 2012], [Hömberg, 2010]. MIDI MIDI, eine digitale Schnittstelle für MIDI-fähige Musikinstrumente, abgekürzt aus Musical Instrument Digital Interface, ist ein Datenübertragungsprotokoll für die Übermittlung, Aufzeichnung und Wiedergabe von umfassenden Steuerinformationen zur Klangerzeugung bzw. Musikproduktion zwischen Geräten, Keyboards, Instrumenten, Computern, Regiekonsolen u.  a. Neben elementaren Befehlen zu einzelnen Tönen wie Tonhöhe, Dauer, Beginn und Ende, Informationen zur Einhüllenden u. a. werden auch weitere komplexe und  spezielle Befehle übermittelt. MIDI wurde erstmals 1983 vorgestellt als nicht patentierter Industrie-Standard, heute als Open-Source-Software bezeichnet, was eine schnelle Verbreitung und Akzeptanz auslöste. Die Möglichkeit, MIDI-Daten mit Computern zu bearbeiten, war die Grundlage des sog. Homerecording, also der elektronischen und akustischen Musikproduktion im nicht professionellen Bereich, vor allem durch die Musiker selbst. MIDI ist eine Übereinkunft zwischen Firmen, kein international normierter Standard,  sondern ein Industrie-Standard der MIDI Manufactures Association. MIDI beherrscht den Markt der musikalischen Unterhaltungsindustrie. MIDI arbeitet nur mit Steuerfunktionen, es kann keine dem Original klanglich folgende Wiedergabe bieten, diese liefern die gesteuerten Instrumente. MIDI ist also kein Audioformat; insofern kann  man einen MIDI-Datensatz  mit den Informationen einer Notenpartitur für Klavier vergleichen. Das Format wird von sehr vielen elektronischen Instrumenten und Soundkarten, Drum-Computern, aber auch Effektgeräten jeglicher Art unterstützt, des Weiteren von Lichtanlagen, über Konverter auch von akustischen Instrumenten wie E-Gitarren. Die MIDI-Schnittstelle ist eine  serielle Schnittstelle  mit einer Übertragungsrate von 31,25 kBaud, also eine relativ langsame Schnittstelle, was bei komplexen Zusammenschaltungen zu hörbaren Verzögerungen führen kann. Mit vier verschiedenen Modes wird die Zuordnung der Stimmen und der MIDI-Kanäle (Channels) festgelegt. Der MIDI-Standard setzt voraus, dass alle MIDI-fähigen Geräte MIDI-Anschlussbuchsen haben, sie entsprechen den 5-poligen Stereo-DIN-Buchsen, sind aber anders beschaltet. In der Regel haben die Geräte drei Buchsen: MIDI-IN für den Datenempfang, MIDI-OUT für den Datenexport und MIDI-THRU (= Through) für die Durchschaltung der Daten. Die Verkabelung erfolgt über MIDI-Kabel, die nach dem MIDI-Standart beschaltet sind. Es gilt die Steckrichtung: OUT nach IN, IN nach OUT, THRU nach IN. Um MIDI-Instrumente  mit einem Computer ansteuern zu können,  muss der Computer  mit einem MIDI-Interface ausgerüstet  sein. Moderne Soundkarten haben eine MIDISchnittstelle. MIDI-Files  sind komplett arrangierte Songs für Keyboards. MIDI-Files  sind

112 

 2 Schallquellen

quasi Playbacks, sie geben die Instrumente eines Musikstücks komplett wieder mit Schlagzeug, Gitarre, Bass, Keyboard usw. Ein Song im MIDI-Format kann in Tempo, Tonhöhe, In­­ strumente u.  a. verändert werden. Jedes einzelne Instrument kann ein- und ausgeschaltet werden. Es hat sich ein Markt für MIDI-Files gebildet. MIDI-Standard 1983 legt die MMA (MIDI Manufacturers Association) die Vorschriften für die MIDI-Hard- und -Software in der MIDI-Spezifikation fest. Um die Einhaltung dieser Spezifikation zu überwachen, wird die Internationale MIDI-Association (IMA) gegründet. 1990 erfolgt die Einigung auf ein Standard-MIDI-File-Format (SMF). Dieser Standard gewährleistet, dass alle abgespeicherten Musikstücke auch auf verschiedene Computertypen geladen und in allen Musikprogrammen bearbeitet werden können. Es gibt bei diesen Files das Format 0, bei dem alle Daten auf einer Spur (Track) zusammengefasst sind, und das Standardformat 1, bei dem die Daten von bis zu 16 Kanälen unabhängig voneinander eine eigene Spur haben. [Stotz, 2019] 1991 wird der General-MIDI-Standard (GM-Standard) vereinbart. Er wird benötigt, wenn  man fertige Musikstücke im MIDI-File-Format abspielen oder die MIDI-Files weitergeben will. Er ist mindestens 24-stimmig und gewährleistet, dass die einzelnen Klänge von einem Instrument derselben Art wiedergegeben werden, d. h., ein Klavierpart wird nur von einem Klavierklang gespielt. 127 Instrumente sind Klangnummern zugeordnet. Dazu gibt es weitere 16 Spuren bzw. Kanäle. Nachdem sich das grundlegende Konzept des GM-Standards bewährt hat, kommt es 1994 zu den firmenspezifischen Erweiterungen GS und XG; XG z. B. ist  mindestens 32-stimmig, beinhaltet 676 Instrumente, zusätzliche Drum-Sets und ermöglicht flexiblere Effekte z. B. für Hall. GS und XG sind zu GM abwärtskompatibel. MIDI-Komponenten Masterkeyboard: Ein Masterkeyboard ist eine Klaviatur zur Erzeugung von MIDI-Steuerdaten ohne eigene Klangerzeugung. Es kann an beliebige MIDI-fähige Instrumente, z. B. einen Sampler oder Synthesizer zur direkten Klangansteuerung angeschlossen werden oder an einen MIDI-Sequenzer zur Aufzeichnung von MIDI-Befehlen. Professionelle Masterkeyboards verfügen über eine dem Klavier ähnliche mechanische Klaviatur sowie weitere Spielhilfen und Steuerfunktionen. Neben einem MIDI-Ausgang ist u.  U. auch ein USB-Ausgang vorhanden. Masterkeyboard-Funktionen haben meist auch Digitalpianos und andere Instrumente mit Keyboard. Sampler: Der Sampler ist ein elektronisches Musikinstrument, das Töne elektronischer oder akustischer Herkunft aufnimmt, digitalisiert und als Samples in einer Audiodatei z. B. auf einer Festplatte speichert. Über ein Masterkeyboard oder eine MIDI-Steuerung können diese Daten über einen Prozessor in jeder gewünschten Tonhöhe wiedergegeben werden. Hardwaresampler  sind im Prinzip  spezialisierte PCs, Softwaresampler  sind Computerprogramme, die zusätzlich mit A/D- und D/A-Wandlern und Soundkarten arbeiten. Professionelle Sampler verfügen über eine größere Zahl klangformender Komponenten wie Filter und Effekte, was sie dann im Prinzip zu Synthesizern macht. Da die Aufnahme und der Schnitt von Samples relativ aufwändig  sind, greifen Musiker vielfach auf fertige Sample-Libraries

2.2 Musikinstrumente 

 113

z.  B. auf CD oder im Internet zurück oder  sampeln Töne aus vorhandenen Aufnahmen. Sampler ohne Aufnahmemöglichkeit werden als ROM-Sampler oder Rompler bezeichnet. Sequenzer: Der Sequenzer ist ein Computer zur Speicherung, Bearbeitung und Ausgabe von Steuerdaten für Klangerzeuger, z. B. Synthesizer, Sampler oder elektronische Instrumente. Beim MIDI-Sequenzer sind die Steuerdateien als MIDI-Dateien vorhanden und steuern alle wichtigen Eigenschaften eines musikalischen Tons wie Zeitpunkt des Beginns, Dauer, Lautstärke und Zuweisung des Klangerzeugers. Die erklingenden Noten können über ein Masterkeyboard in Echtzeit gespielt oder über einen PC editiert werden. Synthesizer, Workstations und PCs: Die einzelnen Geräte, Instrumente oder Softwareprogramme haben mit jeder Generation immer neue Fähigkeiten erhalten, so dass zwischen den genannten Komponenten die Grenzen immer offener werden. Ein entsprechend ausgestatteter PC kann bei entsprechender Leistungsfähigkeit mit einem Masterkeyboard alle Funktionen für eine Musikproduktion übernehmen. Die digitale Audio-Workstation (DAW, AWS) ist ein spezialisierter Computer, der für andere Aufgaben nicht zur Verfügung steht. Begriffe der Hüllkurvensteuerung: Zu den Begriffen, die bei der Ton- und Klanggestaltung verwendet werden (Tab. 2/6 und Kap. 6), kommen bei elektronischen Instrumenten und Verfahren Begriffe der Steuerung der Hüllkurve (Abb. 2/23) hinzu.

Abb. 2/23. Begriffe der Hüllkurvensteuerung.

114 

 2 Schallquellen

Tab. 2/6. Einige Begriffe der Klangsteuerung. Abkürzungen

Begriffe englisch

Begriffe deutsch

ADSR

attack-decay-sustain-release, auch: envelope generator band-pass hight-pass low frequency oscillator low-pass voltage controlled wave form

Hüllkurvengenerator (siehe Abb. 2.23)

BP HP LFO LP VCW

Bandpass Hochpass Tieffrequenzgenerator Tiefpass spannungsgesteuerte Schwingungsform

2.2.4.5 Keyboards und Rhythmusgeräte Die genannten Verfahren der Synthese, Bearbeitung und Speicherung werden in autarken Tasteninstrumenten, sog. Keyboards, bzw. Geräten mit besonderen Aufgaben angewendet. Deren Fähigkeiten sind sehr unterschiedlich, es gibt spezialisierte Keyboards mit besonderen Bezeichnungen, von denen nachfolgend einige genannt  sind, es gibt universelle Keyboards, die Grenzen sind fließend; auch zwischen professionellen und nicht professionellen Geräten. Zudem werden mit jeder neuen Gerätegeneration neue Features eingeführt. Oft werden die Geräte mit ihrer Typenbezeichnung und/oder dem Hersteller benannt, um Klarheit zu haben. Im einfachsten Fall dienen Keyboards nur der Klangerzeugung mit akustischer Kontrolle über Kopfhörer. Zu selbständigen Instrumenten werden sie mit integriertem oder angeschlossenem Audioverstärker und Lautsprechern. Keyboards werden im Allgemeinen direkt, nicht über Mikrofon aufgenommen (Direct Injection). Um die Sicherheit auch bei fehlerhaften Geräten zu gewährleisten, muss die Verbindung der Geräte mit Erde unterbrochen werden. Entweder werden die Geräte über Trenntransformatoren am 230  V-Netz angeschlossen oder die Leitungen über Trennmodule für Tonsignale,  sog. DI-Boxen (siehe Kap.  8.6). Ein Leslie-Kabinett  muss immer  mit Mikrofon abgenommen werden. Man kann folgende Instrumentengruppen unterscheiden: Elektronische Pianos Aus dem Wunsch, Klaviere oder Flügel elektronisch nachzubilden, wurden zunächst eine Reihe elektromechanischer Instrumente entwickelt, einige davon  sind in Kap.  2.2.4.1 genannt. Hybrid-Pianos sind mechanische Klavierinstrumente mit kürzeren Saiten und teils ohne Resonanzkörper, die elektrisch verstärkt werden, teils auch zusätzlich komplette E-Pianos enthalten. Dem Ziel, den Klavierklang nachzubilden, kommen aber erst seit den 1990er Jahren E-Pianos und E-Flügel mit Sampleplayern nach, d. h., es werden real aufgenommene Klavierklänge abgespielt, die Instrumente verfügen in der Regel auch über MIDI-Steuerungen. Stage-Pianos sind Instrumente ohne eingebauten Lautsprecher oder nur einem kleinen Kontrollmonitor. Digital- oder E-Pianos und E-Flügel sind also auf den Klavierklang spezialisierte Keyboards oder Synthesizer. Sie können auch weitere Sounds enthalten, zusätzlich Begleitrhythmen, Begleitautomatik und weitere Funktionen. Piano-Workstations  sind  sehr umfassend ausgestattete Instrumente.

Literatur 

 115

E-Orgeln und Sakralorgeln Wie  sich das E-Piano aus der Nachahmung des Klavierklangs entwickelt hat, hat die Eoder Digitalorgel ihren Ursprung in der Kirchenorgel. Ein bis drei Manuale, ein Pedal für die Bassstimme, gesampelte Einzelstimmen von Orgelaufnahmen, sog. Register, die zu sog. Dispositionen oder Werken zusammengefügt werden können. Dazu kommen Nachhall und ein breites Spektrum weiterer Klangeffekte. Die kleinsten Varianten aus nur einem Keyboard bestehend, sind die E-Orgel oder Keyboard-Orgel. Heimorgeln, Sakralorgeln und Konzertorgeln sind die leistungsfähigen Varianten. Drum-Computer, Drum Machine, Groovebox und E-Schlagzeug Hierbei handelt es sich um Geräte zur Erzeugung der perkussiven Klänge eines Schlagzeugs und kompletter Rhythmen, entweder analog oder digital aus Samples. Angesteuert werden die Geräte entweder über MIDI oder ein anderes Interface, über eingebaute Pattern-Sequenzer oder Drum-Pads, ein elektronisches Schlagzeug. Der Drum-Computer liefert meist komplette Rhythmusmuster, sog. Styles, die auf bis zu acht Spuren ein akustisches Schlagzeug ersetzen. Ausgelöst wird ein Rhythmus z. B. durch die linke Hand des Keyboarders über eine Einzeltaste oder einen Akkord. Das E-Schlagzeug wird wie ein akustisches Schlagzeug gespielt, erzeugt aber z. B. MIDI-Signale ähnlich der Funktionsweise des Masterkeyboards, die Schlaginstrumente sind hier durch Schlagflächen, sog. Pads ersetzt. Grooveboxen sind umfangreich ausgestattete Kombinationen aus Sampler oder ROM-Sampler, Synthesizer, Sequenzer und Drum-Computer, bis hin zu eigenständigen Geräten zur Musikproduktion.

Standards [DIN 1311] [DIN 1317] [DIN 1320] [DIN 13320] [DIN 45630] [DIN EN 61260l [DIN EN IEC 60268-16] [ISO 16]

Schwingungen und schwingungsfähige Systeme, Tl. 1: Grundbegriffe Norm-Stimmton Akustik; Begriffe Akustik; Spektren und Übertragungskurven,Begriffe, Darstellung Bl. 1 Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall Bl. 2: Normalkurven gleicher Lautstärkepegel Eektroakustik — Bandfilter für Oktaven und Bruchteile von Oktaven (IEC 61260) Elektroakustische Geräte, Teil 16: Objektive Bewertung der Sprachverständlichkeit durch den Sprachübertragungsindex Acoustics — Standard tuning frequency (Standard musical pitch)

Literatur [Albrecht, 2017 [Bahnert, 2003] [Baines, 2010]

Albrecht, C.: Der Tonmeister, 2. Aufl., 2017, Schiele & Schön] Bahnert, H., Herzberg, Th. und Schramm, H.: Metallblasinstrumente. Handbuch für Musiker und Instrumentenbauer, 2003, Noetzel Baines, A., Elste, M.: Lexikon der Musikinstrumente, 2010, J. B. Metzler

116 

 2 Schallquellen

[Bisping, 1990] Bisping, R., van der Velden, U. und Wingartz, P.: „Welche Frequenzbereiche im Stimmspektrum sind für die Übermittlung menschlicher Emotionen von besonderer Bedeutung?“, in: Bericht 16. Tonmeistertagung 1990, S. 329ff., 1991, Saur [Bremm, 2004] Bremm, P.: Das digitale Tonstudio. Praktische Hilfe zur digitalen Tonstudiotechnik, 2004, PPV Medien [Bremm, 2007] Bremm, P.: Das Digitale Tonstudio. Technische Grundlagen der Musikproduktion, mit dem Computer, 2. Auflage, 2007, PPV Medien [Conrad, 2012] Conrad, J.-F.: Recording. Einführung in die Technik der Musikproduktion, 7. Aufl., 2012, PPV Medien [Cremer, 1998] Cremer, L.: Physik der Geige, 1998, Hirzel [Dickreiter, 2007] Dickreiter, M.: Musikinstrumente. Moderne Instrumente, Historische Instrumente. Klangakustik, 7. Aufl. 2007, Bärenreiter [Fletcher, 1998] Fletcher, N. H. und Rossing Th. D.: The Physics of Musical Instruments, 2. Aufl. 1998, Springer [Forss, 2007] Forss, C.-J.: Piano- und Flügelstimmung, 2007, Bochinsky [Hömberg, 2010] Hömberg, M.: Recording Basics, 3. Aufl. 2010, PPV Medien [Howard, 2017] Howard, D. und Angus, J.: Acoustics and Psychoacoustics, 5. Aufl., 2017, Focal [Legenstein, 2014] LLegenstein, M. M.: Der emotionale Ausdruck der Stimme: Die akustischen Merkmale von Emotionen, 2014, AV Akademieverlag [Leonhardt, 1997] Leonhardt, K.: Geigenbau und Klangfrage, 3. Aufl. 1997, Bochinsky [Marinovici, 2008] Marinovici, C.: Musikinstrumentenkunde. Von der Klassik zur Elektronik, 2008, Leu [Meyer, 1990] Meyer, J.: „Zur Dynamik und Schalleistung von Orchesterinstrumenten“, in: Acustica 1990, S. 277ff. [Meyer, 1992] Meyer, J.: Physikalische Aspekte des Geigenspiels, 2. Aufl., 1992, Respublica [Meyer, 2015] Meyer, J.: Akustik und musikalische Aufführungspraxis, 6. Aufl. 2015, PPV Medien [Roederer, 1999] Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik, 1999, Springer [Schreiber, 1964] Schreiber, E.: „Ein neuartiger elektronischer Klang- und Geräusch­ erzeuger“, in: OIRT-Zeitschrift Rundfunk u. Fernsehen, Prag 1964, H.2 [Seidner, 2010] Seidner, W. und Wendler, J.: Die Sängerstimme. Phoniatrische Grundlagen des Gesangs, 2010, Henschel [Stotz, 2019] Stotz, D.: Computergestützte Audio- und Videotechnik. Multimediatechnik in der Anwendung, 3. Aufl. 2019. Springer Terhardt, 1998] Terhardt, E.: Akustische Kommunikation. Grundlagen mit Hörbeispielen, 1998, Springer [Wackernagel, 2005] Wackernagel, B.: Holzblasinstrumente, 2005, Schneider [Weinzierl, 2014] Akustische Grundlagen der Musik, 2014, Laaber

3 Schallwahrnehmung Michael Dickreiter, Jürgen Goeres-Petry (3.1) 3.1 Das Gehör Das Ohr ist sowohl ein Sinnesorgan für die Wahrnehmung von Schall als auch ein Gleichgewichtsorgan. Es gliedert sich physiologisch in das Außenohr, das Mittelohr und das Innenohr. Abb.  3/1 zeigt einen Schnitt, Abb.  3/2  schematisch den Aufbau. Als Gehör umfasst es außer dem physiologischen Organ auch die nervliche Verarbeitung der Sinneseindrücke, dem Schallereignis, und  seiner Bewusstwerdung als Hörereignis. [Hartmann, 1998], [Hellbrück, 2004], [Fastl, 2007], [Howard, 2017]

Abb. 3/1. Schnitt durch das menschliche Ohr.

3.1.1 Außenohr Das Außenohr dient der Schallankopplung des Ohrs an das umgebende Schalleld und der Umwandlung der Luftschwingungen in  mechanische Schwingungen. Es besteht aus der Ohrmuschel und dem äußeren Gehörgang, dem Ohrkanal. Die zahlreichen Erhebungen und Vertiefungen der Ohrmuschel bilden akustische Resonatoren, die jeweils unterschiedlich bei Schalleinfall aus verschiedenen Richtungen angeregt werden. Hierdurch entstehen richtungsabhängig unterschiedliche Spektren  mit  spezifischen Minima und Maxima, die vom Gehör zur Bestimmung der Einfallsrichtungen des Schalls genutzt werden. Der äußere Gehörgang ist ein mit Haut ausgekleidetes, knorpeliges Rohr von etwa 3 bis 4 cm Länge und https://doi.org/10.1515/9783110759921-003

118 

 3 Schallwahrnehmung

5  bis 10  mm Durchmesser. Er ist über das Trommelfell  mit dem Mittelohr verbunden; das Trommelfell wandelt wie die Membran eines Mikrofons den Luftschall zur Weiterverarbeitung in mechanische Schwingungen um. Das äußere Ohr enthält außerdem sog. Ohrschmalzdrüsen, die ein hellgelbes Sekret liefern, und Talgdrüsen, die das eigentliche Ohrenschmalz, das Cerumen, produzieren. Das Ohrenschmalz übt eine Schutzfunktion gegenüber äußeren Einflüssen aus und verhindert das Eindringen von Verunreinigungen und Krankheitserregern. Ohrenschmalz kann jedoch die Schallleitung beeinträchtigen und  muss gegebenenfalls entfernt werden.

Abb. 3/2. Aufbaus des menschlichen Ohrs.

3.1.2 Mittelohr Zum Mittelohr gehören das Trommelfell, die Gehörknöchelchen, bestehend aus Hammer, Amboss und Steigbügel, das ovale Fenster und die Eustachische Röhre, auch Ohrtrompete oder Paukengang genannt. Die Knöchelchen des Mittelohrs übertragen die Bewegung des Trommelfells auf das ovale Fenster, dieses bildet die Verbindung zwischen Mittel- und Innenohr. Die Knöchelkette wirkt dabei als Drucktransformator bzw. Impedanzwandler. Der auf das ovale Fenster übertragene Druck ist bei kleinerer Membranauslenkung des ovalen Fensters wesentlich größer als der Schalldruck, der auf das Trommelfell einwirkt; umgekehrt wird die Membranauslenkung entsprechend reduziert. Das Mittelohr ist luftgefüllt; über die Eustachische Röhre, die sich beim Schlucken öffnet, findet ständig ein Luftdruckausgleich zwischen Mittelohr und Außenluft  statt. Luftdruckdifferenzen zwischen Außen- und Mittelohr, verursacht z.  B. durch einen Verschluss der Eustachischen Röhre, drücken auf das Trommelfell und können zu schmerzhaft „geschlossenen Ohren“ führen.

3.1.3 Innenohr Das spiralförmige Innenohr besteht aus der Gehörschnecke, der cochlea, in der der Schall in Nervenimpulse umgesetzt wird, und dem Labyrinth, auch Bogengänge genannt, die unser Gleichgewichtsorgan darstellen. Gehörschnecke und Labyrinth  sind ähnlich  strukturiert:

3.1 Das Gehör 

 119

Beide  sind  mit einer Flüssigkeit gefüllt und besitzen Haarzellen, bei denen feine Härchen in die Flüssigkeit hineinreichen. Hier im Innenohr erfolgt die eigentliche Umwandlung von Körperschall in Nervenimpulse, die zum Gehirn weitergeleitet werden. Das Cortische Organ liegt innerhalb der knöchernen Schnecke, der cochlea, und ist ein  mit Endolymphe gefüllter Schlauch. Es ist die Schnittstelle zwischen den akustischmechanischen Schwingungen und den elektrischen Nervensignalen in der Hörschnecke. Der Innenraum der Schnecke wird von drei parallelen Kanälen gebildet, die zur Schneckenform gebogen sind. Diese Kanäle heißen scala tympani oder Paukentreppe, ductus cochlearis oder Schneckengang und scala vestibuli oder Vorhoftreppe. Sie sind teils durch zwei Membranen, die Reissnersche Membran und die Basilarmembran, voneinander getrennt sowie teils durch eine dünne Trennwand (Abb. 3/2). Die Reissnersche Membran liegt zwischen der scala media und der  scala vestibuli. Die zweite Trennung erfolgt durch die Basilarmembran. Man kann sich die Basilarmembran als eine über einen weiten Frequenzbereich gestimmte Harfe vorstellen. Die kurzen, straffen Saiten für hohe Töne bis 20 kHz liegen in der Nähe der Fenster am Beginn der cochlea, die langen, weichen Saiten für tiefe Töne bis 16 Hz hinunter liegen nahe dem helikotrema am Ende der cochlea. Die Basilarmembran ist etwa 33 mm lang, am Ovalen Fenster etwa 0,1 mm breit und hart, beim helicotrema am hinteren Ende etwa 0,5 mm breit und weich. Die eigentliche Wandlung von Schall in Nervenimpulse erfolgt im Cortischen Organ, das auf der Basilarmembran  sitzt. Es enthält innere und äußere Haarzellen  sowie Stützzellen und eine Deckmembran. Durch Wellenbewegungen der Flüssigkeit werden die Haarzellen gebogen und lösen dabei Nervenimpulse aus. Die v-förmig angeordneten sog. Zilien, Flimmerhärchen, auf den äußeren Haarzellen sind Proportional-Rezeptoren und Intensitätsdetektoren, die linienförmig angeordneten Zilien der inneren Haarzellen fungieren dabei als Differential-Rezeptoren und Geschwindigkeitsdetektoren. Die inneren Haarzellen  sind die eigentlichen Rezeptoren für die auditive Sinnesübertragung, ca. 95 % aller Hörnervenfasern entspringen dort. Am unteren Ende des Cortischen Organs befindet sich eine Synapse mit einem sensorischen Neuron. Diese schüttet schon im Ruhezustand Neurotransmitter aus, die die Informationen von einer Nervenzelle zur anderen über die Kontaktstelle der Nervenzellen, der Synapse, weitergeben. Wird nun der Haarfortsatz ausgelenkt, vermehrt sich die Menge der Neurotransmitter. Von der Gehörschnecke leitet der Hörnerv schließlich die Signale zum Gehirn, wo die Schallereignisse am Trommelfell als Hörereignisse ins Bewusstsein treten. In der cochlea werden Klänge und Sprache mittels eines der Fourier-Analyse vergleichbaren Prozesses aus der Wanderwelle selektiert, in ihre einzelnen Tonfrequenzen zerlegt (siehe Kap. 1.1.2.3) und an verschiedenen Orten nebeneinander repräsentiert. Bei dieser Zerlegung werden die einzelnen Frequenzkomponenten der Schallwelle  so  stark verstärkt, dass einzelne Tonhöhen unterschieden werden können; man spricht hier auch von dem cochlearen Verstärker. Grundlage der Verstärkung ist die große Beweglichkeit der äußeren Haarzellen, die Schwingungen mit bis zu 20 kHz folgen können und die Wanderwelle bis 1.000-fach verstärken. Das passive Mitschwingen der Basilarmembran mit ihrer vom runden Fenster zum helicotrema abnehmenden Steife und zunehmenden Masse und die sich ortsspezifisch ausbildenden Schwingungsmaxima der Wanderwelle erklären aber allein nicht die hohe Selektivität der Tonhöhe und den hohen Dynamikumfang der Schallwahrnehmung. Das Schallintensitätsverhältnis beträgt bis zu 1 : 10.000.000 oder 140 dB.

120 

 3 Schallwahrnehmung

Die äußeren Haarzellen spielen bei diesem Prozess eine ebenso aktive Rolle, vergleichbar einem elektrischen Verstärker; unter Einsatz neuronaler Energiequellen wird dieser Prozess vom Gehirn gesteuert. Die äußeren Haarzellen können sich bei Anregung zusammenziehen oder verlängern, synchron zu den Reizen und damit ortsspezifische Bewegungen ausführen. Diese Auslenkungen der Membran verstärken z. B. bei sehr leisen Tönen das Signal um das 100-fache, wohingegen bei sehr lauten Tönen durch diesen aktiven Prozess die Amplitude der Schwingungen gedämpft wird. Dies schützt die Membran vor mechanischem Zerreißen oder generell vor Überlastung.

3.2 Schallereignis und Hörereignis Eine Schallwelle, die auf das Ohr trifft, ist eindeutig physikalisch definierbar. Ein Sinuston z.  B. hat eine eindeutig bestimmbare Frequenz, Dauer, Einfallsrichtung und einen eindeutig bestimmbaren Schalldruckpegel. Dieses Schallereignis trifft als Reiz auf das Ohr, wandert durch das komplizierte  mechanische System des Ohrs und wird  schließlich als elektrisches Signal, ähnlich einem Digitalsignal, durch die Nervenbahnen, Schaltstellen und Nervenzentren zum Gehirn geleitet. Erst jetzt wird uns der Reiz als Hörereignis, als Empfindung, bewusst. Diese Empfindung kann aber nicht  mehr durch die physikalischen Größen des Schallereignisses beschrieben werden, da Empfindungen keine physikalischen Größen sind und somit nicht mit physikalischen Messmethoden unmittelbar erfassbar  sind. Wir wissen auch, dass bereits bei der mechanischen Reizweiterleitung im Mittel- und Innenohr die Reizgestalt verändert wird. Ein Sinuston z. B. erhält zusätzliche Obertöne, er wird verzerrt. In den Nervenzellen wird der Reiz in ganz anderer Gestalt, nämlich als Folge von Impulsen weitergeleitet. Eine weitere Komplikation ergibt sich daraus, dass zwar die Größen des Schallereignisses voneinander unabhängig messbar sind, beim Hörereignis hängt aber z. B. die empfundene Tonhöhe des Sinustons zwar hauptsächlich von der Frequenz, aber außerdem auch von der Dauer und dem Schalldruckpegel des Schallereignisses ab. Der Zusammenhang von Schallereignis, dem Reiz, und Hörereignis, der Empfindung, ist also komplex, beide Größen können nicht gleichgesetzt werden. Mit den Zusammenhängen von Reizen und Empfindungen befasst sich die Psychoakustik. Um über das Hörereignis gültige Angaben machen zu können, können nur die Aussagen von Versuchspersonen ausgewertet werden. Diese  sind aber zunächst ganz allgemein: ein Hörereignis ist laut oder leise,  meist werden  sogar Ausdrücke aus anderen Sinnesbereichen verwendet wie hell, dunkel, schwach, spitz usw. Diese Worte sind ungenau. Man möchte den Zusammenhang von Reiz und Empfindung genauer, möglichst durch Kurven angeben. Dies ist tatsächlich möglich, weil eine Versuchsperson ihre Aufmerksamkeit auf einzelne Komponenten des Hörereignisses richten kann. Sie kann z. B. die Lautheit zweier verschieden langer oder hoher Töne vergleichen, weil ein geübtes Gehör in der Lage ist, Tondauer und Tonhöhe bei der Beurteilung der Lautheit weitgehend unberücksichtigt zu lassen. Diese Komponenten der Empfindung, auf die man achten und die man getrennt von den anderen Komponenten beurteilen kann, sind die sog. Empfindungsgrößen, wie z. B. eben Lautheit, Rauigkeit oder Tonhöhe. Sie erhalten wie die Reizgrößen eine Einheit, besser gesagt eine Hilfs- oder Pseudoeinheit, die Lautheit z. B. das Sone. Jede Empfindungsgröße kann nun durch eine Kurve in ihrer Abhängigkeit von jeweils einer Reizgröße beschrieben werden. So kann man die Empfindungsgröße Tonhöhe

3.3 Eigenschaften der Schallwahrnehmung 

 121

in Abhängigkeit von den Reizgrößen Frequenz, Schalldruckpegel oder Schalldauer angeben. Dabei müssen die jeweils unberücksichtigten Reizgrößen konstant gehalten werden. Betrachten wir am Beispiel der Empfindungsgröße Lautheit, die in erster Linie vom Schalldruckpegel bestimmt wird, wie Empfindungsgrößen definiert und mit Einheiten versehen werden können (Genaueres hierzu  siehe unten). Weitere Zuverlässigkeit und Genauigkeit erhalten  solche Angaben noch, indem man die Aussagen vieler Versuchspersonen statistisch auswertet. Will man z. B. die Lautheit eines Tons messen, so hält man bei allen Versuchen die Reizkomponenten Frequenz und Dauer konstant, z. B. die Frequenz bei 1.000 Hz und die Dauer bei 1,0 s. Dem Ton mit dem Schalldruckpegel L = 40 dB schreibt man nun für diese Frequenz und Dauer willkürlich die Lautheit S = 1 Sone zu. Nach wiederholter Verdopplung und Halbierung der Lautheit durch Verändern des Schalldruckpegels erhält man die Lautheit des 1.000 Hz-Tons für eine so große Zahl von Schalldruckpegeln, dass man schließlich die Abhängigkeit zwischen Reizgröße L in  dB und Empfindungsgröße S in Sone als  stetige Kurve angeben kann (siehe Abb. 3/6). Besonders Aussagen über die Verdopplung oder Halbierung einer Empfindungsgröße zu machen, gelingt relativ einfach und zuverlässig. Die unten dargelegten Beziehungen von Reizgrößen und Empfindungsgrößen wurden bei Versuchen in einem objektivierten, wissenschaftlichen Klima meist mit Sinustönen oder Rauschen, gewonnen. Diese Hörbedingungen und Schallereignisse sind andere als wir sie z. B. beim Hören von Musik vorfinden. Denn ein Ton in einem Musikstück hat nicht nur Lautheit, Dauer, Klangfarbe und Tonhöhe, sondern ist auch musikalischer Sinnträger. Er hat eine bestimmte Stellung in der Melodie oder Harmonie, oder er ist Träger eines Wortes und einer Emotion. Weiterhin kann dieser Ton auch Teil eines lästigen Geräuschs sein. Diese verschiedenen Sinnfunktionen, die ein Ton annehmen kann, beeinflussen natürlich die Hörempfindung zusätzlich. Sie  sind aber so komplex, dass sie nicht auf dieselbe Weise wie Empfindungsgrößen erfassbar sind. Sie überlagern sich aber den Beziehungen zwischen Reiz und Empfindung.

3.3 Eigenschaften der Schallwahrnehmung 3.3.1 Lautstärkepegel und Lautheit Hörfeld, auch Hörfläche oder Hörbereich, nennt man den Bereich, in dem in Abhängigkeit von Frequenz und Schalldruckpegel ein Schallereignis ein Hörereignis auslöst. Das Hörfeld ist bei kleinen Schalldruckpegeln durch die Hörschwelle, bei großen Schalldruckpegeln durch die Schmerzschwelle begrenzt. Nur Schallereignisse mit Frequenzen zwischen 16 Hz und 16 kHz, maximal 20 kHz, rufen Hörereignisse hervor. Mit dem Alter verschiebt sich die Hörschwelle vor allem im oberen Frequenzbereich: Im Alter von 60 bis 70 Jahren ist die Hörschwelle bei 2 kHz etwa um 20 dB, bei 8 kHz etwa um 50 dB angehoben, unter 2 kHz gibt es keine einschränkenden Veränderungen; im Alter von 50 bis 60 Jahren ist die Verschiebung der Hörschwelle noch gering [Hesse, 2005]. Als Ursachen für die sog. Altersschwerhörigkeit werden in erster Linie Schäden bei den Haarzellen und in der Hörbahn vermutet. Die altersbedingte Anhebung der Hörschwelle beeinflusst auch die Wahrnehmung der Dynamik bzw. von Pegeldifferenzen (siehe Kap. 3.3.2).

122 

 3 Schallwahrnehmung

Diese Richtwerte gelten nicht für Personen, die in lärmerfüllter Umgebung arbeiten. Die allgemeine Hörfähigkeit im Alltag wird durch die Altersschwerhörigkeit aber relativ geringfügig beeinträchtigt, da der wichtigste Hörbereich unter 4 kHz liegt (siehe auch Kap. 11.2.1 ff.). Abb.  3/3 zeigt das Hörfeld; eingezeichnet ist außerdem der Bereich, den Sprache und Musik ungefähr einnehmen. Man sieht, dass dieser Bereich allseitig geschützt ist, dass erst größere Beeinträchtigungen des Hörvermögens die Wahrnehmung von Sprache und Musik beeinträchtigen.

Abb. 3/3. Hörfeld mit Sprach- und Musikbereich.

Durchläuft ein Sinuston  mit einem konstanten Schalldruckpegel von angenommen 20  dB den gesamten hörbaren Frequenzbereich von 16 Hz bis 20 kHz, so bleibt der Ton keineswegs gleich laut. Er wird vielmehr mit steigender Frequenz zunächst lauter, über etwa 4 kHz wieder leiser. Um diese Feststellung für verschiedene Schalldruckpegel genau zu erfassen, hat man die „Kurven gleicher Lautstärkepegel“ ermittelt (Abb. 3/4). Sie geben in Abhängigkeit von der Frequenz den Schalldruckpegel L an, der die jeweils gleiche Lautstärkeempfindung hervorruft, und beschreiben damit eine der wichtigsten Eigenschaften des menschlichen Gehörs. Man ordnet jeder der Kurven einen bestimmten Lautstärkepegel zu, der in der Hilfseinheit Phon angegeben wird. Für 1 kHz hat man den Schalldruckpegel in dB und den Lautstärkepegel in Phon willkürlich zahlenmäßig gleichgesetzt. Bei der Gewinnung der Kurven gleicher Lautstärkepegel spielen die Bedingungen, unter denen gemessen wird, und die Auswahl der Versuchspersonen durchaus eine Rolle.

3.3 Eigenschaften der Schallwahrnehmung 

 123

Abb. 3/4. Hörschwelle und Kurven gleicher Lautstärkepegel für Sinustöne im freien Schallfeld beim Hören mit beiden Ohren nach [DIN 45630, 1971] und [ISO 226, 2003].

124 

 3 Schallwahrnehmung

Es ist deshalb sinnvoll, die Kurven gleicher Lautstärkepegel zu normen, um für alle Überlegungen, die an diesen Kurven anschließen, eine gemeinsame Basis zu haben. Abb.  3/4a zeigt die nach [DIN 1318] und [DIN 45630], beide zurückgezogen, genormten Kurven, die mit den internationalen ISO-Empfehlungen [R 226] übereinstimmen; 2003 wurde von ISO eine überarbeitete Empfehlung [R 226-2003] herausgegeben, die die Forschungen der letzten Jahrzehnte berücksichtigt und nun im Allgemeinen verwendet wird (Abb.  3/4b). Die Hörschwelle, gestrichelt dargestellt, liegt bei 4 Phon, nicht bei 0 Phon. Der Grund dafür ist, dass als Bezugsschalldruck der runde Wert 20 μN/m2 bzw. 20 μPa international vereinbart wurde. Die DIN- und ISO-Kurven beziehen sich auf Personen mit normalem Gehör zwischen 18 und 25 Jahren beim Hören mit beiden Ohren im freien Schallfeld, also bei Beschallung von vorne im reflexionsarmen Raum. Für andere Schallsignale, z. B. Rauschen, oder für andere Abhörbedingungen, wie z. B. im Diffusfeld (Abb. 3/5), ergeben sich etwas abweichende Normalkurven.

Abb. 3/5. Differenz der Pegel von Schmalbandrauschen gleicher Lautstärke von diffusem und freiem Schallfeld.

Während die Lautstärkepegel von Sinustönen relativ einfach und zuverlässig ermittelt werden können und dafür Phon-Angaben sinnvoll sind, sind die Verfahren zur Feststellung des Lautstärkepegels von Klängen und Geräuschen komplizierter und ergeben je nach angewandtem Verfahren recht unterschiedliche Werte; das früher hierfür verwendete Phon-Maß ist hier nicht mehr sinnvoll anwendbar. Eine erste Annäherung an den Lautstärkepegel komplexer Schallereignisse erbringen in diesem Fall im Allgemeinen die Messungen des A-bewerteten Schalldruckpegels nach [DIN EN 61672], siehe Kap. 9.5.3. Der Lautstärkepegel kann auch auf Grund der psychoakustischen Kenntnisse über das Gehör berechnet werden. Hierfür sind verschiedene Verfahren angegeben worden, die allerdings beträchtliche Abweichungen im ihren Ergebnissen aufweisen. Das Verfahren der Lautstärkeberechnung aus dem Geräuschspektrum nach Zwicker wurde in [DIN 45631] normiert und als ISO-Empfehlung [ISO 532B] international verbreitet. Der Lautstärkepegel eignet sich für den Vergleich der Lautstärkeempfindung gleich lauter Schallereignisse. Er eignet sich aber nicht dafür, verschieden laute Schallereignisse miteinander zu vergleichen. Während nämlich z.  B. beim Schalldruckpegel einer Druckverdopplung eine Pegelzunahme von 6 dB entspricht, bedeutet eine Verdopplung der empfundenen Lautstärke in dem praktisch wichtigen Lautstärkebereich über 30 Phon eine Lautstärkepegelzunahme um 10 Phon. Die Lautheit S erfasst deshalb die tatsächlichen Lautstärkeverhältnisse verschiedener Lautstärkepegel LS zueinander; sie wird in sone angegeben. 40 Phon bei

3.3 Eigenschaften der Schallwahrnehmung 

 125

1 kHz werden definiert als 1 Sone. Dem doppelt so laut empfundenen Wert von 50 Phon entsprechen also 2 Sone. Die Abhängigkeit zwischen sone und Phon gibt Abb. 3/6 an.

Abb. 3/6. Zusammenhang zwischen Lautheit S [Sone] und Lautstärkepegel LS [Phon].

3.3.2 Anpassung und Maskierung Die vielfältigen Phänomene der Anpassung und Maskierung oder Verdeckung sind Maßnahmen des Gehörs, eine nicht mehr verarbeitbare Datenflut für die eigentliche Wahrnehmung zu reduzieren. Denselben Ansatz verfolgt die digitale Tontechnik, indem sie die Datenreduktion, die das Gehör vornimmt, im Prinzip nachahmt, um für die Bearbeitung, Übertragung und Speicherung mit ganz wesentlich reduzierten Datenmengen auszukommen; diese sog. psychoakustisch basierten Audiocodecs werden ausführlich in Kap.  14 behandelt, auch weitere Details zur Psychoakustik insbesondere der Maskierung. Eine wichtige Eigenschaft des  menschlichen Gehörs ist die Anpassung, nämlich die Fähigkeit, seine Empfindlichkeit einem bestimmten, gerade herrschenden mittleren Schallpegel anzupassen, ähnlich wie  sich das Auge an verschiedene Helligkeitsgrade anpasst. Dadurch werden z B. gleichmäßige Hintergrundgeräusche im Höreindruck stark zurückgedrängt, dadurch kann sich das Gehör aber auch innerhalb bestimmter Grenzen z. B. an verschiedene Wiedergabepegel beim Anhören von Tonproduktionen anpassen, ohne dass dabei ein wesentlicher qualitativer Unterschied besteht. Denn das Gehör bildet sich aus den mannigfaltigen Reizeinwirkungen ein Bezugssystem, Anpassungsniveau genannt, an dem  sich die einzelnen Urteile wie laut − leise, aber auch hell − dunkel und hoch -- tief als an einem Mittelwert orientieren. Diese Anpassung hat aber auch zur Folge, dass ein gleichmäßiger Dauerton mit zunehmender Zeitdauer immer leiser erscheint; das Gehör ermüdet und ordnet diesen Dauerschall als unwichtigeres Hintergrundgeräusch ein, eine  sehr  sinnvolle Funktion des Gehörs. In der Musik kann die Aufmerksamkeit dadurch erhalten werden, dass ein Ton ständig verändert wird, z. B. in seiner Höhe durch ein Vibrato oder in seiner Intensität durch ein Tremolo. Mit der Anpassung verbunden ist eine weitere Erscheinung, die  man als Maskierung oder Verdeckung bezeichnet. Ein auf das Gehör einwirkender Reiz setzt gleichzeitig die Emp-

126 

 3 Schallwahrnehmung

findlichkeit für andere Reize herab. Allgemein gilt, dass Schall höherer Frequenz Schall tieferer Frequenz dann verdeckt, wenn der Frequenzabstand gering ist. Schall tieferer Frequenz verdeckt Schall höherer Frequenz dann, wenn der tieffrequente Schall vergleichsweise große Intensität besitzt. Maskierung oder Verdeckung gibt es nicht nur für gleichzeitige Signale, sondern auch für zeitlich aufeinander folgende Signale. Die Nachverdeckung lässt Signale, die auch bei simultaner Darbietung verdeckt werden, nach Abschalten des verdeckenden Signals eine kürzere Zeit lang unhörbar bleiben. Die Zeitspanne der Nachverdeckung hängt sehr von den Signalarten und -dauern ab; sie liegt im Bereich einiger ms bis einiger 10 ms. Auch eine Vorverdeckung für bis etwa 20 ms voreilende Signale kann beobachtet werden, ein lauter Klangeinsatz kann demnach z. B. ein leises, vorangehendes Störgeräusch verdecken.

3.3.3 Tonhöhe Die Tonhöhenempfindung als Teil des Höreindrucks wird hauptsächlich bestimmt durch die Frequenz einer Schwingung. Bei Sinustönen oder annähernd sinusförmigen Klängen ist dazu der Schallpegel von einem gewissen Einfluss: Bei Frequenzen unter 2 kHz sinkt die empfundene Tonhöhe geringfügig mit zunehmendem Pegel, bei Frequenzen darüber steigt sie mit zunehmendem Pegel. Die Frequenz des Sinustons gibt nun also nicht mehr genau die Tonhöhe an. Man nennt die empfundene, nicht mit der Frequenz übereinstimmende Tonhöhe „spektrale Tonhöhe“. Das Gehör kann bei Sinustönen unterhalb 500  Hz bei Tonfolgen eine Frequenzänderung von etwa 3,5  Hz gerade noch wahrnehmen. Bei Frequenzen über 500  Hz beträgt die hörbare Änderung 0,7  % der  sich ändernden Frequenz. Langsamere Schwankungen der Tonhöhe werden Vibrato genannt,  schnelle Schwankungen  machen einen Ton rau (siehe unten Kap. 3.3.5). Die Fähigkeit, musikalische Töne mit geringem Tonhöhenunterschied zu unterscheiden, verbessert sich deutlich mit der Erfahrung und Übung; dabei zeigt sich, dass das Gehör besondere Fähigkeiten bei solchen Instrumenten oder allgemein Klangfarben entwickelt, die es besonders gut kennt. Bei aus Grundton und Obertönen zusammengesetzten Klängen bestimmt grundsätzlich der Grundton, auch wenn er nur schwach ausgebildet ist, die Tonhöhe. Aber selbst wenn der Grundton und sogar die ersten Obertöne fehlen, wie z. B. bei der Musikwiedergabe mit sehr kleinen Lautsprechern, bildet das Gehör aus den verbleibenden Klangkomponenten einen Tonhöheneindruck, der dem fehlenden Grundton entspricht. Tatsächlich ändert die Unterdrückung einzelner Teiltöne zwar die Schwingungsform, aber nicht die Schwingungsperiode und damit nicht die Frequenz. In diesem Fall bezeichnet man die empfundene Tonhöhe als „virtuelle Tonhöhe“. Weiterhin erzeugt die Verschiebung von Resonanz- und Formanten, wie z. B. beim Wah-Wah-Dämpfer (siehe Kap. 6.2.), bei der Maultrommel, wie auch bei der elektronischen Klangerzeugung beim Flanging und Phasing (siehe Kap. 6.4.), einen bestimmten Tonhöheneindruck, die sog. Formanttonhöhe.

3.3 Eigenschaften der Schallwahrnehmung 

 127

3.3.4 Nichtlineare Verzerrungen Das Gehör verzerrt die Schwingungsform des Schallereignisses. Ein einzelner Sinuston wird dadurch mit Obertönen versehen, die nur unter besonderen Bedingungen auch direkt hörbar  sind. Ein obertonreicher Klang erhält zusätzliche Obertöne, die  sich indessen den bereits vorhandenen Obertönen überlagern und damit ebenfalls weitgehend unbemerkt bleiben. Anders als bei Einzeltönen  sind die Verzerrungen durch das Gehör bei Tonpaaren u. U. sehr deutlich zu hören. Denn hierbei entstehen nicht nur Obertöne, sondern auch sog. Kombinationstöne, nämlich Summen- und Differenztöne. Wenn f1 und f2 die Frequenzen zweier Sinustöne  sind, entstehen Kombinationstöne  mit den Frequenzen  m ⋅ f2  ±  n ⋅ f1, wobei  m und n = 1, 2, 3..., insbesondere treten hörbar die Kombinationstöne  mit den Frequenzen f2 – f1 und f2 + f1 in Erscheinung; bei geeigneten Versuchsanordnungen kann aber eine viel größere Zahl von Verzerrungsprodukten des Gehörs hörbar gemacht werden. Kombinationstöne sind am deutlichsten bei einem Paar von Sinustönen wahrnehmbar, besonders wenn ihre Frequenzen nahe beisammen liegen, kritisch ist das Intervall der Quinte mit f2 / f1 = 3 : 2. Fast ebenso empfindlich bezüglich der Hörbarkeit von Eigenverzerrungen des Gehörs sind die obertonarmen Klänge einiger Musikinstrumente wie Blockflöten und Hörner bei größeren Lautstärken. Die Kombinationstöne des Gehörs spielen auch eine wichtige Rolle bei der Klassifizierung in angenehme und unangenehme Intervalle, also in Konsonanzen und Dissonanzen. Verzerrungen von Tonsignalen (siehe Kap. 9.2.2) sind dann hörbar, wenn sie größer als die Eigenverzerrungen des Gehörs  sind. Die quadratischen Verzerrungen des Gehörs  sind den technischen quadratischen Verzerrungen der Übertragungskette vergleichbar; sie betragen rund 0,1 % bei 70 dB Lautstärkepegel und etwa 1 % bei 90 dB. Diese Verzerrungen des Gehörs sind also recht gering. Die Stärke der Verzerrungen bei zwei Sinustönen hängt von deren Stärke und Frequenzabstand ab, ohne dass einfache Abhängigkeiten genannt werden können. Diese irregulären Verzerrungen sind aber wesentlich höher als die quadratischen Verzerrungen. Sie können unter bestimmten Bedingungen weit über 10  % liegen. Diese gehöreigenen Verzerrungen können leicht beobachtet werden z.  B. beim zweistimmigen Pfeifen oder Blockflötenspiel.

3.3.5 Rauheit und Schärfe Rauheit und Schärfe eines Klangs sind Begriffe, die sich zur Beschreibung von Klangeigenschaften gut eignen und auch gehörakustisch relativ gut erfasst werden können. Rauheit kennzeichnet Schallereignisse, die eine  starke zeitliche Strukturierung besitzen. Während langsame Pegelschwankungen als  sog. Tremolo empfunden werden, lassen schnelle Pegelschwankungen vor allem zwischen 20 und 150 Hz einen Ton oder Klang rau erscheinen. Die Rauheit nimmt mit steigender Frequenz zu, bei etwa 70 Schwankungen pro Sekunde ist sie am größten; die messtechnische Einheit ist das Asper. 1 Asper hat ein Sinuston von 1 kHz und 60 dB Schalldruckpegel, der mit 70 Hz und dem höchstmöglichen Modulationsgrad m = 1 moduliert ist; m = 1 bedeutet, dass das modulierende und das modu-

128 

 3 Schallwahrnehmung

lierte Signal die gleichen Amplituden haben, d. h., dass die Amplitude der resultierenden Schwingung zwischen einem Höchstwert und völliger Auslöschung schwingt. Die Schärfe eines Klangs ist eine wesentliche Komponente der Klangfarbe, die  man getrennt beurteilen kann. Sie wird durch die Umhüllende des Spektrums akustisch charakterisiert. Dabei ist es unerheblich, ob das Spektrum geräuschhaft kontinuierlich ist oder aus diskreten, also z.  B. harmonischen Komponenten besteht. Bei einem  schmalbandigen Klangspektrum  steigt die Schärfe  mit der Mittenfrequenz des Frequenzbands an, bei nur einseitiger Bandbegrenzung mit der unteren Grenzfrequenz und wesentlich stärker mit der oberen Grenzfrequenz. Außer den Grenzfrequenzen hat die Form der Umhüllenden einen Einfluss auf die Klangschärfe.

3.3.6 Subjektive Tondauer Wird die Dauer von Tonimpulsen und kürzeren Pausen zwischen Tönen  subjektiv bewertet, so zeigt sich, dass diese subjektive Dauer bei kürzeren Tönen und Pausen nicht mit der objektiven Dauer übereinstimmt. Einzelne Tonimpulse wirken bei einer objektiven Dauer unter 50  ms länger als sie tatsächlich sind. Ein erstaunlicher Zusammenhang wird jedoch beim Vergleich der  subjektiven Dauer von Tonimpulsen  mit dazwischen liegenden gleichlangen Pausen offenbar: Während bei einer Dauer über 1 s subjektive und objektive Dauern übereinstimmen, wirken bei kürzerer Dauer die Pausen länger als die Töne, dies auch abhängig von der Frequenz des Tonimpulses. Die Unterschiede von  subjektiver und objektiver Dauer sind sehr groß; so wirkt z. B. ein 3,2 kHz-Tonimpuls mit 100 ms Dauer ebenso lang wie eine Pause von 400 ms. Sollen also kurze Töne und die dazwischen liegenden Pausen gleich lang wirken, müssen die Pausen ganz erheblich länger als die Töne sein.

3.3.7 Hörbarkeit von Phasenänderungen Die einzelnen Komponenten eines Spektrums sind durch Frequenz, Pegel und Phasenlage definiert. Ausgehend von der Theorie der Klangfarbe nach Helmholtz war  man lange Zeit der Meinung, dass die Phasenlage für die Klangfarbe unbedeutend sei. Tatsächlich hat sie aber einen gewissen, aber relativ komplexen Einfluss darauf. Phasenänderungen werden am deutlichsten bei Kopfhörerwiedergabe, am undeutlichsten bei Lautsprecherwiedergabe in halligen Räumen wahrgenommen. Die Untersuchungen ergeben folgende Zusammenhänge: Die Hörbarkeit von Phasenänderungen in einem harmonischen Klang hängt von seiner Zusammensetzung ab. Die Auswirkungen derselben Phasenänderung werden bei tiefen und bei hohen Frequenzen geringer eingeschätzt als bei mittlerer Frequenzlage; um 1 kHz hat das Gehör die größte Phasenempfindlichkeit. Bei tiefen Tönen werden eher Änderungen als Rauheit wahrgenommen, bei hohen Tönen eher als Änderungen der Tonhöhe und Klangfarbe. Bei kleinen Frequenzabständen der Teiltöne sind Phasenänderungen von 10° bis 30° wahrnehmbar, bei großen Abständen wird die Wahrnehmbarkeit, abhängig vom Pegel, geringer. Die in der analogen Tonstudiotechnik zugelassenen Phasenverschiebungen der Geräte orientieren sich an diesen Erkenntnissen (siehe Kap. 9.4.2).

3.4 Räumliches Hören natürlicher Schallquellen 

 129

3.3.8 Psychoakustisches Modell Viele der oben beschriebenen Gehöreigenschaften und -parameter werden im Zusammenhang mit modernen, digitalen Übertragungs-, Speicher- und Messverfahren oft in einem sog. psychoakustischen Modell zusammengefasst. Eine  solche Verfahrensvorschrift, die eine mathematische Modellierung der physiologischen und hörpsychologischen Zusammenhänge darstellt, beschreibt die funktionellen Grundlagen der entsprechenden Algorithmen zur gehörbasierten Audiosignalverarbeitung. Bestandteile eines  solchen Modells können u. a. sein: –– Ruhehörschwellen, Mithörschwellen, Unterschiedshörschwellen, –– simultane Verdeckung, Vor- und Nachverdeckungsschwellen, –– Verfahren zur Lautheitsbestimmung, –– Bestimmung der Tonalität oder Nichttonalität eines Tonsignals, –– spektrale Unterteilung des Audiosignals in sog. Frequenzgruppen Bark- bzw. Mel-Skala), –– Wahrnehmbarkeitsschwellen für Amplituden- und Frequenzmodulation  sowie andere Verzerrungsprodukte, –– Redundanz- bzw. Irrelevanzabschätzung bei mehrkanaligen Tonsignalen. Typische Anwendungen  sind die verschiedenen gehörbasierten Datenreduktionsverfahren (perceptual coding), wie MPEG-1, -2, -3 (MP3), AAC, siehe Kap. 13.2, oder gehörbasierte Qualitätsmessverfahren, wie PEAQ,  siehe Kap.  13.4. Je nach Anwendungsfall und Qualitätsanspruch können die verwendeten Gehörmodelle auch unterschiedlich konfiguriert sein. Auch bei modernen Video-Übertragungs- bzw. Wiedergabeverfahren finden auf der Wahrnehmung aufbauenden visuellen Wahrnehmbarkeitsmodelle Anwendung.

3.4 Räumliches Hören natürlicher Schallquellen Richtungswahrnehmung oder Lokalisierung ist die Zuordnung der vom Gehör zum Bewusstsein gebrachten Hörereignisrichtung zur Schallereignisrichtung. Zusammen mit der Entfernungswahrnehmung bildet  sie die räumliche Wahrnehmung des Gehörs. Richtungs- und Entfernungswahrnehmung schließen auch die Wahrnehmung der räumlichen Ausdehnung einer Schallquelle ein. Die sog. Räumlichkeit einer Schallquelle ist nicht ihre tatsächliche Ausdehnung, sondern die Empfindung, dass der Raum um die Schallquelle mit Schall erfüllt ist, die Räumlichkeit nimmt mit der Lautstärke und mit der Stärke seitlicher Reflexionen in einem Raum zu (siehe dazu Kap. 1.3.2). [Blauert, 1996, 1997, 2020] Für die Beschreibung der Hörereignisorte wird ein auf den Kopf des Hörers bezogenes, ein sog. kopfbezogenes Koordinatensystem verwendet (Abb. 3/7). Man unterscheidet dabei die Richtungswahrnehmung in den drei Dimensionen, in der horizontalen Ebene, der vertikalen oder Medianebene und in der Frontalebene. Der einfachste Fall des Richtungshörens ergibt sich bei der Wahrnehmung einer einzigen, in ihrem Frequenzumfang breitbandigen Schallquelle. Schallereignisrichtung und Hörereignisrichtung stimmen hierbei weitgehend überein. Für die drei Ebenen nach Abb. 3/7 gilt:

130 

 3 Schallwahrnehmung

–– In der Horizontalebene führen Laufzeitunterschiede zwischen den Zeitpunkten des Eintreffens der beiden Ohrsignale und frequenzabhängige Pegelunterschiede, also Klangfarbenunterschiede, zwischen den Ohrsignalen zur Lokalisierung des Hörereignisses. –– In der vertikalen Ebene wird der Erhebungswinkel nur auf Grund spektraler Veränderungen der hier gleichen Ohrsignale gebildet. Auch die Entscheidung, ob eine Schallquelle vor oder hinter dem Hörer lokalisiert wird, beruht auf spektralen Merkmalen. –– In der Frontalebene erzeugen wie in der horizontalen Ebene Laufzeit- und komplexe Klangfarben- bzw. Pegelunterschiede die Hörereignisrichtung.

Abb. 3/7. Kopfbezogenes Koordinatensystem für die Beurteilung der Hörereignisrichtungen.

Bei  mehreren Schallquellen aus unterschiedlichen Richtungen und in geschlossenen Räumen treten zusätzliche Effekte der Richtungswahrnehmung auf. Es kommt hierbei darauf an, ob die Schallsignale an den Ohren unähnlich, d. h., nicht oder schwach korreliert, oder ob sie ähnlich, d. h. hoch korreliert sind. Das Gehör kann bei Hörereignissen, die aus deutlich unterschiedlichen Richtungen kommen, die zugehörigen Klangbilder besser trennen und verfolgen, als wenn sie aus derselben Richtung eintreffen. Diese Fähigkeit wird mit „intelligentem Hören“ oder  mit Cocktailparty-Effekt nach [Cherry, 1953] bezeichnet. Wichtig für die Fähigkeiten der räumlichen Wahrnehmung sind neben physiologischen und psychologischen Mechanismen auch Lernprozesse und Erfahrungen, was z. B. durch die äußerst differenzierten Hörfähigkeiten Blinder belegt wird. Die elektroakustische Wiedergabe und Wahrnehmung von Klangbildern wird von denselben psychoakustischen Phänomenen beschrieben wie das räumliche Hören im natürlichen Schallfeld, wenn von nur einem Lautsprecher ein Schallsignal abgestrahlt wird. Sollen aber räumlich ausgedehnte Schallfelder, also  stereofone Klangbilder, elektroakustisch zu Gehör gebracht werden, treten ganz neue Phänomene auf, in der Hauptsache handelt es sich um sog. Phantomschallquellen. Phantomschallquellen sind Schallwahrnehmungen von Orten, an denen sich keine reale Schallquelle befindet. Es handelt sich um Phänomene, die beim natürlichen Hören praktisch nicht auftreten. Da die Phänomene räumlicher Wiedergabe durch Lautsprecher in engster Verbindung stehen zur stereofonen oder allgemein zur mehrkanaligen Aufnahme und Wiedergabe von Klangbildern, werden sie ausführlich in Kap. 5.1 und 5.2 erläutert.

3.4 Räumliches Hören natürlicher Schallquellen 

 131

3.4.1 Wahrnehmung der Richtung 3.4.1.1 Horizontale Ebene Die Lokalisierung in der horizontalen Ebene wird durch Unterschiede der Signale an den Ohren ermöglicht, die sich dann ergeben, wenn die Schallquelle aus der Mitte bzw. 0° auswandert. Dabei treten beim natürlichen Hören zwischen den beiden Ohrsignalen stets sog. interaurale Signaldifferenzen auf, sowohl Laufzeitdifferenzen als auch, frequenzabhängig, Pegeldifferenzen. Sie führen aber auch einzeln zur Richtungswahrnehmung, wovon bei der stereofonen Wiedergabe über zwei oder mehr Lautsprecher Gebrauch gemacht wird. Je nach angewendetem Aufnahmeverfahren können die Lautsprechersignale nur Laufzeit- oder nur Pegeldifferenzen oder aber beide gleichzeitig erhalten. Interaurale Laufzeitdifferenzen Interaurale Laufzeitdifferenzen sind beim natürlichen Hören die wichtigsten Merkmale der Ohrsignale für die Lokalisierung. Sie betragen auf Grund des Abstands der Ohren von 17 cm höchstens 0,63  ms. Die geringste noch wahrnehmbare Laufzeitdifferenz von etwa 0,03  ms entspricht einem Schallwegunterschied von nur 1 cm und führt zu einer Auswanderung der Hörereignisrichtung um 3° bis 5° aus der Mitte. Für die interaurale Laufzeitdifferenz gilt bei parallelem Schalleinfall vereinfacht der folgende Zusammenhang (Abb. 3/8): Δt = intraaurale Laufzeitdifferenz [m] Δs = interaurale Wegdifferenz [m] ⋅ c d = interauraler Abstand = 0,17 m = 0,5 ⋅ sin c = Schallgeschwindigkeit = 340 m/s α = Einfallswinkel [°]

Abb. 3/8. Interaurale Wegdifferenzen Δs.

Für die Feststellung der Zeitdifferenzen kann sich das Gehör am Schwingungsverlauf und an der Einhüllenden der Schwingung orientieren. Vor allem für Frequenzen unterhalb von 800  Hz, höchstens aber 1,6  kHz, kann das Gehör dem Schwingungsverlauf direkt Zeit- bzw. Phasendifferenzen entnehmen; deshalb können nur in diesem Frequenzbereich Sinusschwingungen zu einer Lokalisierung führen. Für höhere Frequenzen kann das Gehör nur aus dem Vergleich der Hüllkurven der Signale Zeitdifferenzen entnehmen.

132 

 3 Schallwahrnehmung

Übliche natürliche Schallereignisse wie Sprache und Musik sind breitbandige, impulshaltige Signale mit stark strukturierten Einhüllenden. Solche Signale werden viel leichter lokalisiert als Sinussignale, die in der Praxis ja kaum vorkommen. Die Laufzeitdifferenz Δt  steigt bei komplexen Signalen für den wichtigen vorderen Bereich der Lokalisierung anders als bei Sinussignalen weitgehend linear mit dem Winkel an. Interaurale Pegeldifferenzen Gegenüber interauralen Laufzeitdifferenzen sind die interauralen Differenzen der mittleren Schalldruckpegel von geringerer Bedeutung für die Lokalisierung von Schallquellen. Pegeldifferenzen werden verursacht von Abschattungen durch Kopf und Ohrmuscheln. Das Gehör ist fähig, im gesamten hörbaren Frequenzbereich Pegeldifferenzen zu erkennen und in Richtungsinformationen umzusetzen. Die Ohrsignale werden  selektiv in einzelnen Frequenzgruppen verglichen. Unterhalb von etwa 300 Hz entstehen jedoch wegen der Beugungserscheinungen des Schalls um den Kopf praktisch keine Pegeldifferenzen mehr. Über 300 Hz nehmen sie mit der Frequenz zu; allerdings nimmt die Pegeldifferenz sinusförmiger Signale nicht in einfacher Weise mit dem Winkel zu, sondern sehr unregelmäßig. Damit kann hier keine feste Zuordnung zwischen Pegeldifferenz und Schallereignisrichtung bestehen, die für jede Signalart gültig ist; nur definierten Signalen wie Weißem Rauschen oder Sinustönen können feste Werte zugeordnet werden. Die Zusammenhang hängt ganz von der spektralen Zusammensetzung des Signals ab. Für natürliche breitbandige Signale werden die Zusammenhänge einfacher und übersichtlicher, da sich statistische Mittelwerte bilden können. Es ergeben sich Klangfarbenunterschiede,  sog. Spektraldifferenzen, zwischen den Ohrsignalen, die zwar nicht bewusst wahrgenommen werden, aber für die Lokalisierung wichtig  sind. Hierbei  sind jedoch im Gegensatz zur Lokalisierung durch Zeitdifferenzen umfangreiche Lernprozesse Voraussetzung, die auf dem Rückgriff auf die Klangfarbenmuster bei frontalem Schalleinfall beruhen. Auf Grund der komplexen, teilweise auch  mehrdeutigen Zusammenhänge zwischen Frequenz bzw. Klangfarbe, Pegel und Einfallswinkel ist eine Schalllokalisierung allein durch Pegelunterschiede u. U. nur beschränkt möglich bzw. kann zu Fehlurteilen führen. Zusammenwirken von interauralen Laufzeit- und Pegeldifferenzen Bei der Schallwahrnehmung wirken stets interaurale Laufzeit- und Pegeldifferenzen zusammen. Für bestimmte Signale lässt  sich deshalb angeben, welcher Laufzeitdifferenz welche Pegeldifferenz entspricht; je nach Signalart wurden Werte zwischen 2  μs/dB und 200  μs/ dB ermittelt. Es zeigt sich, dass dieser Wert zusätzlich vom Schalldruckpegel sowie von der Schalleinfallsrichtung abhängt. Die  sehr komplexen Zusammenhänge von Laufzeit- und Pegeldifferenzen lassen erkennen, dass das Gehör über zwei weitgehend voneinander unabhängig arbeitende Mechanismen der Lokalisierung verfügt. Der erste Mechanismus wertet interaurale Laufzeitdifferenzen von Trägerschwingungen mit Frequenzen unter 1,6 kHz aus; er bestimmt nur dann die Hörereignisrichtung, wenn Frequenzkomponenten über 1,6  kHz fehlen. Der zweite Mechanismus wertet sowohl Laufzeitdifferenzen der Hüllkurven als auch Pegeldifferenzen aus; er bestimmt die Hörereignisrichtung,  sobald Frequenzanteile über 1,6 kHz wesentlicher Bestandteil des Signals sind, also ist er für die Lokalisierung natürlicher Schallquellen wie Musik, Sprache und Geräusche dominierend.

3.4 Räumliches Hören natürlicher Schallquellen 

 133

Lokalisierungsunschärfe Die Lokalisierungsunschärfe in Blickrichtung erreicht 2° bis 3°,  sie nimmt bei  seitlichem Schalleinfall auf etwa 4,5° zu. Ein Richtungswechsel von links nach rechts wird nach etwa 150 ms, von vorn nach hinten nach etwa 250 ms wahrgenommen. Impulshaltiger Schall, wie ihn die meisten Schallquellen abgeben, ist schneller und präziser zu lokalisieren als stationärer Schall. Treffen beim Hörer zwei gleiche Schallereignisse kurz nacheinander ein, was z. B. bei Wand- oder Deckenreflexionen in einem Raum zutrifft,  so gilt für eine Verzögerung zwischen etwa 1 und 30 ms das sog. Gesetz der ersten Wellenfront oder Precedence-Effekt (nach Wallach, Newman und Rosenzweig, 1949), auch Haas-Effekt (nach Haas, 1951) genannt. Danach bestimmt der zuerst eintreffende Schall den Richtungseindruck, unabhängig davon, aus welcher Richtung der nachfolgende Schall kommt. Dabei darf der Pegel des nachfolgenden Schalls bei Laufzeitdifferenzen zwischen 5 und 30  ms z.  B. für Sprache  sogar bis 10 dB über dem des Primärschalls liegen, ohne dass dadurch das Gesetz der ersten Wellenfront seine Gültigkeit verliert. Vom Gesetz der ersten Wellenfront, besser als psychoakustisches Phänomen denn als Gesetz zu bezeichnen, profiziert die Beschallungstechnik (siehe dazu Kap. 10) bei der richtungstreuen Beschallung von Publikum; es ermöglicht, die Lautstärke zu erhöhen, ohne die Richtung des Schalleinfalls zu verändern. Auch bei der Schallausbreitung in Räumen oder im Freien spielt dieses Phänomen eine Rolle, indem es dafür sorgt, dass der tatsächliche Ort der Schallquelle auch bei lauteren Reflexionen noch erkannt wird; bei zu lauten Reflexionen kommt es natürlich zu Täuschungen der Lokalisierung, ebenso bei einem Zeitabstand von mehr als 40 bis 50 ms, der dann zur Echobildung führt, d. h., zur Wahrnehmung zweier getrennter Schallereignisse. 3.4.1.2 Vertikale Ebene Auch in der vertikalen Ebene oder Medianebene (Abb. 37) ist eine Lokalisierung der Schallquelle möglich. In dieser Ebene ergeben sich bei Schalleinfall keine Unterschiede zwischen den Signalen an beiden Ohren. Hingegen entstehen Klangfarbenunterschiede bezogen auf die Klangfarbe des aus Blickrichtung eintreffenden Signals, die durch die Form und Beschaffenheit von Kopf und Ohren verursacht, beim Hören aber nicht bewusst wahrgenommen werden. Je nach Einfallsrichtung werden bestimmte, sog. richtungsbestimmende Frequenzbänder angehoben (Abb. 3/9).

Abb. 3/9. Richtungsbestimmende Frequenzbänder bei der Richtungswahrnehmung in der Medianebene nach [Blauert, 1997].

134 

 3 Schallwahrnehmung

Anhebungen in diesen Frequenzgebieten führen also zu einer entsprechenden Lokalisierung der Hörereignisse. Es wird angenommen, dass jeweils eine  spezifische Kombination von spektralen Gipfeln und Einbrüchen die Hörereignisrichtung bestimmt. Eine solche Lokalisierung in der Medianebene kann aber nur zu einer guten Übereinstimmung von Schallereignis- und Hörereignisort führen, wenn das Schallsignal breitbandig ist und wenn das Gehör über Erfahrungen verfügt, wie dieses Signal strukturiert ist; so ist die Lokalisierung in erheblichem Maße von der Art des Schallsignals abhängig, Lerneffekte spielen eine wichtige Rolle, schmalbandige Signale können in der Medianebene nicht lokalisiert werden. Das Richtungshören in der Medianebene gewinnt besondere Bedeutung bei der Schallübertragung mit Kunstkopftechnik (siehe Kap. 5.5.4 und 5.5.5). Die Unschärfe der Lokalisierung des Erhebungswinkels ist wesentlich größer als in der horizontalen Ebene. Für einen unbekannten Sprecher z. B. liegt sie bei etwa 15° bis 20°, für einen bekannten Sprecher bei etwa 10° in Vorwärtsrichtung. Mit zunehmender Erhebung der Schallquelle nimmt die Unschärfe auf etwa den dreifachen Betrag zu.

3.4.2 Wahrnehmung der Entfernung Interaurale Signalunterschiede werden für die Richtungswahrnehmung in der horizontalen Ebene ausgewertet. Die durch die Abschattungen und Beugungserscheinungen an Kopf und Ohr entstehenden Klangfarbenänderungen geben dem Gehör die Möglichkeit, den Erhebungswinkel einer Schallquelle zu bestimmen. Für die Wahrnehmung der Entfernung einer Schallquelle bleiben somit keine einfachen Signalmerkmale für das Gehör auswertbar, vielmehr gibt es  mehrere Merkmale des Schallsignals, die in komplexer Weise auf die Entfernungswahrnehmung einwirken. Grundsätzlich  sind hierbei die Erfahrung des Gehörs und die Übung, also die Bekanntheit einer Schallquelle von sehr großer Bedeutung. Im Wesentlichen tragen die Lautstärke des Hörereignisses und wieder Veränderungen der Klangfarbe bzw. des Spektrums auf dem Weg zum Ohr zur Bildung der Hörereignisentfernung bei. Der Lautstärkepegel eines Schallereignisses nimmt  mit jeder Entfernungsverdopplung bei allseitiger Abstrahlung um 6  dB ab, bei gerichteter Abstrahlung um einen geringeren Wert. Da die meisten Schallquellen wie Musikinstrumente z. B. tiefere Frequenzkomponenten ungerichtet, höhere Frequenzkomponenten aber mit der Frequenz zunehmend gerichtet abstrahlen, ergibt  sich i.Allg.  mit der Pegelverminderung bei wachsender Entfernung von der Schallquelle auch eine Klangfarbenänderung, da der Anteil tiefer Frequenzkomponenten mehr abnimmt als der hoher; diese Klangfarbenänderung wird noch dadurch verstärkt, dass das Gehör für tiefe Frequenzen umso unempfindlicher wird, je geringer der Schallpegel ist; die Kurven gleicher Lautstärkepegel, Abb.  3/4, zeigen dies. Die Entfernungswahrnehmung auf Grund von Lautstärkepegeln  setzt grundsätzlich voraus, dass das Gehör die Lautstärke der Schallquelle in einer bestimmten Entfernung kennt. Der hierfür notwendige Lernprozess kann auf längeren allgemeinen Hörerfahrungen oder auf einem aktuellen Lernprozess beruhen. Voraussetzung für die Entfernungswahrnehmung auf Grund der Lautstärke ist ferner eine gewisse Konstanz der Schallleistung. Die Lautstärke spielt vor allem bei einer Schallquellenentfernung bis etwa 15 m eine Rolle.

3.4 Räumliches Hören natürlicher Schallquellen 

 135

Die Entfernungswahrnehmung im Freien bei Entfernungen über 3 m zeigt einen typischen Fehler: Das Hörereignis ist näher als das Schallereignis, das Gehör schätzt die Schallquellenentfernung zu gering ein (Abb. 3/10). Der Fehler steigt mit der Schallquellenentfernung an und kann erheblich sein; eine 10 m entfernte Schallquelle scheint nur halb so weit vom Hörer entfernt zu sein. Diese Feststellungen scheinen der Erfahrung zu widersprechen, sie gelten allerdings ohne Zuhilfenahme des Auges und der Gegebenheiten der Hörsituation. Interessant ist, dass Flüstern stets deutlich näher und Schreien deutlich ferner lokalisiert wird als Umgangssprache. Auch dies zeigt den großen Einfluss von Erfahrung und Erwartung. Ein wichtiger Aspekt des Entfernungshörens ist aber auch, dass das Gehör im Allgemeinen nicht gefordert ist, Hörerfahrungen beim Entfernungshören zu sammeln, da das Auge diese Leistung schnell und präzise erbringt. Über das Entfernungshören bei größeren Entfernungen liegen kaum Untersuchungen vor; neben dem Lautstärkepegel ist hier offensichtlich eine Klangfarbenänderung maßgeblich, die durch die Absorption hoher Frequenzkomponenten in der Luft entsteht. Auch bei Entfernungen unter 25 cm sind zusätzlich Merkmale der Klangfarbenveränderung, nun verursacht durch Beugungs- und Abschattungserscheinungen am Kopf, für das Entfernungshören von Einfluss. In geschlossenen Räumen ist eine Abschätzung der Hörereignisentfernung auch auf Grund des Verhältnisses von direktem zu diffusem Schall oder Nachhall  möglich, da der Pegel des diffusen Schalls unabhängig von der Schallquellenentfernung konstant bleibt, während der Pegel des direkten Schalls mit zunehmender Entfernung abnimmt. Da neben dem Abstand zur Schallquelle aber auch das Raumvolumen und die Nachhallzeit auf das Verhältnis von direktem zu diffusem Schall Einfluss nehmen, ist die Kenntnis der raumakustischen Verhältnisse, also auch hierbei eine gewisse Hörerfahrung, erforderlich.

Abb. 3/10. Zuordnung von Schallereignis- und Hörereignisentfernung bei einem Sprecher als Schallquelle nach [Bekesy, 1949].

3.4.2.1 Im-Kopf-Lokalisierung Bei der normalen Lokalisierung werden Schallereignisse als Hörereignisse außerhalb des Kopfs lokalisiert. Unter bestimmten Bedingungen können aber Hörereignisse auch im Kopf des Hörenden lokalisiert werden. Solche Bedingungen herrschen bevorzugt bei der Wiedergabe mit Kopfhörern, weshalb sie zunächst auf diese spezielle Wiedergabeart zurückgeführt

136 

 3 Schallwahrnehmung

wurden. Im-Kopf-Lokalisierung oder -Lokalisiertheit, auch IKL, kann aber z. B. auch bei der Abstrahlung eines Signals über eine Lautsprecheranordnung für Stereowiedergabe auftreten, wenn ein Lautsprecher verpolt wird. Das Gehör wertet nicht nur die momentan eintreffenden Signale aus, sondern vergleicht diese als Reizmuster  mit erfahrenen und gespeicherten Reizmustern. Dies zeigt z.  B. die wesentlich schärfere Lokalisierung von Sprechern in der Medianebene, wenn deren Stimme bekannt ist. Im-Kopf-Lokalisierung entsteht nur dann, wenn die Schallreize so geartet sind, dass  sie nicht einer  möglichen natürlichen Schallquelle außerhalb des Kopfs zugeordnet werden können, oder wenn das Reizmuster für das Gehör völlig neuartig ist. Vom Gehör für die Lokalisierung nicht auswertbare Signale werden also für die Wahrnehmung deutlich durch die Im-Kopf-Lokalisierung gekennzeichnet. Das wichtigste Beispiel für Im-KopfLokalisierung ist die Wiedergabe raumbezogener Stereofonie über Kopfhörer. Das Klangbild spannt sich hierbei nicht außerhalb des Kopfs, sondern im Kopf zwischen den Ohren auf. Es wird im Kopf lokalisiert, weil für die jeweilige Einfallsrichtung typische Klangfärbungen der Signale fehlen, eine Tatsache, die den Erfahrungen des Gehörs aus dem Bereich natürlichen Hörens fehlt. Werden diese Klangfarbenunterschiede wie im Kunstkopfverfahren mit einem künstlichen Kopf erzeugt, lokalisiert das Gehör trotz Kopfhörerwiedergabe außerhalb des Kopfs, siehe dazu Kap. 5.5.4.1.

Standards [DIN 1318] Lautstärkepegel; Begriffe, Messverfahren, zurückgezogen [DIN 1320] Akustik; Begriffe [DIN 45500] Bl. 10: Heimstudio-Technik (Hi-Fi); Mindestanforderungen an Kopfhörer, 1999 ersatzlos zurückgezogen [DIN 45630] Bl. 1: Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall [DIN EN 61672] Elektroakustik - Schallpegelmesser [DIN IEC 651] Schallpegelmesser [DIN EN 60 645-1] Audiometer [DIN ISO 226] Akustik - Normalkurven gleicher Lautstärkepegel [DIN ISO 226-2003] Akustik – Normalkurven gleicher Lautstärkepegel [ISO 532 B] Akustik – Verfahren zur Berechnung des Lautstärkepegels

Literatur [Bekesy, 1949] [Blauert, 1996] [Blauert, 1997] [Blauert, 2020]

von Bekesy, G.: „The room illusion and similar auditory phenomena“, in: Amer. Journal of Psychol. 62, 1949, S. 540 ff. Blauert, J.: Spatial Hearing. The Psychophysics of Human Sound Localization, 1996, MIT Press Blauert, J.: Räumliches Hören, 1974, 1. und 2. Nachschrift 1985 und 1997, Ausgabe incl. 1. und 2. Nachschrift, 1997, Hirzel Blauert, J. und Brasch, J., Herausgeber: The Technology of Binaural Understanding (Modern Acoustics and Signal Processing), 2020, Springer

Literatur 

 137

[Cherry, 1953] Cherry, E.: “Some experiments on the recognition of speech, with one and with two ears“, in: Jour. Acoustical Society of America 25, S. 975 ff. [Fastl, 2007] Fastl, H. und Zwicker, E.: Psychoacoustics. Facts and Models, 3. Aufl., 2007, Springer [Hartmann, 1998] Hartmann, W. M.: Signals, Sound, and Sensation. Modern Acoustics and Signal Processing, 1998, Springer [Hellbrück, 2004] Hellbrück, J. und Ellermeier, W.: Hören. Physiologie, Psychologie, Pathologie, 2. Aufl., 2004, Hogrefe [Hesse, 2005] Hesse, G. und Laubert, A.: „Hörminderung im Alter - Ausprägung und Lokalisation“, in: Deutsches Ärzteblatt 2005, H. 42, S. 2864ff. [Howard, 2017] Howard, D. und Angus, J.: Acoustics and Psychoacoustics, 5. Aufl., 2017, Focal Press [Jekosch, 2005] Jekosch, U.: Voice and speach quality perception, 2005, Springer [Kalivoda, 1998] Kalivoda, M. und Steiner, J.: Taschenbuch der angewandten Psychoakustik, 1998, Springer [Roederer, 1999] Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik, 1999, Springer [Spitzer, 2005] Spitzer, M.: Musik im Kopf. Hören, Musizieren, Verstehen und Erleben im neuronalen Netzwerk, 2005, Schattauer [Terhardt, 1998] Terhardt, E.: Akustische Kommunikation. Grundlagen mit Hörbeispielen, 1998, Springer

4 Mi­kro­fone und Lautsprecher Michael Dickreiter Peter Arasin (4.3 und 4.5.2), Klaus Genuit (4.2.4.6) Mi­kro­fone und Lautsprecher  sind Systeme, die Schallenergie in elektrische Energie bzw. elektrische Energie in Schallenergie umwandeln, kurz auch Schallwandler oder elektroakustische Wandler genannt. Zur Aufnahme der Schallwellen aus einem Raum und für die Abstrahlung der Schallwellen in einen Raum wird im Allgemeinen eine Membran verwendet, deren Schwingungen dann weiterverarbeitet werden. In der Tonstudiotechnik gehören Mi­kro­fone, Lautsprecher und Kopfhörer zu den Schallwandlern; nach ihrem Wirkungsprinzip gehören aber auch die Tonabnehmer oder Tondosen der Vinyl-Schallplattenabspielgeräte dazu. Reversible Schallwandler können in beiden Wirkungsrichtungen betrieben werden, also als Mi­kro­fon und als Lautsprecher, irreversible Wandler arbeiten nur in einer Richtung. [Lerch, 2009], [Möser, 2009], [Schneider, 2008], [Zollner, 1993]

4.1 Physikalische Prinzipien der Schallwandler Für die Umwandlung von aus dem Schallfeld über eine mitschwingende Membran entnommener mechanischer Energie in elektrische Energie und umgekehrt gibt es mehrere physikalische Prinzipien; sie werden nach der Art der mechanisch-elektrischen bzw. elektrischmechanischen Energiewandlung bezeichnet und eingeteilt in: –– elektromagnetische Wandler, –– elektrodynamische oder dynamische Wandler, –– elektrostatische Wandler und Elektretwandler, –– magnetostriktive Wandler, –– piezoelektrische Wandler. Die verschiedenen Wandlerprinzipien haben gemeinsame Gesetzmäßigkeiten: Bei elektrodynamischen und piezoelektrischen Schallwandlern bleibt die Schwingungsform bei der Wandlung erhalten, es entstehen nur geringe Verzerrungen. Elektromagnetische, magnetostriktive und elektrostatische Schallsender arbeiten da­­ gegen nach quadratischen Kraftgesetzen, die Schwingungen werden deformiert, es entstehen starke Verzerrungen. Um diese zu vermeiden, muss deshalb einer Gleichgröße als Magnet­feld oder Vorspannung hinzugefügt werden, die groß gegenüber der Wechselgröße sein muss; damit wird die Verformung fast unwirksam. Schallwandler, die mit einem magnetischen Feld arbeiten, reagieren auf die Geschwindigkeit der bewegten Membran; Schallwandler, die mit einem elektrischen Feld arbeiten, reagieren auf die Auslenkung der Membran. Die mit einem magnetischen Feld arbeitenden Wandler geben eine frequenzabhängige Signalspannung ab, die durch besondere konstruktive Maßnahmen linearisiert werden muss. Schallwandler, die mit dem elektrischen Feld arbeiten, geben eine frequenzunabhängige Signalspannung ab, sofern ihre Eigenresonanz oberhalb des Übertragungsbereichs liegt. https://doi.org/10.1515/9783110759921-004

140 

 4 Mi­kro­fone und Lautsprecher

Alle fünf physikalischen Prinzipien werden in technischen Lösungen angewendet, jedes Prinzip bietet einen besonderen Vorteil, der bei  spezialisierten Mi­kro­fonen und Lautsprechern genutzt wird. Elektromagnetische Wandler Eine Membran nimmt den Luftschall auf und gibt die Schwingungen an einen Anker weiter, der in einem Luftspalt dicht über einem Permanentmagneten gehalten wird; der Magnet ist mit einer festen Leiterwicklung umgeben. Permanentmagnet und Anker bilden einen ma­­ gnetischen Kreis, der durch einen Luftspalt unterbrochen ist. Bewegt sich die Membran und damit auch der Anker, so wird in die Leiterwicklung wegen des permanenten Magnetfelds eine Spannung induziert, die der Bewegungsgeschwindigkeit der Membran proportional ist. Wird umgekehrt an die Leiterwicklung eine Wechselspannung gelegt,  so bewegt  sich der Anker mit der Membran analog zu dieser Spannung, der Wandler ist also reversibel. Elektromagnetische Wandler haben einen guten Wirkungsgrad; sie eignen sich deshalb besonders für Miniaturmi­kro­fone, also Ansteck- und Knopflochmi­kro­fone. Elektrodynamische oder dynamische Wandler Der elektrodynamische Wandler arbeitet wie der elektromagnetische Wandler mit einem Permanentmagneten. Die mit Strom durchflossene Leiterwicklung ist hierbei jedoch nicht um den Permanentmagneten gewickelt, sondern bewegt sich im Magnetfeld des Permanentmagneten als Schwingspule frei, aber mechanisch geführt; an die Schwingspule ist die Membran angekoppelt. Dieser Wandler ist ebenfalls reversibel. Vorteilhaft gegenüber dem elektromagnetischen Prinzip ist, dass hierbei kein Wechselmagnetfeld erzeugt wird, das inhomogen ist und damit nichtlineare Verzerrungen erzeugt. Trägt  man konstruktiv dafür Sorge, dass die Schwingspule auch bei großen Bewegungsamplituden innerhalb des homogenen Ma­­ gnetfelds bleibt,  so lassen  sich  mit dem elektrodynamischen Wandler besonders verzerrungsarme, robuste Wandler herstellen, auch für sehr große Membranausschläge. Dynamische Mi­kro­fone, also Tauchspul- und Bändchenmi­kro­fone, sowie dynamische Lautsprecher und Kopfhörer arbeiten nach diesem bewährten Prinzip, das Abb. 4/1 in der Anwendung bei einem Lautsprecher und einem Tauchspulmi­kro­fon zeigt.

Abb. 4/1. Elektrodynamischer Wandler, Anwendung als Lautsprecher und Tauchspulmi­kro­fon.

4.1 Physikalische Prinzipien der Schallwandler 

 141

Elektrostatische Wandler und Elektretwandler Der elektrostatische Wandler arbeitet wie ein Kondensator mit einer festen Platte als Elektrode und einer beweglichen, als Membran wirkenden Gegenelektrode. Dieser Kondensator erhält eine konstante elektrische Vorspannung und damit eine konstante Ladung Q. Schwingungen der Membran führen zu periodischen Änderungen des Elektrodenabstands und somit der Kapazität C dieses Kondensators. Es fließt ein Ausgleichsstrom, der an einem Widerstand, der in den Stromkreis aus Spannungsquelle und Wandler gelegt wird, einen den Bewegungen der Membran proportionalen Spannungsabfall U bewirkt. Die Spannung U ist gleich Q / C, Q ist durch die konstante Vorspannung konstant, also ist der Spannungsabfall U proportional zum Kehrwert der Kapazität, also 1 / C. So gewinnt man direkt aus der Bewegung der Membran eine dazu analoge elektrische Schwingung. Anders als bei dieser sog. Niederfrequenzschaltung können die Änderungen der Kapazität aber auch in einem Schwingkreis die Frequenz einer HF-Schwingung modulieren, aus der durch Demodulation dann die entsprechende NF-Spannung gewonnen wird, man spricht hier von Hochfrequenzschaltung. In der Tonstudiotechnik wird das elektrostatische Wandlerprinzip bei einem der wichtigsten Werkzeuge, dem Kondensatormi­kro­fon, dem klassischen hochwertigen Studiomi­kro­fon, in beiden Schaltungsvarianten angewendet (siehe Kap. 4.2.2), in umgekehrter Wirkungsrichtung bei elektrostatischen Lautsprechern und Kopfhörern. Abb. 4/2 zeigt das elektrostatische Wandlungsprinzip am Beispiel des Kondensatormi­kro­fons in Niederfrequenzschaltung.

Abb. 4/2. Elektrostatischer Wandler, Anwendung als Kondensatormi­kro­fon in Niederfrequenzschaltung.

Zu den elektrostatischen Wandlern gehören auch als besondere Bauform die Elektretmi­ kro­ne. Auf Grund ihrer kompakten Bauweise, des geringen Preises und der guten Signalqualität werden diese Mi­kro­fone in großen Stückzahlen preiswert hergestellt. Elektretmi­kro­ fone  stellen Kondensatormi­kro­fone  mit einem bei der Herstellung aufgetragenen Elektret dar. Ähnlich wie ein Permanentmagnet ein eingefrorenes magnetisches Feld trägt, trägt ein Elektret ein eingefrorenes elektrisches Feld. Dieses übernimmt die bei Kondensatormi­kro­ fonen notwendige Vorspannung und erlaubt damit einen einfacheren Betrieb. Auf Grund

142 

 4 Mi­kro­fone und Lautsprecher

der hohen Impedanz ist allerdings auch hier eine Spannungsversorgung von z. B 1,5 V für die Impedanzwandlung erforderlich. Nachteilig bei Elektretmi­kro­fonen sind außerdem eine höhere Serienstreuung der Empfindlichkeit, Empfindlichkeitsverluste durch Alterung, Ladungsverluste durch hohe Temperaturen bis hin zum Totalausfall. Zunehmend werden Elektretmi­kro­fone in der extrem miniaturisierten Mikrosystemtechnik, in der sog. MEMS-Technik – MicroElectroMechanical Systems – eingebaut, bei denen die die elektrische Kapazität ändernde Mikromembran direkt auf den Silicium-Wafer geätzt wird. Wenn die Ausleseelektronik mit einem Impedanzwandler, Vorverstärker und einem AnalogDigital-Wandler direkt bei der Membran ausgestattet ist und damit einen digitalen Ausgang besitzt,  spricht  man auch von einem Digitalmi­kro­fon. Wegen der geringen Abmessungen, der geringen Leistungsaufnahme, der guten Abschirmung gegen Störsignale und der kostengünstigen Produktion werden diese Mi­kro­fone zunehmend in kleinen mobilen Geräten wie Smartphones, Headsets, Hörgeräten oder Kameras eingebaut. Magnetostriktive Wandler Der magnetostriktive Wandler nutzt die Längenänderung, die ferromagnetische Materialien erfahren, wenn  sie einem Magnetfeld ausgesetzt werden. Diese  sind zwar  sehr klein, jedoch mit großen Kräften verbunden. Diese Wandler eignen sich deshalb besonders für die Erzeugung von Unterwasserschall für die Sonarortung, aber auch im Ultraschallbereich. Der Wirkungsgrad dieses ebenfalls reversiblen Wandlers ist hoch. Piezoelektrische Wandler Der piezoelektrische Wandler nutzt den sog. piezoelektrischen Effekt: Danach treten an der Oberfläche bestimmter Kristalle oder polykristalliner Stoffe elektrische Ladungen auf, wenn die Kristalle verformt werden. Umgekehrt können diese Kristalle auch durch elektrische Spannungen verformt werden. Piezoelektrische Mi­kro­fone, kurz Piezomi­kro­fone, werden verwendet als Körperschallmi­kro­fone vor allem bei Saiteninstrumenten, besonders Gitarren; sie werden meist als Pickup oder Tonabnehmer bezeichnet. Weiter wird das Prinzip bei Wasserschall­mi­kro­fonen,  sog. Hydrophonen als Echolot,  sowie in der Medizindiagnostik angewendet.

4.2 Mi­kro­fone Mi­kro­fone wandeln Schallschwingungen in elektrische Wechselspannungen um. Dieser Umwandlungsprozess erfolgt bei Luftschall in zwei Stufen: zunächst wird eine Membran als Schallempfänger von den Schallwellen zu erzwungenen Schwingungen angeregt; diese mechanischen Schwingungen wandelt dann das an den Schallempfänger gekoppelte Wandlersystem des Mi­kro­fons in elektrische Schwingungen um (Abb. 4/3). Das Prinzip der Umwandlung von akustischen in mechanische Schwingungen ist das sog. Empfängerprinzip des Mi­kro­fons, das Prinzip der anschließenden Umwandlung in elektrische Schwingungen ist das Wandlerprinzip des Mi­kro­fons (Abb. 4/3). [Görne, 2004], [Wuttke, 2000]

4.2 Mi­kro­fone 

 143

Abb. 4/3. Prinzipieller Aufbau eines Mi­kro­fons.

Das Empfängerprinzip eines Mi­kro­fons wird von der Konstruktion der Mi­kro­fonkapsel, der Art des Einbaus der Membran, bei Doppelmembranmi­kro­fonen auch von dem elektrischen Zusammenwirken der beiden Membranen bestimmt. Die hauchdünne Membran ist straff eingespannt, außer bei sog. Bändchenmi­kro­fonen, wo sie frei schwingt. Das Empfängerprinzip bedingt die Richtcharakteristik und das Verhalten im Nahfeld der Schallquelle, es bestimmt den Frequenzgang  mit. Man unterscheidet die Empfängerprinzipien und damit die Mi­kro­ fone nach der Schallfeldgröße, die die Membran antreibt: –– Beim Druckempfänger bewegt der Schalldruck die Membran, er wirkt nur einseitig auf diese ein, es entsteht eine Kugelrichtcharakteristik. –– Beim Druckgradientenempfänger wird die Membran durch die Druckdifferenz zwischen Membranvorderseite und Membranrückseite bewegt, da der Schalldruck auf beide Membranseiten einwirkt; es können – je nach konstruktiver Gestaltung – verschiedene Richtcharakteristiken erzeugt werden: Nierenrichtcharakteristik, Kardioide genannt, Achterrichtcharakteristik, breite Niere, Superniere, Hyperniere oder Keule  sowie alle Übergangsformen dazwischen. Für einen  möglichst großen Abstand zwischen Signal- und Störspannung  soll die Membranauslenkung  möglichst groß  sein. Die Schwingungsweite der Membran findet aber ihre Grenze, wenn die Verzerrungen eine gerade noch zulässige Größe erreichen. Bei zu großer Membranauslenkung entstehen Verzerrungen u. a. dadurch, dass die Membran durch ihre Trägheit und Steifigkeit den Schallschwingungen nicht mehr exakt folgen kann. Zwischen diesen beiden Grenzen, große Auslenkung für eine große Ausgangsspannung und möglichst kleine Auslenkung für geringe Verzerrungen, liegt die optimale Membranauslenkung. Dabei führt die Membran immer erzwungene Schwingungen aus und gerät nicht in Resonanz; das wird erreicht durch die Spannung und Masse der Membran und damit die Lage ihrer Eigenresonanz, durch Dämpfungselemente wie Luftpolster u. a. Von den verschiedenen Wandlerprinzipien finden bei Studiomi­kro­fonen das elektrostatische Wandlerprinzip bei Kondensatormi­kro­fonen Anwendung, das elektrodynamische Wandlerprinzip bei dynamischen Mi­kro­fonen, dazu gehören Tauchspul- und Bändchenmi­ kro­fone.

144 

 4 Mi­kro­fone und Lautsprecher

4.2.1 Eigenschaften von Mi­kro­fonen Die Datenblätter der Mi­kro­fonhersteller geben Auskunft über die Qualitätsmerkmale der Mi­kro­fone, insbesondere handelt es  sich um die nachfolgend erläuterten Eigenschaften [Wuttke, 1981, 1997]. Darüber hinaus  spielen in der Praxis  subjektiv bewertete Qualitäten eine nicht zu unterschätzende Rolle, ihr spezifischer Klang, ihre Brillanz, Schärfe, Wärme, Fülle, Mattigkeit u. ä. 4.2.1.1 Übertragungsfaktor, Übertragungsmaß, Empfindlichkeit Die Größe der Spannung, die von einem Mi­kro­fon bezogen auf den einwirkenden Schalldruck abgegeben wird, wird durch den Übertragungsfaktor oder das Übertragungsmaß bzw. die Empfindlichkeit angegeben. Die folgenden Begriffe werden verwendet: Feld-Übertragungsfaktor und Feld-Übertragungsmaß Der Feld-Übertragungsfaktor bei einer bestimmten Frequenz – 1  kHz, wenn nichts anders angegeben ist – ist der Quotient aus der effektiven Ausgangsspannung und dem effektiven Schalldruck am Ort des Mi­kro­fons, wenn dieses aus dem Schallfeld entfernt wird; in der Regel ist das Schallfeld für die Messung eine ebene Welle oder Direktschall, d. h. ein freies Schallfeld, weshalb dieser Faktor oder Koeffizient korrekt oft als Freifeld-Übertragungsfaktor bzw. -Koeffizient bezeichnet wird. Er wird angegeben in mV/Pa. 1 Pa (Pascal) entspricht einem Schalldruckpegel von 94 dB. Je höher der Faktor, desto empfindlicher ist also das Mi­kro­fon. Das Feld-Übertragungsmaß ist der 20-fache Zehnerlogarithmus des Verhältnisses von Feld-Übertragungsfaktor zu einem Bezugsübertragungsfaktor von z. B. 1 V/Pa; er wird in dB angegeben. Feld-Leerlaufübertragungsfaktor und Feld-Betriebsübertragungsfaktor, Empfindlichkeit Man unterscheidet beim Feld-Übertragungsfaktor und -maß Leerlauf- und Betriebsgrößen, je nachdem, ob die Ausgangsspannung des Mi­kro­fons als Leerlaufspannung mit einem sehr hochohmigen Abschlusswiderstand oder als Klemmenspannung unter betriebsmäßigem Abschluss  mit Nennabschlussimpedanz (siehe Kap.  4.2.1.6) gemessen wird. Der FeldLeerlaufübertragungsfaktor liegt bei dynamischen Mi­kro­fonen bei etwa 1 bis 2  mV/Pa, bei Kondensatormi­kro­fonen zwischen 10 und 20  mV/Pa. Kondensatormi­kro­fone geben damit einen um rund 10 bis 20 dB höheren Pegel als dynamische Mi­kro­fone ab. 4.2.1.2 Übertragungsbereich Der Übertragungsbereich ist der für Tonaufnahmen nutzbare Frequenzbereich. Für ihn werden die vom Hersteller angegebenen Übertragungseigenschaften eines Mi­kro­fons und deren Toleranzen angegeben. Die Übertragungsbereiche verschiedener Mi­kro­fone können deshalb oft nicht direkt miteinander verglichen werden, weil z. B. unterschiedliche Toleranzen angegeben werden. Ein typischer Übertragungsbereich für Studiomi­kro­fone ist 20 Hz bis 20 kHz, mindestens aber 40 Hz bis 16 kHz. Frequenzen unterhalb des Übertragungsbereichs werden bei Studiomi­kro­fonen durch einen Hochpass weggefiltert, bei 15 Hz soll der Pegelabfall mindestens 12 dB betragen. Auch Frequenzen oberhalb des Übertragungsbereichs müssen

4.2 Mi­kro­fone 

 145

vom Übertragungsweg ferngehalten werden; durch Demodulationseffekte erzeugen sie Störungen im Hörschallbereich. Oberhalb 40 kHz soll die Dämpfung größer sein als 20 dB. 4.2.1.3 Frequenzgang Der Frequenzgang oder die Frequenzkurve eines Mi­kro­fons ist die grafische Darstellung der Abhängigkeit des Übertragungsmaßes von der Frequenz bei senkrecht auf die Membran auftreffendem Schall, die Messung erfolgt also im freien Schallfeld. Die Toleranzzone ist bei Studiomi­kro­fonen im Allgemeinen mit ± 2 dB angegeben. Die beim Übertragungsmaß angegebene Toleranz bezieht sich auf das Übertragungsmaß bei 1 kHz. Frequenzgang im Direkt- und Diffusfeld Einer der Gründe, warum Mi­kro­fone mit gleichen Frequenzkurven sich klangfarblich unterscheiden können, ist die Tatsache, dass die Bedingungen, unter denen die Frequenzkurve gemessen wird, nämlich bei frontal einfallendem Direktschall, nur bei der Aufnahme im Nahbereich der Instrumente Gültigkeit haben. Sobald das Mi­kro­fon aus dem unmittelbaren Nahbereich der Schallquelle entfernt wird, erhöht sich der Diffusfeldanteil zunehmend. Der Diffusfeldfrequenzgang weicht aber normalerweise vom Direktfeldfrequenzgang ab, u. U. ganz erheblich. Der Diffusfeldfrequenzgang wird in Datenblättern üblicherweise aber leider nicht angegeben, wohl weil er nicht die Linearität des Direktfeldfrequenzgangs haben kann. Er kann zwar durch Mittelung der Richtcharakteristiken für die verschiedenen Messfrequenzen näherungsweise aus den Herstellerdaten ermittelt oder abgeschätzt werden, für den praktischen Anwender ist dies jedoch zu aufwändig. Wenn die verschiedenen Richtcharakteristiken jedoch erheblich voneinander abweichen, so kann daraus auf einen erheblichen Unterschied zwischen Direkt- und Diffusfeldfrequenzgang geschlossen werden. Abb. 4/4 zeigt die Frequenzgänge und die Richtcharakteristiken für verschiedene Frequenzen am Beispiel eines Studiomi­kro­fons mit kleiner Membran. Direkt- und Diffusfeldfrequenzgang stimmen hier gut überein, d. h., dass die Klangfarbe sich mit der Entfernung nicht deutlich ändert. Der Pegel des Diffusfeldfrequenzgangs liegt in diesem Fall um 5  dB unterhalb des Pegels des Direkt- oder Freifeldfrequenzgangs, diese Differenz ist das Bündelungsmaß des Mi­kro­ fons (siehe Kap. 4.1.2.7). Auf den Unterschied von Direkt- und Diffusfeldfrequenzgang hat das Empfängerprinzip sowie die Konstruktion der Mi­kro­fonkapsel Einfluss. Druckempfänger haben bei einem Membrandurchmesser um 16  mm,  sog. Kleinmem­ branmi­kro­fone, im Frequenzbereich um 10  kHz eine Anhebung des Übertragungsmaßes um etwa 6dB für Direktschall, der  senkrecht auf die Membran trifft. In diesem Frequenzbereich ist die Membranausdehnung in der Größenordnung der Wellenlänge des Schalls; deshalb wird die Schallwelle an der Membran reflektiert, der Schalldruck auf die Membran verdoppelt sich dabei, was der Anhebung von 6 dB entspricht. Dieser Anstieg kann durchaus erwünscht sein, da er eine gewisse Klangpräsenz fördert. Der Diffusfeldfrequenzgang zeigt demgegenüber einen Höhenabfall; Schallwellen kleiner Wellenlänge werden nicht mehr um die Mi­kro­fonkapsel herum gebeugt, das Mi­kro­ fon nimmt nicht  mehr  so viel rückwärtigen und  seitlichen Schall auf, es wird für höhere Frequenzen zum Richtmi­kro­fon. Der Höhenabfall wird dadurch reduziert, dass auch beim Diffusschall frontal eintreffende Schallanteile durch Reflexion um 6 dB angehoben werden.

146 

 4 Mi­kro­fone und Lautsprecher

Abb. 4/4. Mi­kro­fon-Frequenzgänge eines Druckgradientenempfängers für verschiedene Einfallsrichtungen und für Diffusschall. Der 0°-Frequenzgang ist der in Datenblättern der Hersteller angegebene Frequenzgang.

Man linearisiert nun durch Filterung entweder den Direktfeld- oder den Diffusfeldfrequenzgang oder stellt einen Kompromiss her; Studiomi­kro­fone nach dem Druckempfängerprinzip haben also im Allgemeinen entweder –– einen geraden Direktfeldfrequenzgang, man nennt solche Mi­kro­fone „freifeldentzerrt“, –– einen geraden Diffusfeldfrequenzgang,  man nennt  solche Mi­kro­fone „diffusfeldentzerrt“, –– oder einen Kompromiss zwischen diesen Möglichkeiten. Abb.  4/5 zeigt ein Beispiel  mit Diffusfeldentzerrung und damit einen weitgehend geraden Diffusfeldfrequenzgang. Grenzflächenmi­kro­fone  sind ebenfalls Druckempfänger (siehe Kap.  4.2.2). Wegen der bündig in eine größere Fläche integrierten Membran  sind die Bedingungen für Schallreflexion, die bei üblichen Studiomi­kro­fonen nur bei höheren Frequenzen erfüllt  sind, bei diesen Mi­kro­fonen für den gesamten Übertragungsbereich gegeben. Bei Grenzflächenmi­kro­ fonen sind also Direkt- und Diffusfeldfrequenzgang weitgehend gleich, was so bei keinem anderen Mi­kro­fontyp zutrifft.

4.2 Mi­kro­fone 

 147

Bei Druckgradientenempfängern gibt es zwischen Direktfeld- und Diffusfeldfrequenzgang keine physikalisch bedingten Unterschiede. Moderne, hochwertige Studiomi­kro­fone haben deshalb zwischen den beiden Frequenzgängen nur geringe Abweichungen. Abb. 4/4 zeigt dies am Beispiel eines Studiomi­kro­fons; im Gegensatz zum Druckempfänger zeigt hier das Diffusfeld sogar einen geringen Höhenanstieg bei 10 kHz.

Abb. 4/5. Beispiel der Frequenzgänge eines Druckempfängers (Kleinmembran) im Direktfeld und Diffusfeld bei Diffusfeldentzerrung.

Auch Mi­kro­fonständer und -halterungen nehmen auf den Direktfeldfrequenzgang Einfluss. Durch Störungen des Schallfelds können kammfilterartige Störungen des Frequenzgangs von bis zu ± l dB entstehen. Nur die senkrechten Stangen im Bereich des Mi­kro­fons verursachen solche Störungen, durch ausgefahrene waagrechte Ausleger können sie vermieden werden. Frequenzgang bei Nahbesprechung von Druckgradientenempfängern Richtmi­kro­fone  mit Nieren- oder Achterrichtcharakteristik oder deren Zwischenformen – Super- und Hypernieren, Keulen –  sind  sog. Druckgradientenempfänger. Diese Mi­kro­fone haben für Mi­kro­fonstandorte im direkten Nahfeld einer Schallquelle einen anderen Frequenzgang als für weiter entfernte Standorte, nämlich eine Überbetonung tiefer Frequenzen; man nennt diese in der Physik der Schallwellen begründete Erscheinung den Nahbesprechungseffekt eines Mi­kro­fons. Die Tiefenanhebung beim Nahbesprechungseffekt ist umso größer, je tiefer die Frequenz und je kleiner der Mi­kro­fonabstand ist. Die Anhebung setzt etwa da ein, wo der Mi­kro­fonabstand kleiner als die Wellenlänge des auftreffenden Schalls wird. Sie kommt deshalb zustande, weil die Druckdifferenz zwischen Membranvorder- und -rückseite, die die Membran auslenkt, aus zwei Komponenten zusammengesetzt ist: –– die Fernfeldkomponente, das ist der Druckgradient, also die Druckdifferenz zwischen zwei Punkten im Schallfeld, die unabhängig von der Entfernung zur Schallquelle  mit fallender Frequenz abnimmt, –– die Nahfeldkomponente, die unabhängig von der Frequenz  mit zunehmender Entfernung von der Schallquelle abnimmt.

148 

 4 Mi­kro­fone und Lautsprecher

Dieser Tiefenabfall der Fernfeldkomponente wird im Mi­kro­fon elektrisch durch die Anhebung tiefer Frequenzen ausgeglichen. Die Nahfeldkomponente ist frequenzlinear, wird nun aber ebenfalls über die Tiefenanhebung der Fernfeldkomponente geführt. Daraus ergibt sich im Nahfeld eine ganz erhebliche Bassanhebung (Abb. 4/6); sie ist prinzipielle nicht vermeidbar.

Abb. 4/6. Fernfeld- und Nahfeldkomponenten des Druckgradienten einer Schallwelle.

Abb. 4/7 zeigt die Anhebung tiefer Frequenzen bei Nahbesprechung bei verschiedenen Mi­kro­ fonabständen, bei 54 cm, 10,8 cm und 5,4 cm. Sie ist bei Mi­kro­fonen mit Achterrichtcharakteristik um 6 dB höher als bei Nierenmi­kro­fonen. Nur bei Abständen unter 0,5 bis 1 m spielt der Nahbesprechungseffekt in der Praxis eine zu beachtende Rolle. Richtmi­kro­fone, die für den Einsatz bei geringen Entfernungen vorgesehen sind, müssen die Anhebung tiefer Frequenzen, die durch den Nahbesprechungseffekt verursacht wird, ausgleichen. Sie sind im Allgemeinen bezüglich ihres Frequenzgangs auf eine Entfernung von etwa 10 cm optimiert, genauere Angaben fehlen  meist in den Datenblättern der Hersteller. Sie heißen Solisten-, Gesangs- oder Nahbesprechungsmi­kro­fone. Universalmi­kro­fone haben oft einen Sprache/ Musik-Schalter, die Tiefen sind abgesenkt in Schalterstellung „Sprache“, linear ist der Frequenzgang in Stellung „Musik“. Bei sog. Zweiwegmi­kro­fonen gelingt es durch konstruktive Maßnahmen, den Nahbesprechungseffekt geringer zu halten. Nahbesprechungsmi­kro­fone haben für entfernte Schallquellen  selbstverständlich eine den Klang färbende Absenkung tiefer Frequenzen, die sie für größere Mi­kro­fonabstände ungeeignet machen; sie eignen sich aber besonders für die Nahbesprechung in lärmerfüllter Umgebung, weil sie den Raumlärm im Bereich tiefer Frequenzen zusätzlich dämpfen.

4.2 Mi­kro­fone 

 149

Abb. 4/7. Anhebung tiefer Frequenzen durch den Nahbesprechungseffekt.

4.2.1.4 Störpegel Mi­kro­fone geben grundsätzlich auch ohne Einwirkung von Schall eine geringe Spannung ab; sie wird generiert durch kleinste Bewegungen von Ladungsträgern in den Bauelementen des Mi­kro­fons, in Widerständen, Halbleitern usw. Vor allem das sog thermische Rauschen oder Wärmerauschen des hohen Widerstands des Impedanzwandlers des Kondensatormi­ kro­fons gibt ein nahezu Weißes Rauschen ab, dessen Stärke von der Umgebungstemperatur und der Größe des Widerstands abhängt. Es handelt sich also um einen auch bei sog. digitalen Mi­kro­fonen unvermeidlichen, in der Physik der Bauelemente des Mi­kro­fons begründeten Störpegel. Er ist keineswegs vernachlässigbar klein, sondern zählt zu den wichtigen Qualitätsparametern eines Mi­kro­fons. Ein Ersatzgeräuschpegel entspricht dem Pegel des Schalldrucks, gemessen in dBSPL (siehe Kap. 9.5) im Raum, in dem sich das Mi­kro­fon befindet. Diese Spannung unbewertet als Störpegel zu behandeln und einen Störpegelabstand etwa zu einem Nutzsignal bei Vollaussteuerung zu definieren,  macht keinen Sinn, weil dieses Rauschen zusammen mit dem akustischen Signal auftritt und damit nicht quantitativ,  sondern qualitativ nach  seiner Störwirkung in der Wahrnehmung durch das Gehör zu beurteilen ist. Dem Gehör bietet sich ein Geräusch, das sich in den aufzunehmenden Schall hineinmischt. Daher muss es auch subjektiv als Geräusch mit einer bestimmten Lautstärke behandelt werden, das unter Berücksichtigung der besonderen Eigenschaften des Gehörs zu erfassen ist; früher hat man deswegen auch den Begriff Ersatzlautstärke benutzt, er wurde anschaulich durch den Begriff Ersatzgeräuschpegel, auch Eigenrauschen, ersetzt. Ein weiterer Begriff hierfür ist der Äquivalentschalldruck bzw. -pegel. Tiefe und sehr hohe Frequenzen nimmt das Gehör weit schwächer wahr als den mittleren Frequenzbereich, wie die Kurven gleicher Lautstärkepegel zeigen (siehe Kap. 3.3.1, besonders Abb. 3/3 und 3/4). Bei Messungen wird das berücksichtigt durch vorgeschaltete Filter, die ein Spiegelbild darstellen zu den Kurven gleicher Lautstärkepegel. Hierfür gibt es verschiedene

150 

 4 Mi­kro­fone und Lautsprecher

Normen, die  sich genau (CCIR-bewertet bis 1991) oder weniger genau (A-bewertet) an die Kurven halten, demnach gibt es auch verschiedene Angaben für Messwerte für die Störpegel von Mi­kro­fonen. Folgende Messwerte werden heute bei Studiomi­kro­fonen angegeben: Ersatzgeräuschpegel bewertet nach CCIR Die Messung erfolgt unter Vorschaltung eines Filters nach [ITU-R BS.468], bis 1991 CCIR 468 – aber immer noch  meist  so zitiert – bzw. der identischen nationalen, aber zurückgezogenen Norm [DIN  45405] (1983)  mit Quasispitzenbewertung (siehe Abb.  9/9). Die zu erwartenden Werte liegen bei etwa 25 dB ± 3 bis 4 dB entsprechend einer sehr leisen Umgebung; sie sollten möglichst niedrig sein. Ersatzgeräuschpegel A-bewertet Die Messung erfolgt unter Vorschaltung eines Filters mit A-Bewertung nach [DIN EN 60268] (2003), früher IEC 268, als Effektivwert (siehe Abb. 9/13)). Die zu erwartenden Werte liegen etwa 10 dB, gelegentlich bis 13 dB [Schneider, 1998] niedriger, also etwa bei 12 bis 15 dB ± 3 bis 4 dB; sie sollten natürlich ebenfalls möglichst niedrig sein. Diese vorteilhaft erscheinenden Werte findet man vielfach bei sog. Musikermi­kro­fonen, also dynamischen Mi­kro­fonen. Geräuschpegelabstand nach CCIR Die absoluten Werte des Ersatzgeräuschpegels, die dem Schalldruckpegel von Störschall entsprechen,  sind für den Anwender nicht besonders anschaulich. Deshalb wurde auch ein Geräuschpegelanstand definiert, der  sich auf einen Bezugswert des Schalldrucks bezieht; man hat dafür den runden Wert eines auf das Mi­kro­fon einwirkenden Schalldrucks von 1 Pa gewählt [CCIR 468 bzw. ITU-R BS.468], das entspricht einem Schalldruckpegel von 94 dB. Dies ist der Schalldruckpegel eines sehr lauten Schallereignisses, z. B. in einer Diskothek, bei Aufnahmen kommen solche Pegel selten vor. Dieser Wert ergibt also einen sehr hohen Geräuschpegelabstand und ist  somit ein „geschönter“ Wert. Bei einem Ersatzgeräuschpegel von z. B. 25 dB liegen die zu erwartenden Werte des Geräuschpegelabstands bei 94 dB − 25 dB = 69 dB. In der Praxis vermindert er sich z. B. um ca. 30 dB, wenn man einen Sprecher in 30 cm Entfernung mit 65 dB als Bezug nimmt. Geräuschpegelabstand A-bewertet Die A-Bewertung des Ersatzgeräuschpegels mit Effektivwertmessung ergibt bereits einen sehr günstig erscheinenden Wert. Zusammen mit dem sehr hohen Bezugswert von 94 dB Schalldruckpegel ergeben sich entsprechend eindrucksvolle Werte für den Geräuschpegelabstand. Hier kommen gleich zwei Maßnahmen zusammen, die die Messwerte als sehr günstig erscheinen lassen. Die zu erwartenden Werte liegen um nun bei 94 dB – 15 dB = 79 dB. Dynamikumfang Gelegentlich findet man Angaben über den Dynamikumfang eines Mi­kro­fons. Dieser ist dann nicht wie der Geräuschpegelabstand auf 94 dB bezogen, sondern auf den Schalldruck, bei dem die Verzerrungen des Mi­kro­fonsignals einen Wert von 0,5 oder 1 % erreichen, das sind Werte im Bereich von 130 bis 150 dB. Dabei entstehen Dynamikumfänge üblicher Studiomi­kro­fone nach CCIR bzw. ITU-R BS.468 von weit über 100 dB, Werte, die keinen Bezug mehr haben zur Praxis.

4.2 Mi­kro­fone 

 151

Magnetfeldstörfaktor Bei dynamischen Mi­kro­fonen ist der störende Einfluss äußerer Magnetfelder von Interesse. Der Magnetfeldstörfaktor gibt die induzierte Spannung bei 5 μTesla und 50 Hz an. Mi­kro­fone geringer Magnetfeldempfindlichkeit haben 3 bis 5 μV/μT. 4.2.1.5 Grenzschalldruck und Aussteuerungsgrenze Anstelle des Klirrfaktors wird bei Mi­kro­fonen derjenige Schalldruck oder Schalldruckpegel angegeben, unterhalb dessen der Hersteller die Einhaltung eines bestimmten Klirrfaktors, meist 0,5 %, gelegentlich aber auch 1 %, bei 1 kHz, garantiert. Man bezeichnet diesen Schalldruck als Grenzschalldruck oder Aussteuerungsgrenze. Für Kondensatormi­kro­fone liegt er zwischen etwa 40 und 200 Pa; dem entspricht ein Schalldruckpegel von 126 bis 140 dB. Dynamische Mi­kro­fone können höchste Schalldrücke von etwa 150 bis 160 dB verarbeiten, ohne dass die Verzerrungen unzulässig ansteigen; deshalb wird bei ihnen oft auf die Angabe eines Grenzschalldrucks verzichtet. Die Verzerrungen entstehen nicht an der Mi­kro­fonkapsel, sondern beim Impedanzwandler/Verstärker, der ja auch für den Ersatzgeräuschpegel verantwortlich ist. Dynamische Mi­kro­fone haben keine elektronische Einheit und zudem eine robustere Membran. 4.2.1.6 Ausgangsimpedanz und Nennabschlussimpedanz Die Ausgangsimpedanz, Innen- der Quellwiderstand eines Kondensatormi­kro­fons, beträgt etwa 40 bis 50 Ώ, bei dynamischen Mi­kro­fonen liegt sie üblicherweise bei 200 bis 600 Ώ; die Angabe wird meist auf 1 kHz bezogen. Kondensatormi­kro­fone haben systembedingt einen spannungsversorgten Impedanzwandler, mit dem die niedrige Impedanz realisiert wird; damit können sie über Mi­kro­fonleitungen von  mehreren hundert Metern angeschlossen werden. Dynamische Mi­kro­fone haben keine Elektronik, ihre Spule bzw. ein Übertrager beim Bändchenmi­kro­fon liefert direkt das symmetrische, erdfreie Ausgangssignal, das einen um 10 bis 20 dB niedrigeren Pegel als bei Kondensatormi­kro­fonen hat; entsprechend sind längere Kabel störanfällig. Die Nennabschlussimpedanz eines Mi­ kro­ fons ist der elektrische WechselstromAbschlusswiderstand,  mit dem das Mi­kro­fon durch die Eingangsimpedanz des Mi­kro­fon­ verstärkers der Regieanlage mindestens abgeschlossen werden soll; die kleinste zulässigen Abschlussimpedanz ist zugleich die höchst zulässige Belastung. Nur wenn die Nennabschlussimpedanz  mindestens 10-mal höher ist als die Ausgangsimpedanz des Mi­kro­fons, wirken sich Frequenzabhängigkeiten der Impedanzen mit Sicherheit nicht auf den Frequenzgang des Mi­kro­fonsignals aus. Die vom Hersteller angegebenen Werte sollten also keinesfalls unterschritten werden. Beim Kondensatormi­kro­fon liegen  sie vielfach bei 1  kΩ, also rund dem 20-fachen der Abschlussimpedanz, bei dynamischen Mi­kro­fonen z. B. bei 2 kΩ, empfohlen wird minimal das 5-fache. 4.2.1.7 Richtcharakteristik Der Feld-Übertragungsfaktor oder die Empfindlichkeit von Mi­kro­fonen ist abhängig von der Richtung des eintreffenden Schalls, Mi­kro­fone haben demnach eine sog. Richtcharakteristik, die immer auch von der Frequenz abhängt. Diese Eigenschaft erhalten sie durch ihre

152 

 4 Mi­kro­fone und Lautsprecher

konstruktive Gestaltung, die Mi­kro­fone  mit  sehr unterschiedlichen Richtcharakteristiken ermöglichen. Die Konstruktion legt fest, ob ein Mi­kro­fon auf den Schalldruck anspricht und damit weitgehend kugelförmige Richtcharakteristik hat oder ob es auf den Druckgradienten, also auf die Differenz der Schalldrücke, die auf die Vorder- bzw. Rückseite der Mi­kro­ fonmembran einwirken, anspricht und damit nieren- oder achterförmige Richtcharakteristik bzw. deren Zwischenformen Super-, Hyperniere und Keule besitzt (siehe Kap.  4.2.1.8). Die Abhängigkeit der Mi­kro­fonspannung bzw. des Mi­kro­fonpegels von der Einfallsrichtung des Schalls wird durch verschiedene Begriffe erfasst, die [DIN 45590] definiert: Richtungsfaktor und Richtungsmaß Der Richtungsfaktor eines Mi­kro­fons für eine bestimmte Frequenz und Richtung ist das Verhältnis des Feld-Übertragungsfaktors für eine ebene Schallwelle, die das Mi­kro­fon aus einer bestimmten Richtung trifft, zu demjenigen aus der Bezugsrichtung (Richtung 0°, Bezugsachse, Symmetrieachse). Er ist dimensionslos. Das Richtungsmaß ist der 20-fache Zehnerlogarithmus des Richtungsfaktors. Er wird in dB angegeben. Richtcharakteristik Erst die grafische Darstellung des Richtungsfaktors oder bevorzugt des Richtungsmaßes für alle Richtungen und einige wichtige Frequenzen, z. B. 125, 250, 500 Hz und 1, 2, 4, 8, 16 kHz, in einem Polarkoordinatensystem  macht die Richtwirkung eines Mi­kro­fons als Richtdiagramm für den Anwender anschaulich (Abb. 4/8). Da alle Richtcharakteristiken symmetrisch zur 0°-Richtung liegen, wird das Richtungsmaß vielfach für eine bestimmte Frequenz nur für eine Seite angegeben. Tatsächlich ist die Richtcharakteristik ein Schnitt durch eine dreidimensionale Darstellung, der rotationssymmetrisch zu der senkrecht die Membran schneidenden Achse verläuft. In Abb. 4/8 sind die Richtdiagramme auf Grund des Richtungsfaktors und Richtungsmaßes einander gegenübergestellt. Die Darstellung des Richtungsfaktors lässt die Richtcharakteristik deutlicher erscheinen als die Darstellung des Richtungsmaßes. Tab. 4/1 stellt einige Werte von Richtungsmaß und -faktor gegenüber. Tab. 4/1. Zusammenhang von Richtungsfaktor und Richtungsmaß bei Mi­kro­fonen. Richtungsfaktor

entspricht dem Richtungsmaß

1,0 0,7 0,5 0,3 0,25

0 dB – 3 dB – 6 dB – 10 dB – 12 dB

Mi­ kro­ fone  mit Richtwirkung werden eingesetzt, um Direktschall bevorzugt aus einer bestimmten Richtung aufzunehmen, den Diffusschall aus anderen Richtungen aber auszublenden. Um diese Eigenschaft  mit einem einzigen Zahlenwert ausdrücken zu können,

4.2 Mi­kro­fone 

 153

werden die Begriffe Bündelungsfaktor, Bündelungsmaß und Bündelungsgrad verwendet, die aber ineinander umgerechnet werden können [DIN 45590].

Abb. 4/8. Richtdiagramme am Beispiel zweier Richtrohrmi­kro­fone: 1. Darstellung des Richtungsmaßes, 2. Darstellung des Richtungsfaktors.

Bündelungsfaktor, Bündelungsmaß und Bündelungsgrad Diese drei Begriffe beziehen sich nur auf die Richtung vorne, also 0°, und erfassen die Richtwirkung eines Mi­kro­fons mit einer einzigen Zahl. Der Bündelungsfaktor gibt an, wievielmal größer der Besprechungsabstand eines Mi­kro­fons mit einer bestimmten Richtcharakteristik gegenüber dem eines Mi­kro­fons  mit kugelförmiger Richtcharakteristik  sein kann, um das gleiche Verhältnis von Direktschall zu Diffusschall zu erhalten. Das Bündelungsmaß ist der l0‑fache Zehnerlogarithmus des Bündelungsgrads; er wird in  dB angegeben. Der Bündelungsgrad schließlich betrachtet das Verhältnis der Schallleistungen, er ist das Quadrat des Bündelungsfaktors; für die praktische Betrachtung ist er am wenigsten anschaulich und nicht mit dem Bündelungsfaktor zu verwechseln. Tab. 4/2 zeigt die Zusammenhänge zwischen den drei Größen der Schallbündelung und wie sie sich auf den Mi­kro­fonabstand bzw. die Ausblendung des Diffusschalls auswirken. Richtcharakteristiken in der Praxis Abb.  4/9 zeigt in räumlicher Darstellung die Hauptformen der Richtcharakteristiken, Abb. 4/10 die Richtdiagramme der Grundformen Kugel, Niere und Acht sowie der Zwischenformen zwischen Niere und Acht, nämlich Superniere, Hyperniere und Keule, es handelt sich um idealisierte Darstellungen, die unberücksichtigt lassen, dass in der Praxis die Richtdiagramme Frequenzabhängigkeiten zeigen. Während Nieren und Achten sowie ihre Zwischenformen noch relativ frequenzunabhängige Richtdiagramme haben, sind Kugeln und Keulen für Direktschall vergleichsweise erheblich frequenzabhängig; die in Abb. 4/10 dargestellten Kurven gelten in dem Frequenzbereich bis 1 kHz.

154 

 4 Mi­kro­fone und Lautsprecher

Tab. 4/2. Bündelungsfaktor, -maß und -m für Richtmi­kro­fone. Richtcharakteristik

Bündelungsfaktor [dimensionslos] Vervielfachung des Mi­kro­fonabstands um den Faktor, verglichen mit einer Kugel

Bündelungsmaß [dB] Bündelungsgrad Pegel des Direktschalls [dimensionslos] über dem Pegel des Diffusschalls

Kugel breite Niere Niere Superniere Hyperniere Acht

1,0 1,4 1,7 1,9 2,0 1,7

0 dB 3,2 dB 4,8 dB 5,7 dB 6,0 dB 4,8 dB

1,0 2,0 3,0 3,7 4,0 3,0

Für den praktischen Einsatz der Richtmi­kro­fone ist zunächst wichtig, dass die Richtwirkung nur für Direktschall wirksam ist, also nicht über den Hallradius (siehe Kap. 1.2.4) hinaus. Nur im Freien oder in sehr trockenen Räumen kann demnach ein Mi­kro­fon aus größerer Entfernung Störschall aus anderen Richtungen als aus derjenigen der Schallquelle ausblenden. In sehr halligen Räumen können nur Keulen-Richtmi­kro­fone bis zum zwei- bis dreifachen Wert des Hallradius noch diffusen oder störenden Schall ausblenden. Die Ausblendung von Störschall bzw. Nachhall ist umso besser, je näher das Mi­kro­fon an die Schallquelle herangebracht wird.

Abb. 4/9. Hauptformen der Richtcharakteristik in idealisierter pseudo-dreidimensionaler Darstellung.

Das Verhältnis von Direktschall zu Diffusschall ist bei der Mi­kro­fonaufnahme ein wichtiges Kriterium für die Wahl der geeigneten Richtcharakteristik. In relativ halliger Umgebung

4.2 Mi­kro­fone 

 155

und/oder bei störenden Nebengeräuschen ist es bei Sprachaufnahmen praktisch immer, bei Musikaufnahmen vielfach wünschenswert, möglichst wenig Diffusschall aufzunehmen. Der Mi­kro­fonabstand ist bei Richtmi­kro­fonen für ein bestimmtes Verhältnis von Direkt- zu Diffusschall  stets größer als bei ungerichteten Mi­kro­fonen. Dieser Vergrößerungsfaktor ist in Abb. 4/11 für die verschiedenen Richtmi­kro­fone angegeben. Er ist gleich dem Bündelungsfaktor des Mi­kro­fons. Ein weiteres Kriterium für die Mi­kro­fonwahl ist das Maß der Ausblendung bzw. Dämpfung von Schallquellen, die seitlich oder hinter dem Mi­kro­fon sind; Direktschall von  solchen Schallquellen wird entsprechend Tab.  4/3 gegenüber dem Schall von vorne gedämpft aufgenommen. Demnach hat die Niere die beste Rückwärtsdämpfung bei nicht allzu großer Seitwärtsdämpfung. Die Acht bietet die beste Seitwärtsdämpfung, ist aber nach hinten ebenso empfindlich wie nach vorne. Super- und Hyperniere stellen als Zwischenformen Kompromisse zwischen diesen beiden Richtcharakteristiken dar: die Superniere verbindet recht gute Rückwärtsdämpfung mit geringerer Seitwärtsdämpfung, bei der Hyperniere ist dies umgekehrt. Somit steht für jede Aufnahmesituation eine zu bevorzugende Richtcharakteristik zur Verfügung.

Abb. 4/10. Richtdiagramme von Mi­kro­fonen (idealisierte Kurven).

156 

 4 Mi­kro­fone und Lautsprecher

Abb. 4/11. Vergrößerungsfaktoren für die verschiedenen Richtmi­kro­fone bei gleichem Direktschall/ Diffusschall-Verhältnis wie bei einem ungerichteten Mi­kro­fon. Der Faktor ist bei Keulenrichtcharakteristik stark frequenzabhängig: für tiefe Frequenzen liegt er wie bei der Niere bei rund 1,7, bei hohen Frequenzen steigt er bis etwa 3,3.

Tab. 4/3. Spannungs- und Pegelverhältnisse für verschiedene Schalleinfallsrichtungen bei Richtmi­kro­fonen, theoretische Werte. Schalleinfall

von vorne (0°) seitlich (±-90°) von hinten (±180°) beste Eignung für die Aufnahme­ situation

Spannung, Pegel bezogen auf die Spannung bzw. den Pegel des Schalls von vorne Niere

Superniere

Hyperniere

Acht

100 %, 0 dB 50 %, − 6 dB 0 %, − ∞ dB Schall von hinten soll ausgeblendet werden

100 %, 0 dB 38 %, − 9 dB 25 %, − 12 dB Schall von der Seite und besonders von hinten soll ausgeblendet werden

100 %, 0 dB 25 %, − 12 dB 50 %, − 6 dB Schall besonders von der Seite und von hinten soll ausgeblendet werden

100 %, 0 dB 0 %, − ∞ dB 100 %, 0 dB Schall von der Seite soll ausgeblendet werden, Schall von vorn und hinten soll in gleicher Wiese aufgenommen werden

4.2.1.8 Bauformen von Mi­kro­fonen Im Studiobereich werden Kondensatormi­kro­fone und dynamische Mi­kro­fone eingesetzt, deren konstruktiver und elektrischer Aufbau in Kap. 4.2.1.9 behandelt werden. Auf Grund der gemeinsamen Empfängerprinzipien für Mi­kro­fone ergeben sich auch gemeinsame Kon­ struktionsmerkmale, bedingt durch die Akustik des Schallempfangs und unabhängig von der Konstruktion des eigentlichen akustisch-elektrischen Wandlers des Mi­kro­fons. Druckempfänger Abb. 4/12 zeigt ein schematisches Schnittbild des Aufbaus der Kapsel eines Druckempfängers. Das Innere der Kapsel ist durch die Membran von dem umgebenden Raum schalldicht getrennt; in der Kapsel herrscht wegen des Druckausgleichs durch eine kleine Öffnung der äußere Luftdruck, die raschen Druckschwankungen des Schalls werden dabei aber nicht ausgeglichen.

4.2 Mi­kro­fone 

 157

Abb. 4/12. Prinzip des Aufbaus der Kapsel eines Druckempfängers.

Die Membran wird immer dann bewegt, wenn der Druck von außen auf die Membran vom Kapselinnendruck abweicht. Auch von hinten oder von der Seite auf die Kapsel auftreffender Schall verursacht Änderungen des Schalldrucks vor der Membran, wenn die Schallwellen um das Mi­kro­fon gebeugt werden. Druck ist eine sog. skalare Größe, im Gegensatz zu vektoriellen Größen besitzt sie keine Richtungsinformation. Ein Druckempfänger nimmt Schallereignisse aus allen Richtungen in gleicher Weise auf, Druckempfänger haben also eine kugelförmige Richtcharakteristik. Die Richtcharakteristik erfährt durch drei Phänomene Abweichungen von ihrer idealen Form; sie wirken sich nur im Bereich höherer Frequenzen aus (Abb. 4/13): –– Abschattung: Schall, der rückwärtig oder von der Seite auf das Mi­kro­fon trifft, wird durch die Kapsel abgeschattet, –– Auslöschung: Schall, der  schräg auf die Membran auftrifft, löscht  sich ganz oder teilweise auf der Membran aus, –– Druckstau: Schall, der senkrecht auf die Membran auftrifft, wird reflektiert und erzeugt dabei einen Druckstau, das bedeutet eine Druckverdopplung.

Abb. 4/13. Richtcharakteristik eines Druckempfängers bei verschiedenen Frequenzen.

158 

 4 Mi­kro­fone und Lautsprecher

Abschattung: Schall wird nur dann um ein Hindernis gebeugt, wenn seine Wellenlänge groß verglichen mit dem Hindernis ist. Ist also die Wellenlänge des auf die Rückseite der Kapsel auftreffenden Schalls kleiner als der Durchmesser der Mi­kro­fonkapsel, so entsteht ein mit steigender Frequenz zunehmender Schallschatten vor der Membran; das führt  mit  steigender Frequenz zu einer Ausblendung rückwärtigen, i. A. diffusen Schalls. Auslöschung oder Interferenz: Von vorne ankommende Schallwellen treffen senkrecht auf die gesamte Membranoberfläche gleichphasig auf.  schräg ankommende Schallwellen hingegen treffen mit unterschiedlichen Phasenlagen auf die einzelnen Membranzonen, was zu einer teilweisen Aufhebung der Membranauslenkung, also zu einer teilweisen Auslöschung des Signals führt. Ist der Membrandurchmesser gleich der Wellenlänge, so wird exakt seitlich auftreffender Schall z. B. ganz ausgelöscht. Man nennt diesen Effekt Interferenz. Solche Auslöschungen engen also die Richtcharakteristik auf Keulenform ein. Bei Richtmi­kro­fonen mit Keulenrichtcharakteristik, den  sog. Richtrohrmi­kro­fonen, wird der Interferenzeffekt auf  mittlere Frequenzen ausgedehnt (siehe dazu unten). Schallabschattung und Auslöschungen ließen sich dadurch vermeiden, dass der Durchmesser der Membran kleiner gewählt wird als ein Viertel der Wellenlänge der höchsten zu übertragenden Frequenz, also kleiner als etwa 5 mm. Dem entgegen steht jedoch die Forderung nach einer möglichst großen Empfindlichkeit, die ihrerseits mit der Membrangröße zunimmt, so dass eine bestimmte Größe der Membran, das sind für Studiomi­kro­fone etwa 15 mm, nicht unterschritten wird. Bei Miniaturmi­kro­fonen kann man bei entsprechend geringerem Störabstand die Membran bis auf wenige mm verkleinern. Druckstau: Durch die Reflexion der Schallwelle an der Membran verdoppelt sich der Schalldruck auf die Membran und führt zu einem Höhenanstieg des Frequenzgangs um 6 dB, den Druckempfänger mit geradlinigem Diffusfeldfrequenzgang bei Schalleinfall von vorn grundsätzlich aufweisen. Der Höhenanstieg liegt mit seinem Maximum bei Mi­kro­fonen mit einer kleinen Membran von ca. 15  mm Durchmesser um 15  kHz, bei  sog. Großmembranmi­kro­ fonen mit ca. 30 mm bei 10 kHz. Druckgradientenempfänger Während die Membran des Schalldruckempfängers nur einseitig dem Schalldruck ausgesetzt wird, wirkt beim Druckgradientenempfänger der Schalldruck auf beide Seiten der Membran ein; nur wenn diese Drücke unterschiedlich sind, wird die Membran bewegt. Schall genau von der Seite z. B. bewegt die Membran nicht. Die Schalldruckdifferenz wird Schalldruckgradient oder Druckgradient genannt. Druckgradientenempfänger haben im Gegensatz zu Druckempfängern einen gerichteten Schallempfang; Gerichtete Mi­kro­fone  mit Ausnahme der Keule nützen die Eigenschaften dieses Empfängerprinzips. Der Druckgradientenempfänger in seiner einfachsten Form besteht also nur aus einer beidseitig für den Schall zugänglichen Membran. Eine solche Anordnung hat Achterrichtcharakteristik. Denn seitlich eintreffender Schall lässt keine Druckdifferenz an der Membran entstehen, Schall senkrecht von vorn oder hinten hingegen lenkt die Membran maximal aus. Durch Laufzeitglieder zwischen Membranvorderseite und -rückseite für den Schall oder durch Überlagerung von Achter- mit Kugelrichtcharakteristik können jedoch auch Mi­kro­fone nach dem Druckgradientenprinzip mit Richtcharakteristiken in Form von Nieren sowie sog. Super- und Hypernieren konstruiert werden. Bei jedem Schalldruckunterschied an der Membran entsteht eine Luftbe-

4.2 Mi­kro­fone 

 159

wegung in Richtung des niedrigeren Drucks: die Membran wird also analog zur Schallschnelle bewegt. Damit folgt auch die Spannung, die ein Druckgradientenmi­kro­fon abgibt, proportional der Schallschnelle. Gelegentlich werden deshalb Druckgradientenempfänger vor allem im Ausland auch als Schnelleempfänger, engl. als Velocity Microphones bezeichnet. Bei einer Druckamplitude, die für alle Frequenzen gleich ist,  steigen der Druckgradient und damit die Membranauslenkung zunächst mit der Frequenz an. Maximal ausgelenkt wird die Membran dann, wenn die mittlere Wegdifferenz zwischen Membranvorderseite A und -rückseite B einer halben Wellenlänge bzw. einer Phasendifferenz von 180° entspricht. Bei größerer Phasendifferenz wird die Auslenkung wieder geringer; bei 360° wird sie zu 0, um danach erneut anzusteigen (Abb. 4/14). Die mittlere Wegdifferenz ist abhängig von der Konstruktion der Mi­kro­fonkapsel. Ohne zusätzliche Maßnahmen ist die Membranauslenkung also frequenzabhängig, sie hat einen sog. Omega-Gang. Um zu einer Membranauslenkung zu gelangen, die von den tiefsten bis zu den höchsten zu übertragenden Frequenzen in einfacher Weise mit der Frequenz zunimmt, wird die mittlere Wegdifferenz zwischen Membranvorder- und -rückseite so festgelegt, dass sie etwa der halben Wellenlänge der höchsten zu übertragenden Frequenz entspricht. Damit arbeitet das Mi­kro­fon abgesehen von dem obersten Teil des Übertragungsbereichs im ansteigenden Teil der Frequenzkurve nach Abb. 4/14. Oberhalb der Frequenz fÜ wird das Druckgradientenprinzip unwirksam, das Mi­kro­fon wird zu einem Druckempfänger. Um das Ansteigen der Membranauslenkung von tiefen zu hohen Frequenzen zu korrigieren, wird nun eine Dämpfung eingesetzt, deren Wirkung ebenfalls mit der Frequenz zunimmt. Dafür werden nur akustischmechanische Maßnahmen angewendet, nämlich Massehemmung und Reibungshemmung.

Abb. 4/14. Entstehung von Schalldruckdifferenzen Δp1,2,3,4 und Phasendifferenzen φ zwischen zwei Punkten A und B bei vier verschiedenen Frequenzen in ebenen Schallwellen und Frequenzgang des Druckgradienten bzw. der Druckdifferenz Δp zwischen zwei Punkten mit dem Abstand 25 mm im ebenen Schallfeld.

160 

 4 Mi­kro­fone und Lautsprecher

Massehemmung entsteht dadurch, dass eine bewegte Masse ihrer eigenen Bewegung durch ihre Trägheit Widerstand entgegensetzt. Dieser Widerstand ist umso größer, je schneller die Bewegung erfolgt. Die Masse bildet die bewegte Membran selbst, sie setzt also der Bewegung einen zunehmenden Widerstand entgegen, der mit der Geschwindigkeit und somit mit der Frequenz ansteigt. Reibungshemmung entsteht dadurch, dass – verursacht durch die Membranbewegungen – Luft durch enge Öffnungen der Kapselrückseite strömt. Dabei reiben die Luftmoleküle an den Wänden. Durch diese Reibung wird der Luftströmung und damit der Membranbewegung Widerstand entgegengesetzt. Die Reibung ist umso stärker, je schneller die Luft durch die Öffnungen  strömt. Der Einfluss der Reibung auf die Luftbewegung und damit auf die Membran steigt also ebenfalls mit zunehmender Frequenz. Druckgradientenempfänger mit Achterrichtcharakteristik Die Mi­kro­fonkapsel des Druckgradientenempfängers  mit Achterrichtcharakteristik besteht aus einer beidseitig für den Schall frei zugänglichen Membran (Abb. 4/15).

Abb. 4/15. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Achterrichtcharakteristik.

Abb. 4/16. Richtcharakteristik eines Druckgradientenempfängers mit Achterrichtcharakteristik bei verschiedenen Frequenzen.

Bei seitlicher Beschallung der Membran entsteht zwischen Membranvorder- und Membranrückseite keine Druckdifferenz, das Mi­kro­fon ist für  seitlich auftreffenden Schall unempfindlich. Schall von vorn oder hinten führt dagegen zur größten Membranauslenkung. So

4.2 Mi­kro­fone 

 161

entsteht die achterförmige Richtcharakteristik (Abb. 4/16). Sie ist über den gesamten Übertragungsbereich hinweg weitgehend unabhängig von der Frequenz. Anders als bei Druckempfängern führt Schall, der auf die Membranrückseite trifft, verglichen  mit Schall von vorne zu gegenphasiger Auslenkung. Diese Gegenphasigkeit zwischen Schall von vorne und von hinten ermöglicht das Mi­kro­fonverfahren der MS-Stereoaufnahmetechnik (Kap. 5.3.2.2) und Mi­kro­fone, die in der Richtcharakteristik umschaltbar sind (Kap. 4.2.2.7). Mi­kro­fone, die nur Achterrichtcharakteristik besitzen, gibt es nur wenige auf dem Markt. Meist steht diese Richtcharakteristik bei Mi­kro­fonen zur Verfügung, die über umschaltbare Richtcharakteristiken verfügen. Die Achterrichtcharakteristik ist dann für den praktischen Einsatz vorteilhaft, wenn seitlicher Schall bestmöglich ausgeblendet werden  soll oder wenn zwei Sprecher oder Instrumente, die einander gegenüberstehen, mit nur einem Mi­kro­fon aufgenommen werden sollen. Druckgradientenempfänger mit Nierenrichtcharakteristik Nieren- oder Kardioidrichtcharakteristik eines Mi­kro­fons kann auf zwei verschiedene Arten realisiert werden: –– mit einem sog. Laufzeitglied für rückwärtig auf die Membran auftreffenden Schall, –– durch Überlagerung von Kugel- und Achterrichtcharakteristik. Die Konstruktion mit einem Laufzeitglied ist die am meisten angewendete Technik. Abb. 4/17 zeigt das Bauprinzip eines solchen Nierenmi­kro­fons. Dabei ist die Laufzeitdifferenz zwischen Membranvorder- und Membranrückseite von der Schalleinfallsrichtung abhängig.

Abb. 4/17. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Nierenrichtcharakteristik durch ein Laufzeitglied.

Bei Beschallung von vorn, unter 0̊°, hat der Schallanteil, welcher an die Rückseite der Membran gelangt, gegenüber dem auf die Vorderseite auftreffenden Schall eine Verzögerung, die durch die Wegdifferenz 2 1 bestimmt wird. Der so entstandene Druckunterschied führt zur Membranauslenkung (Abb.  4/18a). Bei Beschallung von hinten  sind die Laufzeiten zur Membranorderseite und -rückseite etwa gleich. Es entsteht keine Druckdifferenz; dadurch kommt es zu keiner Membranbewegung (Abb.  4/18b). Bei Beschallung aus  seitlicher Richtung, ± 90°, ist eine Laufzeitdifferenz vorhanden, die jedoch kleiner ist als die der Beschallungsrichtung 0° (Abb. 4/18c). Wird die Schallquelle von der Richtung 0° zur Rückseite, ± 180°, bewegt, so wird die Laufzeit- bzw. Druckdifferenz und damit die Membranauslenkung zunehmend geringer. So entsteht die nierenförmige Richtcharakteristik (Abb. 4/19).

162 

 4 Mi­kro­fone und Lautsprecher

Abb. 4/18. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Nierenrichtcharakteristik durch ein Laufzeitglied bei verschiedenen Schalleinfallsrichtungen.

Abb. 4/19. Richtcharakteristik eines Druckgradientenmi­kro­fons mit Nierenrichtcharakteristik bei verschiedenen Frequenzen.

Eine nierenförmige Richtcharakteristik kann auch durch ein weiteres Verfahren erzeugt werden: Die Kugelrichtcharakteristik eines Druckempfängers und die Achterrichtcharakteristik eines Druckgradientenempfängers werden einander überlagert. Dies kann durch Addition der Signale eines eng benachbarten Kugel- und Achtersystems geschehen oder dadurch, dass ein Teil der Membran nur  mit der Vorderseite, der andere Teil beidseitig dem Schall ausgesetzt wird. Die Nierenrichtcharakteristik entsteht in beiden Fällen durch Überlagerung der Kugel- und Achterrichtcharakteristik (Abb. 4/20). Durch den Richtfaktor r in Polarkoordinaten ausgedrückt heißt das: –– Richtfaktor der Kugel: rK = 1/2 –– Richtfaktor der Acht: rA = 1/2 ⋅ cos φ –– Richtfaktor der Niere: rN = rK + rA = 1/2 ⋅ (1 + cos φ)

4.2 Mi­kro­fone 

 163

Abb. 4/20. Nierenrichtcharakteristik als Summe von Kugel- und Achterrichtcharakteristik.

Druckgradientenempfänger mit Super- und Hypernierenrichtcharakteristik Die Richtcharakteristik der Nierenmi­kro­fone kann durch einfache konstruktive Maßnahmen so verändert werden, dass die Ausblendung von seitlich auftreffendem Schall erhöht, zugleich aber von hinten auftreffender Schall weniger gedämpft wird als bei der Niere. Es entstehen damit Richtcharakteristiken, die zwischen Niere und Acht liegen. Diese Zwischenformen können bei der Anwendung eines Laufzeitglieds durch geringere Laufzeiten erreicht werden, bei der Überlagerung von Kugel- und Achterrichtcharakteristik durch einen größeren Anteil der Acht. Bei der Richtcharakteristik der Superniere ergibt seitlicher Schall 38 % bzw. – 9 dB der Spannung bei Schalleinfall von vorne, Schall von hinten 25 % oder – 12 dB; bei der Hyperniere gibt das Mi­kro­fon bei seitlichem Schall 25 % ab bzw. – 12 dB, bei Schall von hinten 50 % oder – 6 dB (Abb. 4/21, Tab. 4/2). Die Nierencharakteristik ist am günstigsten, wenn Schallquellen hinter dem Mi­kro­fon ausgeblendet werden  sollen. Die Hyperniere bevorzugt noch etwas  stärker den unter 0°, also von vorn einfallenden Schall gegenüber dem Diffusschall, vermag demnach z. B. den Direktschall eines Sprechers oder Solisten noch etwas mehr gegenüber dem Nachhall hervorzuheben. Niere und Acht verhalten sich bezüglich des Diffusschalls gleich, sie nehmen den diffusen Schall um nahezu 5 dB gedämpft auf, die Superniere um fast 6 dB, die Hyperniere schließlich um 6 dB. Denkt man sich den Aufnahmeraum durch eine Fläche in Vergrößerung der Mi­kro­fonmembran in einen vorderen und einen hinteren Halbraum geteilt, so stellt die Superniere den Sonderfall dar, bei dem der Unterschied der aus den beiden Halbräumen aufgenommenen Schallanteile am größten ist. Mit dem Richtmi­kro­fon kann man einen größeren Mi­kro­fonabstand wählen, ohne dass der Direktschallanteil und damit die Durchsichtigkeit und Präsenz leiden: Verglichen  mit einem Mi­kro­fon mit Kugelcharakteristik darf der Abstand für Niere und Acht das l,7-fache, für die Superniere das l,9-fache und für die Hyperniere das 2-fache betragen (Abb. 4/11), es

164 

 4 Mi­kro­fone und Lautsprecher

handelt sich um den Bündelungsfaktor (siehe Kap. 4.2.1.7). Die Schallanteile, die von hinten auf die Super- oder Hyperniere auftreffen, sind wie bei der Acht gegenüber Schallanteilen von vorn um 180° in der Phase gedreht.

Abb. 4/21. Richtcharakteristik, a. Niere, b. Hyperniere, c. Superniere.

Richtrohrmi­kro­fone oder Interferenzempfänger mit Keulenrichtcharakteristik Für den Fernsehton, für Beschallungen oder für Live-Aufnahmen auf der Bühne werden Mi­kro­fone  mit  möglichst hoher Richtwirkung benötigt. Solche Mi­kro­fone werden durch Anwendung des Interferenzprinzips  meist in Zusammenwirkung  mit einem Druckgradientenempfänger mit Nieren- oder Supernierencharakteristik verwirklicht. Vor der Membran ist ein Richtelement angeordnet. Das Richtelement besteht aus einem seitlich geschlitzten oder gelochten, vorne offenen Rohr (Abb. 4/22).

4.2 Mi­kro­fone 

 165

Abb. 4/22. Prinzipieller Aufbau des Interferenzempfängers.

Die Richtwirkung eines solchen Mi­kro­fons kommt dadurch zustande, dass Schallanteile aus Richtung der Rohrlängsachse kommend sich im Rohr gleichphasig addieren; Schallanteile, die aus anderen Richtungen eintreffen, werden in der Phase verschoben überlagert und löschen sich dadurch gegenseitig je nach Phasenlage mehr oder weniger aus. Die akustische Wirkungsweise des Richtrohrs ist also dieselbe wie bei den Auslöschungen von schräg auf die Membran eines Druckempfängers auftreffendem Schall (siehe Kap. 4.2.1.8), jedoch ist beim Richtrohr der Membrandurchmesser akustisch auf die Länge des Richtrohrs ausgedehnt. Die entstehende Keulenrichtcharakteristik und damit die Bündelungsfaktor ist abhängig vom Verhältnis der Länge des Richtelements zur Wellenlänge des aufgenommenen Schalls. Die Richtwirkung nimmt demnach mit der Länge des Richtrohrs und der Frequenz zu. Bei tiefen Frequenzen entspricht sie der Niere bzw. Superniere; mit steigender Frequenz engt  sie  sich zunehmend ein (Abb.  4/23). Wie die Super- und Hyperniere ist auch bei der Keule rückwärtig einfallender Schall in der Phase gedreht.

Abb. 4/23. Richtcharakteristik eines Druckgradientenempfängers mit Richtrohr.

166 

 4 Mi­kro­fone und Lautsprecher

Beim praktischen Einsatz der Interferenzempfänger oder meist bezeichnet als Richtrohrmi­ kro­fone sind einige Besonderheiten zu beachten: Die Richtwirkung kann sich wie bei allen Richtmi­kro­fonen nur  solange auswirken, wie für die Aufnahme noch ausreichend Direktschall zur Verfügung steht; im Fernfeld kann das Mi­kro­fon bei halligen Räumen also keinen Gewinn bringen. Auf Grund des engen Aufnahmebereichs und seiner starken Frequenzabhängigkeit kann der Einsatz bei bewegten Schallquellen vor allem bei geringerem Abstand zu Klangfarbenänderungen, abhängig von den Bewegungen, führen. Richtrohrmi­ kro­ fone sollten nur da verwendet werden, wo sie tatsächlich Vorteile zeigen. Superrichtrohrmi­kro­fon Eine erhebliche Verbesserung der Richtwirkung von Richtrohrmi­kro­fonen wird dadurch erzielt, dass dem Richtrohr ein zweites Mi­kro­fonsystem  mit Nierencharakteristik hinzugefügt wird, das, nach hinten gerichtet, Schall aufnimmt, der in einer digitalen Signalverarbeitung mit dem Schall des nach vorn gerichteten Systems verrechnet, also subtrahiert wird. So können Diffusschallkomponenten auch im tiefen und mittleren Frequenzbereich, wo das einfache Richtrohr nicht oder wenig wirksam ist,  stark unterdrückt werden. Im Ergebnis wird gerade in den Frequenzbereichen, in denen konventionelle Richtrohre unbefriedigende Ergebnisse liefern, das Direktschall-Diffusschallverhältnis erheblich verbessert. Erreicht wird damit in dem genannten Frequenzbereich eine Absenkung des Diffusschallpegels gegenüber einer Kugel um ca. 12  dB; die Hyperniere als die am  stärksten den Diffusschall unterdrückende Richtcharakteristik erreicht zum Vergleich einen Wert von ca. 6 dB. [Wittek, 2010] Druckgradientenempfänger als breite Niere Mit der sog. breiten Niere steht eine Richtcharakteristik zur Verfügung, die zwischen Niere und Kugel einzuordnen ist; eine zutreffendere Bezeichnung wäre wohl breite Kugel, denn in der Praxis ist diese Richtcharakteristik eher eine Alternative zur Kugel. Die breite Niere bietet bei weitgehend frequenzunabhängiger Richtcharakteristik (Abb.  4/24) vor allem in klangfarblicher Hinsicht interessante Vorteile: Die Aufnahme tiefer Frequenzen ist besser als bei Nieren, wenngleich nicht ganz so gut wie bei Kugeln als Druckempfänger; andererseits kann sie vorteilhaft eingesetzt werden bei stark tiefenbetontem Nachhall, den sie etwas abmildert. Der Nahbesprechungseffekt ist weniger ausgebildet als bei Nieren. Direkt- und Diffusfeld sind wie bei Nieren klangfarblich sehr ähnlich, weil der Richtfaktor weitgehend unabhängig von der Frequenz ist. Insgesamt ergibt dies einen wärmeren Klang der breiten Nieren. Die Dämpfung nach hinten liegt bei ca. 10 dB, im Vergleich zur Niere ist sie also deutlich geringer, seitlich verhalten sich breite Niere und Niere ganz ähnlich mit einer Dämpfung von rund 6 dB. Als Stützmi­kro­fon muss deshalb der Abstand etwas geringer als bei Nieren gewählt werden. Für das XY-Aufnahmeverfahren ist das Mi­kro­fon nicht geeignet, aber sehr vorteilhaft für das MS-Verfahren. 4.2.1.9 Wind- und Poppstörungen Wenn Wind oder allgemein bewegte Luft auf die Mi­kro­fonmembran trifft, aber auch, wenn ein Mi­kro­fon in ruhender Luft bewegt wird, also z. B. auch bei schnellen Bewegungen der Mi­kro­ fonangel, können Luftwirbel bzw. der Winddruck die Membran u. U. erheblich bewegen; das

4.2 Mi­kro­fone 

 167

führt zu gravierenden Störgeräuschen [Wuttke, 1985/1]. Solche Störungen bezeichnet man als Windstörungen. Wind in diesem Sinne kommt turbulent, also verwirbelt aus allen Richtungen, man kann ein Mi­kro­fon nicht aus dem Wind drehen.

Abb. 4/24. Richtcharakteristik der breiten Niere.

Bei Nahbesprechung dagegen entstehen impulsartige Luftströmungen bei sog. Popplauten, also Explosivlauten wie K, P, und T, die aus einer definierten Richtung kommen als gleichgerichtete, sog. laminare Strömung. Die dadurch verursachten Störungen werden Poppstörungen genannt. Nur bis ca. 10 cm vor dem Mund sind Poppstörungen laminar, bei größeren Entfernungen gehen sie in Turbulenz, also Windstörungen über. Im Bereich laminarer Strömung kann man das Mi­kro­fon aus dem Wind drehen, seine Membran also vorteilhaft parallel zur Windrichtung ausrichten. Schall von Wind- und Poppstörungen hat vor allem im Frequenzbereich bis 100  Hz, abnehmend bis 1 kHz hohe Pegel, aber auch im Infraschallbereich unter 16 Hz. Dies führt zu hohen Auslenkungen der Membran und damit zu hohen Aussteuerungen, die nur teilweise angezeigt werden oder hörbar sind, und damit zu starken Verzerrungen. Übertrager und andere Bauelemente werden übersteuert, in Pegelspitzen wird das Signal auch unterbrochen, man sagt, das Mi­kro­fon wird zugestopft. Ohne Wind- oder Poppschutz sind Druckempfänger wegen der stark gespannten Membran deutlich, um 10 bis 20 dB, unempfindlicher als Druckgradientenempfänger, am empfindlichsten sind ohne Gegenmaßnahmen dynamische Richtmi­kro­fone, da bei ihnen die Membran am weichsten eingespannt ist. Es gibt eine Reihe von wirksamen Gegenmaßnahmen gegen diese Störungen: Die Verwendung eines Windschutzes ist grundsätzlich empfehlenswert oder unerlässlich bei Aufnahmen im Freien, bei Verwendung der Mi­kro­fonangel und bei Nahbesprechung von Mi­kro­fonen. Allgemein sollten die Tiefen durch das Trittschallfilter am Mi­kro­fon bzw. Mi­kro­ fonverstärker auf die höchste einstellbare Frequenz eingestellt werden. Die  mechanischen Schutzvorrichtungen richten sich bei optimalen Einsatz nach dem Mi­kro­fontyp und der Situ-

168 

 4 Mi­kro­fone und Lautsprecher

ation: Kondensatormi­kro­fone sind zwar vom Prinzip her unempfindlicher, jedoch verfügen dynamische Mi­kro­fonkapseln grundsätzlich über einen integrierten Wind- und Poppschutz. Zur Verminderung der Störungen werden Wind- und Nahbesprechungsschutzkörbe verwendet (Abb.  4/25). Sie reduzieren die Windgeschwindigkeit und damit die Störungen, wirken dabei auf den Nutzschall verhältnismäßig wenig ein. Die Wirksamkeit eines Schutzkorbs  steigt  mit  seiner Größe, wobei die verwendeten Materialien ebenfalls von Bedeutung sind. In der Praxis können Dämpfungen der Windstörungen um 20 bis 30 dB erreicht werden. Wirksame Windschutzkörbe verändern die Richtcharakteristik und den Frequenzgang der Mi­kro­fone geringfügig. Zwischen Wind- und Nahbesprechungsschutz wird im Allgemeinen nicht unterschieden. Druckmi­kro­fone werden besser durch Vollschaumstoff, gerichtete Mi­kro­fone durch Hohlschaumstoff oder Körbe geschützt. Ein fellartiger sog. Windjammer über einen Korb gezogen ist der wirksamste Schutz. Im Studio  sind gegen Poppstörungen sog. Poppschirme am wirksamsten, sie beeinflussen den Klang praktisch nicht, können aber nur in Zusammenhang mit Mi­kro­fonständern eingesetzt werden, also bei statischen Aufnahmesituationen, nicht auf der Bühne. Ein Großmembranmi­kro­fon mit Poppschirm ist schon fast das Sinnbild für Gesangsaufnahmen im Studio.

Abb. 4/25. Verschiedene Ausführungen von Wind- und Poppschutzvorrichtungen.

4.2.1.10 Störungen durch Körperschall Schwingungen, verursacht durch Schritte, schlagende Türen, Verkehrsmittel u. ä. werden über den Fußboden und den Mi­kro­fonständer auf die Mi­kro­fonkapsel übertragen und bewegen den Mi­kro­fonkörper relativ zur Membran. Unabhängig von der genauen Ursache spricht man meist von Trittschall. Hoch gespannte Membranen wie bei der Druckkugel sind weniger empfindlich, sie folgen besser den Bewegungen des Gehäuses. Die Störungen betreffen wie bei Wind den tiefsten Frequenzbereich, daher die Bezeichnung Trittschallfilter für einen Hochpass. Maßnahmen gegen Trittschall sind Mi­kro­fonspinnen, in denen die Mi­kro­fone federnd gehalten werden und Gummifüße an Stativen; der höhenverstellbare Stab des Stativs darf den Boden nicht berühren. Reibgeräusche an der Kleidung und am Mi­kro­fonkabel  sind ebenfalls Körperschall. Gegen sie schützt am besten die Verwendung von Druckempfängern; durch die zu diesem Zweck  schwere Ausführung des Gehäuses dynamischer Mi­kro­fone verringert  sich deren Empfindlichkeit. Die Kabel sollten bei Handmi­kro­fonen stets mit Schlaufen, also entspannt, gehalten werden.

4.2 Mi­kro­fone 

 169

4.2.2 Kondensatormi­kro­fone Der in der Tonstudiotechnik am meisten eingesetzte Mi­kro­fontyp ist das Kondensatormi­kro­ fon oder elektrostatische Mi­kro­fon; es bietet eine Qualität der Schallwandlung und Schallübertragung, die an der Grenze des physikalisch Möglichen arbeitet. Kondensatormi­kro­fone haben einen weitgehend frequenzunabhängigen Übertragungsfaktor und geringe Verzerrungen und Körperschallempfindlichkeit, benötigen aber eine Betriebsspannung zum Erhalt der Ladung des Kondensators und zur Versorgung des Impedanzwandlers und Verstärkers im Mi­kro­fon. Konstruktiv bilden eine schwingungsfähige, vom Luftschall bewegte Membran als eine der Elektroden und eine feste Gegenelektrode zusammen einen Kondensator, dessen Kapazität sich entsprechend den Schwingungen der Membran ändert; denn die Kapazität eines Kondensators hängt u. a. vom Abstand der Kondensatorplatten ab. Die Membran besteht aus einer 1 bis 10 μm starken Metallfolie oder metallbedampften Kunststofffolie. Ihr Abstand von der festen Gegenelektrode beträgt 5 bis 50 μm. Ihr Gewicht bestimmt die Einschwingzeit, sie ist umso kürzer, je leichter die Membran ist. Das Gewicht der Membran von Kondensatormi­ kro­fonen liegt bei wenigen mg, was ganz wesentlich die hohe Qualität der Kondensatormi­ kro­fone begründet; die Membran dynamischer Mi­kro­fone hingegen wiegt etwa das 20-fache, entsprechend kann sie schnellen Einschwingvorgängen weniger folgen. Eine Variante des Kondensatormi­kro­fons ist das Elektretmi­kro­fon oder dauerpolarisierte Mi­kro­fon, das keine externe Spannungszuführung benötigt,  sondern lediglich eine Batterie zur Speisung des mit dem Mi­kro­fon konstruktiv vereinten Impedanzwandlers. Bei diesen Mi­kro­fonen ist die Ladung des Kondensators in Kunststofffolien „eingefroren“, ähnlich wie in einem Dauermagneten der Magnetismus. Elektretmi­kro­fone sind heute beherrschend in allen Bereichen der Sprachkommunikation, sie sind bei relativ guter Klangqualität vornehmlich als Miniaturmi­kro­fone in hohen Stückzahlen preisgünstig als sog. MEMS herzustellen. Im Tonstudiobereich konnten sich Elektretmi­kro­fone nicht durchsetzen. Sie finden da Verwendung, wo aus praktischen Gründen keine Mi­kro­fonspeisespannung zur Verfügung steht und dynamische Mi­kro­fone nicht benutzt werden können oder sollen. 4.2.2.1 Spannungsversorgung Die Kondensatormi­kro­fone werden über zweiadrige, geschirmte Mi­kro­fonkabel an die Mi­kro­ fonverstärker der Regieanlage angeschlossen. Die Versorgungsspannung für den Betrieb der Mi­kro­fone wird durch Mehrfachnutzung der Mi­kro­fonleitung, also ohne besondere Versorgungsleitungen bereitgestellt. Zwei verschiedene Speisungsarten  sind dabei  möglich: Phantom- oder Mittelpunktspeisung und Tonaderspeisung. Beide Speisungsarten haben bestimmte Vor- und Nachteile (Tab. 4.4). Nachdem die beiden Verfahren nach Entwicklung der ersten transistorisierten Mi­kro­fone in den 1960er Jahren zunächst konkurrierend nebeneinanderstanden, hat sich im Tonstudiobereich die Phantomspeisung mit 48 V (P 48) vollkommen durchgesetzt, da sie qualitativ und betrieblich überlegen ist, insbesondere geringere Störanfälligkeit zeigt und kompatibel ist  mit dem Anschluss dynamischer Mi­kro­fone. Die Tonaderspeisung hat im Studio keine Bedeutung mehr, wird aber für mobile Tonaufnahmen bei Film und Fernsehen als Tonaderspeisung mit 12 V (T 12) nach [DIN 45595] wegen

170 

 4 Mi­kro­fone und Lautsprecher

des 12-V-Batteriebetriebs noch verwendet. Röhrenmi­kro­fone (siehe Kap.  4.2.4.3) erfordern zur Erzeugung der benötigten Heiz-, Anoden- und Polarisationsspannungen stets ein eigenes Netzteil über spezielle mehradrige Kabel. Bei der Phantomspeisung nach [IEC 268-15/DIN 45596],  seit 2018 [DIN EN IEC 61938], wird die Versorgungsspannung des Mi­kro­fons von 12, 24 oder meist 48 V parallel über die beiden Adern hin und über den Kabelschirm zurück dem Mi­kro­fon zugeführt (Abb.  4/26). Beim Anschluss des Mi­kro­fons wird über die symmetrische Mi­kro­fonleitung eine Brückenschaltung hergestellt: die beiden Adern a und b bilden mit dem Kabelschirm einen Phantomkreis; vier gleichgroße Widerstände stellen den geforderten Brückenabgleich her und sollen bei der 48-V-Versorgung je 6,8 kΩ, bei der 12-V-Versorgung je 680 Ω betragen. [Wuttke, 1998] Tab. 4/4. Phantom- und Tonaderspeisung bei Kondensatormi­kro­fonen. technische Merkmale

Phantomspeisung nach IEC 268-15/DIN 45 596, seit 2018 DIN EN IEC 61938

Tonaderspeisung nach DIN 45 595

Spannungsversorgung

48 V (P 48), meist tolerant für 9 bis 52 V

12 V (T 12), auch 24 V (T 24)

Stromzuführung

gemeinsam über beide Adern, Rückführung über den Kabelschirm

nur über die a-Ader, Rückführung über die b‑Ader des Mi­kro­fonkabels, der Kabelschirm ist frei von Gleichstrom

Symmetrie

nur für symmetrischen Verstärkereingang

für symmetrischen und unsymmetrischen Verstärkereingang

Anschluss dynamischer Mi­kro­fone

ohne besondere Maßnahmen möglich, da keine Gleichspannung zwischen den beiden Adern des Mi­kro­fonkabels liegt

die Speisespannung muss abgeschaltet werden, da sie die Aufnahme verzerren und zur Beschädigung des Mi­kro­fons führen kann

Umpolen der Leitung

zulässig

nicht zulässig

Speisung mehrerer Mi­kro­ keine Weiche erforderlich fone aus einer Stromquelle

Speisungsweiche erforderlich

Störspannungen aus der Speisung

überlagern sich nicht der Modulation

überlagern sich direkt der Modulation

Strom maximal

10 mA

10 mA

Spannungszuführung über 2 mal 6,8 kΩ bei 48 V, gepaarte Widerstände 2 mal 680 Ω bei 12 V

2 mal 180 Ω

Die Versorgungsspannung von 48  V liegt also zwischen den Tonadern a bzw. b und dem Kabelschirm, zwischen a und b besteht keine Gleichspannung. Dynamische Mi­kro­fone können deshalb ohne weiteres in symmetrischer Schaltungstechnik angeschlossen werden, ohne dass die Versorgungsspannung abgeschaltet werden  muss; unsymmetrische dynamische Mi­kro­fone können nicht angeschlossen werden. Da keine Spannung zwischen den

4.2 Mi­kro­fone 

 171

Adern liegt, haben auch Schwankungen der Versorgungsspannung keinen Einfluss auf das Tonsignal; eine Restwelligkeit der Phantomspannung ist deshalb unschädlich. Auch Störspannungen, die in den Kabelschirm induziert werden, haben geringen Einfluss. An einem Speisegerät können ohne besondere Entkopplungsmaßnahmen  mehrere Mi­kro­fone angeschlossen werden. An die Brückenwiderstände werden bezüglich ihrer Toleranz keine hohen Anforderungen gestellt, ±  0 % sind zulässig. Jedoch sind die Anforderungen an die Gleichheit der Widerstände außerordentlich hoch, um Gleichspannungen zwischen den Adern zu unterbinden. Ist die Gleichheit der Widerstände nicht erfüllt, erhalten die Übertrager von Mi­kro­ fon und Regieanlage,  soweit vorhanden oder nicht durch Entkoppelungskondensatoren gleichstromgeschützt, eine Gleichspannung, die zu Verzerrungen führt. Die zulässige Größe der Restgleichspannung darf in der Praxis umso größer  sein, je größer die Eingangsübertrager dimensioniert sind. Auch wenn am Regiepulteingang Entkoppelungskondensatoren vorhanden  sind oder wenn die Eingangsschaltung ohne Übertrager aufgebaut ist, müssen die Widerstände exakt gepaart  sein, damit Störungen, die auf den Kabelschirm gelangen, weitgehend unwirksam bleiben und dadurch die besonderen Vorteile der Phantomspeisung erhalten bleiben.

Abb. 4/26. Schaltung der Phantomspeisung.

Bei der Tonaderspeisung nach [DIN 45595] werden für die Zuführung der Versorgungsspannung die beiden Tonadern a und b der Mi­kro­fonleitung benutzt. Damit nimmt der Versorgungsstrom denselben Weg wie der Tonfrequenzstrom. Über zwei gleich große Widerstände von je 180 Ω wird die Tonader a mit dem Pluspol, die Tonader b mit dem Minuspol des Mi­kro­ fonnetzgeräts verbunden. Um die auf den Tonadern befindliche konstante Gleichspannung von 12 V vom Eingangsübertrager des nachfolgenden Mi­kro­fonverstärkers fernzuhalten, sind Trennkondensatoren eingefügt. 4.2.2.2 Mi­kro­fon-Vorverstärker mit analogem Ausgang Die mechanischen Schwingungen der Membran des Kondensatormi­kro­fons müssen in elektrische Schwingungen umgewandelt werden. Der Mi­kro­fon-Vorverstärker ist konstruktiv mit dem eigentlichen, dem akustischen Schallempfänger vereint. Er hat die Aufgabe, ein für die

172 

 4 Mi­kro­fone und Lautsprecher

Weiterleitung geeignetes elektrisches Signal zur Verfügung zu stellen; bei der sog. Niederfrequenzschaltung gehört dazu auch eine Impedanzwandlung, bei der sog. Hochfrequenzschaltung eine Demodulation des über die Membran erzeugten elektrischen Signals. Dafür hat sich weitgehend die sog. Niederfrequenzschaltung durchgesetzt, daneben wird auch die Hochfrequenzschaltung verwendet. Für den Anwender ist dies unwesentlich, es handelt sich um herstellerspezifische Unterschiede. [Wuttke, 2000] Moderne Kondensatormi­kro­fone haben eine transformatorlose oder eisenlose Endstufe, was zu folgenden Vorteilen der Übertragungsqualität gegenüber älteren mit Ausgangstransformator bestückten Verstärkern führt: Die Verzerrungen im tiefen Frequenzbereich  sind ebenso gering wie im übrigen Übertragungsbereich; die Ausgangsimpedanz bleibt bis zur oberen Grenze des Übertragungsbereichs konstant; das Mi­kro­fon ist gegenüber äußeren Magnetfeldern unempfindlich; der Amplituden- und Phasenfrequenzgang sowie Verzerrungen sind gegenüber Schaltungen mit Transformator verbessert, schließlich sind solche Verstärkermodule kleiner und leichter. Niederfrequenzschaltung Bei dieser Schaltungsvariante wird die Mi­kro­fonkapsel über einen Widerstand auf eine feste Gleichspannung, die  sog. Polarisationsspannung, die zwischen 40 und 200  V liegen kann, aufgeladen. Trifft eine Schallwelle auf die Membran, so ändert sich die Kapazität des Kondensators im Rhythmus der Schallschwingungen. Das führt zu einem entsprechenden Ladungsausgleich und damit zu einer entsprechenden Wechselspannung am Widerstand R (Abb.  4/27). Der Spannungsabfall am Widerstand ist zur Änderung der Kapazität und zur angelegten Gleichspannung proportional.

Abb. 4/27. Prinzipschaltbild des Kondensatormi­kro­fons in Niederfrequenzschaltung.

Die Anordnung stellt eine RC-Schaltung als Hochpass dar, deren untere Grenzfrequenz unterhalb des Frequenzbereichs des Mi­kro­fons, also unter 20 Hz, liegen muss. Bei einer Kondensatorkapazität zwischen 100 und 20  pF  muss der Widerstand einen Wert zwischen 80 und 400  MΩ haben. An eine  so hochohmige Quelle kann wegen ihrer enormen Störanfälligkeit

4.2 Mi­kro­fone 

 173

keine längere elektrische Leitung angeschlossen werden; deshalb befindet  sich in jedem Kondensatormi­kro­fon ein Mi­kro­fon-Vorverstärker, der in erster Linie den Quellwiderstand herabsetzt, aber auch den Pegel anhebt. Die Speisespannung wird in der professionellen Technik dem Mi­kro­fon über das Mi­kro­fonkabel als Phantomspeisung (siehe Kap. 4.2.2.2) zugeführt und vom Mi­kro­fonverstärker der Tonregieanlage bzw. dem mobilen Aufnahmegerät geliefert. Um Schwingungen im Infraschallbereich vom Verstärker fernzuhalten, verfügt dieser meist über einen Hochpass, der mit wählbarer Grenzfrequenz als schaltbares Trittschallfilter ausgebildet ist. Weiterhin enthält der Vorverstärker meist eine Vordämpfung, die das Mi­kro­fon auch für hohe Schalldrücke geeignet macht. Der elektrische Aufbau des Verstärkers bestimmt die Mi­kro­ foneigenschaften wesentlich mit, besonders seinen Geräuschpegel. Hochfrequenzschaltung Bei der Hochfrequenzschaltung werden die Membranschwingungen durch die Verstimmung eines Schwingkreises umgesetzt. Die Kapazität der Mi­kro­fonkapsel steuert hier die Frequenz oder die Phase einer HF-Schwingung. Das Mi­kro­fon enthält dazu einen HF-Generator und einen Demodulator. Für den Anwender ist einem Mi­kro­fon nicht anzusehen, ob es in der HFoder NF-Schaltung arbeitet. Beide Schaltungsarten liefern höchste Qualität. 4.2.2.3 Mi­kro­fon-Vorverstärker mit digitalem Ausgang Mit der allgemeinen Digitalisierung der gesamten Tonstudiotechnik entstand auch eine Nachfrage nach  sog. Digitalmi­kro­fonen, die bereits ein digitales Signal liefern. Sie arbeiten  mit konventionellen Mi­kro­fonkapseln und einem Impedanzwandler bzw. Verstärker, der auch die Analog-Digitalumsetzung vornimmt. Obwohl führende Mi­kro­fonhersteller eine Palette von digitalen Mi­kro­fonen anbieten, wird in der Studiopraxis eine separate AnalogDigitalwandlung bevorzugt. [Becker-Foss, 2010] Mi­ kro­ fone bilden wie Lautsprecher die Schnittstelle zwischen der  stets analogen akustischen Welt und der heute weitgehend digitalen Welt der Tonstudiotechnik. Digitale Mi­kro­fone im eigentlichen Sinne kann es demnach nicht geben, korrekt gesagt gibt es nur Mi­kro­fone mit integriertem Analog-Digitalwandler oder A/D-Wandler. Wenn die Baugruppe A/D-Wandler in das Mi­kro­fongehäuse integriert ist, spricht man heute dennoch allgemein von Digitalmi­kro­fonen. Das digitale Ausgangssignal könnte, so wie die ersten sog. Digitalmi­kro­ fone, ausschließlich das Tonsignal nach dem üblichen digitalen Signalstandard AES/EBU, S/ PDIF oder USB enthalten. Sinnvoller ist es allerdings, nicht nur die Einstellmöglichkeiten, die bei analogen Mi­kro­fonen üblich sind, wie Vordämpfung, Trittschallfilter, Richtcharakteristik und Phase auch bei Digitalmi­kro­fonen beizubehalten, sondern auch Funktionen, die bisher von der Tonregieanlage wahrgenommen werden, z. B. die des Mi­kro­fonverstärkers und der Regelverstärker  sowie weitere Informationen, z.  B. über den Mi­kro­fontyp, die Aufnahmesitzung, die Zuordnung zu bestimmten Aufnahmepositionen u. a. in das Mi­kro­fon  selbst und seine Softwaresteuerung zu verlegen. Genau dies führt besonders bei Aufnahmen mit vielen Mi­kro­fonen aber zu einer sehr komplizierten Aufnahmesituation, dazu mehr unten. Für das sog. Digitalmi­kro­fon wurde der AES-Standard „Digital interface for microphones“ erarbeitet und im Jahr 2001 als [AES42-2001], 2006 überarbeitet als AES42-2006 veröffentlicht. Der Standard legt die Signalübertragung und Synchronisierung fest, beschreibt die Speisung

174 

 4 Mi­kro­fone und Lautsprecher

und definiert die Daten zur Fernsteuerung von Mi­kro­fonparametern (Tab. 4/5). Digitale Mi­kro­ fone gemäß [AES42-2001] übertragen die Modulation als AES/EBU-Datenstrom. Dieser kann von jedem entsprechenden Studiogerät empfangen und verarbeitet werden. Es bedarf nur einer Stromversorgung für das Mi­kro­fon, die als sog. digitale Phantomspeisung auf die symmetrischen Datenleitungen gegeben wird. Dies erfolgt z. B. mit Hilfe eines Steckernetzteils mit Einspeisung durch einen Zwischenstecker. Der Standard ist offen für die Integration heute typischer Mischpultfunktionen wie Equalizer, Kompressor, Limiter u. a., damit steht die Aufgabenverteilung zwischen Regieanlage und Mi­kro­fonen in Zukunft zur Disposition. Darüber hinaus werden  sog. Interfaces angeboten, die neben der Stromversorgung auch die komplette Fernsteuerbarkeit und Synchronisierung der Mi­kro­fone übernehmen. Anzeige und Fernsteuerung erfolgen über PC oder Mac-Rechner,  solange Mischpulte oder andere Studiogeräte noch über keine Mi­kro­foneingänge gemäß AES42 verfügen. Die Rechner können neben der Steuerfunktion für die Mi­kro­fone auch als Harddisc-Recorder verwendet werden. Digitale Mi­kro­fon-Interfaces können zwei- oder acht-kanalig  sein und können für einen höheren Kanalbedarf kaskadiert werden. Zur Wahl stehen sowohl komplette digitale Studiomi­kro­fone, bei denen die A/D-Wandlung fest eingebaut ist, als auch Digitalmodule, die mit von analogen Mi­kro­fonen vorhandenen Kapseln zu digitalen Mi­kro­fonen kombiniert werden können. Es gibt demnach drei Möglichkeiten des Einsatzes der Digitaltechnik bei Mi­kro­fonen (Abb. 4/28): –– analoges Mi­kro­fon mit Stage-Box mit A/D-Wandlung, –– digitales Mi­kro­fon mit Interface, –– digitales Mi­kro­fon ohne Interface. Tab. 4/5. Features und Festlegungen nach [AES42-2001]. Feature

Festlegung

abrufbare Informationen Anzeigen

Hersteller, Typ, Seriennummer, Hard- und Software-Version, implementierte Steuerfunktionen, Status u. a. Aussteuerung, individuelle Informationen über den Mi­kro­fonort (z. B. „Stützmi­kro­fon für …“) u. a. Richtcharakteristik, Trittschallfilter, Pegel, Vordämpfung, Mute, Phase, Signallicht, Synchronisationsmodus, auch weitere Funktionen wie Limiter, Kompressor, Delay u. a. zwei Betriebsarten: Mode 1: das Mi­kro­fon ist selbsttaktend und wird durch einen Abtastratenwandler im Empfänger synchronisiert, Mode 2: das Mi­kro­fon wird extern getaktet, synchron zum Studio-Wordclock digitale Phantomspeisung (DPP), 10 V, max. 250 mA XLR-Stecker und -Buchsen

Einstellungen Taktung

Phantomspeisung Anschlüsse

Der eigentliche Schallwandler, also der Schallempfang durch eine Membran und die Umsetzung von deren Schwingungen in ein analoges elektrisches Signal,  sind und werden aus heutiger Sicht Bestandteile auch der Digitalmi­kro­fone bleiben; deshalb werden die bisher verwendeten „analogen“ Kapseln auch in den Digitalmi­kro­fonen weiterverwendet oder mit

4.2 Mi­kro­fone 

 175

abweichender Anschlusstechnik angepasst. Die Kapseltechnik erfüllt auch heute  schon höchste Qualitätsansprüche,  sie bestimmt die wesentlichen Eigenschaften und Qualitäten eines Mi­kro­fons bezüglich des aufzunehmenden Schalls. Daher bieten Digitalmi­kro­fone gegenüber analogen Mi­kro­fonen zwar in klanglicher Hinsicht keine qualitativen Vorteile, jedoch im Umgang mit großen Dynamikbereichen. Bei A/D-Wandlung im Mi­kro­fon können nämlich notwendige Pegelanpassungen vorteilhaft in der digitalen Ebene vorgenommen werden. Dies ist dann ein mathematischer Prozess, der sich nicht auf die Signalqualität auswirkt, wie es bei analogen Mi­kro­fon-Vorverstärkern der Fall ist oder sein kann. Ein weiterer Vorteil der Digitalmi­kro­fone liegt in einer einfacheren und flexibleren Handhabung, wenn regieseitig die nötigen Voraussetzungen vorhanden sind, da das digitale Mi­kro­fon den A/D-Wandler und den Vorverstärker bereits beinhaltet und diese sonst dem Mi­kro­fon nachgeschalteten Geräte entfallen. Neben der Kostenersparnis kann der geringere Hardwareaufwand besonders bei  mobilem Einsatz vorteilhaft, weil Gewicht sparend sein.

Abb. 4/28. Anschlussmöglichkeiten digitaler Mi­kro­fone.

Aus heutiger Sicht werden auch in Zukunft analoge Mi­kro­fone in großem Umfang verwendet werden, das zeigt auch die große, eher zunehmende Beliebtheit „historischer“ Mi­kro­fone, die zuerst einen klanglichen Gestaltungswillen ausdrücken. In Verbindung mit abgesetzten A/D-Wandlern auf der Bühne, den sog. Stage-Boxen, können sie in der digitalen Tonstudiotechnik problemlos beibehalten werden, so dass ein Nebeneinander analoger und digitaler Mi­kro­fone zu erwarten ist. Auf der anderen Seite können mit Hilfe der digitalen Signalbearbeitung Eigenschaften im Mi­kro­fon verwirklicht werden, die analog nicht möglich sind. So

176 

 4 Mi­kro­fone und Lautsprecher

z.  B. eine Limiterfunktion, die automatisch, wirkungsvoll und unhörbar Übersteuerungen durch Popplaute verhindert. Auch wenn in Mischpulten  standardmäßig Kompressor- und Limiterfunktionen vorhanden sind, können entsprechende Störungen direkt an der Kapsel als Entstehungsort wirksamer bekämpft werden als weit hinten im Signalfluss, wo in den verschiedenen Schaltungsstufen bereits Sekundärstörungen entstanden sein können. Der Standard AES42 beschreibt zwei Arten der Synchronisation des Mi­kro­fonsignals mit dem Empfänger, also z. B. Mischpult oder einem Mi­kro­fon-Interface: –– Mode 1: Das Mi­kro­fon arbeitet unsynchronisiert mit der Abtastrate seines internen Quarz­ oszillators und benötigt auf der Empfängerseite einen Abtastratenwandler (Sample-RateConverter). Dieser Modus kann benutzt werden, wenn eine Synchronisation nach Mode 2 nicht möglich ist; Sample-Rate-Converter können die Signalqualität verschlechtern. –– Mode 2: Das Mi­kro­fon wird extern getaktet. Im AES42-Empfänger wird ein Frequenz/Phasenvergleich mit dem Master-Wordclock durchgeführt und ein Steuersignal erzeugt, das über den Fernsteuerdatenstrom zum Mi­kro­fon übertragen wird und dort die Frequenz des internen Quarzoszillators steuert. Für die Datenübertragung wurde der dreipolige XLR-Stecker beibehalten, der  somit in der analogen und digitalen Studiotechnik einheitlich verwendet wird. Es wird ein bidirektionales Signal gemäß AES42 übertragen, welches das  symmetrische digitale Mi­kro­ fonausgangssignal, die Phantom-Stromversorgung und einen Fernsteuerdatenstrom enthält. [Peus, 2001], [Becker-Foss, 2010] Vor- und Nachteile sowie Probleme digitaler und analoger Mi­kro­fone wurden in einem Weißbuch zusammengefasst, hier zitiert nach [Becker-Foss, 2010], das als Fazit aus Sicht der Anbieter erarbeitet wurde: Vorteile digitaler Mi­kro­fone: –– gut einsetzbar, wenn die Mi­kro­fonkabel in  starken elektromagnetischen Störfeldern liegen, –– bei heutigen digitalen Systemen  mit 24-bit-Schnittstelle ist keine Aussteuerung des Mi­kro­fons am Mi­kro­fonverstärker notwendig, –– diverse Fernsteueroptionen  stehen herstellerübergreifend zur Verfügung,  so dass z.  B. direkt aus der Mischpultoberfläche die Richtcharakteristik steuerbar wird, –– eine Signalisation, z. B. welches Mi­kro­fon gerade aktiv ist, ist möglich, –– hoher Bedienkomfort durch Anzeige von Mi­kro­fontyp, Hersteller und anderer Informationen, –– Individualisierungen von Mi­kro­fonen sind möglich, also ein persönliches Setup, Vorteile analoger Mi­kro­fone: –– viel einfachere Handhabung, bereits der Mi­kro­fontyp sagt dem erfahrenen Tonmeister, welcher Klang zu erwarten ist, –– ein Mi­kro­fonaustausch ist jederzeit  möglich, da es keine klanglichen Veränderungen gibt, die im Mi­kro­fon gespeichert sein könnten, –– es gibt kein Delay, es können beliebige analoge Mi­kro­fone verschiedenster Hersteller gleichzeitig betrieben werden, je nach Anwendungsfall und Aufstellungsort kann somit für jedes Instrument das dafür passende Mi­kro­fon verwendet werden,

4.2 Mi­kro­fone 

 177

–– keine inkompatiblen Softwareversionen der Schnittstelle, keine Softwareupdates der Mi­kro­fonsoftware notwendig, –– die Mi­kro­fonschnittstelle ist mit viel kleinerer elektrischer Leistung genormt, mit Hilfe analoger phantomgespeister Mi­kro­fone, sparsamen Mi­kro­fonverstärkern und energieoptimierten A/D-Wandlern wird erheblich weniger Energie verbraucht als bei digitalen Mi­kro­fonen, damit bessere Eignung für batteriebetriebene und mobile Systeme, –– moderne HF-feste Mi­kro­fone und  moderne Mi­kro­fonverstärkerarchitekturen gestatten heute auch bei  starken elektromagnetischen Störfeldern eine weitgehend ungestörte Audioübertragung bei analogen Mi­kro­fonen, –– höhere Dynamik als bei digitalen Mi­kro­fonen  möglich, AES42 begrenzt die Dynamik durch die 24-bit-Schnittstelle auf etwa 145 dB, analoge Mi­kro­fonverstärker der Spitzenklasse liegen oft über 155 dB, Die auf den ersten Blick verlockende Möglichkeit, gleich beginnend mit dem Mi­kro­fon digital zu arbeiten und viele Features des Mi­kro­fons fernsteuern zu können, führt leider bei umfangreichen, komplexen Systemen schnell zu einer Unübersichtlichkeit. Neue Probleme müssen bedacht werden, etwa: –– Wie wird synchronisiert? –– Wie groß ist die A/D-Wandlerlaufzeit in jedem Mi­kro­fon, stimmen die Laufzeiten überein? –– Gibt es Laufzeiten von Samplerate-Convertern zu berücksichtigen? –– Die Laufzeit digitaler Mi­kro­fone ist nicht  mehr nur  mit dem Maßband von der Schallquelle aus zu bestimmen. Sie ist generell von Mi­kro­foneigenschaften und Betriebsarten abhängig. Werden gleichzeitig verschiedene Mi­kro­fone oder auch gleiche Mi­kro­fone mit unterschiedlichen Einstellungen betrieben, muss auf einen Laufzeitausgleich geachtet werden. –– Wo  muss  mit zusätzlichem Delay die Ausbildung von Kammfiltereffekten verhindert werden? –– Welches Mi­kro­fon hat welche Einstellungen? Allein die Einstellmöglichkeiten nur eines Mi­kro­fons können umfangreiche Erläuterungen erfordern. –– Gibt es Mi­kro­fone, die  sich noch Einstellungen von früheren Produktionen gemerkt haben, beispielsweise noch aktivierte Limiter? Wer digitale Mi­kro­fone einsetzt, wird zwar von einfachen Aufgaben entlastet, muss sich aber dennoch mit eventuell viel komplexeren Aufgabenstellungen auseinandersetzen. Wenn man von einfachen Mi­kro­fonierungen absieht, z. B. zwei Mi­kro­fone ohne jede Fernsteuerung, dann kann die Vorbereitung einer Produktion, z. B. Orchesteraufnahme mit digitalen Mi­kro­fonen, erheblich mehr Zeit erfordern. Der Vorteil der ungeheuer vielen Möglichkeiten kann sich schnell in den Nachteil großer Unübersichtlichkeit und vieler Fehlerquellen verwandeln. 4.2.2.4 Druckempfänger Die Kapsel des Druckempfängers ist schalldicht geschlossen, damit keine Schallwellen an die Membranrückseite gelangen können und nur der absolute Druck der Luft Auslenkungen der Membran erzwingt (Abb.  4/29). Ohne weitere Maßnahmen würden deren Amplituden  mit 

178 

 4 Mi­kro­fone und Lautsprecher

steigender Frequenz abnehmen. Um nun eine von der Frequenz unabhängige, konstante Auslenkung der Membran und damit auch eine konstante, frequenzunabhängige Ausgangsspannung zu erreichen, nutzt man die ansteigende Flanke einer Resonanzkurve. Man legt deshalb die Eigenresonanz der Kapsel in den Bereich der höchsten zu übertragenden Frequenz. Dies wird erreicht durch eine sehr leichte, stark gespannte Membran und ein kleines im Zwischenraum zur festen Gegenelektrode eingeschlossenes Luftvolumen mit einer sehr geringen mitschwingenden Luftmasse und hoher Rückstellkraft;  man  sagt, die Membran  sei hoch abgestimmt. Im ansteigenden Teil der Resonanzkurve wird so die Membranauslenkung mit steigender Frequenz also zunehmend verstärkt. Um das Luftvolumen zwischen Membran und Gegenelek­ trode in erforderlichem Maß komprimierbar zu machen, wird die Gegenelektrode noch mit sog. Sacklöchern versehen. Dies macht die Rückstellkraft für den gesamten Frequenzbereich praktisch konstant, damit werden nichtlineare Verzerrungen vermieden, es gibt nur sehr geringe Phasenverzerrungen im gesamten Übertragungsbereich. Die geforderte frequenzunabhängige Membranauslenkung und Ausgangsspannung können sehr exakt erreicht werden (Abb. 4/13). Das Mi­kro­fon ist weitgehend unempfindlich für Körperschall. Bei Auslenkung der Membran mit fester Gegenelektrode wird die Luft auf der Seite zur Gegenelektrode verdichtet bzw. verdünnt,  mit wachsender Auslenkung entsteht also eine Bewegungshemmung. Eine interessante Lösung für den Kapselaufbau stellt deshalb die symmetrisch aufgebaute Kapsel mit zwei festen, aber gelochten Gegenelektroden dar, zwischen denen die Mi­kro­fonmembran schwingt. Das sorgt für eine erhöhte Linearität der Schwingungen, und so für eine weitere Reduzierung der ohnehin schon geringen Verzerrungen.

Abb. 4/29. Aufbau der Kapsel des Kondensator-Druckempfängers.

4.2.2.5 Druckgradientenempfänger Bei Druckgradientenempfängern  muss der Schall auch die Membranrückseite erreichen können, damit eine Druckdifferenz zwischen Vorder- und Rückseite entstehen kann, die dann die Membran auslenkt. Das kann entweder nach dem Überlagerungsprinzip oder mit einem Laufzeitglied geschehen. Beim Überlagerungsprinzip, das vor allem bei Mi­kro­fonen  mit Doppelmembran  mit umschaltbarer Richtcharakteristik angewendet wird (siehe auch Kap.  4.2.1.8, Druckgradientenempfänger mit Nierenrichtcharakteristik), werden Teilbereiche der Gegenelektrode mit durchgehenden Bohrungen zur Erzeugung einer Achterrichtcharakteristik, andere Bereiche mit Sacklöchern zur Erzeugung einer Kugelrichtcharakteristik versehen (Abb. 4/30). Da der Druckgradient bereits eine proportional zur Frequenz größer werdende Antriebskraft darstellt (Abb. 4/14), darf die Membran nicht wie beim Druckempfänger hoch abgestimmt sein.

4.2 Mi­kro­fone 

 179

Sie soll im Übertragungsbereich nur eine frequenzunabhängig wirkende Reibungshemmung besitzen. Praktisch wird die Membranresonanz, die sich aus der Membranmasse und -rückstellkraft ergibt, in die Mitte des Übertragungsbereichs gelegt. Die Resonanz wird durch die Luftreibung in den Vertiefungen und Durchbohrungen der Gegenelektrode  so bedämpft, dass sie sich nicht mehr auswirkt.

Abb. 4/30. Prinzipieller Aufbau des KondensatorDruckgradientenempfängers mit Nierenrichtcharak­ teristik nach dem Überlagerungsprinzip.

Vorherrschend bei Druckgradientenmi­ kro­ fonen  mit Nierenrichtcharakteristik oder  mit Hyper- bzw. Supernierenrichtcharakteristik  sind jedoch Konstruktionen, bei denen die Gegenelektrode zu einem Laufzeitglied erweitert und mit Bohrungen, Schlitzen und Hohlräumen versehen wird, die teils als akustische Energiespeicher, als akustische Induktivitäten und Kapazitäten, teils als Reibungswiderstände wirksam  sind; dadurch erhält die Gegenelektrode den Charakter eines akustischen Tiefpasses. Im Sperrbereich dieses Tiefpasses, also im oberen Frequenzbereich, über fü in Abb. 4/14, wird die Membran nur noch von dem von vorn auf die Membran treffenden Schall ausgelenkt; das Mi­kro­fon wird damit in diesem hohen Frequenzbereich zum Druckempfänger. Bei der Hyper- und Supernierencharakteristik wird die Laufzeit des Laufzeitglieds kürzer gemacht. Ein Beispiel für die mechanische Ausführung eines Nierenmi­kro­fons mit Laufzeitglied zeigt Abb. 4/31.

Abb. 4/31. Beispiel für den mechanischen Aufbau eines Kondensator-Druckgradientenempfängers mit Nierenrichtcharakteristik mit einem Laufzeitglied.

180 

 4 Mi­kro­fone und Lautsprecher

Die Achterrichtcharakteristik erfordert eine beidseitig dem Schall ausgesetzte Membran; die Gegenelektrode darf demnach akustisch nicht wirksam werden. Mi­kro­fone nach diesem Prinzip werden wenig gebaut. Die Achterrichtcharakteristik  steht  meist nur bei Mi­kro­ fonen mit umschaltbarer Richtcharakteristik zur Verfügung (siehe Kap. 4.2.2.7). 4.2.2.6 Druckgradientenempfänger mit umschaltbarer Richtcharakteristik Kondensatormi­kro­fone mit umschaltbaren Richtcharakteristiken können entweder durch die Kombination zweier Nierenmi­kro­fone als Doppelmembranmi­kro­fon oder durch rein mechanisch wirkende Elemente des Laufzeitglieds realisiert werden. Bei den meisten Herstellern hat sich die Lösung in der Ausführung als Doppelmembranmi­kro­fon durchgesetzt. Umschaltbare Kondensatormi­kro­fone nach dem Doppelmembranprinzip besitzen auf beiden Seiten der teils angebohrten, teils durchbohrten Gegenelektrode eine Membran. Sie vereinen zwei Mi­kro­fonsysteme  mit Nierencharakteristik, die in entgegen gesetzten Richtungen ausgerichtet  sind, jedes einzelne System arbeitet nach dem Überlagerungsprinzip (Abb. 4/32).

Abb. 4/32. Prinzipieller Aufbau des umschaltbaren Kondensatormi­kro­fons mit Doppelmembran.

Je nachdem, ob beide Membranen elektrisch wirksam werden und mit welcher Polarität sie zusammengeschaltet werden, kann ein  solches Mi­kro­fon Kugel-, Nieren- oder Achterrichtcharakteristik erhalten, außerdem alle gewünschten Zwischenformen wie Hyper- und Superniere (Abb. 4/34). Wird nur eine Membran der Kapsel  mit einer Spannungsquelle verbunden,  so hat die Kapsel Nierencharakteristik (Abb.  4/33, Schalterstellung 3). Werden beide Membranen  mit gleich großen Spannungen gleicher Polarität belegt,  so ergeben  sich zwei entgegengesetzt ausgerichtete Nieren, deren Spannungen  sich zu einer Kugelcharakteristik addieren (Abb. 4/33, Schalterstellung 1). Werden beide Membranen mit gleich großen Spannungen entgegengesetzter Polarität belegt (Abb. 4/33, Schalterstellung 2), so ergeben sich auch hierbei zwei Nierencharakteristiken, deren Spannungen sich jetzt jedoch subtrahieren, das Ergebnis ist eine achterförmige Richtcharakteristik. Sie kommt dadurch zustande, dass bei seitlicher Besprechung die beiden erzeugten Spannungen gegenphasig  sind und  sich  somit aufheben, während bei einer Besprechung von vorn oder hinten die volle Empfindlichkeit erhal-

4.2 Mi­kro­fone 

 181

ten bleibt. Der Umschalter in Abb.  4/33 kann durch ein Potentiometer ersetzt werden. Die Charakteristiken können dann stufenlos ineinander überführt werden. Dieses Potentiometer kann im Mi­kro­fongehäuse oder im Netzanschlussgerät eingebaut sein.

Abb. 4/33. Beschaltung eines Kondensatormi­kro­fons mit Doppelmembran.

Die Kugelcharakteristik des umschaltbaren Kondensatormi­kro­fons  mit Doppelmembran, die aus zwei Nierencharakteristiken gewonnen wird, zeigt eine andere Frequenzabhängigkeit der Richtwirkung als die Kugelcharakteristik des Druckempfängers. Der Schallschatten, der bei hohen Frequenzen hinter einem Druckempfänger entsteht und ihn in diesem Frequenzbereich eine der Nieren- bzw. Keulencharakteristik ähnliche Richtcharakteristik verleiht, existiert beim umschaltbaren Druckgradientenempfänger nicht, da beide Membranen wirksam sind. Dieses Mi­kro­fon ist nach dem Umschalten auf „Kugel“ von vorn und hinten für alle Frequenzen gleich empfindlich und geht für hohe Frequenzen eher in Richtung Achterrichtcharakteristik; dieses Phänomen ist bei Mi­kro­fonen mit großer Membran deutlicher, bei kleiner Membran eher gering. Somit kann die Kugelcharakteristik drei verschiedene Frequenzabhängigkeiten aufweisen (Abb. 4/35). 4.2.2.7 Stereomi­kro­fone Bei Aufnahmen in reiner Intensitätsstereofonie werden für das XY- und MS-Mi­kro­fonverfahren Mi­kro­fonanordnungen benötigt, bei denen zwei Richtmi­kro­fone an einem Punkt, in der praktischen Realisierung unmittelbar übereinander angeordnet  sind (siehe Kap.  5.3.2  ff.). Eine  solche Anordnung kann  man entweder  mit einem geeigneten Mi­kro­fonhalter und zwei Einzelmi­kro­fonen zusammenstellen oder – für den praktischen Gebrauch einfacher – durch die konstruktive Zusammenfassung zweier Mi­kro­fonsysteme. Solche Stereo- oder Koinzidenzmi­kro­fone vereinen dicht übereinander und gegeneinander drehbar zwei identische Mi­kro­fone mit örtlicher oder ferneinstellbarer Richtcharakteristik. Bei Fernumschaltung sind die Mi­kro­fonsysteme mit einer Doppelmembran aufgebaut, bei örtlicher Umschaltung stehen Mi­kro­fone mit Doppelmembran oder mit Einzelmembran und umschaltbarem Laufzeitglied zur Verfügung.

182 

 4 Mi­kro­fone und Lautsprecher

Zu den Stereomi­kro­fonen gehören auch Mi­kro­fonpaare mit Trennkörpern (Kap. 5.3.4.4) und der Kunstkopf (Kap. 4.2.4.1), sie werden aber eher als Aufnahmeverfahren gewertet und demnach in Kap. 5 behandelt.

Abb. 4/34. Mögliche Richtcharakteristiken eines Doppelmembran-Mi­kro­fons und ihr Zustandekommen aus der Überlagerung zweier Nierenrichtcharakteristiken.

4.2 Mi­kro­fone 

 183

Abb. 4/35. Verschiedene Typen der Frequenzabhängigkeit bei Kugelmi­kro­fonen, a. Druckempfänger, b. Druckgradientenempfänger mit kleiner Doppelmembran, c. Druckgradientenempfänger mit großer Doppelmembran.

Mi­kro­fonpaare mit variabler Richtcharakteristik Montiert  man ein Mi­kro­fon  mit Kugelcharakteristik (Kapsel 1) und eines  mit Achterrichtcharakteristik (Kapsel  2) dicht übereinander und  summiert deren Signale,  so erhält  man ein Monomi­kro­fon mit speziellen Eigenschaften: Zunächst kann durch die Einstellung der Pegel und Polarität von der Kugel über die Niere bis zur Acht jede gewünschte Richtcharakteristik einschließlich aller Zwischenformen eingestellt werden (Kugel = Kapsel 1, Niere nach vorn = Kapsel 1 + 2, Niere nach hinten = Kapsel 1 – 2), ebenso wie bei einem Doppelmembranmi­ kro­fon. Interessant wird das System aber erst bei Betrachtung der Frequenzgänge: die Kugel hat bis 20  Hz hinab einen ebenen Frequenzgang, die Acht hat unter 50  Hz praktisch kein Signal  mehr; nach Addition von Kugel und Acht erhält  man also eine Bassabsenkung um 6 dB bei gleichzeitiger Kugelrichtcharakteristik für den tiefsten Frequenzbereich. Ein Mi­kro­ fonpaar aus Kugel und Niere hat ebenfalls eine Bassabsenkung um 6 dB bei der Richtcharakteristik einer breiten Niere; diese Kombination wird gelegentlich als Straus-Paket bezeichnet. Die Mi­kro­fone sollen dabei in Reihe geschaltet werden, nicht parallel. Mit einem Mi­kro­fonpaar kann man aber auch weiter differenzierte Mi­kro­foneigenschaften herstellen: Ein als System auf dem Markt befindliches Produkt teilt die Übertragungsbereiche der beiden Mi­kro­fone in drei Frequenzbereiche, wobei für jeden Bereich eine eigene spezielle Kombination eingestellt werden kann, z. B. eine Kugel für tiefe Frequenzen, eine Niere für mittlere und eine Hyperniere für hohe Frequenzen. Für digitale Mi­kro­fone steht das System auch als App zur Verfügung. Wie bei jeder Differenzierung fordert allerdings auch dieses System eine große Sorgfalt bei der Einstellung und Auswahl und einen hohen Zeitaufwand. Sound Field-Technologie Eine interessante Form eines Koinzidenzmi­kro­fons ist auch das Mehrkapselsystem nach der Sound Field-Technologie nach Gerzon [Farrar, 1979]. Diese Technologie hat unter der Bezeichnung Ambisonics-Mi­kro­fon in jüngster Zeit wieder große Bedeutung erlangt. Es vereint nicht

184 

 4 Mi­kro­fone und Lautsprecher

nur zwei Mi­kro­fonkapseln wie das Koinzidenzmi­kro­fon,  sondern vier Nieren-Kapseln, die in einer festen, berechneten Position an den Ecken eines Tetraeders alle drei Raumebenen erfassen. Die Signale aller Kapseln können zu einem Monosignal, das alle Richtcharakteristiken erhalten und in verschiedene Richtungen ausgerichtet werden kann,  summiert werden, aber ebenso zu einem Stereo- oder Surroundsignal. Durch unterschiedliche Pegelanteile und Polungen der einzelnen Mi­kro­fonsignale werden die verschiedenen Richtcharakteristiken gewonnen. Der Anwender bewegt und steuert das Mi­kro­fon elektronisch über eine Steuereinheit vom Regieraum aus, entweder während der Aufnahme oder nach vierkanaliger Aufzeichnung erst bei der Abmischung. Abgesehen von den üblichen Parametern für die Mi­kro­foncharakteristik stehen zusätzliche Parameter zur Verfügung, die es sonst bei keinem Mi­kro­fonsystem gibt: Mit Azimuth wird das Mi­kro­fon elektronisch und stufenlos um 360 ° in der horizontalen Ebene gedreht, mit Elevation kann es elektronisch vertikal geneigt werden. Dieses komplexe Mi­kro­fonsystem wurde als Ambiophonics-System konkurrierend zur Technik der Quadrophonie in den 1970er Jahren entwickelt. Das Mi­kro­fon wird von verschiedenen Mi­kro­fonmanufakturen angeboten. Unter den in jüngerer Zeit entwickelten Systemen für einhüllende Klangdarstellung, den immersive sound, ist dieses Mi­kro­fon zu einem wichtigen Werkzeug der Tonaufnahme geworden (siehe dazu Kap. 5.5.3.2).

4.2.3 Dynamische Mi­kro­fone Dynamische Mi­kro­fone  sind elektrodynamische Wandler (siehe auch Kap.  4.1). Bei ihnen wird in einem durch einen Permanentmagneten erzeugten  magnetischen Feld beim Tauchspulmi­kro­fon eine kleine Spule bzw. beim Bändchenmi­kro­fon eine Leiterschleife über eine Membran von den Schallwellen bewegt. Dynamische Mi­kro­fone benötigen keine Speisespannung, sie sind robust und arbeiten auch bei hohen Schalldrücken der Schallquellen verzerrungsarm. Sie sind preisgünstig herzustellen. Verglichen mit Kondensatormi­kro­fonen ist die Feinstruktur des Frequenzgangs bei Tauchspulmi­kro­fonen unregelmäßiger, was aus den Datenblättern wegen der gemittelten Frequenzgänge nicht ersichtlich ist; ebenso ist ein Phasenfrequenzgang unvermeidlich. Wegen der verglichen mit Kondensatormi­kro­fonen wesentlich größeren bewegten Masse aus Membran und Schwingspule ist das Einschwingverhalten beim Tauchspulmi­kro­fon langsamer als bei Kondensatormi­kro­fonen. Bei hohen Qualitätsanforderungen werden deshalb Kondensatormi­kro­fone bevorzugt. Dennoch erreichen dynamische Mi­kro­fone heute einen beachtlichen Qualitätsstandard. Sie werden besonders auf der Bühne im Popmusiksektor wegen ihrer Robustheit und Betriebssicherheit geschätzt. Die Ausgangsspannung an den Klemmen einer Schwingspule oder eines Bändchens ist der Bewegungsgeschwindigkeit der Spule bzw. des Bändchens proportional, während die Spannung, die eine Kondensatorkapsel abgibt, zur Auslenkung der Membran proportional ist. Damit  muss die  mechanische Konstruktion, vor allem die Lage der Membranresonanz und die Bedämpfung der Membranschwingungen bzw. deren Verstärkung durch Resonanzen des konstruktiven Aufbaus bei dynamischen und Kondensatormi­kro­fonen unterschiedlich gestaltet werden. Bei dynamischen Druckmi­kro­fonen wird die Membranresonanz in die Mitte des Übertragungsbereichs gelegt und durch akustische Reibung bedämpft. Zusammen mit der Wirkung

4.2 Mi­kro­fone 

 185

weiterer Resonatoren von Hohlräumen in der Mi­kro­fonkapsel kann damit die Bewegungsgeschwindigkeit der Membran zum Schalldruck proportional gemacht werden. Dynamische Druckgradientenmi­ kro­ fone hingegen erfahren eine  mit der Frequenz ansteigende Krafteinwirkung; eine mit der Frequenz zunehmende Dämpfung würde die Ausgangsspannung zu gering werden lassen. Also wird die Membran tief abgestimmt; die Membranresonanz verstärkt die Bewegung im tiefen Bereich und nimmt  mit der Frequenz ab, wieder entsteht eine frequenzunabhängige Ausgangsspannung. Für die Praxis bedeutet die tiefe Membranabstimmung, dass Körperschall - Trittschall und Reibgeräusche - und Windgeräusche die Aufnahme erheblich  mehr  stören als bei höher abgestimmten Membranen; dies gilt vor allem für Bändchenmi­kro­fone. In dieser Hinsicht sind Kondensatormi­kro­fone nach dem Druckempfängerprinzip allen anderen Mi­kro­fonen überlegen; nur diese Mi­kro­fone haben eine hoch abgestimmte Membran. Tab.  4/6 fasst die Membranabstimmung bei den verschiedenen Mi­kro­fonprinzipien zusammen (siehe auch Kap. 4.2.1.8).

Tab. 4/6. Resonanzabstimmung der Membran bei Mi­kro­fonen.

Lage der Membranresonanz im Übertragungsbereich Störungen durch Trittschall, Wind- und Poppgeräusche

Kondensatormi­kro­fone

dynamische Mi­kro­fone

Kugel

Niere, Acht

Kugel

Niere, Acht

am oberen Ende

in der Mitte

in der Mitte

am unteren Ende

gering

mittelmäßig

hoch, sehr hoch beim Bändchenmi­kro­fon

4.2.3.1 Tauchspulmi­kro­fon Am Beispiel eines Tauchspulmi­kro­fons mit Kugelcharakteristik nach dem Druckempfängerprinzip zeigt Abb. 4/36 die Wirkungsweise des dynamischen Mi­kro­fons. An der Membran ist eine Spule befestigt, welche in den Luftspalt eines Topfmagneten eintaucht; dieser besteht aus einem Dauermagneten und einem Topf aus magnetisch leitendem Material (äußere Polplatte) und dem Kernpolschuh. Die Spule ist ohne Körper gewickelt und erhält ihre  mechanische Steifigkeit dadurch, dass ihre einzelnen Windungen miteinander verklebt sind. Sie ist meist so bemessen, dass ihre Impedanz bei 1 kHz 200 Ω beträgt. Die Größe der Signalspannung dieses Mi­kro­fons ist abhängig von der magnetischen Induktion, von der Dimensionierung der Spule und von der Geschwindigkeit, mit der die Spule im Magnetfeld bewegt wird. Die beiden erstgenannten Größen werden durch die Konstruktion festgelegt. Um eine frequenzunabhängige Signalspannung zu erhalten, sind besondere konstruktive Maßnahmen erforderlich: Die Geschwindigkeit einer Membran ohne Masse und damit die Signalspannung würde mit der Frequenz ansteigen. Durch die Masse der Membran einschließlich der  mitschwingenden Spule wird die Geschwindigkeit bedämpft. Der Einfluss dieser Dämpfung ist so stark, dass die Membrangeschwindigkeit mit steigender Frequenz abnimmt und sogar durch Resonanzen wieder angehoben werden  muss. Deshalb wird die Membranresonanz in die Mitte des Übertra-

186 

 4 Mi­kro­fone und Lautsprecher

gungsbereichs gelegt. Als weitere Resonatoren werden verwendet: das Luftvolumen zwischen dem stets integrierten Windschutzkorb und der Membran, das Luftvolumen zwischen Membran und Magnet, der Innenraum des Topfmagneten und der Innenraum des Gehäuses. Durch die Bemessung der Öffnungen und Kanäle, welche die Resonatoren miteinander verbinden, und durch dämpfende Filzscheiben z. B. werden diese aufeinander abgestimmt.

Abb. 4/36. Tauchspulmi­kro­fon nach dem Druckempfängerprinzip.

Tauchspulmi­kro­fone wurden aber hauptsächlich als Richtmi­kro­fone entwickelt. Sie unterscheiden sich von den ungerichteten Tauchspulmi­kro­fonen durch die tiefe Abstimmung der Membranresonanz und durch die Ausbildung des hinteren Kapselabschlusses als Laufzeitglied. Die Forderung nach tiefer Abstimmung der Membranresonanz ergibt sich daraus, dass die Antriebskraft des Druckgradienten mit fallender Frequenz abnimmt; zum Ausgleich verstärkt die Eigenresonanz der Membran die Bewegungsgeschwindigkeit. Die Membran sollte deshalb auf die tiefste zu übertragende Frequenz abgestimmt sein, was praktisch erhebliche Probleme mit sich bringt, da einerseits die Körperschall- und Windempfindlichkeit sehr groß wird, andererseits die Führung der Spule bei zu weicher Aufhängung nicht präzise genug ist. Deshalb wird die Membranresonanz etwas höher gelegt und die Antriebskraft dadurch gesteigert, dass für tieffrequenten Schall Schalleinlässe  mit größerer Verzögerung angebracht werden; akustische Filterelemente sorgen dafür, dass die Verlängerung des Laufzeitglieds nur für tiefe Frequenzen wirksam wird. Dieses Prinzip heißt Variable Distance-Prinzip. Eine konsequente Weiterentwicklung des Variable Distance-Prinzips führt zum ZweiwegTauchspulmi­kro­fon, bei dem, ähnlich wie bei Lautsprecherboxen, für den tieffrequenten und höherfrequenten Schall je ein eigenes Empfänger- und Wandlersystem zugeordnet ist, deren Laufzeitglieder viel besser auf den jeweils zu übertragenden Frequenzbereich abgestimmt werden können. Ein Vorteil dieser Technik ist auch, dass der Nahbesprechungseffekt praktisch unterdrückt wird.

4.2 Mi­kro­fone 

 187

Magnetische Störfelder, die von Netztransformatoren, Trenntransformatoren oder Motoren kommen können, induzieren in die Spule des Tauchspulmi­kro­fons Störspannungen. Um solche Störungen zu unterdrücken, ist nahe bei der Schwingspule eine feste Kompensationsspule untergebracht, die – mit der Schwingspule in Reihe geschaltet, aber entgegengesetzt gewickelt – magnetische Störfelder kompensiert. kro­ fone baut auf jahrzehntelanger Erfahrung und EntDie Technologie dieser Mi­ wicklung; der  mechanische Aufbau ist kompliziert, aber ausgereift. Tauchspulmi­kro­fone können sowohl in preiswerter Massenfertigung als auch mit hohem Qualitätsstandard hergestellt werden. 4.2.3.2 Bändchenmi­kro­fon Die Membran des Bändchenmi­kro­fons, eben ein Metallbändchen, ist gleichzeitig der elek­ trische Leiter, der im Magnetfeld eines starken Permanentmagneten bewegt wird. Eine 2 bis 3 μm dickes und 3 bis 4 mm breites Aluminiumbändchen von etwa 4 cm Länge mit vielen Querfalten ist lose zwischen den Magnetpolen aufgehängt (Abb. 4/37). Seine Eigenfrequenz liegt dabei am unteren Ende des Übertragungsbereichs. Diese Maßnahme und die Masse des Bändchens bewirken die Unabhängigkeit seiner Geschwindigkeit und damit der Ausgangsspannung von der zu übertragenden Frequenz. Die Impedanz dieses Mi­kro­fons wird durch den Widerstand des Bändchens gebildet und beträgt ca. 0,1 Ω. Ein im Mi­kro­fongehäuse untergebrachter Übertrager erhöht die Impedanz auf meist 200 Ω, damit wird gleichzeitig die Ausgangsspannung erhöht. Bändchenmi­kro­fone sind wie Tauchspulmi­kro­fone als Druckgradienten- oder Druckempfänger konstruierbar. Wegen der sehr geringen Masse des Bändchens und seiner weichen Aufhängung zeigt das Mi­kro­fon ein sehr gutes Impulsverhalten. Der Frequenzgang ist vom Prinzip her weitgehend linear, auch in  seiner Feinstruktur. Typisch ist eine mehr oder weniger deutliche Höhenanhebung, verursacht durch die Hohlraumresonanz des Topfmagneten. Wegen der tiefen Membranabstimmung sind Bändchenmi­kro­fone gegen Wind-, Popp- und Trittschall sehr empfindlich. Bändchenmi­kro­fone wurden in der Anfangszeit des deutschen Rundfunks ab 1924 verwendet, bis 1931 das von Neumann erfundene Kondensatormi­kro­fon eingeführt wurde. Vor allem aber in den USA blieb das „Bändchen“ das Standardmi­kro­fon bis in die fünfziger Jahre. So  sind die  meisten der berühmten Bigband-Aufnahmen der 1940er und 1950er Jahre  mit Bändchenmi­kro­fonen von RCA entstanden. Ähnlich wie Mi­kro­fone  mit Röhren gehört das Bändchenmi­kro­fon zu den Mi­kro­fonen, die nicht wegen  messtechnisch optimaler Eigenschaften geschätzt werden, sondern wegen ihres besonderen Klangs. So wird dem Bändchen besondere Klangtransparenz bei weichen Höhen nachgesagt; der Höhenabfall beginnt schon unter 10 kHz. Die geringe Ausgangsspannung des Bändchens führt zu erhöhtem Rauschen, weshalb das Mi­kro­fon vor allem für Aufnahmen im Nahbereich oder für laute Schallquellen, eben z. B. bei einer Big band, geeignet ist. Bändchenmi­kro­fone (ribbon mic) werden vor dem Hintergrund langer Zeit der Entwicklung und Erfahrung noch heute gefertigt und haben wie z. B. Röhrenmi­kro­fone ihren Kreis von Liebhabern.

188 

 4 Mi­kro­fone und Lautsprecher

Abb. 4/37. Prinzip des Bändchenmi­kro­fons.

4.2.4 Spezialmi­kro­fone Neben den beschriebenen Mi­ kro­ fonen gibt es einige Spezialmi­ kro­ fone  mit besonderen Eigenschaften für besondere Einsatzsituationen, das Sound-Field-Mi­kro­fon wurde bereits als Stereomi­kro­fon beschrieben:

–– das Kardioidebenenmi­kro­fon mit einer speziellen Richtcharakteristik (Kap. 4.2.4.1), –– das Grenzflächenmi­kro­fon als Kugelmi­kro­fon  mit  speziellen Klangeigenschaften (Kap. 4.2.4.2), –– Großmembranmi­kro­fone und Röhrenmi­kro­fone (Kap. 4.2.4.3), –– Ansteckmi­kro­fone (Kap. 4.2.4.4), –– Kontaktmi­kro­fone (Kap. 4.2.4.5), –– Sound-Field-Mi­kro­fon, außer als Stereomi­kro­fon ein äußerst flexibles Monomi­kro­ fon (Kap. 4.2.2.7), –– Kunstkopf-Mi­kro­fon (Kap. 4.2.4.6).

4.2.4.1 Kardioidebenenmi­kro­fon Das Arbeitsprinzip des Richtrohrmi­kro­fons, nämlich die phasen- bzw. zeitverschobene Aufnahme schräg auftreffenden Schalls zur Erzielung einer stark eingeengten Richtwirkung zu nutzen (siehe Kap. 4.2.1.7), wird beim Kardioidebenenmi­kro­fon, kurz auch KEM, nur für von oben und unten eintreffenden Schall umgesetzt. Es entsteht dabei eine Richtcharakteristik, die in der horizontalen Ebene eine Niere darstellt, in der vertikalen Ebene aber eine Keule. Das Mi­kro­fon nimmt also Schall aus einem waagrechten Raumsegment auf, blendet aber Schall von oben und unten stark aus. Realisiert wird diese Richtcharakteristik durch ein  sog. Linearray;  mehrere Mi­ kro­ fone sind auf einer vertikalen Linie übereinander angeordnet. Ihre Signale werden in einem Zusatzgerät verzögert, im Pegel geregelt und addiert. Das KEM ist als feststehendes Rednermi­ kro­fon speziell für den Deutschen Bundestag entwickelt worden, wo es sich hervorragend

4.2 Mi­kro­fone 

 189

bewährt und sozusagen eine öffentliche Präsenz erhalten hat. Es gibt dem Redner seitliche Bewegungsfreiheit ohne Änderungen der Klangfarbe bei gleichzeitig guter Diffusschallausblendung (Abb.  4/38). Andererseits ist durch die  scharfe Bündelung in der horizontalen Ebene eine Anpassung des Rednerpults an die Körpergröße des Redners erforderlich; eine Bündelung in der vertikalen Ebene würde die Bewegungsfreiheit des Redners zur Seite hin einschränken, sich aber für jede Körpergröße eignen. Vorteilhaft kann das Mi­kro­fon in denjenigen kritischen Aufnahmesituationen eingesetzt werden, in denen eine breite oder sich bewegende Schallquelle bei maximaler Ausblendung von Schall aus anderen Richtungen aufgenommen werden soll. Neben dem Einsatz am Rednerpult hat es sich bewährt z. B. als Tischmi­kro­fon bei einem oder mehreren Sprechern, als Bühnenrandmi­kro­fon bei gleichzeitiger Beschallung, bei Fernsehproduktionen  sowie als Stützmi­kro­fon etwa für den Chor oder eine Instrumentengruppe bei Musikaufnahmen.

Abb. 4/38. Richtcharakteristiken des Kardioidebenenmi­kro­fons.

Eine Weiterentwicklung des Kardioidebenenmi­kro­fons behebt die nachlassende Bündelung bei tiefen Frequenzen und erhöht damit seine Eignung bei Musikaufnahmen. Denn im Gegensatz zu Sprachaufnahmen, wo eine generelle Bassabsenkung ratsam ist, soll hier der Bassbereich nicht bedämpft werden. Erreicht wird die über den gesamten Frequenzbereich nahezu konstante Bündelung durch eine zusätzliche sog. Delta-Mi­kro­fonkapsel hinter dem Lineararray, mit der die Bündelung bei den Tiefen erhöht wird. Die Delta-Kapsel ist für den Einsatz bei Sprachaufnahmen abnehmbar. 4.2.4.2 Grenzflächenmi­kro­fon Das Grenzflächenmi­kro­fon – auch PZM (Pressure Zone Microphone, geschützter Handelsname des Herstellers Crown) oder BLM (Boundary Layer Microphone) genannt – nutzt die besonderen akustischen Bedingungen, die an einer den Schall reflektierenden Grenzfläche herrschen. An oder ganz dicht vor reflektierenden Flächen haben alle Schallwellen, sowohl die des Direktschalls als auch die von ersten Reflexionen und Diffusschall, Druckbäuche, also den  maximalen Druck der Schallwelle, und damit einen doppelten Schalldruck oder um 6 dB erhöhten Schallpegel. Aus dieser Tatsache und aus der Ausstattung dieser Mi­kro­ fone mit einer kleinen Membran, schließlich aus der Bauweise als Kondensator-Druckemp-

190 

 4 Mi­kro­fone und Lautsprecher

fänger ergeben sich die besonderen Eigenschaften der Grenzflächenmi­kro­fone. Ihre Richtdiagramme sind weitgehend frequenzunabhängig halbkugelförmig, sowohl für Direkt- als auch für Diffusschall. Bei den ersten Konstruktionen wurde das Mi­kro­fon in geringem Abstand auf die Grenzfläche gerichtet. Durchgesetzt hat  sich dann aber eine Konstruktion, bei der das Mi­kro­fon quasi Teil der Grenzfläche selbst ist. Mehr oder weniger flach konstruiert, wird es einfach auf den Boden gelegt oder an einer Wand befestigt. Druckbäuche an Grenzflächen kommen nur dann zustande, wenn die Schallwelle reflektiert wird; dafür  muss die Auflagefläche  schallhart  sein und die Ausdehnung der reflektierenden Fläche  muss  mindestens die halbe Wellenlänge des reflektierten Schalls besitzen (Tab. 4/7). Die Einbauplatten der Mi­kro­fone sind im Allgemeinen für Frequenzen über 1  kHz ausreichend. Für tiefere Frequenzen  muss die Reflexionsfläche dadurch vergrößert werden, dass das Mi­kro­fon auf eine größere Fläche, z. B. auf den Boden, gelegt wird. Unterhalb der in Tab.  4/7 angegebenen Grenzfrequenz liefert das Mi­kro­fon 6  dB Pegel weniger. Auf die Reflexionswirkung der Fläche hat ihre mechanische Oberflächenstruktur Einfluss; je akustisch härter die Oberfläche ist, umso geradliniger ist der Frequenzgang des Mi­kro­fons. Gängige Fußbodenbeläge außer Teppichen und Wandoberflächen dürften im Allgemeinen für Grenzflächenmi­kro­fone geeignet sein, da im kritischen Frequenzbereich über 1 kHz die Einbauplatte des Mi­kro­fons ausreichend reflektiert. Tab. 4/7. Mindestausdehnung der Grenzfläche bei Grenzflächenmi­kro­fonen. untere Grenzfrequenz

notwendiger Durchmesser der Grenzfläche ca.

30 Hz 50 Hz 100 Hz 200 Hz 500 Hz 1.000 Hz

5 m 3 m 1,50 m 0,75 m 0,30 m 0,15 m

Da die Kanten und die Dicke der Einbauplatte das Schallfeld  stören,  muss auch für die Form der Platte nach einer optimalen Lösung gesucht werden. Sie liegt dann vor, wenn der Abstand der Membran zur Kante in allen Richtungen  möglichst unterschiedlich ist, damit die Schallfeldstörungen auf einen  möglichst breiten Frequenzbereich verteilt werden. Aus diesem Grunde werden die Membranen nicht in die Mitte der Einbauplatten gesetzt; eine optimierte Lösung kann z. B. mit einer dreieckigen Platte realisiert werden. Auf Grund ihrer Richtcharakteristik einer Halbkugel eignen sich Grenzflächenmi­kro­fone vor allem für Laufzeitstereofonie. Aus dem praktischen Umgang haben sich größere Basisbreiten als bei der AB‑Mi­kro­fontechnik üblich ist, als günstig erwiesen, also das sog. GroßAB-Verfahren (siehe Kap.  5.3.3.2). Die Raumabbildung und die räumliche Durchsichtigkeit dieser Mi­kro­fone sind beeindruckend; sie zeigen ihre Vorteile deshalb bevorzugt in akustisch guten Räumen. Da sie auf Grund der Aufnahmetechnik in Laufzeitstereofonie in größerem Abstand von den Schallquellen aufgelegt werden, eignen sie sich vorwiegend für Aufnahmen

4.2 Mi­kro­fone 

 191

klassischer Musik. Dabei sind auch unkonventionelle Mi­kro­fonorte, z. B. bei Orgelaufnahmen, zu erwägen. Als Druckempfänger sind Grenzflächenmi­kro­fone wenig empfindlich für Körperschallund Windgeräusche. Trittschall stört deshalb auch bei der Auflage des Mi­kro­fons auf dem Boden meist nicht. Grenzflächenmi­kro­fone auf dem Boden werden leicht übersehen, deshalb haben die Mi­kro­fone trittstabile Schutzkörbe. Zusammenfassend hat das Mi­kro­fon also die folgenden, besonderen Eigenschaften: –– Störabstand: die Verdopplung des Schalldrucks an einer Grenzfläche und damit die Erhöhung der Empfindlichkeit um 6  dB ergibt theoretisch einen vergrößerten Störpegelabstand, der sich bei den Mi­kro­fondaten mit etwa 3 dB niederschlägt. Die Empfindlichkeit für Körperschall ist sehr gering. –– Richtcharakteristik: sie ist für Freifeld- und Diffusschall halbkugelförmig und in idealer Weise frequenzunabhängig, kein anderes Mi­kro­fon hat eine solche Richtcharakteristik. –– Klangfarbe: Direkt- und Diffusschall haben keine unterschiedlichen Klangfarben, was bei üblichen Druckempfängern unvermeidlich ist. –– Aufnahme bewegter Schallquellen: wegen der gleichen Klangfarben von Direkt- und Diffusschall  stören Bewegungen von Schallquellen nicht oder wenig, das Mi­kro­fon ist also besonders geeignet bei Aufnahmen im Sprechtheater oder bei Diskussionsrunden mit sich bewegenden Sprechern, vorausgesetzt, der Raum ist dabei nicht zu hallig; ein  sich abwendender Gesprächsteilnehmer z.  B. erfährt keine  starke Klangfarbenänderung durch wechselnde Anteile von Direkt- und Diffusschall. Das Mi­kro­fon wurde zunächst auch als Konferenzmi­kro­fon entwickelt. –– Keine Kammfiltereffekte: die insbesondere bei Stützmi­kro­fonen durch Reflexionen am Fußboden oder bei Tischmi­kro­fonen durch Reflexionen an der Tischoberfläche bzw. am Sprechertisch entstehen, können bei Grenzflächenmi­kro­fonen nicht auftreten. –– Praktischer Einsatz: bei Publikumsveranstaltungen ist die Betriebssicherheit u. U. nicht gegeben, da das Mi­kro­fon,  sofern es auf dem Boden liegt, leicht übersehen wird. Vor einer erhöhten Bühne ist das Mi­kro­fon nicht einsetzbar, auf der Bühne fehlt meist der Platz, Wände für eine Platzierung sind als Aufnahmeort meist ungeeignet. 4.2.4.3 Großmembran- und Röhrenmi­kro­fon Kondensatormi­kro­fone  sind  mit Membranen unterschiedlicher Größe auf dem Markt. Bei Kleinmembranmi­kro­fonen oder einfach Kleinmi­kro­fonen beträgt ihr Durchmesser 12 bis 17 mm, bei Großmembranmi­kro­fonen 28 bis 34 mm. Großmembranmi­kro­fone – oft in sogar historischer Schaltungstechnik der Jahre 1930 bis 1960  mit Elektronenröhren – genießen Ansehen und häufige Verwendung in Verbindung  mit einem Poppschirm bei Studioaufnahmen der Singstimme und Einzelinstrumente, nicht jedoch als Hauptmi­kro­fone. Es wird ihnen eine auffällige Präsenz, eingebettet in ein warmes, voluminöses Klangbild, nachgesagt. Neben dem Bestand historischer Mi­kro­fone, sog. vintages, sind Nachfolgemodelle, sog. Retro-Mi­kro­fone, auch mit modernster Technik, weiter in Herstellung und Entwicklung. Der  subjektiven Wertschätzung  stehen akustische Daten gegenüber, die keinesfalls optimal sind: Bässe werden grundsätzlich durch große Membranen nicht besser aufgenommen, die Richtcharakteristik ist deutlich frequenzabhängig, weil das Mi­kro­fon wegen seiner

192 

 4 Mi­kro­fone und Lautsprecher

Größe das Schallfeld verändert. Bei tiefen Frequenzen nehmen diese Mi­kro­fone Kugelcharakteristik an,  sie nehmen  mehr Diffusschall auf, was die Wärme und das Klangvolumen erklären könnte, in den Höhen  setzt die Richtwirkung und die durch die Reflexion des Schalls an der Membran bedingte Höhenanhebung früher ein als bei Kleinmi­kro­fonen, was die besondere Präsenz erklären kann. Im Übrigen gibt es für Kleinmi­kro­fone auch aufschiebbare Kugeln, die diesen Mi­kro­fonen einige der Eigenschaften von Großmembranmi­kro­fonen geben. Diese Einwände jedoch  sind wenig bedeutend bei Aufnahmen von Gesang im Nahbereich bei  statischen Aufnahmesituationen im Studio. Auch die optische Wirkung dieses beeindruckend großen Mi­kro­fons ist durchaus nicht zu unterschätzen. Meist erhält das Mikrofon noch einen Poppschirm gegen den Poppschall der Sänger, was auch noch zu einer auffälligen Optik beiträgt. Die elektrischen Schaltungen des Impedanzwandlers wurden bis 1960 als Röhrenschaltungen realisiert, denen man ähnliche Eigenschaften wie der Großmembran nachsagt. Bei dieser Technologie gibt es vermehrt nichtlineare Verzerrungen  mit  steigendem Pegel, verursacht durch eine nicht ganz gerade Kennlinie der Verstärkung. Bei der Stimme und z. B. Trompete erhöht dies durch Hinzufügen harmonischer Obertöne die Präsenz, auch entsteht eine geringe Kompressionswirkung, die die Instrumente „druckvoller“ macht. Betrachtet  man Großmembranmi­kro­fone und Röhrentechnologie als Mittel der Klanggestaltung, dann haben beide auch in der modernen Tonstudiotechnik ihren Platz und ihre Daseinsberechtigung. 4.2.4.4 Lavalier-Mi­kro­fon Sprecher, die während ihres Vortrags sich oder ihre Hände frei bewegen wollen, werden vorteilhaft  mit  sog. Lavalier-Mi­kro­fonen ausgestattet, ein Lavalier ist ein veralteter Ausdruck für einen ein Schmuckanhänger. Diese Mi­kro­fone – zumeist Druckempfänger, da diese wegen der hoch abgestimmten, also sehr straff gespannten Membran gegen Reibgeräusche unempfindlicher  sind – werden  mit einer um den Hals gehenden Schnur oder durch eine Klammer an der Kleidung befestigt und vor der Brust getragen. Ihr Wandlersystem ist gegen Körperschall-Übertragung durch das Gehäuse geschützt. Einige Lavalier-Mi­kro­fone weisen entsprechend ihrer besonderen Verwendung einen speziellen Frequenzgang auf. Das Übertragungsmaß steigt zu hohen Frequenzen hin um 8 bis 10 dB an, weil der Mund die höherfrequenten Schallanteile vorzugsweise in Sprechrichtung und weniger  stark zur Brust hin abstrahlt. Außerdem zeigt sich bei männlichen Sprechern bei 700 Hz, bei weiblichen bei etwa 800 Hz, eine resonanzartige Überhöhung im Frequenzgang, die durch vom Brustkorb abgestrahlten Schall zustande kommt (Abb. 2/7) und bei einigen Lavalier-Mi­kro­fonen akustisch oder elektrisch entzerrt wird (Abb. 4/39). Ob ein Mi­kro­fon eine spezielle Lavalier-Entzerrung besitzt oder nicht, kann nicht aus seiner Typenbezeichnung als Ansteck- oder Lavalier-Mi­ kro­fon geschlossen werden. Nach Lavalier entzerrte Mi­kro­fone sind nur entsprechend ihrer Zweckbestimmung verwendbar. Optimale Bewegungsfreiheit hat der Vortragende, wenn das Mi­kro­fonsignal drahtlos über einen Taschensender weitergeleitet wird. Lavalier-Mi­kro­fone können als Kondensatormi­kro­fone oder als dynamische Mi­kro­fone ausgeführt sein, im professionellen Bereich wird die Ausführung als hochwertiges Kondensatormi­kro­fon bevorzugt.

4.2 Mi­kro­fone 

 193

Abb. 4/39. Frequenzgang der Entzerrung des Lavalier-Mi­kro­fons.

Eine weitere Variante eines Nahfeldmi­kro­fons ist das Ohr- oder Nackenbügel-Mi­kro­fon, das mit einem Ohrbügel fixiert, seitlich neben dem Mund positioniert wird und sehr gute Klangqualität bietet; in dieser Position werden auch die gefürchteten Übersteuerungen durch Popplaute vermieden. Für Moderatoren von Radiosendungen empfehlen sich Headsets, eine Kombination von zumeist Elektretmi­kro­fonen mit Ohrbügel und Kopfhörern. Sie garantieren insbesondere einen definierten, auch bei Bewegungen unveränderten Mi­kro­ fonabstand, erreichen aber nicht die Klangqualität der Studiomi­kro­fone. 4.2.4.5 Kontaktmi­kro­fon Kontakt- oder Körperschallmi­kro­fone nehmen nur die Schwingungen von  schwingenden Festkörpern ab, z. B. Musikinstrumenten, aber keine Luftschwingungen. In der Studiotechnik haben sich Kontaktmi­kro­fone nur bedingt durchsetzen können. Einer der Gründe hierfür ist, dass der Körperschall der Instrumente andere Eigenschaften hat als der abgestrahlte Luftschall, dass die Instrumente also ungewohnt klingen. Sie arbeiten nach dem elektrostatischen Wandlerprinzip mit Elektretsystemen, die als flexible Bänder auf Resonanzflächen aufgeklebt werden, oder nach dem piezoelektrischen Prinzip. Körperschallmi­kro­fone werden bei Bass und Gitarre bevorzugt eingesetzt. Für Aufnahmen beim Fernsehen können sie dann vorteilhaft  sein, wenn Mi­kro­fone im Bild nicht  sichtbar  sein  sollen. Vorteilhaft  sind  sie besonders aber bei schwierigen Beschallungssituationen, da Rückkopplungen ausgeschlossen sind. Hauptsächlich finden diese Schallwandler jedoch als Schwingungsaufnehmer bei der Materialprüfung Anwendung. 4.2.4.6 Kunstkopf-Mi­kro­fon Ein interessanter und wichtiger Spezialfall der zweikanaligen Aufnahmeverfahren  stellt die  sog. kopfbezogene Stereofonie dar, auch als Kunstkopf-Aufnahmeverfahren bekannt (siehe hierzu ausführlich Kap.  5.5.5.1). Im Prinzip handelt es  sich um die verzerrungsfreie Übertragung und Reproduktion von den Schallsignalen an den menschlichen Trommelfellen [Platte, 1975]. Mi­kro­fonsysteme, die die Bedingungen beim natürlichen Hören nachahmen,

194 

 4 Mi­kro­fone und Lautsprecher

wurden bereits in der Frühzeit der Tonaufnahme entwickelt und seit den 1930er Jahren auch patentiert. Mit dem Hörspiel „Demolition“, einer Gemeinschaftsproduktion von RIAS, WDR und BR nach einem Science-Fiction-Roman von Alfred Bester wurde das Interesse in den 1970er Jahren wieder auf diese Technik gelenkt. Eine wichtige Fähigkeit des menschlichen Hörsystems besteht darin, Unterschiede der Informationen zu verarbeiten, die vom linken und rechten Ohr bereitgestellt werden. Diese binaurale Signalverarbeitung ist die Grundlage für das räumliche Hören, also für die Lokalisierung, Schallquellenauswahl und für die Mustererkennung. Auf Grund des räumlichen Abstands der beiden Ohren entstehen richtungs- und entfernungsabhängig unterschiedliche interaurale Laufzeit- bzw. Phasenbeziehungen. Die Ohrkanaleingänge liegen unsymmetrisch im Cavum Conchae, der trichterförmigen Vertiefung innerhalb der Ohrmuschel; dieses liegt ebenfalls unsymmetrisch innerhalb der Ohrmuschel, diese wiederum liegt unsymmetrisch nach hinten und unten versetzt am Kopf. Diese  mehrfachen Asymmetrien der äußeren Geometrie erzeugen auf Grund der Überlagerungen der Schallwellen, verursacht durch Beugungen und Reflexionen, für alle Schalleinfallsrichtungen unterschiedliche Übertragungsfunktionen oder HRTF (Head Related Transfer Function). Daher sind diese für alle Schalleinfallsrichtungen unterschiedlich und ermöglichen so, obwohl nur zwei Empfänger vorhanden sind, dem menschlichen Gehör das dreidimensionale, räumliche Hören. Die von der menschlichen Anatomie vorgegebene Geometrie erzeugt die sog. Außenohrübertragungsfunktion, dargestellt in Abb. 4/40.

Abb. 4/40. Modell zur Beschreibung der Entstehung der Außenohrübertragungsfunktion des Gehörs [Genuit, 1984].

Die Außenübertragungsfunktionen entstehen durch die Überlagerung von direkt einfallenden Schallwellen sowie deren Reflexionen und Beugungen an Ohrmuschel, Kopf, Schulter und Oberkörper, und den akustischen Resonanzen, erzeugt von den Hohlräumen des Cavum Conchae und des Ohrkanals. Die Außenohrübertragungsfunktion ist komplex und abhängig vom Einfallswinkel und im geringen Maß für Distanzen unter 3 m von der Entfernung. Sie wird für Direktschall bestimmt und heißt daher Freifeld-Außenohr-Übertragungsfunktion. Den Betrag von typischen Übertragungsfunktionen beim Menschen gemessen im Ohrkanaleingang für die vier Hauptschalleinfallsrichtungen zeigt Abb. 4/41.

4.2 Mi­kro­fone 

 195

Abb. 4/41. Betrag der Übertragungsfunktion des Außenohres für Schalleinfall von vorne 1. seitlich zugewandt, 2. hinten, 3. und seitlich abgewandt, 4. gemessen am menschlichen Ohr im Ohrkanaleingang [Genuit, 1984].

Grundsätzlich existieren drei unterschiedliche Arten von Kunstkopfsystemen: –– Systeme für Messungen der akustischen Übertragungseigenschaften von ohrnahen Schallquellen, –– Systeme als Stereomi­kro­fon zur authentischen Tonaufnahme z. B. von Musik, –– Systeme für Messungen der Geräuschqualität von Umweltgeräuschen, von technischen Einrichtungen und der Gestaltung des Sound-Design von Produkten. Als erstes erfolgte 1971 die Vorstellung des KEMAR-Kunstkopfs der Firma Knowles Electronics. Dieses System besaß eine  mechanische Nachbildung der Trommelfellimpedanz; das Einsatzgebiet fokussierte  sich auf die Messung der Übertragungseigenschaften von ohrnahen Schallquellen, z. B. Hörgeräten, Kopfhörern und  mobilen Telefonen; hierbei ist die Wechselwirkung zwischen der Ausgangsimpedanz der Quelle und der Belastungsimpedanz durch Ohrkanal und Trommelfell zu berücksichtigen. Für dieses Spezialfall werden spezielle Kunstkopfmesssysteme mit Ohrkanal und einer Nachbildung der Trommelfellimpedanz verwendet. Im Jahr 1975 stellte die Firma Neumann den ersten kommerziell erhältlichen Kunstkopf KU 80 speziell für den Einsatz für Tonaufnahmen vor der basierend auf den Untersuchungen

196 

 4 Mi­kro­fone und Lautsprecher

von Kürer, Plenge und Wilkens [Kürer, 1969] entwickelt wurde. Diese Autoren verfolgten noch den Ansatz, die Mi­kro­fonsignale an der Stelle aufzunehmen, wo beim Menschen das Trommelfell liegt. Das bedeutete aber eine zweifache Durchquerung − bei der Aufnahme wie auch bei der Wiedergabe − der Ohrmuschel und des Ohrkanals mit ihren aufgrund der Geometrie bedingten frequenzabhängigen Pegeländerungen. Zusätzlich verursachte die Ankopplung eines Studiomi­kro­fons  mit 20  mm Durchmesser an die Ohrkanalnachbildung  mit einem Durchmesser von 10 mm eine akustische Tiefpasswirkung oberhalb von 5 kHz. Deshalb wies der KU 80 klangliche Einschränkungen auf, die einer Verbreiterung des Kunstkopfverfahrens im Studiobereich entgegenstanden. In der Wissenschaft hielt sich lange die Annahme, für eine korrekte räumliche und klangliche Abbildung der akustischen Originalsituation bei Wiedergabe über Kopfhörer sei eine genaue Nachbildung der mensch­lichen Trommelfellimpedanz erforderlich, deren messtechnische Bestimmung wie auch deren Nachbil­dung nicht einfach ist [Hudde, 1980]. Für ein Kunstkopf-Aufnahmesystem, das nicht für die Bestimmung der Übertragungseigenschaften von ohrnahen Schallquellen eingesetzt werden soll, sondern für die Aufnahme einer akustischen Umwelt, zeigten erste experimentelle Untersuchungen eine Unabhängigkeit der Richtcharakteristik des Kunstkopfmi­kro­fons, die sog. monaurale Übertragungsfunktion, von den Übertragungseigenschaften des Ohrkanals und dem Abschluss  mit der Trommelfellimpedanz. Die Freifeldübertragungsfunktion eines Ohrs in Abhängigkeit der Schalleinfallsrichtung ändert sich zwar durch die Eigenschaften des Ohrkanals und dessen Abschluss mit einer Trommelfellimpedanz; bei Bezug der Außenohrübertragungsfunktionen im Freifeld in Abhängigkeit der Schalleinfallsrichtungen auf die Referenzbeschallung von vorne entsteht aber eine monaurale Richtcharakteristik, die unabhängig von Ohrkanal und dessen akustischen Abschluss, dem Trommelfell, ist. Somit konnte ein Kunstkopfaufnahmesystem ohne Nachbildung des Ohrkanals und des Trommelfells konstruiert werden, das aber nicht zur Bestimmung von ohrnahen Schallquellen geeignet ist, 1981 entstand das erste Kunstkopf-Messsystem mit zum menschlichen Gehör vergleichbaren Eigenschaften hinsichtlich Richtcharakteristik, Frequenzübertragungsbereich und Dynamik, das zusätzlich für den Einsatz in der akustischen Messtechnik freifeldentzerrt und kalibrierfähig war [Genuit, 1982]. Der Einsatz erfolgt vornehmlich zur Erfassung und Analyse im Bereich Geräuschqualität und Sound Design. Schallereignisse werden originalgetreu aufgezeichnet und über Kopfhörer beurteilt. So sind einerseits leicht gehörmäßige Vergleiche von verschiedenen Produkten oder die akustischen Auswirkungen von Modifikationen an Produkten möglich. Andererseits lassen sich mithilfe der Signalverarbeitung einzelne Komponenten im Zeit- oder Frequenzbereich manipulieren, um zu erkennen, wie ein gewünschter Sound zu erzielen ist. Das Einsatzgebiet dieser verbesserten Kunstkopfmesstechnik fokussierte sich zunächst auf den Automobilbereich, bald aber auch auf die Bestimmung der Geräuschqualität von Büro- und Haushaltsgeräten. Inzwischen ist die Anwendung ebenso in der Raum- und Bauakustik sowie zur Erfassung der akustischen Umweltbelastung etabliert. Der internationale Standard [ISO 12913] erfordert normativ den Einsatz der binauralen Messtechnik. Natürlich ließ  sich dieses Kunstkopfmesssystem auch hervorragend im Studiobereich einsetzen. Anfang der 1980er Jahre führte Neumann das Nachfolgeprodukt KU 81  mit Diffusfeldentzerrung [Theile, 1094] und später den KU 100 mit weiter verbesserten technischen

4.2 Mi­kro­fone 

 197

Eigenschaften ein. Mit diesem verbesserten Kunstkopf etablierte  sich für die Verwendung von Kunstkopfmi­ kro­ fonen eine weitere Entzerrungsart: die Diffusfeld-Entzerrung (DF) neben der bislang in der Messtechnik verwendeten Freifeld-Entzerrung (FF). Wenig später kam noch eine weitere Entzerrungsart hinzu [Genuit, 1987]: die richtungsneutrale Entzerrung (ID) (Independent on Direction). Freifeld-Entzerrung bedeutet, der Kunstkopf liefert bei frontalem Schalleinfall von vorne im Freifeld in 3 m Entfernung ein frequenzunabhängiges konstantes Übertragungsmaß vergleichbar mit einem Messmi­kro­fon. Die Freifeld-Entzerrung ist damit sehr genau definiert sowie reproduzierbar und ist damit Grundlage für akustische Messvorschriften. Bei der Diffusfeld-Entzerrung trifft der Schall aus allen Richtungen für alle Frequenzen  mit gleichen Pegeln auf das Messobjekt, also ein frequenzunabhängiges kon­ stantes Übertragungsmaß, vergleichbar zu typischen Studiomi­kro­fonen. Bei der ID-Entzerrung werden nur die richtungsunabhängigen Resonanzen innerhalb der Außenohrübertragungsfunktion entzerrt, im Wesentlichen sind das die Eigenschaften des Ohrkanals und der Cavum Conchae-Höhle. Eine Gegenüberstellung der drei Entzerrungsarten zeigt Abb. 4/42.

Abb. 4/42. Betragsverlauf der Entzerrungsfilter für einen Kunstkopf, 1. Freifeld, Schalleinfall nur von vorne (FF), 2. Diffusfeld, gleichmäßige Beschallung aus allen Richtungen (DF), 3. richtungsneutral, nur Berücksichtigung der Resonanzen (ID).

Alle drei Entzerrungsarten beinhalten die Korrektur des Einflusses durch die Resonanzen von Cavum Conchae und Ohrkanal. Insbesondere die Cavum Conchae-Resonanz  mit ca. 15  dB Pegelerhöhung war bei der ersten Kunstkopfgeneration verantwortlich für die deutlich wahrnehmbaren Klangfärbungen, sie werden aber durch alle drei Entzerrungsarten eliminiert, von daher sind die verbleibenden Unterschiede von untergeordneter Bedeutung. Normalerweise werden Kunstkopfaufnahmen über Kopfhörer abgehört. Solange dann bei Aufnahme und Wiedergabe kompatible Entzerrungen eingesetzt, ist die Auswahl derselben irrelevant. Aber es gilt

198 

 4 Mi­kro­fone und Lautsprecher

auch die Kreuzkompatibilitäten [Theile, 1985] zu berücksichtigen: wie klingt eine Kunstkopfaufnahme bei Wiedergabe über Lautsprecher, wie klingen konven­tionelle Produktionen über Kopfhörer und wo ergeben sich im Vergleich zu einem Messmi­kro­fon die geringsten Abweichungen, wenn die Kunstkopfsignale nicht nur zum Abhören Verwendung finden, sondern auch zur messtechnischen Analyse wie Schalldruckpegel und psychoakustischen Größen? In der Praxis liegen selten ein reines Freifeld oder Diffusfeld vor. Von daher sind Kompromisse erforderlich. In der Messtechnik hat sich einerseits auf Grund der bestehenden Messvorschriften die Freifeldentzerrung etabliert, bei Messungen, die nicht nach Vorschriften konform ablaufen  müssen, die ID-Entzerrung. Im Studiobereich dagegen findet die Diffusfeld-Entzerrung Verwendung. Der diffusfeldentzerrte Kunstkopf als binaurales Aufnahmeverfahren und zusammen mit dem diffusfeldentzerrten Kopfhörer als authentisches Hörerlebnis einer klangeinhüllenden Wiedergabe, einem Immersive Sound, wird in Kap. 5.5.5.1 behandelt. Die Eigenschaft der gehörrichtigen Übertragung von Schallereignissen, bei der Wiedergabe originalgetreue Hörereignisse zu gewährleisten, kann auch von Nachteil  sein, wenn die akustische Ausgangssituation nicht optimal ist. Das Zusammenschneiden von Kunstkopfaufnahmen ist deutlich kritischer, da das Gehör geringe Änderungen der akustischen Umwelt wahrnimmt. Bei Musikproduktionen besteht in der Regel der Wunsch, einzelne In­­ strumente hervorzuheben. Studiomi­kro­fone können einer Kunstkopfaufnahme gehörrichtig zugemischt werden [Gierlich, 1989], wenn die Signale von einzelnen Quellen winkel- und entfernungskorrekt  mit Filterung der Außenohrübertragungsfunktion versehen werden. Inzwischen ist die virtuelle Auralisierung  sehr weit fortgeschritten [Vorländer, 2021], eine beliebige Anzahl von Quellen in Verbindung mit den klanglichen Eigenschaften von Räumen können auch ohne Kunstkopfmi­kro­fon zu einer binauralen Aufnahme kombiniert und komponiert werden. Eine besondere Form der binauralen Aufnahmesysteme sind Ohrkanalmi­kro­fone. Dabei erfolgt die Aufnahme des Schalls mit Miniatur-Mi­kro­fonen im Ohrkanal einer Person. Diese Systeme sind deutlich kostengünstiger und bieten vor allem den Vorteil, an Orten Aufnahmen durchführen zu können, an denen kein Kunstkopf platziert werden kann, z. B. auf dem Fahrersitz eines Kraftfahrzeugs im Verkehr. Auch sind solche Ohrmi­kro­fone unauffällig einsetzbar. Nachteilig sind die in der Regel schlechteren technischen Eigenschaften sowie die fehlende korrekte Entzerrung. Zusätzlich darf die Person mit Ohrkanalmi­kro­fon keine Bewegungen und eigene Geräusche ausführen. Die Wiedergabe von binauralen Signalen erfolgt idealerweise über Kopfhörer, um die eindeutige Zuordnung von linken und rechten Mi­kro­fonsignalen zum linken und rechten Ohr der abhörenden Person zu ermöglichen. Grundsätzlich gibt es einige Parameter, die die perfekte Wiedergabe einschränken: –– Die individuellen Geometrien des Außenohrs sind unterschiedlich und daher mehr oder weniger abweichend zu der Richtcharakteristik des Kunstkopfs. –– Die Kopfhörerübertragungseigenschaften an den Ohren der abhörenden Personen sind ebenfalls individuell unterschiedlich. –– Die technischen Übertragungseigenschaften von unterschiedlichen Kopfhörern variieren  sehr  stark, hier lässt  sich nur  mit einer vorgeschalteten Entzerrungseinheit eine vergleich­bare, standardisierte und pegelrichtige Wiedergabe gewährleisten, die optional auch eine Individualanpassung zulässt.

4.2 Mi­kro­fone 

 199

–– Die fehlende Kopfdrehbewegungen erschweren insbesondere die Vorne-Lokalisation, bei der Wiedergabe erzeugen Kopfdrehungen eine Irritation, da sich das gesamte akustische Umfeld sich mitbewegt. Die Wiedergabe über Lautsprecher ist auf Grund der Entzerrung des Kunstkopf-Mi­kro­fons ohne klang­liche Einbußen  möglich, da jedoch beide Ohren von beiden Lautsprechern beschallt werden, ist die räumliche Klangabbildung nicht vergleichbar zur Kopfhörerwiedergabe. Mit Hilfe von  speziellen Kom­pensationsverfahren, die das Übersprechen verringern, lässt  sich eine Verbesserung des räumlichen Abbildes erzielen, allerdings mit der Einschränkung auf eine fixierte Abhörposition. Eine akzeptable Lautsprecherwiedergabe von binauralen Signalen wird auch mit einer vier Lautsprecherwiedergabe erzielt, wobei vor wie auch hinter den abhörenden Personen jeweils zwei stereofone Lautsprecher­paare installiert werden. Eine zusammenfassende Übersicht zur Kunstkopftechnik wurde in einer Mitteilung des Normenausschus­ses „Psychoakustische Messtechnik“ veröffentlicht [Fedke, 2007].

4.2.5 Mi­kro­fonständer Für die Aufstellung der Mi­kro­fone  stehen für jede denkbare Aufnahmesituation geeignete Ständer zur Verfügung (Abb. 4/43); bei ihrem Einsatz ist darauf zu achten, dass Trittschall nicht übertragen wird, d. h., der senkrechte Trägerstab soll niemals auf dem Boden aufstehen. Bei starkem Trittschall empfiehlt sich die Verwendung von Mi­kro­fonspinnen oder mit Gummibändern gefederte Mi­kro­fonhalter.

Abb. 4/43. Verschiedene Mi­kro­fonständer: 1. Mi­kro­fonwinde, 2. Mi­kro­fonboom, 3. Stativ, 4. Tischstativ, 5. Mi­kro­fonangel.

200 

 4 Mi­kro­fone und Lautsprecher

4 ­­­ .3 Einrichtungen für drahtlose Mi­kro­fone Oftmals sind Kabelverbindungen zum Mi­kro­fon eine unerwünschte Einschränkung der Aufnahmesituation, besonders bei bewegten Schallquellen wie agierenden Sängern, Schauspielern oder Moderatoren. Drahtlose Mi­kro­fone oder Funkmi­kro­fone gewährleisten die Mobilität der Agierenden auf und hinter der Bühne, im Studio oder bei Außenaufnahmen. Zur Sprachübertragung werden kabellose Mi­kro­fonverbindungen in Kongress- und Seminarräumen benutzt. Die Empfänger für die drahtlosen Mi­kro­fonsignale sind mobil, sie können z. B. in Videokameras oder, am Körper getragen, für  sog. In Ear-Monitoring eingesetzt werden. Drahtlose Mi­kro­fone werden auch für die Abnahme von Musikinstrumenten eingesetzt. Sie dürfen Kabelverbindungen qualitativ nicht oder nur unwesentlich unterlegen sein; gefordert wird deshalb bei  sehr hoher Übertragungssicherheit in Echtzeit ein Frequenzumfang der Übertragung bis 20 kHz Audiobandbreite und ein Dynamikumfang von 100 dB. Für die Erfüllung dieser Anforderungen  sind die Rahmenbedingungen entscheidend. Das Funkfeld wird von einer komplexen Vielfalt verschiedenster Funkdienste parallel genutzt; bei großen Bühnenereignissen können Hunderte von Funkübertragungsfrequenzen belegt sein. Neben den regulär genutzten Frequenzen muss die große Vielzahl ungewollter Störstrahlung beachtet werden; die Hochfrequenzstörleistung von Lichtsteuereffekten z. B. kann die Strahlungsleistung der drahtlosen Mi­kro­fone übertreffen. Die verwendeten Übertragungsfrequenzen müssen dann auf weniger gestörte Bereiche ausweichen. Es hat sich in der Praxis bewährt, die Systeme grundsätzlich redundant zu planen, um bei unerwartet auftretenden Herausforderungen über Reserven zu verfügen, das betrifft vor allem die Anzahl nutzbarer Kanäle und die Feldstärken an den Empfangsantennen. Ein besonderes Merkmal der Funkmi­kro­fontechnik sind die ständigen Veränderungen der Übertragungsbedingungen, wenn bei der Aufnahme oder Übertragung die Mi­kro­fone nicht ortsfest  sind. Feldstärkeschwankungen und gegenseitige Beeinflussung der Sender verlangen eine hoher Betriebssicherheit entsprechende Technik und von den Beteiligten Erfahrung. Im Folgenden wird der Weg des Audiosignals durch die Übertragungskette vom Sender über die Antenne, die Wellenausbreitung und den Empfänger dargestellt, es werden praktische Hinweise zur Vermeidung häufiger Fehler gegeben [Arasin, 2012]. Neben Funkmi­kro­fonsystemen in analoger Technik, deren Übertragung im Prinzip wie der analoge UKW-Funk arbeitet und im Folgenden beschrieben wird (Kap.  4.3.1 ff.), wurde eine digitale Übertragungstechnik entwickelt, die die analoge Technik ersetzen und große Vorteile in der Handhabung und Flexibilität bietet (Kap. 4.3.4). Die digitalen Systeme arbeiten mit unkomprimierter digitaler Signalübertragung und bieten störungsfreien Klang sowie große Dynamik. Dank besonders steilflankiger Filter lassen sich dabei die einzelnen Funkfrequenzen im verfügbaren Frequenzband sehr viel enger anordnen als bisher, ohne die Gefahr von Intermodulation.

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 201

4.3.1 Drahtlose Audioübertragung mit analog modulierter HF-Übertragung 4.3.1.1 Sender Für die drahtlose Übertragung von Mi­kro­fonsignalen gibt es drei Varianten batteriegetriebener Sender: –– Handsender, die im Mi­kro­fonschaft untergebracht sind, –– Taschensender, die  meist  mit einem Clip am Gürtel befestigt werden (Bodypack, Beltpack) und über Kabel mit 3,5 mm-Klinken-, Mikrodot-, Mini-XLR- oder LEMO-Stecker mit dem Mi­kro­fon verbunden sind, –– Aufstecksender (Plug On)  mit XLR-Buchse und 48 V-Phantomspeisung, die in Verbindung mit jedem analogen Mi­kro­fon betrieben werden können. Die Betriebssicherheit und Studioqualität erfordern –– klangliche Neutralität, –– störsichere Hochfrequenzeigenschaften bei Einhaltung der Zulassungsvorschriften, –– mechanische Stabilität der Sender und der Steckverbindungen, –– ein Stromversorgungskonzept, das die Geräteleistung konstant hält, –– rechnergestützte Kontrolle aller Parameter.

Abb. 4/44. Blockschaltbild eines Taschensenders mit prozessorgesteuerter PLL (Phase-Locked Loop, Taktsynchronisation), Gleichspannungswandler und Infrarotdatenschnittstelle.

Das Blockschaltbild eines Senders zeigt Abb. 4/44. Das Mi­kro­fonsignal wird im Vorverstärker des Senders verstärkt und angepasst sowie zwei Maßnahmen unterzogen, die das Rauschen vermindernden: einer Dynamikkompression durch einen Kompander (Abb. 4/45) und einer Preemphasis. Die Preemphasis hebt wie beim UKW-Rundfunk den Frequenzbereich oberhalb

202 

 4 Mi­kro­fone und Lautsprecher

von ca. 2  kHz um 6  dB/Oktave an. Damit wird der bei ansteigender Frequenz  sich verringernde Rauschabstand kompensiert, weil Musik und Sprache mit zunehmender Frequenz im Pegel abnehmen.

Abb. 4/45. Kompandersystem des Senders und Empfängers.

Abb. 4/46. Preemphasis des Signalfrequenzgangs im Sender und Deemphasis im Empfänger um 6 dB/Oktave zur Rauschverminderung bei hohen Frequenzen.

Die international ähnlichen Einschränkungen der belegten HF-Bandbreite durch die Telekommunikationsbehörden erfordern für die Übertragung zusätzlich eine Kompression der Dynamik. Meistens wird die Eingangsdynamik des Audiosignals um den Faktor 2 komprimiert; ein Signal mit einem Pegel von z. B. 40 dB unter Vollaussteuerung komprimiert der Kompressor also auf 20 dB unter Vollaussteuerung (Abb. 4/46). Im Empfänger wird die kom-

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 203

primierte Dynamik dann wieder um den Faktor 2 expandiert, so dass am Empfängerausgang der ursprüngliche Pegel zur Verfügung steht. Ohne dieses Kompandersystem aus Kompressor und Expander kann Studioqualität im Rahmen der Beschränkungen der Zulassungsbehörden nicht erreicht werden. Das durch die Preemphasis linear verzerrte und komprimierte Signal wird in Frequenzmodulation (FM) einer Hochfrequenzträgerschwingung aufgeprägt und von der Senderantenne allseitig ins Funkfeld abgestrahlt. Der Rauschabstand des Übertragungssystems kann  statisch bis 120  dB betragen. In der Praxis  muss eine Aussteuerungsreserve vorgesehen werden, die Werte verbleiben deshalb meistens im Bereich von 70 bis 90 dB. Akustische Nebengeräusche auf der Bühne oder im Studio, z. B. durch Lüfter, Nebelmaschinen oder das Publikum, bestimmen meist den Geräuschpegelabstand in größerem Maße. Funkmi­kro­fone werden überwiegend im UHF-Bereich von 470 bis 2.480 MHz betrieben. Eine eigene, freie Frequenz ist grundlegende Voraussetzung für ungestörten Betrieb. Zwischen zwei Übertragungsfrequenzen ist ein sog. Selektionsabstand von ca. 400 kHz einzuhalten. Der Sender arbeitet wie der UKW-Rundfunk mit Frequenzmodulation (FM). Die Trägerfrequenz von z. B. 700 MHz wird durch ein Audiosignal ständig nach höheren und niedrigeren Frequenzen um die Mittenfrequenz verschoben. Der Änderungsbetrag, der sog. Hub der Funkfrequenz, übermittelt den Signalpegel, also die Lautstärke. Die Geschwindigkeit der Frequenzänderungen repräsentiert den Schwingungsverlauf des Audiosignals (Abb. 4/47).

Abb. 4/47. Frequenzverhältnisse bei der HF-Übertragung.

Ohne Audiosignal bleibt der Hochfrequenzträger konstant auf  seiner Frequenz, es liegt am Empfängerausgang kein Signal an. Die belegte Hochfrequenzbandbreite, der Hub,

204 

 4 Mi­kro­fone und Lautsprecher

nimmt  mit der Lautstärke zu. Die Regulierungsbehörde, in Deutschland die Bundesnetzagentur (BNetzA), legt die maximal zulässige belegte HF-Bandbreite fest, nicht den maximalen Hub. Bei voller Aussteuerung darf maximal nur ± 50 kHz um die Mittenfrequenz moduliert werden. Die BNetzA zertifiziert alle für den Betrieb zugelassenen Sender. Der Bedarf an HF-Bandbreite ist näherungsweise der maximale Hub plus die doppelte Audiobandbreite. Ein Funkmi­kro­fon belegt mit z. B. ± 50 kHz Frequenzhub und 2 mal 20 kHz Audiobandbreite, also 50 + 50 + 2 · 20 = 140 kHz HF-Bandbreite. Ein Funkmi­kro­fon darf nach in Europa harmonisierten Regeln  maximal 200  kHz HFBandbreite belegen. An den Grenzen des Bands muss das Funksignal bereits um 60 dB abgefallen  sein, also auf 1/1.000 seiner  maximalen Leistung. Die diesbezüglichen Vorschriften werden herausgegeben vom Europäischen Institut für Telekommunikationsnormen ETSI in Sophia Antipolis in Frankreich (European Telecommunications Standards Institute) und in Deutschland von der Bundesnetzagentur (BNetzA) überwacht. Die sog. ETSI-Maske definiert das Fenster, in dessen Rahmen das Sendersignal im HF-Spektrum auch bei Vollaussteuerung bleiben muss (Abb. 4/48). Übersteuerungen müssen unterdrückt werden durch einen „harten“ Limiter (Peak Limiter) ab 48 kHz Hub. Der Limiter ist Pflicht für jeden Sender mit dem CE-Zeichen und verhindert wirksam, dass er übermoduliert und damit zu viel Bandbreite im HF-Spektrum belegt.

Abb. 4/48. ETSI-Maske EN 300 zur Definition des HF-Übertragungskanals, fc = Trägerfrequenz (transmitter carrier frequency) = 800 MHz, B = belegte Bandbreite = 200 kHz.

Die einzustellende Vorverstärkung im Sender soll einerseits eine Übersteuerung, andererseits eine Untersteuerung, d. h., eine verrauschte Übertragung, verhindern. Der mittlere Pegel ist deshalb auf ca. 20 dB unter Vollaussteuerung einzustellen. Signale mit hohem Obertonanteil wie Applaus, Becken, Schellenring, Schlüsselbundklirren u. ä. sollten noch vorsichtiger ver-

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 205

stärkt werden, weil die Preemphasis die hohen Frequenzen überproportional anhebt und abgeschnittene Pegelspitzen durch den harten Limitereinsatz zu hörbaren Verzerrungen führen. Funkmi­kro­fonsender arbeiten mit HF-Leistungen zwischen 10 und 100 mW. Die abgegebene Leistung wird mit EIRP (Effective Isotropic Radiated Power) bezeichnet, das ist die Leistung, die von einer hypothetischen isotropen Antenne, einer allseitig strahlenden Antenne, ausgestrahlt werden müsste, um dasselbe Signalniveau in Richtung der maximalen Strahlung der jeweiligen Antenne zu erhalten. Die tatsächlich ins Funkfeld abgegebene Leistung liegt jedoch darunter, weil durch den körpernahen Einsatz die Antenne undefiniert verstimmt wird und Strahlungsenergie im Körper in Wärme umgewandelt wird. Dabei können Verluste von 3 bis 20 dB entstehen, also von 50 bis 99 % der HF-Leistung. Hohe Dämpfungen haben  selbstverständlich großen Einfluss auf die Reichweite und die Übertragungssicherheit. Ein größerer Abstand zum Körper reduziert die Antennenverstimmung und begünstigt die Abstrahlung erheblich. Schädigungen am menschlichen Körper durch die HF-Einstrahlung sind nicht beobachtet worden; die absorbierten Leistungen liegen deutlich unter den empfohlenen Grenzwerten des Bundesamtes für Strahlenschutz. Mehrere Sender, die eng benachbart zum Einsatz kommen, beeinflussen sich gegenseitig, indem die HF-Felder über die Sendeantennen auf die Endstufen einwirken und dabei neue, unerwünschte Sendefrequenzen erzeugen. Dieser physikalisch bedingte Vorgang wird Intermodulation, abgekürzt IM, genannt und lässt sich auf Grund der dynamischen Feldstärkesituation bei bewegten Verhältnissen z. B. auf der Bühne nicht immer vermeiden. Auch Sender mit einem hohen Intermodulationsabstand, abgekürzt IMA, können betroffen sein. Die möglicherweise auftretenden Störfrequenzen werden per Software vorausberechnet. Besonders kritisch sind die Intermodulationsprodukte dritter Ordnung, weil hier große Störpegel mit doppeltem Hub und Frequenzverdopplung auftreten. Vermeidet  man in  mehrkanaligen Funkmi­kro­fonsystemen diese Frequenzen mit ausreichendem Sicherheitsabstand, ist die Anlage intermodulationsfrei. Intermodulationsprodukte höherer Ordnung sind im Pegel schwächer und spielen meist eine untergeordnete Rolle. Alle Hersteller haben  sog. Frequenzbänke in den Empfängern gespeichert, deren Konfiguration sicheren, intermodulationsfreien Betrieb sicherstellt. Wesentliche Voraussetzung für eine sichere Übertragung ist eine Sichtverbindung zwischen Sende- und Empfangsantenne. Unter guten Bedingungen ist ein Betrieb bis mehrere km Entfernung  möglich. Die Sendeantenne hat einen Wirkungsgrad von bis zu 70  %. Bei Hand- und Taschensendern reduziert die Nähe zum Körper grundsätzlich die abgestrahlte HF-Leistung. Die Antenne wird verstimmt, ihr Wirkungsgrad lässt nach, und die abgestrahlte HF-Leistung wird oft zum großen Teil im Körper absorbiert. Zusätzlich werden die Funkwellen auf ihrem Weg zur Empfangsantenne situationsabhängig durch den Körper abgeschattet. Die Sendeleistung kann so u. U. bis 20 dB zurückgehen. Der tatsächlich erreichte Wert wird mit ERP (Effective Radiated Power) bezeichnet. und kann im ungünstigsten Fall zu sehr geringen Reichweiten von im Einzelfall nur 10 m führen. Zusammenfassend gelten die folgenden Faustregeln für die Praxis, damit ist auch ein gleichzeitiger Betrieb mit 100 oder mehr Funkmi­kro­fonen zuverlässig durchführbar: –– Sendeantennen nicht berühren, –– einen Mindestabstand von ca. 5 mm zwischen Haut und Sendeantenne vorsehen, –– ein Mindestabstand von ca. 4 m zu den Empfangsantennen einhalten, damit einzelne Trägerfrequenzen nicht zu stark einfallen.

206 

 4 Mi­kro­fone und Lautsprecher

4.3.1.2 Frequenzzuteilung Die Bundesnetzagentur (BNetzA) als staatliche Behörde teilt den verschiedenen Nutzergruppen von Funkdiensten bestimmte Frequenzbänder zu. Sie definiert die technischen Parameter von Sendern in Verwaltungsvorschriften. Dazu  müssen  sowohl eine große Zahl von verschiedenen Nutzergruppen und Diensten auf nationaler Ebene koordiniert als auch internationale Vereinbarungen berücksichtigt werden. Die Bereitstellung von funkübermittelten Internetdiensten in ländlichen Gebieten erforderte eine Neuzuteilung von Funkfrequenzen auch für Funkmi­kro­fone und In-Ear-Monitoring (IEM). Die früher von Funkmi­kro­fonen hauptsächlich genutzten Frequenzbänder zwischen 790 bis 814 MHz und 838 bis 862 MHz sind seit dem 3. 3. 2010 für die Nutzung des drahtlosen breitbandigen Internets freigegeben, für Funkmi­kro­fone stehen sie also nicht mehr zur Verfügung. Für Funkmi­kro­fone werden deshalb andere Frequenzbänder im UHF-Bereich bereitgestellt. Für den professionellen Einsatz bei Funkmi­kro­fonen im gewerblichen und fachmännisch ausgebildeten Einsatz  sind verschiedene Frequenzbänder reserviert. Sie werden nur auf Antrag und gegen Gebühr bei gegebener Möglichkeit von der BNetzA befristet zugeteilt. Der Einsatz umfasst professionelle Veranstaltungen wie Theater- und Opernaufführungen, Konzerte und  sonstige Einsätze in der Veranstaltungstechnik, den öffentlich-rechtlichen Rundfunk, private Rundfunkprogrammanbieter und Programmproduzenten. Generell muss je nach Ausbaugrad der Nutzung durch das drahtlose Internet  mit Störungen gerechnet werden. In den Bereichen 470 – 608 MHz und 614 – 694 MHz ist eine Allgemeinzuteilung von Funkfrequenzen anmeldefrei. Da die Funkfelder der Internetdienste diejenigen der Funkmi­ kro­fone an Stärke übertreffen können, ist ein Parallelbetrieb nicht sicher bzw. nur im Einzelfall möglich. Funkmi­kro­fone müssen ggf. auf ungestörte Frequenzen ausweichen. Drahtlose

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 207

Mi­kro­fone genießen keinerlei Schutz vor Beeinflussungen gegenüber gleichberechtigten Anwendern im gleichen Einsatzgebiet. Die verschiedenen Betreiber müssen den Einsatz der Mi­kro­fone untereinander selbst koordinieren. Zur Wahl des Frequenzbereichs für die verschiedenen Geräteklassen  stehen im Internet aktuelle und umfassende Informationen bereit, die in einem dynamischen Geschehen ständig aktuell gehalten werden, zuerst zu nennen  sind die Zuteilungen der Bundesnetzagentur, aber auch die Informationen der Firmen, die entsprechende Geräte vertreiben. Abb. 4/49 und Tab. 4/8 geben einen Überblick über die aktuelle Nutzung (2022) der Frequenzbänder. Tab. 4/8. Frequenzbereiche für Funkmi­kro­fone über 10 mW. Frequenzbereich

EIRP

Allgemeinzuteilung Nr.

befristet bis

174 - 230 MHz 470 - 608 MHz 614 - 694 MHz 823 - 826 MHz

50 mW 50 mW

59/2015 34/2020 anmeldefrei 2/2015

31.12.2025 31.12.2030 31.12.2025

3/2015

31.12.2025

826 – 832 MHz 1785 - 1805 MHz

Handgerät 82 mW Handgerät am Körper getragen 100 mW 100 mW 82 mW

Die Verwendung der Frequenzen in allen Bereichen der Medien, Prozesssteuerungen, der Kommunikation im Allgemeinen ist dynamischen Interessen und Ansprüchen an immer mehr Frequenzbereichen unterworfen, primär durch die Mobilfunkindustrie. Alle Anwender von

Abb. 4/49. Frequenzbereiche für drahtlose Übertragung, Funkmi­kro­fone sind mit dem Symbol „Mi­kro­fon“ gekennzeichnet, VvnömL: Verwaltungsvorschriften für Frequenzzuteilungen im nichtöffentlichen mobilen Landfunk­­­­, Stand 6/2022.

208 

 4 Mi­kro­fone und Lautsprecher

drahtlosen Mi­kro­fonen  sind auf freie Frequenzen angewiesen und haben deshalb Organisationen gegründet, um ihre Bedürfnisse den politischen Entscheidungsträgern deutlich zu  machen; wichtige Informationen werden von der „Association of Professional Wireless Production Technologies e. V.“ (APWPT) bereitgestellt, hier sind auch die zugelassenen Frequenzen für die wichtigsten Länder weltweit aufgeführt.

4.3.1.3 Stromversorgung In den Sendern werden vielfach zwei Alkaline-Mignon-Batterien in Reihenschaltung verwendet. In geladenem Zustand liefern sie zusammen eine Spannung von 3 bis 3,5 V. Die erforderliche Betriebsspannung von 6 V wird durch einen Spannungswandler erzeugt, der sie unabhängig vom Entladezustand der Batterien stabil hält. So bleiben die wichtigen technischen Daten wie Aussteuerungsbereich, Geräuschspannungsabstand und abgestrahlte Leistung über die gesamte Betriebszeit der Batterien konstant. Der Spannungswandler nutzt den Energievorrat der Batterien optimal aus. Er schaltet sich ab, wenn die Spannung unter ca. 2,2 V, also unter 1,1 V Spannung pro Batterie, der sog. Zellenspannung, abfällt. Typische Betriebszeiten mit einem Batteriesatz sind 6 bis 12 Stunden. Überzogene Stromsparkonzepte, d. h., Sender mit sehr langen Betriebszeiten, bergen die Gefahr von Instabilitäten in kritischen HFSituationen, wenn z. B. mehrere Sender einander sehr nahekommen. Eine Alternative ist der Einsatz von Akkus, im Routineeinsatz sind sie betriebssicherer als Batterien. Ein neuer Akku braucht einige Lade-Entlade-Zyklen, bis er  seine volle Leistung erbringt. Danach hält er über ca. 500 Zyklen konstant seine Leistung, bei sorgfältiger Behandlung kann  man  mit Li-Ionen-Akkus über 800  Zyklen erreichen. Im Laufe weiterer Perioden von Ladung und Entladung verliert ein Akkupack dann allmählich an Kapazität, ab 500 Zyklen rechnet  man noch  mit einem verbliebenen Energieinhalt von etwa 80  %. Die Langlebigkeit der Akkus wird durch  sorgfältigen Umgang erhöht. Im Alltagsbetrieb hat sich bewährt, dass ein Team möglichst immer mit demselben Satz von Funkmi­kro­fonen bzw. Akkus arbeitet; der Ladezustand ist hierbei an den Rhythmus der Einsätze gekoppelt, eine schädliche Überladung findet nur selten statt. Wird ein Drahtlos-Set dagegen von häufig wechselnden Teams benutzt, führt das erfahrungsgemäß zu einem schnellen Verschleiß der Akkus durch häufiges Überladen aus Unsicherheit über den Ladezustand. Digital arbeitende Sender verbrauchen deutlich mehr Leistung und sollten mit leistungsstarken Akkus betrieben werden. Optimal gepflegt werden Akkus durch Schnell-Ladegeräte, die  mit Pulsen  schonend laden und per Zustandserkennung rechtzeitig die Pulsabstände auf Erhaltungsladung reduzieren. Aber auch mit moderner Ladetechnik kann man überladen, wenn man volle Akkus immer wieder aus Unsicherheit über den Ladezustand nachlädt. Dabei entstehen Kerntemperaturen über 45 °C , die den Akku deutlich schneller altern lassen. 4.3.1.4 Antennen und Wellenausbreitung Antennen  sind Anpassglieder zwischen dem Hochfrequenzkabel und dem umgebenden Raum. Es sind zumeist Dipole, elektrisch leitfähige Gebilde in räumlicher Ausdehnung mit zwei freien Enden in den unterschiedlichsten Ausführungsformen. Der Abstand der freien

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 209

Enden oder Pole  steht  stets in Beziehung zur Wellenlänge der zu übertragenden Hochfrequenz, z. B. 1/4 der Wellenlänge, mit λ/4-Antenne bezeichnet. Aus der Lichtgeschwindigkeit c = 299.792.458 m/s und der Frequenz f von z. B. 800 MHz = 800.000.000 Hz errechnet sich dieser Abstand gerundet: λ = c/f = 300.000.000//800.000.000 = 3/8 m = 37,5 cm. Eine λ/4Antenne hat also eine Länge von knapp 10 cm. Für eine genaue Betrachtung müssten weitere Parameter beachtet werden. Die Antennen von Taschensendern haben nur ein Ende, sie scheinen nur einen Pol zu haben. Der zweite Pol wird hier durch das Metallgehäuse des Senders dargestellt, was auch als Gegengewicht bezeichnet wird. Funkmi­kro­fone haben stets abgestimmte Sendeantennen für einen bestimmten Frequenzbereich, angepasst für ein Fenster von ca. ± 2 % der Mittenfrequenz. Eine Taschensenderantenne für z. B. 800 MHz erbringt demnach in einer Bandbreite von 40 MHz, also von 780 bis 820 MHz ihre volle Leistung. Größere Schaltbandbreiten, damit  sind die durchstimmbaren Frequenzbereiche gemeint, von 90 MHz und mehr erfordern spezielle Antennenformen, z. B. mit einigen cm Durchmesser oder Wechselkonzepte. An den Bereichsgrenzen fällt die Leistung mit zunehmender Entfernung von der Mittenfrequenz allmählich ab. Falsch abgestimmte Sendeantennen können die zur Verfügung  stehende Leistung nicht voll in den Raum abstrahlen. Die HF wird hier ohne Vorzugsrichtung abgestrahlt und breitet  sich  mit ca. 300  m/μs aus. Allgegenwärtig  sind Dämpfungen und Reflektionen der ausgestrahlten Signale, sie sollten das Funkfeld nicht um mehr als ca. 80 dB dämpfen. Der Sender erzeugt ca. 1  V Spannung, davon  müssen  mindestens noch etwa 100  μV am Empfängereingang ankommen, um im Betrieb noch Reserven bei weiterer Signalschwächung zu haben. Die Feldstärkeanzeige am Empfänger endet oft bei 100 μV bzw. 40 dBμV. Der Vollausschlag sollte im Normalfall überwiegen. Die unmittelbare Umgebung der Sendeantenne hat umfassenden Einfluss bei der körpernahen Abstrahlung und den einwirkenden Verlusten durch Verstimmung, Absorption und Abschattung. Das Auffinden guter Positionen für Taschensender am Körper und Empfängerantennen – stets möglichst mit Sichtverbindung − ist wichtig für die Betriebssicherheit. Ausreichende HF-Pegel bei den Proben können während der Veranstaltung durch zusätzliche Absorptionseffekte durch das Publikums zusätzlich abnehmen. Reichweitentests unter betrieblich  schlechten, aber realistischen Bedingungen, z.  B.  mit von der Hand abgedeckten Sendeantennen, sind im Probebetrieb unerlässlich. Bei großen Veranstaltungen mit 30 Funkmi­kro­fonen und mehr werden die Auftrittsbereiche mit mehreren voll eingeschalteten Sendern abgeschritten, um drop outs zu erkennen und auszuschließen. Den Empfangsantennen kommt eine ebenso große Bedeutung zu. Aufsteckantennen, die direkt über BNC-Stecker an den Eingang des Empfängers angeschlossen werden, sind im Allgemeinen abgesetzten Antennen auf höher gelegenen Standorten unterlegen, weil die Sichtverbindung zu den Sendern fehlt und möglicherweise ein höheres Störstrahlungspotential vorliegt. Richtantennen haben mit ihrer Vorzugsrichtung meist einen Gewinn von ca. 10 dB gegenüber Rundstrahlern und ca. 10 dB Dämpfung für rückwärtig einfallende Signale. Diese Eigenschaft kann zum Abschwächen von Störquellen bei entsprechender Ausrichtung von Vorteil sein. Besonders hohe Sicherheit vermitteln sog. zirkular polarisierte Richtantennen für die Aussendung der Signale beim In-Ear-Monitoring. Antennenverstärker oder Booster kompensieren die Dämpfung von langen HF-Leitungen und von Verteilernetzwerken.

210 

 4 Mi­kro­fone und Lautsprecher

Die Wellenausbreitung im Frequenzbereich von 470 bis 1.805 MHz ist für körpernahe Sender die beste Wahl; die Funkfelddämpfung nimmt mit steigender Frequenz zu, die Reflektionsfreudigkeit an metallischen Strukturen ebenso. Bei Außenübertragungen sind die unteren Frequenzen wegen oft fehlender reflektierender Flächen um 500 MHz vorteilhaft, in Hallen haben die höheren Frequenzbereiche trotz höherer Funkfelddämpfung wegen  stärkerer Reflektionen kaum Nachteile. Abschattungseffekte und die Absorption von Funkwellen im Körper  steigen ebenso mit zunehmender Frequenz. Diese machen sich ab ca. 1.000 MHz deutlicher bemerkbar. 4.3.1.5 Empfänger Die HF-Eingangssignale am Empfänger sind großen Schwankungen unterworfen, wenn der Sender bewegt wird. 5 μV ist der kleinste Wert, der einen noch brauchbaren Störpegelabstand liefert, bei geringerer Spannung schaltet meist eine Rauschsperre – Squelch genannt – den NF-Ausgang ab (Mute). Nach oben findet man Werte bis 0,15 V entsprechend 150.000 μV, die bei zu geringem räumlichem Abstand zwischen Sender- und Empfangsantenne auftreten können, wobei das Risiko für Intermodulationsstörungen im Vielkanalbetrieb erhöht wird, besonders wenn gleichzeitig andere Empfänger des Systems  mit geringen Pegeln arbeiten  müssen. Die Übertragungssicherheit wächst, wenn extreme Werte vermieden werden. Die Antennenstandorte sind stets so zu wählen, dass kein Akteur sich ihnen weniger als ca. 4 m nähern kann. Der menschliche Körper verursacht ca. 20 dB Durchdringungsdämpfung, deshalb  sollten Antennen  möglichst ausreichend hoch angebracht werden, um eine  sog. „Radiosicht“ zu ermöglichen. Im Mittel soll der Bereich von ca. 100 bis 2.000 μV Eingangsspannung nicht verlassen werden. Bei Vielkanalbetrieb  sind große Unterschiede zwischen den empfangenen Pegeln die Hauptursache für Intermodulationsstörungen. Den täglichen Routineanforderungen auf der Bühne im Studio oder in der Außenübertragung werden Geräte mit hohem Intermodulationsabstand am besten gerecht. Werte ab 60 dB sind im professionellen Einsatz akzeptabel, hochwertige Empfänger erreichen ca. 86 dB. Der elektromagnetischen Verträglichkeit (EMV) kommt eine ständig wachsende Bedeutung zu. Auf der Bühne, im Studio oder an beliebigen Orten der Außenübertragung trifft der Anwender auf eine hohe Zahl digital arbeitender Hochfrequenzquellen  mit  starken Störsignalen, die  sich besonders in den Empfängern der Funkmi­kro­fone bemerkbar  machen können. DVB-T, DVB-H, Fernsehsignalgemische und Lichtwände, die aus Millionen getakteter LEDs mit breitbandigen Störspektren bestehen, erfordern sorgfältige Vorbereitung auf den Einsatz. Optimal sind fachkundige Messungen der HF-Situation während der Planung. Intermodulationsstörungen Intermodulationsstörungen treten auf, wenn gleichzeitig  mehrere Sender-Empfänger-Systeme betrieben werden, auch wenn diese im Einzelbetrieb störungsfrei arbeiten. Es können Zwitscher- und Pfeifgeräusche, auch Aussetzer entstehen, die unerklärlich erscheinen. Die Störungen entstehen dadurch, dass die Signale von Sender  I auch von Sender II empfangen und gemischt werden. Da die Signalverstärker nicht ideal linear arbeiten und die Filter nicht unendlich  steile Flanken haben, kommt es zu Mischprodukten aus den Frequenzen der beteiligten Systeme; es entstehen sog. Intermodulationsverzerrungen (siehe Kap. 9.2.2).

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 211

Dabei entstehen bei zwei Systemen mit den Frequenzen f1 und f2 neue Komponenten mit den Frequenzen m · f1 ± n · f2 mit m und n = 1, 2, 3… Während f1 ± f2 z. B. mit 501 MHz ± 500 MHz = 1.001  MHz bzw. 1  MHz ergibt und damit Signale  mit Frequenzen, die weitab liegen und nicht stören, ergeben z. B. die Signale mit 2 · 500 MHz - 1 · 501 MHz = 499 MHz ein neues Signal, das dicht bei den Signalen f1 und f2 liegt und damit Störungen, die sog. Intermodulationsstörungen 3. Ordnung, entstehen lässt. Eine zusätzliche Frequenz von 501 MHz entsteht aus 2  ·  501  MHz  –  500  MHz = 502  MHz. Kommen weitere Systeme hinzu, entstehen immer mehr neue Frequenzen und damit Störungen. Aus diesem Grund ist es ratsam, bei Mehrkanal-Setups die von den Herstellern vorprogrammierten Frequenz-Presets zu benutzen. Diese sind so berechnet. dass intermodulationsfreie Kombinationen zur Verfügung stehen. Müssen aus irgendeinem Grund die Frequenzen doch manuell gesetzt werden, hilft es, zunächst an den Rändern der zur Verfügung stehenden Frequenzbänder zu beginnen und  sich nach innen vorzuarbeiten. Diese Maßnahme lässt die Intermodulationen zunächst in der Mitte des Bandes auftauchen. Des Weiteren sollte man immer wiederkehrende, gleiche Frequenzabstände, wie beispielsweise 600, 601, 602, 603 MHz, vermeiden. Sicherheit bietet aber nur eine fachgerechte Berechnung oder die Nutzung der voreingestellten Presets. Hersteller von Funkmi­kro­fonen  stellen die dafür notwendige Software als kostenlosen Kundensupport im Internet zur Verfügung. 4.3.1.6 Diversity-Empfang Elektromagnetische Wellen erreichen die Empfangsantennen vielfach auf unterschiedlich langen Wegen mit allen möglichen Phasendifferenzen, denn außer dem direkten Weg erreichen  sie die Empfangsantenne auch auf Umwegen über Reflexionen an  metallischen Oberflächen. Die sich so überlagernden Reflexionen lassen an der Empfangsantenne durch gegenphasig eintreffende Signale auch Auslöschungen entstehen. Das häufig verwendete True Diversity-Verfahren kann diese Störungen beheben. Dabei werden zwei gleich aufgebaute Empfänger mit jeweils eigenen Antennen in räumlichem Abstand ständig hinsichtlich der HF-Eingangsspannung verglichen. Ein schneller Schalter wechselt bis ca. 1.000-mal pro Sekunde unhörbar zum jeweils stärker einfallenden Signal (Abb. 4/50). Aus Kostengründen eingesetzte Diversity-Verfahren mit nur einem Empfänger und zwei Antennen mit logischem

Abb. 4/50. True-Diversity-Empfang.

212 

 4 Mi­kro­fone und Lautsprecher

Umschaltverfahren sind dem True-Diversity in der Übertragungssicherheit unterlegen. Der Abstand zwischen den Antennen für True-Diversity beträgt für den besten Nutzen minimal 1/4 der Wellenlänge. Bei weitläufigen Aktionsflächen  sind größere Abstände nützlich, um Abschattungsrisiken zu verringern. Freie Frequenzen findet der Betreiber vor Ort am einfachsten durch die Abtastfunktion (Scan Mode) der Empfänger. Geeignete Frequenzkonfigurationen für den Mehrkanaleinsatz sind in vielen Geräten gespeichert. Alle Parameter von Multikanalsystemen werden zur besseren Übersichtlichkeit auf einem Rechnerbildschirm zusammengefasst und ggf. ferngesteuert. Mit der Einbindung in Rechnernetzwerke können die Anzeigeparameter wie NfAussteuerung, HF-Pegel, Senderbatteriezustand und Diversity-Umschaltung, aufgezeichnet und gleichzeitig an vielen Orten überprüft werden (Inspizientenpult, Backstage, Tonregie, Tonassistenz etc.), was die Betriebssicherheit erheblich verbessert und Optimierungen z. B. der Antennenstandorte erleichtert.

4.3.2 Drahtlose Audioübertragung mit digital modulierter HF-Übertragung Der Übergang von der Analog- zur Digitaltechnik in der Tontechnik vollzieht sich seit vielen Jahren  schrittweise auch im Bereich drahtloser Mi­ kro­ fone. Deutliche Verbesserungen im Klang standen zunächst im Gegensatz zu den Anforderungen der Lizenzierungsbehörden nach ökonomischer Verwendung von Hochfrequenzbandbreite. Die Übertragungssicherheit auf das gleiche Niveau zu bringen, das von der analogen Technik gesetzt worden war, schien schwer lösbar. Anfangs war zuverlässige, digitale Funkmi­kro­fontechnik für den professionellen LiveEinsatz zudem teuer. Die richtigen technischen Lösungen mit Bedienkomfort sind mittlerweile in voller Breite verfügbar. Die digitale Funkstrecke klingt nunmehr fast wie eine kabelgebundene Anwendung und die Bedienung ist für den Toningenieur  spürbar vereinfacht worden. Insbesondere die Wahl der passenden Funkfrequenzen und deren Programmierung erfolgt auf einfachste Weise. Alle Parameter sind per App vom Smartphone aus kontrollierbar. Die digitale Übertragung bedingte eine grundlegende Neuentwicklung von Sendern und Empfängern. Das Störrisiko durch Intermodulation und die damit verbundene IM-vermeidende Frequenzkonfiguration sind nicht länger nötig. Ein TV-Kanal von 8 MHz Breite kann effizienter als zuvor von Funkmi­kro­fonen belegt werden. Mit einem Frequenzabstand von jeweils 600 kHz oder 400 kHz je nach Geräteserie darf der Fernsehkanal ohne weiteres mit bis zu 13 bzw. 20 Strecken ausgenutzt werden. Mit Abstrichen bei der Sendeleistung und einem auf 15 kHz reduzierten Frequenzgang wären bis zu 40 Funkmi­kro­fonkanäle in einem TV-Kanal möglich. In der analogen Welt waren 8 Strecken üblich, nur in Sonderfällen darüber mehr. Carrier/Interference Eine besondere Stärke der analogen FM-Übertragung ist die Toleranz gegenüber Störungen im gleichen Übertragungskanal. Es zeigt sich, dass Digitalsysteme empfindlicher sind gegenüber störenden Aussendungen anderer Quellen, die in den Übertragungskanal fallen, z. B. Lichtsteuerungen oder Schaltnetzteile. Wie  stark ein Störer im Verhältnis zum Träger der Nutzinformation werden darf, bevor die Audioübertragung zusammenbricht und der Empfänger stattdessen den Störer überträgt, wird mit dem Begriff Capture Ratio erfasst. Dieses

­­­4.3 Einrichtungen für drahtloseMi­kro­f 

 213

gefürchtete „Umklappen“ ist für die analoge, frequenzmodulierte Übertragung bei etwa 2 dB C/I (Carrier/Interference) zu erwarten. Nimmt der Störpegel weiter zu oder der Nutzträger ab, bricht der Störer in die Übertragung ein, und das Nutzsignal wird unterdrückt. Dieser Effekt erfolgt nicht überraschend,  sondern kündigt  sich durch einen nachlassenden Rauschabstand S/N des Audio-Nutzsignals an. Bei zunehmender Störfeldstärke wird bei ca. 10 dB C/I in einer unmodulierten Übertragung erhöhtes Rauschen hörbar, mit ca. 5 dB C/I verbleibt etwa 40 dB Rauschabstand. Die digitale Übertragung dagegen hält den Rauschabstand > 100 dB und schaltet bei zunehmender Störfeldstärke übergangslos das Nutzsignal ab. Solche Unterbrechungen sind der größte Störfall; die Wahrscheinlichkeit, dass er eintritt, ist in der digitalen Technik im Live-Betrieb höher und unberechenbarer als bei analoger Übertragungstechnik. Abb.  4/51 veranschaulicht die Unterschiede der Übertragungsverfahren in digital unkomprimierter (a), digital komprimierter (b) und analoger (c) Übertragungstechnik. Der Signal-Störabstand S/N bleibt zunächst für alle Verfahren über einen weiten Feldstärkebereich hoch. Je höher die Datenrate, umso besser muss das Verhältnis von Träger zu Störfeldstärke (C/I) bleiben für eine unterbrechungsfreie Verbindung. Bei analogen Verfahren sinkt der Rauschabstand S/N in der Übertragung ab einem Schwellwert proportional zum  sich vermindernden Wert von C/I. Die digitale Übertragung hält den Rauschabstand S/N konstant hoch und bricht ab,  sobald die Feldstärke den Schwellwert unterschreitet. Was bei analoger Technik nur ein Aufrauschen erzeugt, führt bei digitaler Technik zu unvorhersehbaren Aussetzern. Mittlerweile ist das sog. error concealment, also die Verdeckung von drop outs deutlich verbessert worden. Ebenso vereinzelt aufgetretene Aussetzer, die  mit einer speziellen Raumarchitektur und dem daraus resultierenden Gemisch an Reflexionen zusammenhängen, stellen den Anwender nicht länger vor Schwierigkeiten. Manche Empfänger sind mit einer dritten Anzeige ausgestattet; neben der Aussteuerung und der Feldstärke gibt es den LQI (Link Quality Indicator), der die Aktivität der Fehlerkorrektur angibt und auf Empfangsprobleme hinweist, obwohl die Feldstärkeanzeige ausreichende Pegel ausweist. Die Ursache kann in schädlichen Reflexionen begründet sein. Veränderte Antennenpositionen können helfen. Typische Werte für Rauschen und Störungen, die die Grundlage für den darstellbaren HF-Dynamikbereich bilden, schwanken je nach Belastung der Umgebung mit HF-Störern. In freien Gebieten ist die Empfindlichkeit des Empfängers von ca. 0,5 µV die einzige Grenze. Bei großen Veranstaltungen mit Videowänden von mehreren hundert Quadratmetern, die von Multiplexsignalen gesteuert werden, sind breitbandige Störfeldstärken von 5 µV gemessen worden. Dieser „Störteppich“ erhöht die für einen sicheren Betrieb minimal erforderliche Empfangsfeldstärke. In Abb. 4/51 wäre der entsprechende Minimalpegel für komprimierte Digitalsignale mindestens 10 dB höher, also 16 µV. Der unkomprimierte Modus in der Grafik, hat unter diesen Bedingungen eine untere Grenze von 90 µV. Unterhalb dieser Feldstärke wird die Übertragung stumm geschaltet. Die Mehrwegeempfangssituation der Funkwellen kann Auslöschungen zur Folge haben, so dass eine entsprechende Reserve einzukalkulieren ist. Die Erprobung aller Gegebenheiten vor einer Veranstaltung bleibt unerlässlich.

214 

 4 Mi­kro­fone und Lautsprecher

Abb. 4/51. Zusammenhang des Nutz-Störspannungsverhältnisses S/N und des Verhältnisses Träger-Störfeldstärke C/I für die Übertragungsverfahren, a. digital unkomprimiert, b. digital komprimiert, c. analog.

Latenz Es ist bekannt, dass digitale Systeme allgemein auf Grund ihrer Komplexität Zeit benötigen, um die Signale zu verarbeiten, dies wird als Latenz bezeichnet. Bisher waren 3 bis 4 ms Latenz bei guter Übertragungssicherheit üblich. Einen großen Anteil verbraucht die Wandlung von analog in digital und zurück. Werte von unter 2 ms sind zum aktuellen Standard geworden, ohne die Betriebssicherheit einzuschränken. Die komplette Übertragungskette hat zusätzliche Latenzen im Mischpult und anderen Elementen der Signalverarbeitung und Übertragung. Für Live-Produktionen können Verzögerungen von ca. 10 ms und höher störend für manchen Künstler sein. Viele Bühnenschaffende haben die Vorteile des drahtlosen Monitorings über Ohrhörer (IEM) erkannt. Diese Technik verzichtet bislang überwiegend auf die Digitalisierung, weil sich die Beiträge zur Latenz kritisch erhöhen. Der Bluetooth Standard kommt für die Signalübertragung drahtloser Mi­kro­fone und in Ear-Monitoring im professionellen Umfeld nicht zum Einsatz kommen, da die Latenzen mit über 30 ms zu lange sind. Fernbedienung per Smartphone-App Alle Smartphones verfügen über eine Schnittstelle nach dem Bluetooth-Standard. Der verwendete Frequenzbereich 2.400  –  2.480  MHz ist weit entfernt von den Nutzfrequenzen der  meisten Funkmi­kro­fone (470  –  1.900  MHz) und  somit geeignet für die Fernbedienung aller Parameter von Empfänger und im Besonderen der Sender, die kein Display mehr benötigen. Einem Künstler z. B., der mit stummgeschaltetem Sender sich auf die Bühne bewegt, kann vom Pult aus ohne Aufsehen geholfen werden. Künftige Entwicklungen Der Einsatzbereich drahtloser Mi­kro­fone nimmt zu, die grundlegende Ressource freier Frequenzen jedoch nimmt ab. Frequenzeffizienz ist zunehmend gefragt und für die kommenden Jahre deutet sich eine andere Technik an.

4.4 Lautsprecher 

 215

Mit dem Übergang von Analog auf Digital haben Funkmi­kro­fone einen großen evolutionären Schritt gemacht. Ein weiterer Schritt steht bevor. Breitbandige Technologien, die im Mobilfunk bereits erfolgreich eingesetzt werden, können auch Einzug in die hochwertige Audioübertragung finden. Derzeit verwendet jedes Mi­kro­fon seine eigene Übertragungsfrequenz und jeder Sender benötigt einen eigenen Empfänger. Die Übertragung findet unidirektional  statt und ist verbindungslos – d. h. das Mi­kro­fon  sendet,  sobald es eingeschaltet wird, ohne vorher eine Verbindung zu einer Gegenstelle aufnehmen zu müssen. Dieser Mehrfachzugriff wird Frequency Division Multiple Access (FDMA) genannt, denn jedem Übertragungsweg wird eine Trägerfrequenz zugewiesen. Durch alternative Verfahren, wie das sog. Zeitschlitzverfahren − Time Division Multiple Access (TDMA) − lässt sich ein flexibleres, verbindungsorientiertes, bidirektionales System aufbauen. Alle Mi­kro­fone eines Systems arbeiten auf der gleichen Frequenz, teilen  sich jedoch die Zeit. Dadurch entstehen folgende Vorteile: –– Mit der Verwendung eines Breitbandkanals, beispielsweise ein gesamter 8  MHz TVKanals, wird das Problem der Auslöschung durch Mehrwegeempfang drastisch reduziert, weil die Wellenlängen nicht identisch  sind. Die Betriebssicherheit des Systems kann dadurch erhöht werden. –– Jedes Gerät ist ein Transceiver (Sender und Empfänger), es besteht eine permanente Kontrolle der Mi­kro­fone auch während einer Darbietung. –– Stationäre Geräte können  mehrere Mi­kro­fonsignale gleichzeitig empfangen, es wird nicht mehr ein Empfänger pro Funkstrecke benötigt. –– Drahtlose Kopfhörer sind ebenfalls im selben Kanal möglich. –– Der Quality of Service (QoS) in Form von Latenz, Audioqualität und Übertragungssicherheit kann in einem solchen System dem Bedarf der Künstler angepasst werden. Eine ideale Modulationstechnik für die Breitbandübertragung bietet die OFDM-Technik (Orthogonal Frequency Division Multiplexing). Sie gewährleistet eine effiziente Entzerrung der durch das frequenzselektive Fading entstandenen destruktiven Interferenzen. Die Zulassungsvorschriften sind kein Hindernis für diese Verfahren. In der harmonisierten ETSI-Norm ETSI EN 300 422 ist ein Kapitel zu Wireless Multichannel Audio Systems (WMAS) hinzugefügt worden, dessen neue Messvorschriften von vielen Regulierungsbehörden international bereits umgesetzt wurden.

4.4 Lautsprecher Lautsprecher sind elektroakustische Wandler, die elektrische Schwingungen in Schallwellen umwandeln [DIN EN 60268-5]. Mit dem Begriff Lautsprecher kann sowohl ein einzelnes Lautsprechersystem als auch eine Kombination mehrerer Lautsprechersysteme in einem gemeinsamen Gehäuse gemeint sein. Anordnungen zur Schallwiedergabe sind nur mit akustischen Schallführungen wie Schallwänden, Boxen oder Hörnern bzw. Trichtern qualitativ befriedigend realisierbar. [Stark, 2003], [Görne, 2007], [D’Appollito, 1999]

216 

 4 Mi­kro­fone und Lautsprecher

Lautsprecher werden nach mehreren Kriterien unterschieden: –– Wandlerprinzip: Man unterscheidet zwischen elektrodynamischen oder dynamischen Lautsprechern – dem wichtigsten Lautsprecherprinzip – und elektrostatischen Lautsprechern, in der Tonstudiotechnik keine Bedeutung haben piezoelektrische und magnetische Lautsprecher. –– Übertragungsbereich: Je nach Übertragungsbereich werden Breitbandlautsprecher, Tieftonlautsprecher, Mitteltonlautsprecher und Hochtonlautsprecher unterschieden, die jeweils ihre konstruktiven Besonderheiten haben. –– Schallabstrahlendes Element: Unterschiedliche Ausführungen der schallabstrahlenden Membran haben Konuslautsprecher, Kalottenlautsprecher, Flächenlautsprecher und Biegewellenlautsprecher. –– Antrieb der den Schall abstrahlenden Membran: Beim dynamischen Lautsprecher, auch elektro-dynamischen Lautsprecher, ist der zentrale Antrieb der steifen Membran (Konus- und Kalottenlautsprecher) oder der biegsamen Membran (Biegewellenlautsprecher) eine stromdurchflossene Tauchspule, die im Feld eines Dauermagneten schwingt. Beim Bändchenlautsprecher wird direkt eine  metallische Membran als Bändchen flächig im Magnetfeld beweg, sie wird auch als Magnetostat bezeichnet, weil wie beim Elektrostaten die gesamte Membran angetrieben wird. Beim elektrostatischen Lautsprecher, kurz Elektrostat oder ESL, wird die elektrostatische Anziehungskraft, die zwischen einer straff montierten Membranfolie und einer festen Gegenelektrode unter hoher konstanter Spannung und aufmodulierter Wechselspannung einwirkt, als Antrieb genutzt. –– Leistung und elektroakustische Qualität: Studio- oder Monitorlautsprecher, Beschallungslautsprecher, Kommandolautsprecher u. a. Für weitere umfangreiche Ausführungen zu Lautsprechern wird bezüglich Messungen an Lausprechersystemen auf Kap.  9.7 verwiesen, auf Kap.  10.3.1 in Zusammenhang  mit dem Einsatz bei der Beschallung und auf Kap.  19.6.1.5 zur auditiven Kontrolle und dem Abhör­ standard verwiesen.

4.4.1 Bauformen 4.4.1.1 Dynamische Lautsprecher Dynamische Lautsprecher arbeiten nach dem Prinzip der dynamischen Mi­kro­fone, jedoch in umgekehrter Richtung. Sie sind die am weitesten verbreiteten Wandler zur Wiedergabe von Musik und Sprache. Mit ihnen lassen sich im Gegensatz zu anderen Systemen verhältnismäßig einfach und wirtschaftlich große Schallpegel breitbandig bei relativ geringen Verzerrungen erzeugen. Der Wirkungsgrad ist außerordentlich gering, weil der Lautsprecher nahezu in einem akustischen Kurzschlussbetrieb arbeitet: der Membranschwingung wird ein  sehr geringer Luftwiderstand entgegengesetzt. Üblich sind Wirkungsgrade etwa zwischen 0,2 und 2 %, bei sehr hochwertigen Lautsprechern noch weniger, nur als Hornlautsprecher können Werte bis 10 % oder mehr erreicht werden, da hier über ein Schallhorn eine akustische Leistungsanpassung stattfindet. Verständlich, dass solche Werte keinen Eingang in Datenblätter finden. Eine Aussage über die erreichbare Lautstärke macht der Kennschalldruckpegel; er

4.4 Lautsprecher 

 217

gibt an, welchen Schalldruckpegel 1 W zugeführte elektrische Leistung in 1  m Entfernung vor dem Lautsprecher erzeugt, die Werte werden also in dB oder dBSPL angegeben; typische Werte liegen um 85 bis 95 dB entsprechend der Wirkungsgrade 0,2 bis 2 %. Fälschlicherweise wird der Kennschalldruckpegel oft als Wirkungsgrad bezeichnet. In ihrer Wirkungsweise beruhen dynamische Lautsprecher auf der Kraftwirkung, die ein von Strom durchflossener Leiter im Magnetfeld eines Dauermagneten erfährt. Diese Kraftwirkung wird zur Anregung von Membranen oder anderen zur Schallabstrahlung geeigneten Systemen genutzt. Zur Gruppe der dynamischen Lautsprecher gehören die Konus-, Kalotten-, Horn- und Bändchenlautsprecher  sowie verschiedene Flachmembranlautsprecher, dazu gehört der Biegewellenlautsprecher. Konuslautsprecher Abb.  4/52 zeigt den Querschnitt durch einen Konuslautsprecher, der  seinen Namen der konisch geformten Membran (10) verdankt. Die konische Form gibt der Membran die erforderliche Steifigkeit. Der Topfmagnet besteht aus dem Permanentmagneten (1), dem Joch (2), der Polplatte (3) und dem Polkern (4). Im Luftspalt, gebildet durch Polkern und Polplatte, befindet sich die auf den Schwingspulenträger (5) gewickelte Schwingspule (6), die von dem tonfrequenten Wechselstrom durchflossen wird. Hierdurch wird in der Spule ein  magnetisches Wechselfeld erzeugt, das im Zusammenwirken  mit dem permanenten Gleichfeld im

Abb. 4/52. Dynamischer Lautsprecher als Konuslautsprecher, 1 Permanentmagnet, 2 Joch, 3 Polplatte, 4 Polkern, 5 Schwingspulenträger, 6 Schwingspule, 7 Zentriermembran, 8 Staubschutzkalotte, 9 Schutzring, 10 Membran, 11 Sicken, 12 Litzen, 13 Lautsprecherkorb.

Luftspalt eine Bewegung der Schwingspule analog der Wechselspannung in Pfeilrichtung zur Folge hat. Die Schwingspule wird durch die Zentriermembran (7), eine radial steife, axial jedoch sehr weiche und nachgiebige Federmembran, geführt und in der Ruhelage gehalten. Die meist aus dünnem Pappguss, teils aus Kunststoffen oder Aluminium, auch mehrschichtige Membran (10) ist mit dem Schwingspulenträger fest verbunden und am äußeren Rand über konzentrisch verlaufende Sicken (11) oder über einen weichen Balg aus hochelasti-

218 

 4 Mi­kro­fone und Lautsprecher

schem Material im Lautsprecherkorb (13), der mit großen Durchbrüchen versehen ist, eingespannt. Eine Kalotte zum Staubschutz (8) und der Schutzring (9) verhindern das Eindringen von Fremdkörpern in den Luftspalt. Über die sehr flexiblen Litzen (12) erhält die Schwing­ spule den Wechselstrom des Tonsignals. Konuslautsprecher eigenen  sich als Tief- und Mitteltöner  sowie als Breitbandlautsprecher. Der Frequenzbereich des abgestrahlten Schalls ist nach tiefen Frequenzen hin durch die Resonanzfrequenz der Membran begrenzt. Man legt daher diese Resonanzfrequenz, die  sog. Eigenresonanz des Lautsprechers, an das untere Ende des Übertragungsbereichs, erreicht wird das u. a. durch eine sehr flexible Membranaufhängung. Bei  mittleren und höheren Frequenzen  schwingt die Membran nicht  mehr in ihrer Gesamtheit. Die Schwingspule regt vielmehr konzentrische Biegeschwingungen an, die vom Membranrand teilweise reflektiert werden, und so bildet sich eine komplexe Schwingungsverteilung aus. Dabei entstehen kreisförmige Knotenlinien zwischen ringförmig und  mit unterschiedlichen Phasen  schwingenden Zonen  mit partiellen Auslöschungen und Überlagerungen; bei  sehr hohen Frequenzen  schwingt praktisch nur noch die innerste Mem­ branzone. Dies wirkt sich ungünstig auf den Frequenzgang und die Richtcharakteristik aus. Man begegnet dem durch eine spezielle Formgebung der Membran, der sog. Nawi-Membran (Nicht abwickelbar). Sie weicht mit einem hyperbolischen Querschnitt von der Form eines Konus ab und erhält so eine größere Steifigkeit. Kalottenlautsprecher Der Kalottenlautsprecher ist im Wesentlichen ein Konuslautsprecher ohne Korb und Konusmembran, der Schall wird nur über die Kalotte abgestrahlt (Abb. 4/53. Die Kalotte mit angepressten Sicken (7) ist aus einem hinreichend steifen Material mit hoher innerer Dämpfung hergestellt. Ihr Durchmesser ist in den meisten Fällen kleiner als die zu übertragende Wellenlänge.

Abb. 4/53. Dynamischer Lautsprecher als Kalottenlautsprecher, 1 Ringmagnet, 2 Magnetplatte, 3 Polplatte, 4 Polkern, 5 Schwingspule, 6 Schwingspulenträger, 7 Kalotte mit Sicken, 8 Montageplatte, 9 Zuführungslitze.

Die Kalotte schwingt im gesamten Übertragungsbereich kolbenförmig, Partialschwingungen der Kalotte treten praktisch nicht auf. Die Abstrahlung erfolgt in einem breiten Winkelbereich gleichmäßig und gleichphasig. Kalottenlautsprecher werden deshalb bevorzugt als

4.4 Lautsprecher 

 219

Hochtonlautsprecher bei einem Kalottendurchmesser von 20 bis 25  mm eingesetzt. Aber auch für den Mitteltonbereich bis hinunter zu 400 Hz eignen sich Kalottenlautsprecher mit etwa 60 mm Durchmesser der Kalotten. Wegen der geringen Abmessungen der schwingenden Membran und der großen Luftspaltlänge sind besonders starke Permanentmagnete zur Erzeugung einer großen Luftspaltinduktion notwendig, um einen den Konuslautsprechern entsprechenden Wirkungsgrad zu erzielen. Kalottenlautsprecher dienen auch als Schallwandler von Hornlautsprechern. Hornlautsprecher Ein Kalottenlautsprecher, der über einen genau definierten, im Querschnitt zunehmenden Schalltrichter, dem Horn, an den umgebenden Raum angekoppelt wird, ist ein Hornlautsprecher, auch einfach Horn. Diese Form der Schallabstrahlung nutzten Blechblasin­ strumente seit der Zeit der ägyptischen Pharaonen, Megafone u. a.; immer geht es darum, Töne möglichst laut abzustrahlen. Hörner sind akustische Impedanzwandler, die die hohe akustische Impedanz  mechanischer Schwingungen, hier des Lautsprechersystems, an die niedrige Impedanz des umgebenden Raums anpassen und damit neben anderen Effekten durch Leistungsanpassung den Wirkungsgrad etwa verzehnfachen. Das Horn transformiert − vereinfacht gesagt − eine kleinere Fläche, die  mit größerer Amplitude  schwingt, in eine größere Fläche, die mit kleinerer Amplitude schwingt (Abb. 4/54). Die effektivste Form des Trichters ist das Exponentialhorn, eine Schallführung (siehe dazu Kap. 4.4.1.3), deren Querschnittsflächen pro Längeneinheit um einen konstanten Prozentsatz zunehmen. Dies ergibt einen Querschnitt entsprechend einer Exponentialfunktion. Diese Anordnung stellt einen akustischen Hochpass dar mit großer Flankensteilheit; seine untere Grenzfrequenz  sinkt  mit größer werdender Trichteröffnung. Das bedeutet, dass für tiefe Frequenzen sehr ausgedehnte Hörner notwendig sind, die in Studios und Wohnräumen nicht realisierbar  sind; hier können nur Hochtonsysteme als Hornlautsprecher verwendet werden. Mehrere nebeneinander angeordnete Hörner, wie sie bei großen Beschallungen verwendet werden, haben dieselbe Wirkung wie ein einzelnes Horn gleicher Gesamtgröße. Die Aufstellung in einer Raumecke verbessert die Wiedergabe tiefer Frequenzen erheblich. Bei rechteckigen Querschnitten kann das Horn mit akzeptablen Einschränkungen der Klangqualität zu einem sog. Falthorn werden, das in einem Gehäuse Platz findet. Neben dem Exponentialhorn gibt es weitere Hornformen. Eine Variante ist der Hornlautsprecher  mit Druckkammer, der Druckkammerlautsprecher, bei dem zwischen einer größeren Membran des Kalottenlautsprechers und dem eigentlichen Horn eine Druckkammer eingefügt wird (Abb. 4/54, 2), die den Wirkungsgrad nochmals erhöht; dieser Lautsprecher eignet  sich besonders für Alarm und Ansagen für große Flächen wie Stadions und für Verkehrsflächen wie Flughäfen und Bahnhöfe. Ein großer Vorteil des Hornprinzips ist, dass die Lautsprechermembran infolge der Transformation der Impedanz  sehr viel  stärker belastet wird und deshalb weniger weit ausschwingt. Somit produziert das Hornsystem geringere lineare Verzerrungen und – ein besonderer Vorteil – wesentlich geringere Intermodulationsverzerrungen. Die  systembedingte starke Schallbündelung und Richtwirkung spielt vor allem dort eine Rolle, wo Schall gezielt abgestrahlt werden  soll und/oder wo bestimmte Flächen nicht oder nur gering beschallt werden  sollen. Bei der professionellen Beschallung großer Flächen von Stadien

220 

 4 Mi­kro­fone und Lautsprecher

oder Sälen  sind Hornlautsprecher unverzichtbar; breitbandige Hörner werden auch als Musikhörner bezeichnet.

Abb. 4/54. Horn eines Hornlaut­ sprecher, 1 Membran des Kalottenlautsprechers, 2 Druckkammer, 3 Trichterhals, 4 Schalltrichter.

Bändchenlautsprecher Der Bändchenlautsprecher greift das Wandlersystem des Bändchenmi­kro­fons auf (siehe Kap.  4.2.3.2),  seine Funktionsweise ist jedoch die umgekehrte Richtung. Anstelle der  spulengetriebenen Membran schwingt ein Bändchen im Feld des Dauermagneten und wird als Ganzes angetrieben; man bezeichnet diesen Lautsprechertyp auch als Magnetostat in Anlehnung an den Elektrostaten (s. u.), wo ebenfalls die gesamte Membran angetrieben wird. Das Bändchenmi­kro­fon eignet sich besonders als Hochtonlautsprecher mit Bändchen von z. B. 25 mal 80 mm, als Mitteltöner hat das Bändchen die Maße von z. B. 60 mal 200 mm. Das Bändchen ist  senkrecht eingebaut, dadurch entsteht eine Richtcharakteristik, die horizontal breiter, vertikal jedoch schmäler ist; so wird in einem Raum etwas mehr Direktschall erzeugt und Reflexionen an Decke und Boden werden verringert. Der Lautsprecher soll deshalb nicht gekippt aufgestellt werden. Da das Bändchen aus Aluminium eine  sehr geringe Impedanz hat, muss ein Anpassverstärker oder Transformator vorgeschaltet werden. Normale Impedanz haben die sog. Folienmagnetostaten, bei denen das Bändchen aus einer Kunststofffolie  mit langen aufgeprägten Leiterbahnen besteht. Als Air-Motion-Transformer ist das Bändchen nach Art einer Ziehharmonika gefaltet und kann so bei geringerer Bewegung mehr Luft in Schwingungen versetzen. Biegewellenlautsprecher Im Gegensatz zum Konuslautsprecher, bei dem die Membran, die von einem elektrodynamischen Wandler angetrieben wird, steif sein muss, sind die Membranen von Biegewellenlautsprechern elastisch. Die Anregung in der Mitte der Membran führt zu Biegewellen, die von der Membranmitte nach außen laufen. Diese Wellen verlaufen auf der Membran also wie die Welle auf einer Wasseroberfläche, wenn man einen Stein ins Wasser wirft. Am Rand soll die

4.4 Lautsprecher 

 221

Membran mit ihrem Wellenwiderstand abgeschlossen werden, damit keine Wellen reflektiert werden. Der Biegewellenlautsprecher hat einen relativ breitbandigen Übertragungsbereich. Ein geringer Wirkungsgrad und bei höheren Pegeln eintretende Verzerrungen wurden diesem Konzept mitunter nachteilig angelastet, spielen aber bei moderneren Entwicklungen keine Rolle mehr. Das Prinzip lässt sich auch anwenden auf große Flächen, die mit mehreren Systemen angeregt werden. 4.4.1.2 Elektrostatischer Lautsprecher Bei elektrostatischen Lautsprechern − abgekürzt ESL − geht die Kraftwirkung von elektrisch entgegengesetzt geladenen Platten oder Membranen aus, die sich bei gleich gepolter Ladung gegenseitig anziehen bzw. bei entgegengesetzter Ladung abstoßen; elektrostatische Lautsprecher stellen also Kondensatoren dar. Die Anordnung besteht aus zwei festen Gitterelektroden (Statoren) und einer beweglichen Membran dazwischen (Abb.  4/55). Die Kraft, die auf die bewegliche Elektrode bzw. Membran ausgeübt wird, ist dem Quadrat der angelegten Spannung direkt und dem Quadrat des Elektrodenabstands umgekehrt proportional. Für den Betrieb ist eine hohe Vorspannung von einigen kV Gleichspannung erforderlich, damit die Tonsignalspannung im Vergleich klein ist. Der Abstand der Elektroden, der zur Vermeidung eines Aufschlagens der Membran relativ groß gewählt werden muss, fordert eine große Signal­­spannung bis zu einigen 100 V. Nur so ist eine ausreichende Kraftwirkung zu erzeugen. Bei großen Amplituden werden Abstände der Membran zu den beiden Elektroden deutlich ungleich, dadurch entstehen nichtlineare Verzerrungen.

Abb. 4/55. Prinzip des elektrostatischen Lautsprechers.

222 

 4 Mi­kro­fone und Lautsprecher

Für den Tieftonbereich ist der elektrostatische Lautsprecher weniger geeignet, was der aufwändigen Betriebsschaltung  mit der hohen Vorspannung und dem begrenzten Mem­ branausschlag im tieferen Frequenzbereich zuzuschreiben ist. Bereits im mittleren Frequenzbereich strahlt der Lautsprecher den Schall stark gebündelt ab, was bei der Stereowiedergabe zu sehr begrenzten Hörflächen, sog. Sweet Spots, führt, was durch unterschiedliche Lösungen wie eine gebogene Anordnung oder eine Segmentierung und weitere Entwicklungen verbessert wurde. Der Wirkungsgrad ist sehr gering; so werden für leistungsstarke Lautsprecher erhebliche Membrangrößen notwendig; es wurden Lautsprecher bis 2  m2 Membranfläche konstruiert. Ein weiteres Problem ist die bipolare Schallabstrahlung, also gleichzeitig nach vorn und hinten mit um 180° verschobener Phase, was zu einem akustischen Kurzschluss besonders bei tieferen Frequenzen führt. Wegen der sehr leichten Membran zeigt der Lautsprecher aber ein ausgezeichnetes Impulsverhalten; er kann auch sehr hohe Frequenzen bis 100 kHz wiedergeben. Meist wird der sehr flache Lautsprecher er mit einem Konuslautsprecher in einer Lautsprecherbox für die Bässe kombiniert. Generell konnte sich dieses Prinzip nicht in größerem Umfang durchsetzen, hat aber bei Liebhabern als Elektrostat oder ESL einen gewissen legendären Ruf. 4.4.1.3 Akustischer Kurzschluss und Lautsprecherboxen Bewegt sich die Membran eines Lautsprechers gemäß Abb. 4/56 in Pfeilrichtung, entsteht vor dem Lautsprecher eine Zone mit Überdruck, auf seiner Rückseite eine Zone mit Unterdruck. Ist der Membrandurchmesser klein gegen die Wellenlänge des abzustrahlenden Schalls, so gleichen sich die Zonen von Über- und Unterdruck über den Lautsprecherrand aus. Es entsteht ein sog. akustischer Kurzschluss, der Schall wird vernichtet; dadurch wird bei tiefen Frequenzen praktisch kein Schall mehr abgestrahlt.

Abb. 4/56. Akustischer Kurzschluss (a.) und seine Unterdrückung durch eine Schallwand (b.).

Zur Vermeidung dieses Kurzschlusses ist eine Schallführung erforderlich. In der einfachsten Form besteht sie aus einer Schallwand (Abb. 4/56, b), die bei ausreichender Größe den Druckausgleich verhindert. Die gebräuchlichsten Schallführungen sind hinten offene Gehäuse, die abgeknickte Schallwände darstellen, allseitig geschlossene Gehäuse wie bei Studio- und

4.4 Lautsprecher 

 223

Hi-Fi-Lautsprecherboxen und Hörner (siehe Kap. 4.4.1.1); zur Verbesserung der Abstrahlung tiefer Frequenzen werden Resonanzboxen oder Bassreflexboxen mit tief liegender Eigenresonanz und Boxen mit abgestimmter akustischer λ/4-Leitung, sog. Transmission-Line-Boxen verwendet. Wird ein Lautsprecher in eine sehr große Wand eingebaut, so sind die zwei Schallfelder auf beiden Membranseiten getrennt; die abgestrahlte Leistung wird bis zur Grenzfrequenz f0 hinab nur von den Eigenschaften des Lautsprechers bestimmt. In der Praxis sind unendliche Schallwände nicht notwendig, da Frequenzen unter 30 Hz nicht abgestrahlt werden müssen. Bei einer Grenzfrequenz f0 von 30  Hz für die Schallabstrahlung  sollte die Schallwand bei etwa  mittigem Einbau des Lautsprechers eigentlich einen Durchmesser von 6  m haben. Unterhalb der Grenzfrequenz f0 fällt der Frequenzgang mit 6 dB/Oktave ab. Allgemein gilt für die Mindestgröße einer Schallwand: f0 = Grenzfrequenz [Hz] c = Schallgeschwindigkeit = 340 m/s d = kürzester Abstand zwischen Lautsprecher und Schallwandkante [m] Wird der Lautsprecher nicht genau in die Mitte einer Schallwand eingesetzt, so verteilen sich die Frequenzgangeinbrüche. Der Tiefenabfall von 6 dB/Oktave bei nicht ausreichend großer Schallwand kann teilweise durch höhere Lautsprecherleistung in diesem Frequenzbereich ausgeglichen werden. Die Eigenresonanz des Lautsprechers soll dabei möglichst tief liegen. Unterhalb der Lautsprechereigenresonanz fällt der Pegel zusätzlich mit 12 dB/Oktave ab. Für Studiolautsprecher und Hi-Fi-Lautsprecher werden jedoch geschlossene Lautsprecherboxen verwendet. Bei ihnen wird das vom Lautsprecher nach hinten abgestrahlte Schallfeld durch absorbierendes Material vernichtet, akustischer Kurzschluss ist ausgeschlossen. Dafür  müssen Gehäuseresonanzen  sowie die durch die erhöhte Rückstellkraft des eingeschlossenen Luftvolumens heraufgesetzte Lautsprecherresonanz bedämpft werden. Das zu übertragende Frequenzband wird bei Studiolautsprechern und qualitativ anspruchsvolleren Lautsprecherboxen für den Heimtonbereich auf zwei (Zweiwegebox) oder drei Lautsprecher (Dreiwegebox) aufgeteilt. Damit sind die folgenden Vorteile verbunden: Es können Lautsprechersysteme verwendet werden, die in ihrem Frequenzgang, Wirkungsgrad und Schallbündelungsverhalten auf ein bestimmtes Frequenzband optimiert sind; weiterhin können Klangrauigkeiten und Intermodulationsverzerrungen dadurch wesentlich minimiert werden. Diese Übertragungsfehler kommen in einem Breitbandlautsprecher dadurch zustande, dass hohe und tiefe Frequenzen gleichzeitig von demselben Lautsprechersystem abgestrahlt werden. Zur Abstrahlung der höheren Frequenz bewegt sich die Membran mit kleiner Amplitude, zur Abstrahlung der tieferen Frequenz mit größerer Amplitude; die Gesamtbewegung ist derjenigen einer angeschlagenen Glocke ähnlich. Durch den dabei auftretenden Dopplereffekt wird die höhere Schwingung frequenzmoduliert, der höhere Ton wirkt rau, es entstehen Intermodulationsverzerrungen, die sehr störend wirken können, da Summen- und Differenztöne der Frequenzkomponenten entstehen. Bei Studio- oder Regielautsprechern werden mehrere Lautsprechersysteme kombiniert, ein Tieftöner, ein Mitteltöner und ein oder zwei Hochtöner. Die für die einzelnen Lautsprecher vorgesehenen Frequenzbänder werden bei Studiolautsprechern elektronisch ausgefiltert, verstärkt und den Lautsprechersystemen zugeführt. Der Lautsprechereingang ist für 6 dBu

224 

 4 Mi­kro­fone und Lautsprecher

ausgelegt. Lautsprecherboxen mit integrierten Verstärkern und Frequenzweichen benötigen eine eigene Stromversorgung, sie werden als Aktivboxen bezeichnet. 4.4.1.4 Regielautsprecher Regielautsprecher, auch Studiolautsprecher, Studiomonitore o. ä. genannt, sind Studio-Abhöreinrichtungen, die aus Lautsprechersystemen in einem Gehäuse einschließlich Verstärkern und Frequenzweichen bestehen und höchste Qualitätsanforderungen erfüllen, insbesondere bezüglich des Frequenzgangs, der Richtcharakteristik, nichtlinearer Verzerrungen u. a. Sie sollten stets den neuesten Stand der Entwicklung repräsentieren. Zur rein messtechnischen Bewertung kommt bei Lautsprechern wie bei Mi­kro­fonen stets auch eine subjektive Bewertung, in die die komplexen messbaren und nicht messbaren Eigenschaften eingehen. Die Anforderungen an Regielautsprecher sind in internationalen Empfehlungen erfasst, zu Details siehe ausführlich Kap.  19.6. Beschallungslautsprecher für die Bühnenbeschallung werden auch Monitorlautsprecher genannt: an sie werden solche Anforderungen nicht gestellt. Für eine hohen Anforderungen entsprechende Abhörsituation genügt es allerdings nicht, die Eigenschaften der Lautsprecher zu definieren, ebenso  muss die akustische Umgebung hohen Anforderungen genügen, insbesondere der Abhörraum und seine geometrische Form und seine akustischen Eigenschaften, die Aufstellung der Lautsprecher, der Abhörpegel und weitere Parameter, Details hierzu  siehe Kap.  19.6.1.5. Besondere Aufmerksamkeit hinsichtlich der Anordnung der Lautsprecher erfordert die Abhörsituation bei Mehrkanalstereofonie, siehe dazu Kap. 5.4.1.

4.5 Kopfhörer Für die auditive Kontrolle bei Aufnahmen und Übertragungen sind Kopfhörer im Tonstudio­ bereich verhältnismäßig  selten in Verwendung, Ausnahmen  sind akustisch ungeeignete, auch lärmbelastete Abhörsituationen bei Außenaufnahmen mit ungeeigneten Abhörräumen. Bei Musikgruppen, die mit Verstärkeranlagen arbeiten, und im Consumerbereich haben sie dagegen weite Verbreitung gefunden. Hinsichtlich ihrer elektroakustischen Eigenschaften  stehen gute Kopfhörer Studiolautsprechern nicht nach; hohe Qualität ist bei Kopfhörern  mit vergleichsweise geringem Aufwand realisierbar. Ein weiterer Vorteil ist die vollständige Unabhängigkeit beim Abhören mit mehreren Personen von den Eigenschaften des Wiedergaberaums und der Abhörplätze. Damit sind einheitliche Abhörsituationen praktisch nur mit Kopfhörern realisierbar, im Gegensatz zu Lautsprecherwiedergabe auch gleichzeitig für viele Zuhörer. Da hohe Lautstärken problemlos dargeboten werden können, kann eine große Dynamik verwirklicht und auch adäquat gehört werden. Schließlich wird das Hörerlebnis mit Kopfhörern als besonders intensiv empfunden. Diesen Vorteilen  stehen eine Reihe von Nachteilen gegenüber, die den Gebrauch im Tonstudio erheblich einschränken: Der Höreindruck bei Kopfhörerwiedergabe unterscheidet sich grundsätzlich von dem bei Lautsprecherwiedergabe. Wird nämlich beiden Ohrhörsystemen dasselbe Signal zugeführt – dies entspricht einem Mono- oder Stereomittensignal – nimmt der Zuhörer bei Kopfhörerwiedergabe den Ort der Schallquelle in der Mitte im Kopf

4.5 Kopfhörer 

 225

wahr, bei Pegel- und/oder Laufzeitdifferenzen seitlich verschoben. Bei Lautsprecherwiedergabe hingegen wird die Schallquelle im Lautsprecher bzw. bei zweikanaliger Wiedergabe etwas erhoben in der Mitte zwischen den Lautsprechern, also vor dem Zuhörer, lokalisiert, bei Pegel- und/oder Laufzeitdifferenzen  seitlich verschoben. Bei reiner Intensitätsstereofonie und Kopfhörerwiedergabe werden die Seitenschallquellen unnatürlich dicht an den beiden Ohren gehört. Kopfhörer- und Lautsprecherwiedergabe unterscheiden sich also deutlich in der Wiedergabe der wahrgenommenen Schallquellenorte. Im Detail wird dazu auf Kap. 5.5.5 verwiesen, ebenda wird hier die Problematik der Frequenzgangs von Kopfhörern und seiner Messung besprochen. Erste Normen für Kopfhörer im Hi-Fi-Sektor (DIN 45500)  stammen aus den 1960er Jahren, sind aber nicht mehr zeitgemäß. Sie wurden 1996 durch die IEC 61305-1 bzw. DIN EN 61305, Hi-Fi-Geräte und ‑Anlagen für den Heimgebrauch, ersetzt, die nur noch Verfahren zur Messung und Angabe der Leistungskennwerte enthält, aber keine qualitativen Mindestanforderungen  mehr, da die ursprünglich genormten Anforderungen inzwischen auch von einfachen Geräten erfüllt werden können. Für den Studiobereich wurden deshalb neue Standards erarbeitet und in ITU-Empfehlungen [ITU-R BS.708] gefasst. Außer den Anforderungen an den Frequenzgang, der nicht auf das Direkt- oder Freifeld für Schalleinfall von vorne, sondern auf das Diffusfeld, also für gleichzeitig allseitig einfallenden Schall bezogen wird, musste insbesondere das Messverfahren mit Verwendung von Sondenmi­kro­fonen im Gehörgang definiert werden, da der Kopfhörer zusammen mit dem Außenohr eine Einheit darstellt und andere akustische Bedingungen bietet als die Lautsprecherwiedergabe mit offenem Ohr. Es sei darauf hingewiesen, dass die Verwendung des Begriffs Studiokopfhörer o. ä. nicht an die Erfüllung der genannten besonderen Empfehlungen gebunden ist. [Theile, 2015] Kopfbezogene binaurale Übertragung ist ein Tonübertragungssystem, das aufnahmeseitig mit einem Kunstkopf – deshalb auch Kunstkopf-Verfahren genannt – und wiedergabeseitig mit diffusfeldentzerrten Kopfhörern arbeitet. Bei diesem eigenständigen, qualitativ hervorragenden Verfahren kommen ausschließlich Kopfhörer zum Einsatz. Das Verfahren wird in Kap. 5.5.5.1 f. beschrieben.

4.5.1 Bauformen von Kopfhörern Ein Kopfhörer besteht aus zwei elektroakustischen Wandlern, verbunden  mit einem zur Anpassung an die individuelle Kopfform verstellbaren Kopfbügel. Die Anordnung wird durch leichtes Anklemmen am Kopf des Zuhörers gehalten. Da es auch spezielle Ausführungen mit nur einem Hörer gibt, wird die beschriebene Bauform normgemäß [DIN 45580] und exakt als sog. Doppelkopfhörer bezeichnet. Als Wandlersysteme finden elektrodynamische Wandler Verwendung, selten magnetische oder elektrostatische. Man unterscheidet zwischen offenen,  sog.  supraauralen, und geschlossenen,  sog. circumauralen Kopfhörern. Bei den offenen oder halboffenen Hörern liegen die Wandler auf den Ohrmuscheln auf, oder die Wandler werden durch sog. Ohrkissen, einer akustisch voll durchlässigen Schaumstoffzwischenlage, in definiertem Abstand zu den Ohrmuscheln

226 

 4 Mi­kro­fone und Lautsprecher

gehalten. Der Benutzer offener Kopfhörer ist gegen Schall aus dem umgebenden Raum nur wenig abgeschirmt; erst oberhalb 5 kHz wird Fremdschall um etwa 10 dB bedämpft. Der geschlossene Kopfhörer umschließt das gesamte äußere Ohr mit einem kalottenförmigen Gehäuse, das über einem weichen Dichtungsrand am Kopf anliegt. Es wird daher kein Druck auf die Ohrmuscheln ausgeübt. Die typische Schalldämmung geschlossener Kopfhörer gegen Außengeräusche steigt von etwa 5 dB bei 100 Hz auf 40 dB bei 10 kHz. Beim geschlossenen Kopfhörer sind die Wandler sehr definiert über ein vorgegebenes Volumen an das Ohr angekoppelt, während beim offenen Hörer die Systeme mehr oder weniger frei abstrahlen. Geschlossene Kopfhörer verhindern den akustischen Kurzschluss, der bei offenen Hörern durch aufwändigere Konstruktionen ausgeglichen werden muss. Eine Sonderform ist der Ohrhörer, ein sog. In-Ohr-Kopfhörer oder engl. in Ear-Monitor. Das Wandlersystem wird hier in eine Silikon- oder Schaumstoff-Ohrplastik (Otoplastik) eingearbeitet, es wird in den Gehörgang eingeschoben und sollte bei professioneller Verwendung individuell angepasst werden. Das in Ear-Monitoring (IEM), wie das Beschallen bzw. Abhören mit solchen Hörern bezeichnet wird, wird in jüngster Zeit vorwiegend an Stelle konventioneller Kopfhörer bei der der Beschallung der Musiker vor allem bei Live-Beschallungen eingesetzt. In Verbindung mit drahtlosen Übertragungssystemen bietet es große Vorteile im praktischen Betrieb (siehe Kap. 4.5.3). Die weiteste Verbreitung als Wandler bei Kopfhörern haben die elektrodynamischen Systeme gefunden. Ihre Wirkungsweise entspricht derjenigen von dynamischen Lautsprechern (siehe Kap.  4.4.1.1). Sie zeichnen  sich durch gute Übertragungseigenschaften aus. Mit sehr kleinen elektrischen Leistungen lassen sich große Lautstärken bei geringen Verzerrungen erzeugen; bereits mit 1 mW elektrischer Leistung kann ein Schalldruck von 1 Pa bzw. 94 dBSPL am Ohr erreicht werden. Elektrostatische Kopfhörersysteme arbeiten nach dem gleichen Prinzip wie elektrostatische Lautsprecher (siehe Kap. 4.4.1.2). Die Übertragungseigenschaften sind ausgezeichnet. Jedoch erfordert die Bereitstellung der notwendigen Kondensatorvorspannung von mehreren hundert Volt, die auch z.  B. aus dem niederfrequenten Nutzsignal gewonnen werden kann, gegenüber den anderen Systemen einen erheblich größeren technischen Aufwand und damit auch höhere Kosten.

4.5.2 Einrichtungen für drahtlose Kopfhörer Akteure auf der Bühne oder Backstage, aber vor allem Musiker und Sänger benötigen für das  musikalische Zusammenwirken  mit ihren Partnern bei hohen Anforderungen an ihre Mobilität eine  spezielle Abmischung, den Monitormix, vom Mischpult. Dieser kann über Monitorlautsprecher auf der Bühne realisiert werden, drahtlos in Stereo auf Kopfhörer oder bevorzugt und weitgehend unsichtbar über Ohrhörer in das Ohr. Für die Akteure bei Film, Funk und Fernsehen ist diese Kommunikationsmethode seit vielen Jahrzehnten als „Rückkanal“, „Talk back“ oder auch „Reportercue“ in Mono für ein Ohr im Einsatz. In vielen Musikgenres vor allem bei sich bewegenden Künstlern ist die zuverlässige Funktion der drahtlosen HF-Übertragung überhaupt Bedingung für die Qualität des Zusammenspiels. Die Übertra-

4.5 Kopfhörer 

 227

gungssituation ist kritischer einzuschätzen als die der Funkmi­kro­fone (siehe hierzu auch Kap. 4.3), weil die Empfänger meistens keinen True Diversity-Empfang haben. Auf Bühnen wird heute die Beschallung mit Bühnen- oder Monitorlautsprechern, die oft  schwierige Bedingungen für die Tontechnik und die Musiker darstellen, zunehmend durch das in Ear-Monitoring oder IEM oder Wireless Monitoring ersetzt. Im Gegensatz zu Bühnenlautsprechern treten hier keine Rückkopplungen auf, und die Akteure erhalten ein präzises und konstantes, vom Standort auf der Bühne unabhängiges Hörbild. Zudem ist ein in Ear-Set, das neben den Ohrhörern aus einer Sendestation und einem am Körper zu tragendem Empfänger (Bodypack) besteht, wesentlich leichter zu transportieren und zu installieren ist als eine herkömmliche Monitoranlage aus Lautsprechern. Nachteilig ist die Tatsache, dass der Klangeindruck bei Bewegung oder Drehung nicht entsprechend der Raumsituation  mitgeht, was zu Orientierungsschwierigkeiten im Raum führen kann. Mancher Künstler fühlt sich zu sehr vom Publikum entkoppelt und benötigt die Einspielung in seinen Monitormix. Spielt das optische Auftreten der Künstler keine Rolle wie etwa bei Studioaufnahmen, so sind geschlossene kabelgebundene Kopfhörer vorteilhafter. Vielfach wird gleichzeitig zum Ear-Monitoring-Empfänger am Körper in direkter Nähe ein Hand- oder Taschensender des drahtlosen Mi­kro­fons betrieben, eine kritische Situation, die durch den  sog. Blockingeffekt gefährdet ist. Der IEM-Empfänger verliert an Empfindlichkeit, und eine akzeptable Qualität der Übertragung mit gutem Störabstand ist auf nur wenige Meter Entfernung zur Ear-Monitoring-Sendeantenne beschränkt. Die Durchführung der Messung des Blocking zeigt Abb. 4/57. Der unmodulierte Sender wird im Pegel so weit angehoben, bis der Störabstand des Empfängers von ca. 20 dB, bedingt durch das geringe Signal des Senders von 1,5 μV auf 10  dB abgesunken ist. Das Pegelverhältnis der beiden Sender gibt den Wert für das Empfängerblocking an: 15 mV : 1,5 μV = 10.000 entsprechend 80 dB. Blocking wird durch einen Frequenzabstand von mindestens 8 MHz zwischen dem Mi­kro­fonsender und der Ear-Monitoring-Strecke weitgehend vermieden. Eine klare Abgrenzung der Systeme gewährleistet sicheren Betrieb.

Abb. 4/57. Messung des Blocking.

228 

 4 Mi­kro­fone und Lautsprecher

Beim Einsatz von mehr als zwei Kanälen entstehen leicht Intermodulationsstörungen, weil HF-Leistung in die Ausgangsstufen der  stationären Sender eindringt und neue Träger  mit doppeltem Hub und Audiofrequenzverdopplung entstehen (Birdies). Hier ist ein intermodulationsfreies Frequenzraster nach Herstellerempfehlungen  mit Frequenzabstand zu den Funkmi­kro­fonen zu verwenden. Das Ear-Monitoring im Vielkanaleinsatz muss 200 kHz Sicherheitsabstand von Intermodulationsfrequenzen 3. Ordnung einhalten, d. h., die Packungsdichte im UHF-Kanal kann nicht so dicht sein wie bei Funkmi­kro­fonen, die schon ab 50 kHz Abstand zu Intermodulationsprodukten sicher arbeiten. Der Einsatz von Antennen-Combinern unterbindet die IMStörungen und versammelt alle angeschlossenen Sendesignale ohne Leistungseinbußen auf einen Antennenausgang. Der interne Leistungsverlust von 10  dB (90  %) beim Zusammenführen der Einzelsignale wird  mit vorgeschalteten Verstärkern kompensiert. Diese  sorgen auch dafür, dass keine HF-Leistung rückwärts in die angeschlossen Sender fließt. Störende Signale werden von den Sendern ferngehalten (Abb. 4/58). Sendercombiner sind für bis zu acht Sender in einer Höheneinheit verfügbar. Im Allgemeinen sind Richtantennen und kurze Kabelwege zu empfehlen. Stets  sind erhöhte Standorte vorteilhaft. Eine deutliche Verbesserung in  schwierigen Übertragungssituationen bieten zirkular polarisierende Antennen. Auf keinen Fall dürfen Empfangsantennenverstärker zum Ausgleich von Leitungsverlusten auf Sendewegen eingesetzt werden, weil die Eingangspegel viel zu hoch  sind und besonders mehrere Sendersignale den Verstärker übersteuern und zum Aussenden von Störspektren zwingt.

Abb. 4/58. Funktionsweise des Antennen-Combiners, 4 Sender mit je 20 mW HF-Leistung sind rückwirkungsfrei zusammengeschaltet und arbeiten mit einer gemeinsamen Antenne.

In Ear-Monitoring-Systeme  sind  stereofon nach dem Verfahren des UKW-Rundfunks ausgelegt. Für den gleichen Störpegelabstand wie im Monobetrieb ist im Stereobetrieb ca. 20 dB mehr Antenneneingangspegel erforderlich. Bei nicht ausreichendem Rauschabstand kann deshalb auch auf Monobetrieb umgeschaltet werden. Komplexe Vielkanalsysteme, die

Literatur 

 229

an wechselnden Einsatzorten betrieben werden,  sind am einfachsten an wechselnde HFUmfelder anzupassen, wenn die Parameter über spezielle Rechnersteuerungen wie auch die Funkmi­kro­fone verwaltet werden.

Standards [AES42-2001] [DIN 45405] [DIN 45590] [DIN 45595] [DIN 45596] DIN EN IEC 61938] [DIN EN 61672] [DIN EN IEC 61938] [DIN EN 60268-5] [DIN IEC 651] [ISO 12913] [ITU-R BS.468-4] [ITU-R BS.708]

AES standard for acoustics – Digital interface for microphones, Audio Engineering Society, 2001, revidierte Ausgabe 2006 Störspannungsmessung in der Tontechnik, zurückgezogen Mikrophone; Begriffe, Formelzeichen, Einheiten Anschluß von Transistormi­kro­fonen mit Tonaderspeisung Mi­kro­fone; Phantomspeisung, ersetzt DIN 45 96 IEC 61 672-2003 bzw. [DIN EN 60268-4] Elektroakustische Geräte – Mi­kro­fone Multimedia Systeme - Leitfaden für empfohlene Charakteristika analoger Schnittstellen zur Erreichung von Kompatibilität Schallpegelmesser Multimedia Systeme - Leitfaden für empfohlene Charakteristika analoger Schnittstellen zur Erreichung von Kompatibilität Elektroakustische Geräte - Teil 5: Lautsprecher Schallpegelmesser Akustik - Soundscape Measurement of audio frequency noise voltage level in sound broadcasting Determination of the electro-acoustical properties of studio monitor headphones

Literatur [D’Appolito, 1999] [Arasin, 2007] [Becker-Foss, 2010] [Farrar, 1979] [Fedke, 2007] [Genuit, 1981] [Genuit, 1984] [Genuit, 1087] [Gierlich, 1989] [Görne, 2004] [Görne, 2007] [Hudde, 1980]

D’Appolito, J.: Lautsprecher-Messtechnik. PC-gestützte Analyse analoger Systeme, 1999, Elektor Arasin, P. und Hoemberg, M.: Funkmi­kro­fone und Wireless Monitoring, Grundlagen, unmittelbare Praxis-Tipps, 2007, Sennheiser-Firmenschrift Becker-Foss, Cl., Stephan Flock, St., Jahne, H., Langen, Ch., Werwein, M., Wittek, H.: White Paper „Digitale Mi­kro­fone und AES42“, Version 2.1, 11. 05. 2010, www.hauptmi­kro­fon.de, Zugriff 30.6.2010 Farrar, K.: „Soundfield microphone“, in: Wireless World 1979, S. 48ff. Fedke, T. et.al.: Kunstkopftechnik - eine Bestandsaufnahme, Acustica Vol. 93, 2007 Genuit, K.: „Optimierung eines Kunstkopf-Aufnahmesystems“, in: Bericht 12. Tonmeistertagung München 1981, S. 218 ff. Genuit, K.: Ein Modell zur Beschreibung der Außenohrübertragungseigenschaften, Diss. 1984, RWTH Aachen Genuit, K.: Verfahren zur Filterung von Schallsignalen, Patent DE 3709397, 1987 Gierlich, H. W., Genuit, K.: „Processing Artificial Head Recordings”, in: J. Audio Eng. Soc., Vol 37, No. 1/2, 1989, S. 34 ff. Görne, Th. und Bergweiler, St.: Monitoring. Lautsprecher in Studio- und HiFi-Technik, 2004, ppv Medien Görne, Th.: Mi­kro­fone in Theorie und Praxis, 2. Aufl. 2007, Elector-Verlag Hudde, H.: „Messung der Trommelfellimpedanz des menschlichen Ohres bis 19 kHz, Diss. 1980, Universität Bochum

230 

 4 Mi­kro­fone und Lautsprecher

[Kürer, 1969] Kürer, R., Plenge, G., Wilkens, H.: „Correct Spatial Sound Perception Rendered by a Special Two-Channel Recording Method”, 37. AES Convention, New York 1969 [Lerch, 2009] Lerch, R., Sessler, G. und Dietrich Wolf, D.: Technische Akustik. Grundlagen und Anwendungen: Grundlagen und Anwendungen, 2009, Springer [Möser, 2009] Möser, M.: Technische Akustik, 8. Aufl., 2009, Springer [Peus, 2001] Peus, S.: „The digitally interfaced microphone“, preprint 110. AES-Convention Amsterdam 2001 [Platte, 1975] Platte, H.-J., Laws, P., vom Hövel, H.: „Anordnung zur genauen Reproduktion von Ohrsignalen“, in: DAGA 1975 Braunschweig, S. 361 ff. [Schneider, 1998] Schneider: „Eigenrauschen und Dynamikumfang von Mi­kro­fonen und Aufnahmekette“, in: Bericht 20. Tonmeistertagung, Karlsruhe 1998, Saur, 1999 [Schneider, 2008] Schneider, M.: „Mi­kro­fone“, in: Weinzierl, St.: Handbuch der Audiotechnik, 2008, Springer, S. 313ff. [Stark, 2003] Stark, B.: Lautsprecher-Handbuch. Theorie und Praxis des Boxenbaus, 8. Aufl. 2003, Pflaum [Theile, 1984] Theile, G.: „Die Bedeutung der Diffusfeldentzerrung für die stereofone Aufnahme und Wieder­gabe“, Bericht 13. Tonmeistertagung München 1984, S. 112 ff. [Theile, 1985] Theile, G.: „Beurteilungskriterien für Kopfhörer unter Berücksichtigung verschiedener Anwen­dungsbereiche“, in: NTG-Fachtagung Hörrundfunk, Mannheim 1985, S. 290 ff. [Theile, 2015] Theile, Günther: „Der Studio-Kopfhörer“, in: VDT-Magazin 2015, H. 2, S. 9 ff. [Vorländer, 1989] Vorländer, M.: „Virtuelle akustische Welten in Forschung und Praxis“, in: Akustik Journal der DEGA 02/2021 [Wittek, 2010] Wittek, H. et alii: „Neuartiges Richtrohrmi­kro­fon-Prinzip mit erhöhter Richtwirkung“, Bericht 26. Tonmeistertagung, 2010 [Wuttke, 1981] Wuttke, J.: „Mi­kro­fondaten und ihre Bedeutung in der Praxis“, in: Bericht 12. Tonmeistertagung, 1981, Saur [Wuttke, 1985/1] Wuttke, J.: „Betriebsverhältnisse von Mi­kro­fonen bei Wind und Popp“, in: Bericht 14. Tonmeistertagung, 1985, Saur [Wuttke, 1985/2] Wuttke, J.: „Kondensatormi­kro­fone mit Kugelcharakteristik“, in: Bericht 13. Tonmeistertagung, 1985, Saur [Wuttke, 1997] Wuttke, J.: „Wie universell kann ein Mi­kro­fon sein“, in: Bericht 19. Tonmeistertagung, 1997, Saur [Wuttke, 1998] Wuttke, J.: „Die 48 V-Phantomspeisung und ihre Geister“, in: Mi­kro­fon Spezial, Sonderheft Studio Magazin 1998 [Wuttke, 2000] Wuttke, J.: Mi­kro­fonaufsätze, 2000, Firmenschrift, Schoeps [Zollner, 1993] Zollner, M. und Zwicker, E.: Elektroakustik, 3. Aufl. Berlin

5 Tonaufnahme und Tonwiedergabe Günther Theile Florian Camerer (5.6.5), Michael Dickreiter (5.3, 5.6.1, 5.6.2, 5.6.3.7), Harald Fuchs und Yannik Grewe (5.5.2), Wolfram Graul (5.6.3), Yannik Grewe (5.5.1.1), Hans-Joachim Maempel (5.6.4), Jörn Nettingsmeier (5.5.3.2), Lasse Nipkow (5.4.5.3, 5.5.6.2, 5.5.6.3) mit Günther Theile (5.4.3), Gerhard Spikofski (5.5.5.1) Bis in die 1990er Jahre war es angemessen und üblich, die Verfahren der damals zweikanaligen Stereofonie getrennt von ihrer Wiedergabe über Lautsprecher oder Kopfhörer zu behandeln. Mit fortschreitender Entwicklung kamen jedoch neue Systeme der Tonübertragung hinzu, die die Frage einer systemgerechten Wiedergabe eng an die Aufnahmetechnik gebunden haben, so dass sie in diesem Kapitel zusammengeführt werden. In Kap. 5.1 werden die Grundprinzipien der räumlichen Übertragung mit der Wiedergabe über Lautsprecher und Kopfhörer dargestellt, Kap. 5.2 behandelt die Phänomene der Lautsprecherwiedergabe und ihren psychoakustischen Aspekten vor allem bei Zwei-, aber auch der Mehrkanal-Stereofonie. Kap. 5.3. beschäftigt sich mit der Aufnahmetechnik für Zweikanal-Stereofonie, Kap. 5.4 für Mehrkanal-Stereofonie in der zweidimensionalen Klangdarstellung, aber auch mit zusätzlichen Höhenlautsprechern; Kap. 5.3 und 5.4 widmen sich also den eingeführten und vielfach bewährten Techniken der Tonübertragung. Kap. 5.5 schließlich erschließt die dreidimensionale, den Hörer reproduzierter Klänge räumlich einhüllende Klangdarstellung – Stichworte immersive  sound und 3D – und  stellt damit die aktuellen Entwicklungen der Tonübertragungstechnik mit Lautsprechern und der Binauraltechnik mit Kopfhörern systematisch dar.

5.1 Prinzipien der räumlichen Tonübertragung Bei der Tonwiedergabe gibt es für die Darstellung der räumlichen Eigenschaften von Schallquellen, also ihre Platzierung im Raum bezüglich Richtung, Entfernung und Ausdehnung, sowie die Darstellung des Raums und seiner Akustik drei grundsätzlich unterschiedliche Prinzipien: –– Lautsprecher-Stereofonie: Wiedergabe von Mikrofonsignalen aus dem Aufnahmeraum durch Lautsprecher, also die allgemein verbreitete Form der Tonwiedergabe (Kap. 5.2 bis 5.5.2), –– Synthese des umgebenden Schallfelds bei der Wiedergabe: Wellenfeldsynthese (WFS) und Higher-order Ambisonics (HOA) reproduzieren in der Nähe des Hörers das Schallfeld aus dem Aufnahmeraum (Kap. 5.5.3), –– Binaurale Reproduktion der Ohrsignale: Kopfhörerwiedergabe der Ohrsignale aus dem Aufnahmeraum, bekannt als Kunstkopf­verfahren (Kap.  5.5.5); Binauralisierung ist die Kopfhörerwiedergabe der Ohrsignale aus dem Lautsprecher-Wiedergaberaum (Kap. 5.5.6). Alle bekannten räumlichen Tonübertragungs- bzw. Tonwiedergabeverfahren lassen  sich auf diese drei Methoden zurückführen oder  stellen Mischformen daraus dar  mit dem Ziel, https://doi.org/10.1515/9783110759921-005

232 

 5 Tonaufnahme und Tonwiedergabe

bestimmte Vorteile einzelner Methoden – abhängig vom praktischen Anwendungsbereich – zu nutzen bzw. ihre Nachteile zu umgehen.

5.1.1 Lautsprecher-Stereofonie Die Abbildung eines akustischen Geschehens durch Lautsprecher gewinnt  mit der Stereotechnik an Durchsichtigkeit, Räumlichkeit und Klangfülle gegenüber der Abbildung  mit Monotechnik. Mit Durchsichtigkeit wird die Möglichkeit, eine einzelne Schallquelle bzw. einzelne Schallquellen eines Klangkörpers herauszuhören, also getrennt zu lokalisieren und zu verfolgen, bezeichnet. Außerdem erweitert die Stereofonie die Möglichkeiten, Bewegungsabläufe bei Fernsehtonaufnahmen, Hörspielen und Musikaufnahmen akustisch abzubilden oder rein elektronisch in einer Nachbearbeitung zu erzeugen und Schallquellen  mit den Mitteln der Tonregie in gewünschte Positionen zu bringen. Die Vermittlung der Raumillusion wird gegenüber der Monofonie entscheidend verbessert. Stereofonie – der Wortbedeutung nach „räumlicher Schall“ – werden die Übertragungsverfahren genannt, die durch Verwendung von zwei und  mehr Übertragungskanälen die räumliche Dimension des Klangbilds übertragen. Zu der räumlichen Dimension gehören die Positionen der Schallquellen im Raum, ihre Ausdehnung und Entfernung, aber auch die Richtungsverteilung der ersten Raumreflexionen und des Nachhalls. Stereofonie beruht auf den Gesetzmäßigkeiten der Lokalisierung in den  sich überlagernden Schallfeldern zweier Lautsprecher. Die Richtungsdarstellung erfolgt in der Abbildungsebene zwischen zwei benachbarten Lautsprechern. Die Wahrnehmung des natürlichen Raumeindrucks und der räumlichen Tiefe ist mit der einfachen Zweikanal-Stereofonie, der  sog. 2/0-Stereofonie, nicht erreichbar,  sondern nur eine perspektivische Darstellung, ähnlich der perspektivischen Darstellung in einem flächigen Bild [Theile, 1980, 1991]. Bei der sog. 3/2-Stereofonie – ein Verfahren mit drei frontalen und zwei seitlichen sog. SurroundLautsprechern – kann mit Hilfe der seitlichen Lautsprecher, der Surround-Kanäle, die Abbildungsebene zwischen den frontalen Lautsprechern zu den Seiten hin vergrößert werden. Daraus ergeben sich Möglichkeiten für die Reproduktion des frühen Seitenschalls zur Darstellung der räumlichen Tiefe sowie des Nachhalls zur Darstellung des Raumeindrucks und der Umhüllung [Theile, 2001/1]. Eine besondere Einschränkung zeigt sich bei der 3/2-Stereofonie für die Darstellung der akustischen Nähe. Wie bei der konventionellen Zweikanal-Stereofonie ist es normalerweise nicht möglich, im Bereich zwischen dem Hörer und den Lautsprechern Hörereignisse abzubilden bzw. zu lokalisieren. Die Entfernung einer Phantomschallquelle zum Hörer kann nicht kleiner sein als diejenige zu den wiedergebenden Lautsprechern. Aus diesem Grund ist die Darstellung einer sehr nahen akustischen Umgebung trotz sehr nah aufgestellter Mikrofone problematisch. Eine überzeugende akustische Einhüllung des Hörers ist oft schwierig und gelingt selten so überzeugend, wie das etwa mit der Kunstkopftechnik möglich ist, z. B. der Applaus in einem Konzertsaal. Ein weiterer Nachteil der Lautsprecherstereofonie betrifft die begrenzte Abhörzone, die sich einerseits aus der geringen Richtungsstabilität der Phantomschallquelle ergibt – der Hörer darf den optimalen Hörplatz nicht verlassen –, andererseits aus der stark platzabhän-

5.1 Prinzipien der räumlichen Tonübertragung 

 233

gigen Lautstärkebalance der Wiedergabekanäle. Die geringe Stabilität der Richtungsabbildung ist auf die Laufzeitverschiebungen zurückzuführen, die sich von Ort zu Ort ändert. Verschiebungen der Lautstärkebalance machen sich für die Surround-Kanäle besonders schnell bemerkbar, wenn das Pegelverhältnis von direktem zu indirektem Schall betroffen ist. Dieses Problem lässt sich dadurch reduzieren, dass man die Entfernung der Lautsprecher zum Hörer vergrößert. Auf Einzelheiten wird in den Kap. 5.2 bis 5.5 ausführlich eingegangen.

5.1.2 Synthese des umgebenden Schallfelds Neben Lautsprecher-Stereofonie ist die Darstellung virtueller Schallquellen und Räume durch ein akustisch korrektes Schallfeld bei der Wiedergabe in der Umgebung des Hörers möglich. Dieses anspruchsvolle Ziel wird auf zwei ähnlichen Wegen verfolgt, mit der Weiterentwicklung der Ambisonics-Mikrofontechnik [Gerzon, 1975/1], [Fellgett, 1974, 1975], [Craven, 2009] hin zum Higher-order Ambisonics-Verfahren (HOA,  siehe Kap.  5.5.3.2)  sowie  mit der Entwicklung der Wellenfeldsynthese (WFS) [Berkhout, 1993], [Boone, 1995], siehe Kap. 5.5.3.1. Bei beiden Verfahren wird mit Lautsprecherarrays – viele nebeneinander angeordnete Einzellautsprecher – ein Schallfeld in der Hörzone erzeugt, das  mit einem entsprechenden realen Schallfeld identisch ist. Die für das Hörereignis wirksamen Ohrsignale entstehen

Abb. 5/1. Vergleich der Ohrsignale einer Phantomschallquelle im überlagerten Schallfeld bei ZweikanalStereofonie mit den Ohrsignalen der virtuellen Schallquelle bei Wellenfeldsynthese bei gleicher Hörereignisrichtung [Theile, 1980/1].

234 

 5 Tonaufnahme und Tonwiedergabe

also im Gegensatz zur Binauraltechnik auf natürlichem Wege im Schallfeld, nicht nur an den Ohren. Der Hörer kann  sich in der gesamten Hörzone wie gewohnt frei bewegen, wobei die virtuellen Schallquellen an ihrem Ort  stabil lokalisierbar bleiben und eine natürliche Perspektive wahrgenommen wird. Diese ist mit den Mitteln der Stereofonie nicht möglich [Theile, 2002], [Wittek, 2004]. Abb. 5/1 zeigt eine Phantomschallquelle bei Zweikanal-Stereofonie im Vergleich mit einer virtuellen Schallquelle in einer Wellenfeldsynthese. Die resultierenden Ohrsignalspektren, interauralen Signaldifferenzen und -korrelationen sind völlig unterschiedlich, obwohl in beiden dargestellten Fällen die Hörereignisse bezüglich Klangfarbe, Richtung und Entfernung ähnlich sind. Nur bei idealer Wellenfeldsynthese entspricht das synthetische Wellenfeld-Schallfeld dem einer entsprechenden Realschallquelle, was beim Schallfeld bei Stereofonie nicht zutrifft, Einzelheiten dazu in Kap. 5.5.3.1 sowie in [Wittek, 2007].

5.1.3 Binaurale Reproduktion der Ohrsignale Die ursprüngliche Ausführung dieser Methode ist die bekannte Kunstkopfstereofonie. Dabei wird nicht versucht, am Ort der Wiedergabe ein geeignetes Schallfeld zu reproduzieren, vielmehr werden die Ohrsignale eines künstlichen Kopfs, eines Kunstkopfs, im Aufnahmeraum aufgenommen und grundsätzlich durch Kopfhörer wiedergegeben. Im Idealfall  sind die reproduzierten Kunstkopfsignale identisch  mit den individuellen Ohrsignalen, die der Hörer im Aufnahmeraum am Ort des Kunstkopfs empfangen würde. Das virtuelle Hörereignis im Kopfhörer entspricht dem realen Schallereignis im Aufnahmeraum. Einzelheiten werden in den Kap. 5.5.5 und 5.5.6 behandelt. Für den praktischen Einsatz dieses Verfahrens gibt es aber leider gravierende Einschränkungen: –– Die Reproduktion der Ohrsignale  muss  sehr genau erfolgen, Unterschiede des individuellen Außenohrs zum Kunstkopf-Außenohr verursachen bereits Beeinträchtigungen. Auch wirken Eingriffe wie Dynamikeinengung, Lautstärkeeinstellung und Störgeräusche nachteilig auf die Wiedergabe ein. –– Die Ohrsignale  müssten fortlaufend an die  momentane Kopfhaltung des Hörers angepasst werden − man nennt das head tracking, insbesondere um die korrekte Lokalisierung in der senkrechten Ebene, der sog. Medianebene (siehe Kap. 3.4) sicherzustellen. [Mackensen, 1998]. –– Die Reproduktion der Ohrsignale  muss grundsätzlich über Kopfhörer erfolgen. Sog. Transauralisationsverfahren, die für die Lautsprecherwiedergabe vorher eine inverse Filterung der Übertragungsfunktion des Außenohrs durchführen, sind nicht genau genug und schränken die Hörzone auf wenige Zentimeter ein. –– Eine künstlerische Gestaltung des Klangbilds ist nur in sehr engem Rahmen möglich. Das gilt für die klangliche und räumliche Balance z. B. der Instrumente ebenso wie für die Darstellung des Raums und der den Hörer einhüllenden raumakustischen Atmosphäre. Die Abhängigkeit von den Gegebenheiten der Aufführung ist sehr groß und meist nicht praktikabel. –– Ein gelungenes Klangbild für die Kopfhörerwiedergabe stellt die Abbildung eines Hörerplatzes im Aufnahmeraum, z. B. einem Konzertsaal, dar. Bei Lautsprecherwiedergabe in einem Wohnraum widerspricht die optische Wahrnehmung der akustischen Wahrnehmung.

5.2 Stereofonie 

 235

5.2 Stereofonie Bei der üblichen Stereoanordnung, bei der zwei Lautsprecher mit dem Hörer ein gleichseitiges oder nahezu gleichseitiges Dreieck bilden (Abb. 5/2, siehe auch Abb. 5/1), ergeben sich ganz andere Verhältnisse als beim „natürlichen“ Hören. Sie  sind wesentlich komplexer und werfen eine Reihe von Fragen auf. Zunächst werden deshalb nur die Hörphänomene beschrieben, die  mit der Bildung der für Stereowiedergabe wesentlichen Phantomschallquellen zusammenhängen,  sowie die  sich daraus ergebenden Möglichkeiten der Anwendung. Danach wird in Kap. 5.2.3 auf Fragen zu den Ursachen dieser Phänomene der Stereofonie näher eingegangen. Darauf aufbauend werden im folgenden Kap. 5.2.4 die Prinzipien der räumlichen stereofonen Abbildung dargestellt, die Möglichkeiten und Grenzen der konventionellen Zweikanal-Stereofonie einerseits und der Mehrkanal-Stereofonie andererseits. Kap. 5.5.4 geht auf die psychoakustischen Phänomene sowie auf praktische Konsequenzen ein, die mit der Wiedergabe der stereofonen Signale über Kopfhörer zusammenhängen.

5.2.1 Phantomschallquellen Stellt man – wie in Abb. 5/2 dargestellt – zwei Lautsprecher L1 und L2, die gleichzeitig exakt dasselbe Signal abstrahlen, in einem bestimmten Abstand, der Basis b, zueinander auf, so lokalisiert ein Hörer H nicht zwei getrennte Schallquellen bei L1 bzw. L2, sondern nur eine einzige fiktive Schallquelle, eine  sog. Phantomschallquelle oder virtuelle Schallquelle in der Mitte der Basis. Sie ist fiktiv oder virtuell, weil an diesem Punkt keine wirkliche Schallquelle existiert, der Ort der Schallquelle also nur in der auditiven Verarbeitung der Ohrsignale durch den Hörer gebildet wird. Erzeugt und verändert man innerhalb bestimmter Grenzen kontinuierlich Pegel- oder/und Laufzeitdifferenzen zwischen den Signalen an L1 und L2, so wandert die fiktive Schallquelle S entlang der Lautsprecherbasis zur Seite, bis sie schließlich in einem der beiden Lautsprecher stehen bleibt. Dieser Effekt ist grundlegend für die stereofone Schallwiedergabe, er macht die Illusion einer räumlichen Schallwiedergabe erst möglich.

Abb. 5/2. Standard-Lautsprecheranordnung in einem gleichschenkligen Dreieck mit dem Hörer für Zweikanal-Stereowiedergabe.

236 

 5 Tonaufnahme und Tonwiedergabe

Während bei der Lokalisierung einer realen Schallquelle das Schallsignal nur von einem Punkt ausgeht, der Richtungseindruck also aus einem einzigen Schallsignal gewonnen wird, überlagern  sich bei der  stereofonen Lautsprecherwiedergabe die Signale von zwei Schallquellen bzw. Lautsprechern. Hierbei erhält jedes Ohr von jedem der beiden Lautsprecher einen bestimmten Schallanteil, woraus das Gehör den Richtungseindruck der fiktiven Schallquelle ableitet. Abb. 5/3 zeigt für einige spezielle Fälle schematisch die Signalkonfigurationen an den Ohren des Hörers. Daraus wird ersichtlich, dass sich bei jedem Ohr zwei Signale überlagern, die aber zu einer einzigen Wahrnehmung führen. Voraussetzungen für die einwandfreie Lokalisierbarkeit  sind, dass die Lautsprecher von derselben Schallquelle  stammende,  sog. kohärente Signale ohne Phasenumkehrung abstrahlen, dass die Pegel- und/ oder Laufzeitdifferenzen innerhalb bestimmter Grenzen bleiben und dass sich der Hörer in einer bestimmten geometrischen Position zu den Lautsprechern befindet, nämlich innerhalb der sog. Stereohörfläche oder -hörzone (Abb. 5/9). Je nach angewandtem Aufnahmeverfahren treten Pegel- und Laufzeitdifferenzen zwischen den Lautsprechersignalen L1 und L2 allein oder gleichzeitig auf.

Abb. 5/3. Signalkonfigurationen an den Ohren bei Stereowiedergabe nach Abb. 5/2.

Als erster erkannte und patentierte Alan D. Blumlein 1931 die Möglichkeiten,  stereofone Klangbilder auf Grund von Phantomschallquellen zu übertragen. Bereits 1933 wurde ein Konzert stereofon von Philadelphia nach Washington übertragen und über zwei Lautsprecher  stereofon wiedergegeben. Die ersten klassischen Versuche zur Abbildung von Phantomschallquellen wurden 1940 von de Boer durchgeführt; danach wurden die Versuche von zahlreichen Autoren unter verschiedenen Versuchsbedingungen fortgeführt [Blauert, 2000]. 5.2.1.1 Phantomschallquellen bei Pegeldifferenzen Strahlen bei einer Wiedergabeanordnung nach Abb.  5/2 die beiden Lautsprecher dasselbe Signal phasengleich ab, so wird bei gleichem Pegel von L1 und L2 eine fiktive Schallquelle S genau in der Mitte der Basis b lokalisiert. Bei Pegeldifferenzen wandert die fiktive Schallquelle auf der Basis seitlich aus, um bei einer Pegeldifferenz von 15 bis 25 dB ganz an dem

5.2 Stereofonie 

 237

Ort des Lautsprechers mit dem höheren Pegel stehen zu bleiben. Bereits bei nur 12 bis 15 dB Pegeldifferenz befindet sich die fiktive Schallquelle so nahe an diesem Lautsprecher, dass in der Praxis eine Pegeldifferenz von etwa 15 dB zur Lokalisierung „ganz seitlich“ führt. Die Abbildungsrichtungen der Phantomschallquellen, die durch Pegeldifferenzen bedingt sind, sind in relativ geringem Maß von der akustischen Gestalt des Signals und von anderen Bedingungen abhängig. Den von verschiedenen Autoren experimentell ermittelten Zusammenhang zwischen der Auslenkung der Phantomschallquelle aus der Mitte und der Pegeldifferenz ΔL zeigt Abb. 5/4. Angegeben sind die Auslenkungen der Phantomschallquelle relativ zur Lautsprecher-Basisbreite. In der Standard-Lautsprecheranordnung auf den Ecken eines gleichseitigen Dreiecks gemäß Abb. 5/2 entsprechen 100 % Auslenkung der Phantomschallquellenrichtung ± 30°. Man erkennt, dass im Bereich um die Mitte der Lautsprecherbasis die Kurven weitgehend linear verlaufen. Bis zu einer Auslenkung von 75  % wird im Folgenden ein Auslenkungskoeffizient von 7,5 %/dB zu Grunde gelegt. Die Tatsache, dass die Auslenkungen der Phantomschallquellen relativ zur Basisbreite weitgehend unabhängig vom Basisöffnungswinkel sind, wird im Kap. 5.2.3 näher erläutert. Das ist nicht nur hinsichtlich der Bewegungsfreiheit des Hörers nach vorne und hinten von großer praktischer Bedeutung, sondern auch bei der Mehrkanal-Stereofonie, bei der mit Hilfe des Center-Kanals C die Lautsprecherbasis zwischen L und R in die Sektoren L bis C und C bis R geteilt ist, so dass an Stelle von einer Basis mit Basisöffnungswinkel 60° nebeneinander zweimal eine Basis mit jeweils 30° Basisöffnungswinkel vorhanden ist. In allen Abbildungsbereichen gelten dieselben Gesetzmäßigkeiten.

Abb. 5/4. Relative Auslenkung der Phantomschallquelle in Abhängigkeit von der Pegeldifferenz ΔL. Dicke bzw. gepunktete Kurve nach [Wittek, 2000], Kurven A nach [Leakey, 1960], B nach [Mertens, 1965], C nach [Brittain, 1956], D nach [Simonson, 1984].

Die Pegeldifferenzen, die zu einer bestimmten Abbildungsrichtung der Phantomschallquelle führen, sind deshalb auch nicht identisch mit den resultierenden Pegeldifferenzen zwischen

238 

 5 Tonaufnahme und Tonwiedergabe

den beiden Ohren beim „natürlichen“ Hören, wenn sich die reale Schallquelle am Ort der Phantomschallquelle befinden würde (siehe Kap. 5.1 und 5.2.3). Dies gilt sinngemäß auch für Phantomschallquellen bei Zeitdifferenzen, siehe dazu unten. Es ist also  möglich, durch reine Pegeldifferenzen zwischen den Lautsprechersignalen Klangbilder auf einer Verbindungsgeraden zwischen zwei Lautsprechern darzustellen. In der Aufnahmetechnik müssen hierfür ausschließlich entsprechende Pegeldifferenzen zwischen dem linken und rechten Kanal L und R erzeugt werden, man nennt dieses Aufnahmeverfahren Intensitätsstereofonie (siehe Kap. 5.3.2). 5.2.1.2 Phantomschallquellen bei Zeitdifferenzen Bei der Stereowiedergabe nach Abb.  5/2 führen auch Laufzeitdifferenzen zwischen 0 und etwa 1 ms zwischen identischen Lautsprechersignalen zu Phantomschallquellen auf der Stereobasis. Die Wirkung von Laufzeitdifferenzen zwischen 3 und 30 ms beschreibt das sog. Gesetz der ersten Wellenfront, auch als Haas-Effekt oder Precedence-Effekt bekannt, wonach bei breitbandigen Signalen nur derjenige Lautsprecher als Ort der Schallquelle gehört wird, der das Schallsignal zuerst abstrahlt, auch wenn der andere Lautsprecher einen höheren Pegel hat. Bei Laufzeitdifferenzen von  mehr als 30 bis 90  ms – je nach Art des Schall­signals – werden schließlich zwei in ihrer Richtung und zeitlich getrennte Signale gehört. Der Übergang zwischen diesen Zeitbereichen ist gleitend und von der Art des Signals abhängig. Laufzeitdifferenzen im Übergangsbereich können Hörereignisse hervorrufen, die über die ganze Basis ausgedehnt erscheinen. Ab einer Laufzeitdifferenz von etwa 0,6 ms bis hin zu Echos erzeugenden Verzögerungszeit von ca. 40 ms bewirken Kammfiltereffekte am Ohr des Hörers eine Verfärbung des Klangbilds; sie hängen stark von der Art des Schalls und von der Anzahl von Reflexionen in der Aufnahme ab. Abb. 5/5 fasst die verschiedenen Wirkungen der Laufzeitdifferenzen zusammen.

Abb. 5/5. Wirkungen der Zeitverzögerung zwischen identischen Signalen an den Lautsprechern L1 und L2 nach Abb. 5/2.

Anders als bei Phantomschallquellen, die durch Pegeldifferenzen ausgelenkt werden, können Laufzeitdifferenzen die Richtungsstabilität der Phantomschallquelle mit steigender Zeitdifferenz beeinträchtigen; ab etwa 0,5 ms steigt die Unsicherheit der Richtungswahrneh-

5.2 Stereofonie 

 239

mung an, stark von der Art des Schalls abhängig. Bei Sprache genügen schon verhältnismäßig geringe Laufzeitdifferenzen zwischen den Lautsprechersignalen, bei tiefen sinusförmigen Dauertönen sind vergleichsweise große Laufzeitdifferenzen zur Auslenkung notwendig. Sinusförmige Dauertöne im  mittleren Frequenzbereich werden insofern nicht eindeutig abgebildet, weil einer Abbildungsrichtung zwei oder  mehr unterschiedliche Phasen- bzw. Laufzeitdifferenzen zuzuordnen sind. Den von verschiedenen Autoren experimentell ermittelten Zusammenhang zwischen der Auslenkung der Phantomschallquelle aus der Mitte und der Laufzeitdifferenz Δt zeigt Abb. 5/6. Angegeben sind auch hier die Auslenkungen der Phantomschallquellen relativ zur Lautsprecher-Basisbreite. Man erkennt, dass im inneren Bereich der Lautsprecherbasis die Kurven wie bei Pegeldifferenzen weitgehend linear verlaufen. Bis zu einer Auslenkung von 75 % wird im Folgenden ein Auslenkungskoeffizient von 13 %/0,1 ms zu Grunde gelegt. Es ist also möglich, durch reine Laufzeitdifferenzen zwischen den Lautsprechersignalen Klangbilder auf einer Verbindungsgeraden zwischen zwei Lautsprechern darzustellen. In der Aufnahmetechnik müssen hierfür auch reine Laufzeitdifferenzen zwischen dem linken und rechten Kanal erzeugt werden,  man nennt dieses Aufnahmeverfahren Laufzeitstereofonie (siehe Kap. 5.3.3).

Abb. 5/6. Relative Auslenkung der Phantomschallquelle in Abhängigkeit von der Laufzeitdifferenz Δt. Dicke bzw. gepunktete Kurve nach [Wittek, 2000], Kurven A nach [Leakey, 1960], B nach [Mertens, 1965], D nach [Simonson, 1984], E nach [Sengpiel].

5.2.1.3 Phantomschallquellen beim Zusammenwirken von Pegel- und Laufzeitdifferenzen Reine Intensitätsstereofonie benutzt nur Pegeldifferenzen zwischen den Lautsprechersignalen, reine Laufzeitstereofonie nur Laufzeitdifferenzen. Es gibt aber auch Aufnahmeverfahren, bei denen Pegel- und Laufzeitdifferenzen gleichzeitig und gleichsinnig auftreten. Dazu gehören alle Verfahren, die  mit unterschiedlich ausgerichteten und zugleich distanzierten

240 

 5 Tonaufnahme und Tonwiedergabe

Richtmikrofonen arbeiten, sowie alle Verfahren, bei denen zwischen ungerichteten Mikrofonen Trennkörper eingefügt werden, den sog. Trennkörperverfahren. Bei diesen sog. gemischten Aufnahmeverfahren wirken Pegel- und Laufzeitdifferenzen gleichgerichtet zusammen. Die Auslenkung der Phantomschallquelle ist bei solchen Bedingungen größer als sie es auf Grund von Pegel- oder Laufzeitdifferenzen allein wäre. Der Frage, in welcher Weise gleichsinnige Laufzeit- und Pegeldifferenzen auf die Abbildungsrichtung der Phantomschallquelle wirken, wird ausführlich im Kap. 5.2.2 im Zusammenhang mit der Bestimmung des Aufnahmewinkels oder -bereichs eines Stereomikrofons nachgegangen. Bezüglich der Lokalisierungsschärfe  sind Pegel- und Laufzeitdifferenzen im Bereich kleiner Werte der Auslenkung der Phantomschallquelle gleichwertig. Dagegen gibt es Unterschiede im Bereich größerer Auslenkungen: Eine wachsende Pegeldifferenz führt zu einer Zunahme, eine wachsende Laufzeitdifferenz zu einer Abnahme der Lokalisierungsschärfe. Mikrofonanordnungen der „gemischten“ Aufnahmeverfahren, deren Anteile aus Pegelund Laufzeitdifferenzen ungefähr gleichgewichtig  sind, nehmen eine gewisse Sonderstellung ein, offenbar kann die Lokalisierungsschärfe in diesem Fall ein Optimum erreichen. Eine solche Anordnung zweier Mikrofone kann als Äquivalenzmikrofon bezeichnet werden. Gegensinnige Pegel- und Laufzeitdifferenzen können nur begrenzt zu einer Aufhebung der Auslenkungen führen, vielmehr aber zu einer starken Abnahme der Lokalisierungsschärfe. 5.2.1.4 Seitliche Phantomschallquellen Auf Grund praktischer Erfahrungen und Untersuchungen weiß  man, dass Phantomschallquellen mit zwei Lautsprechern seitlich vom Hörer äußerst instabil und empfindlich bezüglich des Abhörpunkts sind, auch hinsichtlich des Signalspektrums. Stereofonie funktioniert nur dann in der gewohnten Weise, wenn die zwei an der Bildung der Phantomschallquellen beteiligten Lautsprecher weitgehend symmetrisch zum Hörer, genauer zur Medianebene des Hörers, angeordnet sind. Dreht der Hörer seinen Kopf im Referenzpunkt der Anordnung geringfügig,  so verändern  sich die Auslenkung der Phantomschallquelle und die Lokalisierungsschärfe nur unwesentlich. Dreht der Hörer seinen Kopf jedoch so weit, dass einer der Lautsprecher hinter der Ohrenachse liegt und einer davor,  so werden die Lokalisierungskurven steiler und die Lokalisierungsschärfe geringer. Ein Lautsprecherpaar, das seitlich genau  symmetrisch zur Ohrenachse aufgestellt ist, ermöglicht keine  stabile Lokalisierung,  seitliche Phantomschallquellen werden nicht gebildet. Die Versuchsergebnisse für verschiedene Ausrichtungen eines Lautsprecherpaars, das mit dem Hörer ein gleichseitiges Dreieck bildet, zeigt Abb. 5/7. Testergebnisse für die Lautsprecheranordnung für Surround-Stereofonie nach dem Standard 5.1 im Studio mit einem Lautsprecherabstand zum Hörer von 2,5 m zeigt Abb. 5/8. Die wahrgenommenen Richtungen sind als Funktion der Pegeldifferenzen der Lautsprecherbasis C-L sowie die Lautsprecherbasis L-LS dargestellt.

5.2 Stereofonie 

 241

Abb. 5/7. Auslenkung der Phantomschallquellen mit ihren Unschärfebereichen bei Pegeldifferenzen in Abhängigkeit von dem Ausrichtungswinkel zum Hörer [Theile, 1976].

Die in Abb.  5/8 eingetragenen Streuungen  sind für die Lautsprecherbasis L-LS wesentlich größer als für die Basis C-L. Sie zeigen, dass  selbst im Referenzpunkt die Lokalisierung der seitlichen Phantomschallquelle verschwommen und instabil ist. Ferner besteht im Seitenbereich keine ausreichende Richtungsstabilität. Bewegt  sich der Hörer nur gering vom Referenzpunkt weg,  so führt das zu gravierenden Richtungsverzerrungen, die Lokalisierungskurve ist wesentlich steiler als im Bereich der vorderen Lautsprecher L-C-R, es besteht die Gefahr eines „Lochs an der Seite“. In der Mischung  sind die beiden  seitlichen Abbildungsbereiche L‑LS und R‑RS nicht  so nutzbar wie der vordere Abbildungsbereich L-C-R. Mit Ausnahme von bewegten Schallquellen kann also nicht mit einer Richtungsabbildung von seitlichen Schallquellen gerechnet werden.

242 

 5 Tonaufnahme und Tonwiedergabe

Abb. 5/8. Wahrnehmung von seitlichen Phantomschallquellen beim SurroundStandard 5.1in Abhängigkeit von deren Pegeldifferenz. 1: Versuchspersonen im Referenzpunkt, 2: ein Sitz links vom Referenzpunkt, 3: ein Sitz vor dem Referenzpunkt [Zieglmeier, 1996].

Eigenschaften und Einsatz der Phantomschallquellen Phantomschallquellen weisen in der Regel eine größere Ausdehnung auf als Realschallquellen. Die Ausdehnung und Unschärfe  steigen  mit Abnahme des Korrelationsgrads der  stereofonen Signale. Frequenzanteile unterhalb von 500 Hz führen zu einer stärkeren Ausdehnung der Phantomschallquelle in diesem Teilbereich, da dort die Lokalisationsreizselektion nicht mehr möglich ist [Silzle, 1990]. Sind mehr als zwei Lautsprecher an der Ausbildung der Phantomschallquelle beteiligt, entsteht eine Phantomschallquelle  mit noch größerer Ausdehnung. Die Phantomschallquelle weist geringfügige Klangverfärbungen im Vergleich zu einer Realschallquelle auf, beispielsweise im Vergleich der Lautsprecherwiedergabe einer Sprachaufnahme im Center vorne mit der entsprechenden Phantomschallquelle der Stereoanordnung [Silzle, 1990]. Hörerfahrungen  mit weniger trockenen Aufnahmen zeigen, dass die gefundene Klangverfärbung der Phantomschallquelle besonders bei Aufnahmen mit hohem

5.2 Stereofonie 

 243

Anteil an indirektem, diffusem Schall weit weniger wahrnehmbar ist. Die Klangfarbe wird bei solchen Aufnahmen vorwiegend durch den unkorrelierten Anteil des stereofonen Signals bestimmt. Bereits der Standard ITU-R BS. 775-1 von 1992/1994 definiert neben dem 5.1-Format das 7.1-Format, das  mit zwei zusätzlichen Kanälen die Möglichkeiten  seitlicher Abbildungen verbessern kann. In jüngerer Zeit  sind diverse Mehrkanal-Tonformate etabliert worden, die  mit größeren Lautsprecher-Setups eine wesentlich  stabilere Abbildung im gesamten oberen Halbraum  möglich  machen (vergl. Kap.  5.5.1.1). Bei verschiedenen Mischungen ist für bestimmte Einzelquellen die Richtungswahrnehmung von untergeordneter Bedeutung. Besonders die größeren Lautsprecher-Setups erlauben es deshalb, diese Quellen direkt auf die Lautsprecher zu routen, so dass dafür eine maximale Richtungsstabilität und Lokalisationsschärfe sichergestellt sind und zudem die klanglichen Vorteile von Realschallquellen gewonnen werden. 5.2.1.5 Stereohörzonen Bei den bisherigen Ausführungen wurde davon ausgegangen, dass der Hörer sich genau im Referenzpunkt der  stereofonen Lautsprecheranordnung gemäß Abb.  5.2 befindet, also  mit den Lautsprechern ein gleichschenkliges Dreieck bildet. Dies ist aber in der Praxis selten der Fall. Deshalb ist es wichtig, die Robustheit der Wiedergabeeinrichtung gegenüber Abweichungen vom Bezugshörort zu kennen. Darauf basierend kann man im Rahmen bestimmter Toleranzen die Stereohörflächen oder -hörzonen einer Lautsprecheranordnung festlegen, so dass verschiedene zwei- und  mehrkanalige Wiedergabeeinrichtungen diesbezüglich vergleichbar sind. Verlässt der Hörer die Symmetrieachse der Lautsprecheranordnung, entstehen Verzerrungen der Richtungsdarstellung. Diese sog. Abbildungsverzerrungen – angegeben in % – ergeben sich, weil die von den Lautsprechern abgestrahlten Signale mit zusätzlichen Laufzeitdifferenzen beim Hörer eintreffen und damit ein Auswandern der Phantomschallquellen in Richtung des näheren Lautsprechers verursachen. Die resultierende Auslenkung lässt sich den in Abb.  5/6 gezeigten Kurven entnehmen. Bei nur 10  cm  seitlicher Abweichung des Hörers aus der Mitte der Standard-Stereoanordnung ergibt sich eine Zeitdifferenz von 0,3 ms und daraus nach Maßgabe des Auslenkungskoeffizienten von 13 %/0,1 ms eine Richtungsverschiebung der Mitten-Phantomschallquelle um 39 %. Für die Standard-Stereoanordnung mit einem Basisöffnungswinke vonl 60°  sind dies etwa 12°. Bezieht  man diese Auslenkung auf die gesamte Abbildungsbreite, so ergibt sich daraus eine Abbildungsverzerrung, die in diesem Beispiel 20 % beträgt. Die Abbildungsverzerrung bezieht sich auf die Mitten-Phantomschallquelle, hier ist die Wirkung dieser ungewollten Laufzeitdifferenzen am größten. Die Breite der Hörfläche oder Hörzone ist bei der Zweikanal-Stereofonie sehr gering. Sie beträgt 20  cm, wenn eine Abbildungsverzerrung von 20  % zugelassen wird. Zu beachten ist, dass dies im Prinzip unabhängig von der Breite der Lautsprecherbasis gilt. Eine kleinere Lautsprecherbasis führt theoretisch nicht zu einer entsprechend schmäleren Hörzone. Dies  scheint der praktischen Erfahrung z. B.  mit Nahfeldlautsprechern zu widersprechen; Ursache hierfür ist die Wirkung des reflektierten Schalls im Wiedergaberaum auf die Ausdehnung der Phantomschallquelle. Die Lokalisierungsschärfe ist im Nahfeld der Lautsprecher

244 

 5 Tonaufnahme und Tonwiedergabe

besonders groß [Barron, 1981] und daher auch die Empfindlichkeit des Gehörs für Abbildungsverzerrungen [Theile, 2001/1], [Herrmann, 1999]. Es ist nicht sinnvoll, die Hörzone mit Hilfe besonders breit strahlender Lautsprecher zu Ungunsten der Lokalisierungsschärfe zu vergrößern, da hierdurch der nun vermehrt reflektierte Schall des Wiedergaberaums die Abbildung des Aufnahmeraums in den meisten Fällen beeinträchtigen wird. Die Mehrkanal-Stereofonie erzielt die gewünschte Verbreiterung der Stereohörfläche bei gleichzeitiger Verbesserung der Lokalisierungsschärfe. Zusätzliche Lautsprecher zwischen L und R bewirken, dass der Abbildungsbereich in  stereofone Teilbereiche aufgeteilt wird. Wendet man auf die Teilbereiche den Zusammenhang zwischen Hörzonenbreite und Abbildungsverzerrungen an,  so ergeben  sich brauchbare Hörzonenbreiten bereits für zwei oder drei Teilbereiche, siehe dazu die Kap. 5.2.2. und 5.4.2. Abb. 5/9 zeigt die Hörzonen für stereofone Wiedergabeanordnungen mit zwei, drei und vier Lautsprechern. Man erkennt, dass die Hörzonenbreite überproportional mit der Lautsprecheranzahl wächst. Da die Hörzonenbreite nicht von der Abbildungsbreite B abhängt, müsste die Lautsprecheranzahl mit B wachsen, wenn das Verhältnis Abbildungsbreite zu Hörzonenbreite etwa konstant sein sollte. Auch aus diesem Grund haben deshalb im Kino mit großer Leinwand Tonsysteme mit beispielsweise fünf Lautsprechern im vorderen Abbildungsbereich ihre Berechtigung. In der Praxis sind die Hörzonen oft etwas breiter, weil der Raumanteil im stereofonen Signal die Ausdehnung der Phantomschallquelle vergrößert. Darüber hinaus bezieht sich der Grenzwert der Abbildungsverzerrung auf den kritischsten Fall der Phantomschallquelle in der Mitte eines stereofonen Teilbereichs. Alle anderen Hörereignisrichtungen, insbesondere diejenigen in der Nähe der Lautsprecher, sind stabiler. Beim 5.1-Mehrkanal-Standard (siehe Kap. 5.4.1) hat sich in der Praxis gezeigt, dass schon ein einziger Center-Lautsprecher die Stabilität der Abbildungen in den beiden stereofonen Teilbereichen ausreichend erhöht. Das gilt auch für bildbezogene Tondarstellungen, da bei normalem Programmmaterial die Toleranzschwelle des Hörers höher liegt, einerseits wegen der Ablenkung durch den Programminhalt, andererseits wegen der assoziativen Verknüpfung von Seh- und Hörereignis mit der Ausdehnung der Quelle.

Abb. 5/9. Hörzonenbreiten für Stereofonie mit zwei, drei oder vier Lautsprechern. Hörzonenbreite im Referenzpunkt etwa 20 cm, 60 cm bzw. 150 cm bei einer zugelassenen Abbildungsverzerrung von 20 %. Die Hörzonenbreiten sind von der Abbildungsbreite B unabhängig.

5.2 Stereofonie 

 245

Bei der Mehrkanal-Stereofonie entstehen natürlich auch Abbildungsverzerrungen, wenn sich der Hörer vom Referenzpunkt – beispielsweise auf der Symmetrielinie – nach vorn oder hinten bewegt. Speziell in der Konfiguration L-C-R verursachen Laufzeitunterschiede ein Auswandern der Phantomschallquellen in den Teilbereichen L-C bzw. C-R. Diese Abbildungsverzerrungen begrenzen jedoch in der Praxis nicht die Hörflächen nach vorne und hinten,  sondern vielmehr beschränken die dabei entstehenden Verschiebungen der Lautstärkebalance zwischen den vorderen Lautsprechern und den Surround-Lautsprechern die Hörfläche. Sie können z. B. besonders die beabsichtigte Wirkung des indirekten Schalls bei Musikaufnahmen beeinträchtigen, siehe dazu auch die Kap. 5.2.4 und 5.4.3. Die Stereo-Standard-Abhörposition  sieht bei Zweikanal-Stereofonie ein gleichseitiges Dreieck vor, entsprechend ist der sog. Sweet Spot bei Mehrkanal-Stereofonie definiert (siehe Kap. 5.4.1). In der Praxis der Tonaufnahme beurteilen in der Regel zumindest zwei Personen das Klanggeschehen, Tonmeister und Toningenieur; beide können  sich nicht zugleich am optimalen Abhörpunkt befinden. Wie wirkt sich dies auf die Hörzone aus? Sitzen beide hintereinander um den optimalen Platz, so gibt es – auch bei drei Zuhörern – keine Einschränkungen der Beurteilungsfähigkeit. Hingegen ist eine Klangbeurteilung bei Plätzen nebeneinander unbrauchbar. Bei einer Aufnahme in Laufzeitstereofonie  mit 40  cm Mikrofonbasis z. B. bewirkt eine Deplatzierung aus der Mitte um nur 5 bis 10 cm bereits eine inakzeptable Verschiebung des Klangbilds. Bei einer Aufnahme in Intensitätsstereofonie ist diese Verschiebung zwar geringer, aber dennoch inakzeptabel. Ein Ausgleich des Abbildungsfehlers bei der Wiedergabe über den Abhörbalancesteller ist nicht zulässig. Bei Mehrkanal-Stereofonie gilt im Prinzip dasselbe, wenn auch der Einfluss der seitlichen Verschiebung deutlich geringer ist; dafür wird aber der Einfluss der Verschiebung vorne/hinten in geringem Umfang wirksam.

5.2.2 Aufnahmewinkel eines Stereomikrofons Stereomikrofone – Mikrofonsysteme, die aus zwei einzelnen Mikrofonen zusammengesetzt  sind – erzeugen Pegel- und/oder Laufzeitunterschiede, die die Phantomschallquelle nach Maßgabe der in Kap. 5.2.1 behandelten Lokalisierungskurven seitlich auslenken. Entspricht ein bestimmter Schalleinfallswinkel einer Schallquelle α am Stereomikrofon beispielsweise einer Laufzeitdifferenz von 0,4 ms, so ergibt sich dadurch gemäß Abb. 5/6 eine Auslenkung der Phantomschallquelle um 50  % der Lautsprecherbasisbreite, was in der Standard-Zweikanalanordnung einer Richtungsverschiebung um 15° entspricht, die Phantomschallquelle wird auf der Lautsprecherbasis also halb seitlich abgebildet. Man kann mit dieser Methode für beliebige stereofone Mikrofonanordnungen, die von der Frequenz unabhängige Pegel- und/oder Laufzeitdifferenzen erzeugen, Abbildungskurven bestimmen, die den Zusammenhang zwischen dem Schalleinfallswinkel α und der Phantomschallquellenauslenkung direkt beschreiben. Abbildungskurven von Stereomikrofonen, die frequenzabhängige Pegel- und/oder Laufzeitdifferenzen erzeugen, z.  B. Trennkörper­ verfahren (dazu Kap. 5.3.4) werden durch Messungen im Experiment mit Testhörern ermittelt.

246 

 5 Tonaufnahme und Tonwiedergabe

5.2.2.1 Aufnahmewinkel bei zweikanaligen Mikrofonen Abb. 5/10 zeigt beispielhaft eine Abbildungskurve eines zweikanaligen Mikrofons; die Schallquellenrichtung α  =  20° ergibt hier eine Auslenkung der Phantomschallquelle von 50  % entsprechend einer Abbildungsrichtung von 15° in der konventionellen Zweikanal-Stereoanordnung. Man erkennt, dass nur die Schallquellen aus Richtungen bis maximal ± 45° zwischen dem linken bzw. rechten Lautsprecher abgebildet werden, sie befinden sich innerhalb des sog. Aufnahmewinkels oder Aufnahmebereichs, in diesem Beispiel beträgt er 90°. Innerhalb dieses Bereichs findet eine ausgeglichene Richtungsabbildung statt. Schallquellen, die außerhalb ± 45° liegen, erzeugen zu große Signalunterschiede und erscheinen in den Lautsprechern L bzw. R. Die Lokalisierungskurven für Pegel- bzw. Laufzeitdifferenzen (Abb. 5/4 bzw. 5/6) zeigen in den inneren Bereichen bis zu einer Auslenkung von 75 % einen weitgehend linearen Verlauf. Für diese Bereiche gelten Auslenkungskoeffizienten von 7,5  %/dB bzw. 13  %/0,1  ms. Diese Linearität findet sich in den Abbildungskurven der Stereomikrofone wieder, siehe Abb. 5/10. Für größere Werte gibt es Übergangsbereiche, die durch eine unsichere Wahrnehmung der Richtung nahe den beiden Lautsprechern gekennzeichnet  sind; auch ist dieser Winkelbereich in der Praxis für die Abbildung des stereofonen Klangbilds nicht sehr wichtig. Um für Mikrofonanordnungen zuverlässige und eindeutige Angaben über deren Aufnahmebereich zu machen, wurde deshalb vorgeschlagen, als Aufnahmewinkel 75 % bzw. recording angle 75 % für den Winkelbereich der Lautsprecherbasis von ± 75 % einzuführen [Williams, 1987]. Der Aufnahmewinkel 75 % ist in der Abbildungskurve in Abb. 5/10 eingetragen, er beträgt in diesem Beispiel 60°. Dies ist der Bereich, in dem die einzelnen Schallquellen linear und deutlich lokalisierbar abgebildet werden, der also eine gute Basis für die Planung einer Aufnahme darstellt.

Abb. 5/10. Abbildungskurve und Aufnahmewinkel eines zweikanaligen Stereomikrofons. Schallquellen in den schraffierten Richtungsbereichen werden in den Lautsprechern L bzw. R abgebildet.

5.2 Stereofonie 

 247

5.2.2.2 Aufnahmewinkel bei gleichsinnigen Pegel- und Laufzeitdifferenzen Es besteht im Auslenkungsbereich ± 75 % eine Gleichwertigkeit von Pegel- und Laufzeitdifferenzen gemäß der beiden Auslenkungskoeffizienten von 7,5 %/dB bzw. 13 %/0,1 ms: 1 dB Pegelunterschied erzeugt demnach etwa dieselbe Auslenkung wie 60  μs Laufzeitdifferenz (Abb. 5/11). Für Auslenkungsbereiche über 75 %, also für die äußeren Flanken der Stereobasis, sind diese Äquivalenzen nicht mehr anwendbar. Tragen die Pegel- und Laufzeitdifferenzen etwa gleich viel zur Abbildungsrichtung bei, so spricht man auch von Äquivalenzmikrofonverfahren. Die Abbildungskurven und Aufnahmewinkel oder -bereiche sind auch für Stereomikrofone bestimmbar, bei denen Pegel- und Laufzeitdifferenzen gleichsinnig zusammenwirken. Eine wichtige Regel lautet: Wird eine Phantomschallquelle auf Grund von Pegeldifferenzen ΔL gebildet und zusätzlich um Laufzeitdifferenzen Δt in gleicher Richtung ausgelenkt, so ist die gesamte Auslenkung etwa gleich der Summe der beiden einzelnen Auslenkungen.

Abb. 5/11. Äquivalenzen von Laufzeit- und Pegeldifferenzen bei der Auslenkung von Phantomschallquellen, zugehöriger Lautsprecherwinkel ± 75 % um die Mitte.

248 

 5 Tonaufnahme und Tonwiedergabe

Auf dieser Grundlage und in Kenntnis der Mikrofon-Richtcharakteristiken, der daraus resultierenden Pegeldifferenzen, der durch den Abstand zweier Mikrofonkapseln gegebenen Laufzeitdifferenzen sowie der in Kap. 5.2.1 angegebenen Lokalisierungskurven können die Abbildungskurven und Aufnahmewinkel von Stereomikrofonanordnungen bestimmt werden. Prinzipiell existiert eine riesige Anzahl  möglicher Kombinationen von Mikrofonanordnungen. Einige davon werden in Kap. 5.3.4 vorgestellt. Für jede Anordnung lässt sich der Aufnahmewinkel bestimmen. Systematisch hat Michael Williams ihn für alle Richtmikrofontypen errechnet mit dem Ergebnis der sog. Williams-Diagramme [Williams, 1987]. Abb. 5/12 zeigt die Zusammenhänge der drei Größen Aufnahmewinkel, Versatzwinkel und Mikrofonbasis für zwei Nieren. Als Beispiel sind die Werte für die ORTF-Anordnung (siehe Kap. 5.3.4) eingetragen, die Mikrofonbasis beträgt hier 17,5 cm und die Mikrofon-Versatzwinkel ± 55°, der Mikro­ fon-Öffnungswinkel zweimal 55°  =  110°. Man findet im Diagramm einen Aufnahmewinkel von etwa 95°. Der Versatzwinkel ist der Winkel, um den ein Mikrofon aus der Hauptrichtung, der Richtung zur Schallquelle oder zum Zentrum der Schallquelle, ausgeschwenkt wird.

Abb. 5/12. Williams-Diagramme, Zusammenhang von Aufnahmewinkel oder -bereich, Versatzwinkel und Mikrofonbasis für zwei Nierenmikrofone nach Williams [Williams, 1987], die sog. ORTF-Anordnung ist als Beispiel eingetragen, Einstellungen in den schraffierten Flächen sind für Aufnahmen ungeeignet.

5.2.2.3 Aufnahmewinkel bei dreikanaligen Mikrofonen Die Kenntnis des Aufnahmewinkels des einzusetzenden Stereomikrofons hat in der Praxis eine große Bedeutung. Das trifft ebenso für Mehrkanal-Aufnahmen zu, denn auch bei Anwendung von dreikanaligen Stereomikrofonen möchte man die Ausdehnung des Klangkörpers oder die Richtungsverteilung der aufzunehmenden Schallquellen mit Hilfe des Aufnahmewinkels optimal abbilden.

5.2 Stereofonie 

 249

Abb. 5/13. Abbildungskurven für die stereofonen Teilbereiche L­-C und C-R eines dreikanaligen Stereomikrofons und resultierender Aufnahmewinkel oder -bereiche.

Wie bereits in Kap.  5.2.1.5 erläutert, ist der vordere Abbildungsbereich in zwei nebeneinander liegende  stereofone Teilbereiche L-C und C-R aufgeteilt,  so dass die Lokalisierungskurven für Pegel- und Laufzeitdifferenzen (Abb. 5/6 bzw. 5/8) ihre Gültigkeit behalten. Die gesamte Abbildungsebene L-R  setzt  sich aus dem linken und rechten Bereich zusammen. Die für Zweikanal-Stereofonie bekannten Abbildungseigenschaften bleiben im Prinzip erhalten, jedoch mit dem Vorteil der vergrößerten Stereohörfläche, wie in Kap. 5.2.1 erläutert. Man erkennt in Abb. 5/13, dass die Richtungsübersetzung eines geeigneten dreikanaligen Mikrofons nach Maßgabe der für die Teilbereiche relevanten Abbildungskurven erfolgt, siehe auch Abb. 5/10. Das setzt allerdings voraus, dass die äußeren Mikrofonkapseln L und R einen vernachlässigbaren Beitrag zur Abbildung liefern, d. h., dass keine relevante Abbildungskurve für das Mikrofonpaar L-R existiert. Dies ist möglich und wird in Kap. 5.4.2 näher erläutert. 5.2.2.4 Berechnungswerkzeuge Ein nützliches Werkzeug zur Berechnung der Abbildungskurven und Abbildungswinkel für beliebige zwei- oder dreikanalige Anordnungen mit Mikrofonen unterschiedlicher Richtcharakteristiken ist der Image Assistant (Abb. 5/14); er wurde von Helmut Wittek entwickelt und in Hörversuchen bestätigt [Wittek, Image Assistant], [Wittek, 2002]. Er ist aktuell im Internet frei verfügbar als „SCHOEPS Image Assistant v3“ als browser-Version und im Apple app store frei verfügbar. Es bietet zusätzlich die Berechnung der vom Schalleinfallswinkel abhängigen Pegel- und Laufzeitdifferenzen zwischen den Kanälen, den Gesamtschallpegel für jede Zweikanal- oder Dreikanal-Mikrofonanordnung in Abhängigkeit von den Richtcharakteristiken Kugel, breite Niere, Niere, Superniere und Acht.

250 

 5 Tonaufnahme und Tonwiedergabe

Abb. 5/14. Screenshot des Image Assistant 2.1 (www.hauptmikrofon.de). Die Abbildungskurve sowie der Aufnahmewinkel oder -bereiche einer beliebigen zwei- oder dreikanaligen Mikrofonanordnung kann grafisch dargestellt werden, hier ist die ORTF-Anordnung dargestellt [Wittek, Image Assistant].

Grundlage der Berechnung  sind die bei der jeweiligen Mikrofonanordnung auftretenden Pegel- und Laufzeitdifferenzen. Aus ihnen wird auf Grund der in Kap.  5.2.1 beschriebenen Gesetzmäßigkeiten die Abbildungskurve ermittelt. Gleichzeitig wird der Aufnahmewinkel und der Aufnahmewinkel 75 % angegeben. Dieses Hilfsmittel hilft nicht nur dem Tonmeister bei der Auswahl und Platzierung der Mikrofone,  sondern vermittelt auch die grundlegenden Eigenschaften der verschiedenen Stereomikrofontechniken wie z. B. die Gleichmäßigkeit oder die Stabilität der Abbildung. Außerdem können mit Hilfe des Werts Aufnahmewinkel 75 % verschiedene, im Hinblick auf die Abbildungskurve gleichwertige Anordnungen ermittelt werden. Der Tonmeister kann  somit fundierter entscheiden, welche dieser Anordnungen seinem Ziel am nächsten kommen, indem er weitere Qualitätsaspekte berücksichtigt wie Klangfarbe, Stabilität, Abbildungsschärfe und oft auch die physische Größe der Mikrofonanordnung.

5.2 Stereofonie 

 251

5.2.3 Theorien zur Lokalisierung von Phantomschallquellen Zur Erklärung der Phänomene der Lokalisierung von Phantomschallquellen wurde bisher i. Allg. die sog. Theorie der Summenlokalisierung (Kap. 5.2.3.1) herangezogen. Sie kann einige Phänomene der Wahrnehmung zufriedenstellend erklären, andere Phänomene  sind im Rahmen dieser Theorie nicht schlüssig zu interpretieren. Dabei bleibt eine Reihe von Fragen völlig offen; insbesondere ist ihr grundsätzlicher Mangel, dass sie nur für Lautsprecherwiedergabe gilt, für andere Phänomene der Richtungs- und Entfernungswahrnehmung aber keine Erklärungen bietet. 1980 hat Günther Theile [Theile, 1980/1] ein Assoziationsmodell der Wahrnehmung vorgestellt, das eine große Zahl unterschiedlicher Phänomene der Richtungs- und Entfernungswahrnehmung bei Lautsprecher- und Kopfhörerdarbietung  sowie beim natürlichen Hören in einheitlich mit einer einzigen Theorie erklären kann (Kap. 5.2.3.2). Theile geht gegenüber früheren Theorien, die mehr an nachrichtentechnischen Modellen orientiert sind, von einem gestaltpsychologischen Ansatz aus, der die Hörerfahrung und Lernprozesse des Hörens zum Ausgangspunkt nimmt. 5.2.3.1 Summenlokalisierung Die Summenlokalisierung geht von der Annahme aus, dass bei der Wahrnehmung von Phantomschallquellen bei Lautsprecherdarbietung aus den Schallfeldüberlagerungen an den beiden Ohren Summensignale resultieren, deren Komponenten das Gehör nicht trennen kann. Es wird vermutet, dass die Signale an den beiden Ohren bei der Lokalisierung einer Phantomschallquelle und bei der Lokalisierung einer entsprechenden realen Schallquelle an demselben Ort gleichwertig sind, obwohl sie nicht identisch sind, wie Abb. 5/1 deutlich zeigt. In der Literatur werden verschiedene Theorien hierzu beschrieben, die jedoch nur einzelne Bereiche der räumlichen Wahrnehmung erfassen, eine allgemein gültige Theorie ist nicht aufgestellt worden [Blauert, 2000]. Ausgehend von Tonimpulsen, die entweder mit einer Pegeldifferenz oder mit einer Zeitdifferenz von zwei Lautsprechern in Stereoanordnung abgestrahlt werden, und den dazugehörigen Reizmustern an den beiden Ohren (Abb. 5/3), liegt zunächst die Vermutung nahe, dass der am Ohr jeweils zuerst eintreffende Impuls bzw. bei gleichzeitigem Eintreffen der lautere Impuls die Richtungswahrnehmung bestimme; demgegenüber konnte in Versuchen gezeigt werden, dass auch die weiteren, später eintreffenden Impulse von Einfluss auf die Richtungswahrnehmung  sind. Bei Dauertönen kann eine für die  stereofone Übertragung brauchbare Zuordnung von Lautsprecher- und Ohrsignalen nur unter etwa 800 Hz bestehen. Ein wesentlicher Einwand gegen die Summenlokalisierung bezieht sich auf die wahrgenommene Klangfarbe der Phantomschallquellen. Da es an den Ohren zu einer Überlagerung zweier zeitverzögerter Signale kommt, die auf den unterschiedlichen Abstand der beiden Ohren zu jeweils einem Lautsprecher zurückzuführen  sind (Abb.  5/3),  müssten Phantomschallquellen eigentlich eine Klangfärbung aufweisen, wie sie durch ein Kammfilter erzeugt wird. Abb.  5/1, linkes Bild unten, zeigt den Frequenzgang am linken Ohr, wie er durch die Überlagerung der beiden identischen, gleichzeitig abgestrahlten Lautsprechersignale entsteht. Zu sehen ist ein Pegeleinbruch von mehr als 10 dB bei 2 kHz. Die beiden Ohrsignale 

252 

 5 Tonaufnahme und Tonwiedergabe

sind identisch. Trotz dieser objektiv vorhandenen deutlichen linearen Verzerrung wird eine Klangfärbung kaum wahrgenommen. Dies weist auf Wirkungsmechanismen der Wahrnehmung von Phantomschallquellen hin, die die Theorie der Summenlokalisierung nicht erklären kann. 5.2.3.2 Assoziationsmodell Das Assoziationsmodell von Theile ermöglicht eine weitgehend einheitliche Erklärung aller wichtigen Phänomene des räumlichen Hörens [Theile, 1980/1, 1980/2, 1981/1]. Es macht auch den Einwand der Klangfärbung bei der Wiedergabe von Phantomschallquellen gegenstandslos. Das Modell geht von der Hypothese aus, dass die Wahrnehmung von Ort und Klanggestalt eines Hörereignisses stets durch einen Vergleich mit gespeicherten Mustern erfolgt. Die dabei ablaufende  spontane assoziative Mustererkennung ist ein Prozess, der ein eintreffendes akustisches Muster mit einem im Gehirn gespeicherten Muster vergleicht, selbst dann, wenn nur Teile des gespeicherten Musters im eintreffenden akustischen Muster enthalten  sind. Dieser Mustervergleich läuft z. B. auch bei einem Telefonat ab, bei dem der Anrufer – wenn bekannt – bereits beim ersten Wort automatisch identifiziert wird. Die räumliche Wahrnehmung resultiert dabei grundsätzlich aus zwei unterschiedlichen, nacheinander ablaufenden Verarbeitungsprozessen: Entsprechend den beiden grundlegenden und getrennten Hörereigniseigenschaften Ort und Gestalt durchläuft ein akustischer Reiz in der ersten Stufe eine Ortsassoziation, in der zweiten Stufe eine Gestaltassoziation. Beide Prozesse bestimmen stets gemeinsam die Hörereigniseigenschaften. Abb. 5/15 zeigt das Prinzip des Assoziationsmodells. Das Assoziationsmodell führt die Lokalisierung auf einen Prozess zur Decodierung eines Lokalisierungsreizes zurück. Ein Lokalisierungsreiz liegt vor, wenn hinreichend breitbandige Ohrsignale sich hinsichtlich der Zeit- und spektralen Merkmale einem einzigen Schallereignisort zuordnen lassen. Im überlagerten Schallfeld  sind unter bestimmten Bedingungen gleichzeitig mindestens zwei Lokalisierungsreize unterscheidbar. Sowohl in der Situation bei Phantomschallquellen als auch in Experimenten zur Lateralisation, also der Lokalisierung von Hörereignisorten im Kopf, führen zwei unterschiedliche Lokalisierungsreize zu einem einzigen Hörereignisort.

Abb. 5/15. Assoziationsmodell der Hörwahrnehmung nach [Theile, 1980/1].

Die Funktion des Gehörs bei der Lokalisierung einer Schallquelle kann nur unter Lokalisierungsbedingungen untersucht werden. Das setzt voraus, dass das Schallereignis ein ausrei-

5.2 Stereofonie 

 253

chend breitbandiges Spektrum aufweist. Der Wahrnehmungsprozess, der zur Lokalisierung führt, ist nur möglich, wenn spektrale Merkmale die Zuordnung der Hörereignisentfernung zulassen. Diese Modellvorstellung kann Erklärungen einiger wichtiger Hörphänomene liefern: Stereofone Lautsprecherwiedergabe Bei  stereofoner Lautsprecherwiedergabe treten Hörereignisse auf, die  sich ebenso  mit entsprechend zugeordneten realen Einzelschallquellen im freien Schallfeld erzeugen lassen. Es ist aber nicht  möglich, den in beiden Fällen identischen Hörereignissen entsprechend auch identische Ohrsignale zuzuordnen. Relativ große Unterschiede der Ohrsignalmerkmale hinsichtlich des Spektrums und interauralem Kohärenzgrad führen zu dem Schluss, dass keine Summenlokalisierung stattfindet: Die Phantomschallquelle lässt sich nicht als Ersatzschallquelle auffassen. Vielmehr  muss angenommen werden, dass die Schallsignale auf Grund der unterschiedlichen Sendeorte im Gehör zunächst räumlich entschlüsselt werden als Wirkung der Ortsassoziationsstufe. Erst nach erfolgter Decodierung des Orts verschmelzen die Reize als Wirkung der Gestaltassoziationsstufe, weil die Lautsprecher hinreichend ähnliche Signale abstrahlen. Phantomschallquellen und Gesetz der ersten Wellenfront Die Grenze für den Bereich der Gültigkeit des Gesetzes der ersten Wellenfront (siehe Kap. 3.4.1) wird zu kleinen Verzögerungszeiten hin durch den Übergang zur Bildung der Phantomschallquellen definiert. Beide Phänomene lassen sich zurückführen auf die zeitabhängige Bewertung nacheinander eintreffender Reizantworten der Ortsassoziationsstufe an der Gestaltassoziationsstufe. Die Ortsassoziationsstufe wirkt im überlagerten Schallfeld als Filter zur Befreiung der Sendesignale von der räumlichen Information,  man kann von einer räumlichen Decodierung  sprechen,  so dass in der darauffolgenden Gestaltassoziationsstufe nur die Sendesignalbeziehung bewertet wird. Zwei Sendesignale mit Laufzeitdifferenzen führen dazu, dass zwei Lokalisierungsreize nicht zeitgleich eintreffen. Die Gesetzmäßigkeiten für die daraus resultierenden Hörereignisorte, nämlich Phantomschallquellen, und das Gesetz der ersten Wellenfront, lassen sich als „Gesetz des ersten Lokalisierungsreizes“ verstehen. Cocktailparty-Effekt Dieser Effekt besagt, dass ein Nutzsignal, das aus einer bestimmten Richtung eintrifft, von einem Störsignal, das aus einer anderen Richtung eintrifft, bei zweiohrigem Hören weniger stark verdeckt wird als bei einohrigem Hören. Der Effekt ist zurückzuführen auf die Wirkung der Ortsassoziationsstufe: Zwei Schallquellen rufen normalerweise nicht nur zwei verschiedene Ortsassoziationen, sondern zusätzlich zwei verschiedene Gestaltassoziationen hervor. Die resultierenden beiden Hörereignisse treten dann also nach zweistufiger Selektion auf, woraus  sich die größtmögliche Auflösung ergibt. Bei einohrigem Hören geht die Selektionswirkung der Ortsassoziationsstufe zumindest teilweise verloren, weil die ortsbestimmenden Reizmuster unvollständig vorliegen. Die gemeinsame Wirkung der beiden Verarbeitungsstufen, die von elementaren Hörerfahrungen geprägt werden, kommt besonders deutlich durch den Cocktailparty-Effekt zum Ausdruck. Er wurde 1953 von C. Cherry erstmals wissenschaftlich beschrieben, nachdem er Konversationen auf Partys monofon aufgenommen hatte und die Sprachverständlichkeit überraschend schlecht war.

254 

 5 Tonaufnahme und Tonwiedergabe

Lateralisation bei Kopfhörerdarbietung Lateralisation ist die seitliche Verschiebung einer „Schallquelle im Kopf“ bei Kopfhörerwiedergabe. Experimente zur Lateralisierung geben also Aufschlüsse über die Auswertung interauraler Signalunterschiede bei Kopfhörerwiedergabe, bei der die Signale nur jeweils ein Ohr erreichen. Sie geben nur Auskunft über die Funktion der Gestaltassoziationsstufe, weil die beiden Sendesignale unabhängig von der Senderentfernung einzeln entschlüsselt und der Gestaltassoziationsstufe zugeführt werden. Experimente zur Lateralisation lassen deshalb grundsätzlich keine Rückschlüsse zu auf die Funktion des Gehörs bei der Lokalisierung einer Einzelschallquelle. Sie führen vielmehr zu Gesetzmäßigkeiten einer „Phantomschallquelle im Kopf“, siehe auch Kap. 5.5.4.1. Eine „Ersatzschallquelle im Kopf“ gibt es nicht. Die Auswertung unterschiedlicher Ohrsignale, die das Gehör bei der Lokalisierung einer Schallquelle vornimmt, lässt sich prinzipiell nicht mit zwei hinreichend nahe an den Ohren befindlichen Schallquellen untersuchen. Hörversuche mit Kopfhörern sind Hörversuche mit zwei Schallquellen – es sei denn, es werden Kunstkopfsignale dargeboten, in diesem Fall existiert eine Ersatzschallquelle. Das aus dem Assoziationsmodell gewonnene Verständnis der Funktion des Gehörs beim räumlichen Hören hat maßgeblich zu verschiedenen Entwicklungen und Anwendungen im Bereich der stereofonen Aufnahme- und Wiedergabetechnik beigetragen. Dazu gehören die Weiterentwicklung der Kunstkopftechnik (siehe Kap.  5.5.5.), die Diffusfeldentzerrung für Studio-Kopfhörer (siehe Kap.  5.5.4.2), die Entwicklung des Kugelflächenmikrofons (siehe Kap. 5.2.4 und 5.3.4.3), das Konzept der raumbezogenen Stütztechnik (siehe Kap. 5.2.4 und 5.3.5), Konzepte der Verbindung von Wellenfeldsynthese und Stereofonie (siehe Kap. 5.5.3.1).

5.2.4 Räumliche stereofone Abbildung Das Gehör wertet verschiedene Merkmale des Schallfelds zu räumlichen Hörereignismerkmalen aus, dazu gehören neben der Hörereignisrichtung einschließlich ihrer Erhebung die Entfernung, die räumliche Tiefe, der Raumeindruck und die Umhüllung. Der Begriff Raumeindruck umfasst zwei Attribute des Klangbilds: Das erste ist „Räumlichkeit“, eine räumliche Verbreiterung des Hörereignisses, verursacht durch frühe Reflexionen mit einer Verzögerung von 10 bis 80 ms. Das zweite ist „Halligkeit“, eine zeitliche Verwischung des Hörereignisses, verursacht von späten Reflexionen und Nachhall. In Tab. 5/1 ist  schematisch dargestellt, welche Bedeutung der Direktschall, die frühen Reflexionen, der Nachhall und der umhüllende Schall für die einzelnen Klangbildattribute besitzen. Der umhüllende Schall kann sowohl umgebenden diffusen Schall, in der Praxis meist „Atmo“ genannt; als auch den hörbar ausklingenden Nachhall enthalten. Siehe auch Kap. 1.2. Die Wirkung des reflektierten Schalls ist in Abb. 5/16 dargestellt. Man erkennt, dass das natürliche Muster der frühen Reflexionen  mit einer Verzögerung von 15 bis 50  ms für das räumliche Hören eine besonders wichtige Rolle spielt. Die Attribute Entfernung, räumliche Tiefe, Räumlichkeit − in der Literatur auch apparent source width, scheinbare Quellenausdehnung genannt −  sind von diesem Schallanteil beeinflusst. Das Gehör entnimmt den frühen Reflexionen auch die Informationen über die Größe des Raums. Besonders dieser Teil des reflektierten Schalls erfordert für die Aufnahme Kenntnis und Sorgfalt.

5.2 Stereofonie 

 255

Tab. 5/1. Zusammenhang von Klangbildattributen und Schallfeldtypen. Attribute des Klangbilds

Richtung und Erhebung

Komponenten des Schallfelds Direktschall

frühe, sog. erste Reflexionen

●●



Entfernung, Tiefe

●●

Räumlichkeit

●●

Halligkeit

umhüllender Schall

● ●●

Raumeindruck

●●

●●



●●

Umhüllung Klangfarbe

Nachhall

● ●●

●●

Abb. 5/16. Zuordnung der Klangbildattribute zum zeitlichen Ablauf des Raumschalls.

Hinzu kommt, dass die Möglichkeiten der räumlichen Darstellung bei Anwendung stereofoner Verfahren mehr oder weniger eingeschränkt sind, besonders bei der Zweikanal-Stereofonie. Die Kenntnis auch darüber ist hilfreich, um das gewünschte Klangbild im gegebenen Rahmen zufriedenstellend realisieren zu können. In den folgenden beiden Kapiteln werden die entsprechenden Eigenschaften der Zwei- und Mehrkanal-Stereofonie erläutert. 5.2.4.1  Prinzipien der Zweikanal-Stereofonie Welche Qualität der  stereofonen Darstellung eines räumlichen Klangbilds ist grundsätzlich möglich bei zweikanaliger Lautsprecherwiedergabe, welche stereofonen Lautsprecher­ signale benötigt das Gehör dazu? Die Antworten lassen sich so zusammenfassen: Entfernung der Phantomschallquelle Die Entfernung der Phantomschallquelle ist gleich der mittleren Entfernung der beiden Stereo-Lautsprecher. Phantomschallquellen außerhalb der stereofonen Lautsprecherbasis sind nicht möglich. Verfahren, welche durch Kompensation der interauralen Übersprechanteile der Lautsprecher die kopfbezogene Reproduktion binauraler Signale anstreben, arbeiten nicht mit Phantomschallquellen.

256 

 5 Tonaufnahme und Tonwiedergabe

Akustisches Umfeld Alle Schallfeldanteile – Direktschall, frühe Reflexionen und Nachhall – erreichen den Hörer nur aus dem vorderen Abbildungssektor ±  30° und erzeugen nur vor ihm ein  stereofones Klangbild. Die räumliche und zeitliche Auflösung des in Abb. 5/16 dargestellten Direktschalls und der frühen Reflexionen zeigt Abb. 5/17. Die im Originalraum vorhandenen Richtungen der frühen Reflexionen  sowie die Richtungsdiffusität des Nachhalls  sind auf den Abbildungssektor ±  30° zusammengedrängt. Das akustische Umfeld des Hörers ist allein durch den Wiedergaberaum festgelegt und für die Darstellung des Originalraums normalerweise nicht oder nur sehr bedingt geeignet.

Abb. 5/17. Räumliche und zeitliche Verteilung der frühen Reflexionen bei Zweikanal-Stereofonie. Die Zeitachse ist mit den Kreisen dargestellt. Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen.

Räumliche Tiefe Die räumliche Perspektive wird lautsprecherbezogen, d. h., in einer Simulationsebene zwischen den Lautsprechern dargestellt, ähnlich der perspektivischen Darstellung auf einem Bild. Die reale Entfernung der  stereofonen Abbildungsebene entspricht der realen Entfernung eines Bilds (Abb. 5/18). Im Bild wird räumliche Tiefe durch visuelle räumliche Merkmale dargestellt. In ähnlicher Weise werden Tiefe und Entfernung in der stereofonen Abbildungsebene durch räumliche Merkmale eines Schallfelds dargestellt, v. a. also durch frühe Reflexionen, Nachhall, Lautstärkenverhältnisse und Klangfarbe. Darstellung der räumlichen Perspektive Die Darstellung der räumlichen Perspektive in der Simulationsebene gelingt umso besser, je genauer die interauralen Signaldifferenzen beim natürlichen Hören durch die Unterschiede der Lautsprechersignale nachgebildet werden. Das Gehör erkennt die Beziehungen zwischen linkem und rechtem Lautsprechersignal und wertet sie gemäß seiner Hörerfahrung aus.

5.2 Stereofonie 

 257

Abb. 5/18. Simulation von räumlicher Tiefe in einer Abbildungsebene. Der Abstand des Bilds kann mit dem Abstand von Stereolautsprechern vor dem Zuhörer verglichen werden.

Zusammenfassend ist somit festzustellen, dass die zweikanalige stereofone Abbildung auf der direkten Auswertung der Beziehungen der Lautsprechersignale durch das Gehör beruht, nicht die resultierenden Unterschiede der Ohrsignale beim Hörer im Wiedergaberaum sind entscheidend. Vielmehr lassen sich die räumlichen Eigenschaften des Klangbilds optimieren, indem sowohl das Hauptmikrofon als auch die Verarbeitung der Stützsignale möglichst natürliche interaurale Signaldifferenzen erzeugen (siehe auch Kap.  5.3.4.3  sowie 5.3.5.3). Besonders die reine Intensitätsstereofonie sowie die gebräuchliche Intensitätsstütztechnik erfüllen diese Forderung ohne unterstützende Signalverarbeitung nicht ausreichend. 5.2.4.2 Prinzipien der Mehrkanal-Stereofonie Durch den Einsatz zusätzlicher Surround-Lautsprecher im seitlichen bzw. hinteren Bereich des Hörers wird eine weitere Dimension hinzugefügt, so dass sich das akustische Umfeld des Hörers real gestalten lässt. Die zwei Surround-Kanäle im 3/2-Standardformat ermöglichen es, die Richtungsverteilung von Direktschall und reflektiertem Schall zweidimensional zu reproduzieren. Das in Abb. 5/16 gezeigte Reflexionsmuster wirkt – im Gegensatz zur ZweikanalStereofonie – in der notwendigen Richtungsauflösung, siehe Abb. 5/19. Die dargestellte Richtungsverteilung basiert auf stereofoner Wiedergabe der Reflexionen. Die für die Seiten mangelhafte Stabilität von Phantomschallquellen (siehe Kap. 5.2.1) ist hier nicht  störend, weil die von allen Seiten am Surround-Mikrofon eintreffenden Reflexionen ganz unterschiedliche Laufzeitdifferenzen in den Kanälen aufweisen. Der gewünschte Effekt ist in der Hörzone deshalb weitgehend unabhängig vom Hörerplatz. Die stereofone Qualität ändert sich von einem simulierten hin zu einem wirklichen Eindruck räumlicher Tiefe, wenn die  seitlichen Reflexionen tatsächlich den Zuhörer von der Seite erreichen. Sie erzeugen eine natürliche raumspezifische interaurale Dekorrelation der beiden Ohrsignale und damit Tiefe und Räumlichkeit. Man weiß aus der Raumakustik von Konzertsälen, dass  seitliche Reflexionen besonders wichtig  sind. In Vergleich dazu  sind

258 

 5 Tonaufnahme und Tonwiedergabe

frühe Reflexionen aus der Medianebene, in einem Konzertsaal Reflexionen von der Decke, eher schädlich.

Abb. 5/19. Räumliche und zeitliche Verteilung der frühen Reflexionen bei Mehrkanal-Stereofonie 5.1 Surround). Die Zeitachse ist mit den Kreisen dargestellt. Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen.

Die Erweiterung um eine zweite Dimension bedeutet, dass die Anzahl der im  stereofonen Signal für Zweikanal-Wiedergabe enthaltenen Reflexionen  sich nicht erhöht. Vielmehr werden diese Reflexionen nun räumlich verteilt abgebildet, wie in den Abb. 5/16 und 5/19 dargestellt. Das hat Konsequenzen für die Aufnahme. Es ist in Hinblick auf korrekte Abbildung der frühen Reflexionen wichtig, dass die Mikrofon-Konfiguration diese Trennung der Abbildungsrichtungen weitgehend gewährleistet. Geschieht das nicht, so ist die reproduzierte Reflexionsdichte zu hoch, da einzelne Reflexionen  mehrfach abgebildet werden. Näheres dazu in Kap. 5.4.3. Bei der Wiedergabe  seitlicher Reflexionen werden die Lautsprecher des linken und rechten Surroundkanals LS und RS nicht als solche seitlich wahrgenommen, sondern sie verbessern die Qualität der stereofonen Abbildung vor dem Hörer durch Schaffung von Tiefe − ein alter Wunsch in der Zweikanal-Stereofonie. Der eigentliche stereofone Abbildungsbereich vergrößert sich dadurch nicht. Auch bezüglich der Wirkung des Nachhalls sind die Lautsprecher bei richtiger Handhabung der Aufnahmetechnik (siehe Kap. 5.4) nicht als Schallquellen wahrnehmbar. Ausreichende Dekorrelation des Nachhalls und des umgebenden diffusen

5.2 Stereofonie 

 259

Schalls in den vier Kanälen L, R, LS und RS ermöglicht im Bereich der Hörzone eine ausgewogene Umhüllung. Insgesamt geht durch das Hinzufügen der Surround-Lautsprecher die Darstellung räumlicher Attribute des Klangbilds von der Qualität einer Simulation in die Qualität einer realen Wahrnehmung über. Der Hörer fühlt sich in das akustische Geschehen einbezogen. Das akustische Umfeld des Hörers ist nicht durch den Wiedergaberaum geprägt, vielmehr kann es bei der Aufnahme durch den Tonmeister gestaltet werden im Sinne einer optimalen Reproduktion räumlicher Attribute oder zur Erzeugung eines neuen künstlichen Raums.

5.2.5 Begriffe zur stereofonen Richtungsabbildung In Tab. 5/2 sind die Begriffe zur stereofonen Richtungsabbildung, so wie sie in Kap. 5.2 eingeführt und erläutert wurden, mit kurzen Definitionen zusammengestellt. Sie gelten übergreifend für Stereofonie bei Lautsprecherwiedergabe, für die Aufnahmetechnik der ZweikanalStereofonie ebenso wie für die Aufnahmetechnik der Mehrkanal-Stereofonie.

Tab. 5/2. Begriffe zur stereofonen Richtungsabbildung.

Lautsprecherwiedergabe

Begriff

Definition

Basisbreite, Lautsprecherbasis

Abstand zwischen zwei Lautsprechern, die zusammen Phantomschallquellen bilden

Basisöffnungswinkel

Winkel, unter dem die zwei Lautsprecher, die Phantomschallquellen bilden, vom Hörort aus erscheinen, bei Zweikanal-Standardanordnung 60°

Zweikanal-Standardan­ ordnung

Anordnung der Stereolautsprecher in einem gleichseitigen Dreieck mit dem Hörer, Basisöffnungswinkel also 60°

Referenzpunkt, Sweet Spot

Position des Hörers bei der Zweikanal-Standardanordnung, Referenzpunkt und Lautsprecher bilden ein gleichseitiges Dreieck

Abbildungsverzerrungen

Verfälschung der Auslenkung der Phantomschallquellen durch Hörposition außerhalb des Referenzpunkts

Auslenkung der Phantomschallquelle (phantom source shift)

Auslenkung der Phantomschallquelle aus der Mitte in % der halben Basis, Auslenkung bis in den Lautsprecher gleich 100 %, bei gegebenem Basis­ öffnungswinkel auch in ° angegeben, bei Zweikanal-Standardanordnung 30°

Auslenkungskoeffizient

Auslenkung der Phantomschallquelle aus der Mitte der Lautsprecherbasis in % bei Pegel- oder Laufzeitdifferenzen: – Pegeldifferenzen: 7,5 %/dB, – Laufzeitdifferenzen: 13 %/0,1 ms

260 

 5 Tonaufnahme und Tonwiedergabe

Mikrofonaufnahme

Stereomikrofon

Mikrofonsystem, das von zwei (Zweikanal-Stereofonie) oder mehr (Mehrkanal-Stereofonie) einzelnen Mikrofonen gebildet wird

Basis, Mikrofonbasis (base)

Abstand zwischen zwei Mikrofonen bzw. Mikrofonkapseln einer Stereomikrofonanordnung

Abbildungskurve (localisation curve)

Zusammenhang zwischen Schalleinfallswinkel am Stereomikrofon und der Auslenkung der Phantomschallquellen

Aufnahmewinkel, Aufnahmewinkel 100 % (recording angle), Aufnahmebereich

gesamter Winkelbereich eines zwei- oder mehrkanaligen Stereomikrofons, innerhalb dessen Schalleinfallsrichtungen gemäß der Abbildungskurve abgebildet werden, Schallquellen außerhalb dieses Bereichs erzeugen Signale in den Lautsprechern L bzw. R

Aufnahmewinkel 75 % (recording angle 75 %)

Winkelbereich eines zwei- oder mehrkanaligen Stereomikrofons, innerhalb dessen Schallquellen im Auslenkungsbereich ± 75 % abgebildet werden

Schalleinfallswinkel (input source angle)

Winkel, unter dem sich eine Schallquelle vom Mono- oder Stereomikrofon aus gesehen befindet, bezogen auf dessen Mittelachse

Versatzwinkel (epsilon), Winkelabweichung der Mikrofon-Mittelachsen von der Mittelachse einer Stereo-Mikrofonanordnung Achsenwinkel, nicht für Achtermikrofone Äquivalenzmikrofon­ anordnung

Mikrofonanordnung, die Pegel- und Laufzeit­ differenzen liefert, die gleichsinnig und etwa mit gleichen Beträgen zur Auslenkung der Phantomschallquelle beitragen

5.2.6 Aspekte zur Anwendung der Aufnahmeverfahren Die verschiedenen Aufnahme- und Mikrofonverfahren bewirken unterschiedliche Qualitäten des Klangbilds, sie eignen sich deshalb auch für die einzelnen Anwendungen in unterschiedlichem Maß. Die Verfahren der Intensitätsstereofonie zeichnen sich durch vergleichsweise gute Lokalisierbarkeit der Phantomschallquellen aus, während die Tiefenstaffelung der Schallquellen und der Raumeindruck, also die Wahrnehmung des Einbezogenseins in den Raum,  seine Größe, Halligkeit und Räumlichkeit (siehe Kap. 1.2.2) weniger ausgeprägt sind. Die Laufzeitstereofonie hingegen bildet bei etwas diffuser Lokalisierbarkeit der Schallquellen die Tiefenstaffelung und den Raumeindruck besser ab. Alle Hauptmikrofonverfahren unterstützen wegen des notwendigerweise größeren Mikrofonabstands nicht die Präsenz, geben aber einen besseren Raumeindruck als das Einzelmikrofonverfahren. Der geringe Mikrofonabstand beim Einzelmikrofonverfahren fördert die Präsenz einer Aufnahme, übermittelt aber keine Räumlichkeit.

5.2 Stereofonie 

 261

Tab. 5/3 fasst die Ergebnisse für den Zusammenhang von Pegel- bzw. Laufzeitdifferenzen und Auslenkung der Phantomschallquellen, wie in Kap. 5.2 erläutert, zusammen, auch sie gilt für Zwei- und Mehrkanal-Stereofonie in gleicher Weise. Tab. 5/3. Zusammenhang von Pegel- bzw. Laufzeitdifferenzen und der Auslenkung der Phantomschallquellen, Werte teilweise gerundet. Laufzeitdifferenzen für 100 % Auslenkung sind nicht eindeutig definiert, siehe oben Kap. 5.2.1.2. Tab. 5/ Signaldifferenzen für die Auslenkungen

Auslenkungskoeffizienten Pegeldifferenzen Laufzeitdifferenzen Äquivalenz von Pegelund Laufzeitdifferenzen

1 dB bewirkt 7,5 % 0,1 ms bewirkt 13 % 0,06 ms entspr. 1 dB

± 50 %

± 75 %

± 100 %

± 7 dB ± 0,4 ms ± 0,4 ms oder ± 7 dB

± 10 dB ± 0,6 ms ± 0,6 ms oder ± 10 dB

± 15 dB (± 1 ms) ±1 ms oder ± 15 dB

Aus diesen Gesichtspunkten heraus ergeben  sich grundsätzliche Zuordnungen zwischen Aufnahmetechniken sowie ihren Klangergebnissen und die bevorzugte Zuordnung zu Programmsparten (Tab. 5/4). Tab. 5/4. Eigenschaften des Klangbilds bei den verschiedenen Mikrofonverfahren bei Stereoaufnahmen und ihre Eignung für verschiedene Programmsparten. Eigenschaften des Klangbilds bei der Wiedergabe

Intensitätsverfahren (MS, XY)

Einzelmikrofon- Laufzeitverfahren verfahren (AB)

gemischte Verfahren nach den WilliamsDiagrammen (z. B. ORTF, EBS, KFM)

Stützmikrofonverfahren

gute Abbildung der Richtung















gute Präsenz der Schall­ quellen gute Tiefenstaffelung der Schallquellen





guter Raumeindruck





besonders geeignet für aktuelles und dokumentarisches Wort





Hörspiel





populäre Musik





Jazz





klassische Musik













262 

 5 Tonaufnahme und Tonwiedergabe

Natürlich wirken in der Praxis viele weitere Faktoren auf die optimale Mikrofonaufstellung ein, dazu gehört die Akustik des Raums, gewohnte Sitzanordnungen, Sichtprobleme, Lautstärkenbalance, musikalische, künstlerische Erfordernisse u. v. m., aber auch Gesichtspunkte wie Möglichkeiten für Soundchecks bzw. ihr Fehlen, die im Einzelfall die hier angeführten grundsätzlichen Gesichtspunkte relativieren. Jede Aufnahme ist ein hoch komplexes Zusammenwirken unterschiedlichster Bedingungen, die in jedem einzelnen Fall berücksichtigt und gegeneinander abgewogen werden müssen. Ziel einer Aufnahme ist nicht die Erfüllung von aufnahmetechnischen Grundsätzen, sondern die Realisierung des gewünschten Klangbilds. Das kann auf Grund der sehr komplexen Bedingungen bei Aufnahmen auch zu unkonventionellen Lösungen führen, für die es zunächst keine technische Plausibilität zu geben scheint. Die Aufnahmetechnik ist im besonderen Maß der Bereich der Tonstudiotechnik, der kreatives Engagement erlaubt.

5.3 Zweikanal-Stereofonie Bei der Zweikanal-Stereofonie wird das aufgenommene Klangbild zwischen zwei Lautsprechern vor dem Hörer abgebildet. Grundlage für die Beurteilung der im Folgenden erläuterten Aufnahme- und Mikrofonverfahren und ihrer räumlichen Wiedergabe sind festgelegte und damit reproduzierbare Abhörbedingungen. Nur so kann die Gestaltung einer Tonaufnahme und die Kontrolle ihrer Qualität durch Abhören gewährleistet werden. Die Wiedergabe erfordert geeignete, qualitativ hochwertige Studiolautsprecher, einen akustisch geeigneten Abhörraum sowie die Festlegung der Geometrie der Anordnung von Hörer und Lautsprecher. Siehe hierzu Kap. 5.4.1 sowie umfassend Kap. 19.6 und 19.7. Als internationale Empfehlung der EBU sind die Kriterien für die Qualitätskontrolle in EBU R22, „Listening conditions for the assessment of sound programme material“ und wichtige Details in EBU Tech 3276 vereinbart worden. Suppl. 1 zu Tech 3276 legt die Geometrie der Abhörsituation fest: Die zwei Lautsprecher und der optimale Abhörplatz bilden zusammen ein gleichseitiges Dreieck (siehe Abb. 5/2), vom Hörer aus beträgt die Lautsprecherbasis demnach 60°, ihre Breite soll zwischen 2,0 und 4,0 m liegen. Die Lautsprecher sollen mindestens 1,2  m über dem Fußboden aufgestellt oder aufgehängt  sein, ihre Achsen  sind auf den festgelegten Abhörplatz gerichtet, wobei bei höherer Hängung eine Neigung von 10° in der vertikalen Achse nicht überschritten werden  soll. Lautsprecher  sollen an einer Wand oder  mit einem Abstand von höchstens 1  m vor einer Wand  montiert werden. Der Abhörplatz soll mindestens 1,5 m von Wänden entfernt sein. Für die Kontrolle der Kompatibilität einer Aufnahme wird ein Mittenlautsprecher auf der Lautsprecherbasis empfohlen.

5.3.1 Übersicht über die Aufnahme- und Mikrofonverfahren Die Zweikanal-Stereofonie – in diesem Kapitel vielfach verkürzt  mit Stereofonie bezeichnet – ermöglicht es, den Teilschallquellen eines  mit zwei oder  mehr Mikrofonen aufgenommenen Klangbilds eine Richtungseinordnung bei der Wiedergabe durch Unterschiede oder Differenzen zwischen dem linken Kanal L und dem rechten Kanal R zuzuweisen; die Schallquellen erscheinen als Real- oder Phantomschallquellen (siehe Kap. 5.2.1) in bzw. zwi-

5.3 Zweikanal-Stereofonie 

 263

schen den beiden Lautsprechern L und R der Wiedergabeanordnung. Diese Differenzen der Lautsprechersignale können bei der sog. Intensitätsstereofonie ausschließlich durch Pegeldifferenzen, bei der Laufzeitstereofonie ausschließlich durch Laufzeitdifferenzen oder aber durch deren Kombination bei den gemischten Verfahren realisiert werden. Man unterscheidet dabei Aufnahme- und Mikrofonverfahren. Die Aufnahmeverfahren definieren die akustischen Grundlagen für die Verfahren der Tonaufnahme, die Mikrofonverfahren beschäftigen sich mit den Details der Mikrofonwahl und Mikrofonanordnung. Die Mikrofonverfahren legen die Richtcharakteristik, die Ausrichtung und die Anordnung der Mikrofone innerhalb des Aufnahmeverfahrens fest. Tab. 5/5 gibt einen Überblick über die gebräuchlichen Aufnahme- und Mikrofonverfahren der Zweikanal-Stereofonie und ihre Kombinationsmöglichkeiten; Abb.  5/20  stellt die Prinzipien der Verfahren dar. Man unterscheidet die Hauptmikrofonverfahren von den Einzelmikrofonverfahren. Bei der Laufzeitstereofonie gibt es nur verschiedene Hauptmikrofonverfahren, bei der Intensitätsstereofonie gibt es neben verschiedenen Hauptmikrofonverfahren auch das sog. Einzelmikrofonverfahren. Mit einem Hauptmikrofon versucht man, die gesamte Schallquellenanordnung, z. B. einen Chor, mit einem einzigen Mikrofonsystem für stereofone Aufnahme aufzunehmen, in der Regel besteht es aus zwei zusammengehörigen Einzelmikrofonen. Bei den Einzelmikrofonverfahren wird aus den Signalen mehrerer oder vieler Einzelmikrofone das stereofone Klangbild in der Tonregie durch den Tonmeister erstellt. Tab. 5/5. Aufnahme- und Mikrofonverfahren der Zweikanal-Stereofonie.

Aufnahmeverfahren

Mikrofonverfahren

Bemerkungen, Erläuterungen

Intensitätsstereofonie: nur Pegeldifferenzen zwischen L und R

Hauptmikrofonverfahren: − XY-Verfahren, − MS-Verfahren Einzelmikrofonverfahren

auch Koinzidenz-Mikrofonverfahren genannt

Stützmikrofonverfahren

Laufzeitstereofonie: nur Laufzeitdifferenzen zwischen L und R

Hauptmikrofonverfahren: − AB-Verfahren

gemischte Stereoverfahren: Kombination aus Intensitäts- und Laufzeitstereofonie, sowohl Pegel- als auch Laufzeitdifferenzen zwischen L und R,

Hauptmikrofonverfahren: − Anordnungen nach den Williams-Diagrammen, − Anordnungen  mit Trennkörper

Sonderfall Äquivalenzverfahren: Pegel- und Laufzeitdifferenzen von L und R sind äquivalent

Stützmikrofonverfahren

Stützmikrofonverfahren

auch Poly- oder Multimikrofonie genannt Kombination aus dem XY- oder MS-Verfahren mit dem Einzel­ mikrofonverfahren

Kombination aus dem AB-Verfahren mit dem Einzelmikrofonverfahren

z. B. ORTF-, EBS-, NOS-Verfahren z. B. Kugelflächenmikrofon, Jecklinscheibe Kombination eines Hauptmikrofon­ verfahrens mit dem Einzelmikrofonverfahren

264 

 5 Tonaufnahme und Tonwiedergabe

Das bei reiner Intensitätsstereofonie als Hauptmikrofon verwendete Mikrofonsystem besteht aus zwei einzelnen Mikrofonen, die beim MS-Verfahren dicht übereinander, beim XY-Verfahren meist dicht nebeneinander als Einzelmikrofone oder als komplettes, intergrierendes System, als  sog. Koinzidenz-Mikrofon, angeordnet  sind, es handelt  sich dann um ein  sog. Stereomikrofon. Völlig anders konzipiert ist das Einzelmikrofonverfahren bei Intensitätsstereofonie, bei dem im Nahbereich der Teilschallquellen, z.  B. bei Einzelinstrumenten, ein Mikrofon aufgestellt wird, dessen Abbildungsrichtung in der Tonregie mit dem sog. Panorama-Potentiometer oder Pan-Pot eingestellt wird; es erzeugt geeignete, von der Position der Schallquelle im Gesamtklangbild definierte Pegeldifferenzen bei der Zumischung in die Kanäle L und R. Schließlich kann eines der Hauptmikrofonverfahren mit dem Einzelmikrofonverfahren kombiniert werden zu dem bei großen Klangkörpern viel angewendetem Hauptmikrofon-Stützmikrofonverfahren oder einfacher Stützmikrofonverfahren; hierbei ergibt die Gewichtung des Hauptmikrofons gegenüber der Gesamtheit der Stützmikrofone wieder unterschiedliche Lösungen der Aufnahmetechnik.

Abb. 5/20. Aufnahmeverfahren der Zweikanal-Stereofonie mit verschiedenen Mikrofonverfahren, Δp = Pegeldifferenzen, Δt = Laufzeitdifferenzen.

Die Laufzeitstereofonie gewinnt das  stereofone Klangbild  mit dem AB-Mikrofonverfahren ausschließlich aus Laufzeitdifferenzen zwischen den Signalen zweier Einzelmikrofone, die einen Abstand zueinander haben, die sog. Mikrofonbasis. Die geschätzte Qualität dieses Verfahrens ist der gute Raumeindruck, weniger eine exakte Lokalisierbarkeit der Schallquellen. Ein Einzelmikrofonverfahren in reiner Laufzeitstereofonie müsste jedem einzelnen Mikrofon die notwendige Laufzeitdifferenz zwischen L und R zuweisen, was in der Aufnahmepraxis nicht realisiert wird, weil die Wahrnehmung der Richtung bei Laufzeitdifferenzen nicht deutlich ist. In der Praxis wird das AB-Verfahren deshalb vielfach mit Stützmikrofonen in Intensitätsstereofonie ergänzt.

5.3 Zweikanal-Stereofonie 

 265

Bei den gemischten Stereoaufnahmeverfahren wirken Intensitäts- und Laufzeitdifferenzen zwischen L und R gleichgerichtet zusammen. Die Intensitätsdifferenzen können unabhängig von der Frequenz sein, wie bei den Anordnungen nach den Williams-Diagrammen, z.  B.  mit dem ORTF-Verfahren, oder abhängig von der Frequenz wie bei den Trennkörperverfahren, z. B. dem Kugelflächenmikrofon. Tragen die Intensitäts- und Laufzeitdifferenzen etwa in gleichem Maß zur Auslenkung der Phantomschallquellen bei, so werden die Verfahren als Äquivalenz-Mikrofonverfahren bezeichnet. Gemeinsam ist allen Hauptmikrofonverfahren, dass die Auswahl des Mikrofontyps, der Aufstellungsort, die Einstellungen der Richtcharakteristiken und die Ausrichtung der Mikro­ fone  sorgfältiger Vorüberlegung und Planung bedürfen, um optimale Ergebnisse zu erhalten; die dazu notwendigen Kenntnisse vermitteln die folgenden Kapitel. Eine Einstellung mit dem Gehör  sollte nur in Korrekturen bestehen oder im Vergleich  mehrerer Alternativen, die stets möglich sind. Beim Einzelmikrofonverfahren hingegen führt Erfahrung und Wissen über die Eigenschaften der Instrumente und Stimme und eine sorgfältige Abhörkontrolle und Wahl des Mikrofontyps, seines Standorts und seiner Ausrichtung zu einem guten Ergebnis. Sind die Einzelmikrofone Bestandteil des Stützmikrofonverfahrens,  so  soll zunächst das Hauptmikrofon für sich allein ein optimales Klangbild liefern, erst dann werden die Stütz­ mikrofone optimiert und zugemischt. Mangelhafte oder ungeeignete Einstellungen des Hauptmikrofons sollten niemals durch Stützmikrofone korrigiert oder verschleiert werden. Die folgenden Begriffe werden für die Beschreibung der Mikrofonverfahren verwendet (siehe dazu auch Tab. 5/2): –– Mikrofonbasis: das ist der Abstand zwischen zwei Mikrofonen, die gemeinsam eine Anordnung nach dem AB- oder den gemischten Aufnahmeverfahren bilden. –– Aufnahmebereich: dies ist der gesamte Winkelbereich um die Mittelachse der Aufnahmeanordnung, der bei der Abhöranordnung durch Real- und Phantomschallquellen in ihrer Richtung korrekt abgebildet wird. –– Aufnahmewinkel oder -bereich: dieser Begriff wird normalerweise mit dem Aufnahmebereich gleichgesetzt, wird aber gelegentlich nur dem halben Aufnahmebereich, von der Mitte bis zu einer Seite, gleichgesetzt. –– Versatzwinkel: dies ist derjenige Winkel, um den ein einzelnes Mikrofon aus der Mittelachse, der Hauptrichtung der Aufnahme, nach außen gerichtet wird, bei einer Stereoanordnung mit zwei Mikrofonen wird der Versatzwinkel vielfach auch durch „±“ auf beide Mikrofone bezogen; er ist stets der halbe Achsenwinkel. –– Achsenwinkel oder Öffnungswinkel: das ist der Winkel zwischen zwei Mikrofonen, die jedes einzeln nach außen, also nach links bzw. rechts, gedreht werden; er wird also zwischen den Achsen, die die Mikrofone bilden, gemessen und ist damit der doppelte Versatzwinkel. Die Feststellungen der folgenden Kapitel zu den Aufnahmewinkeln der einzelnen Mikrofonverfahren  sind vorwegnehmend an Beispielen in Tab.  5/6 zusammengeführt;  sie beruhen auf den in Kap. 5.2 dargelegten und in Tab. 5/2 zusammengefassten Zusammenhängen zwischen Pegel- und Laufzeitdifferenzen mit der Auslenkung der Phantomschallquellen (siehe Kap.  5.2.2). Die genannten Winkelgrade  sind errechnete Werte, die in der Praxis  so genau nicht eingehalten werden können und  müssen. [Dickreiter, 2011], [Edenhof, 2020], [Hoeg, 1970, 1975], [Pawera, 2004]

266 

 5 Tonaufnahme und Tonwiedergabe

Tab. 5/6. Mikrofonverfahren und ihre Aufnahmebereiche mach [Wittek, Image Assistant] bei 5 m Abstand zur Schallquelle. Mikrofonverfahren

Mikrofonbasis Richtcharakteristik

Versatzwinkel, halber Achsenwinkel

Aufnahmebereich 75 % 100 %

XY

0 cm

Niere/Niere

45° 60° 75° 90°

142° 108° 84° 66°

180° 146° 116° 92°

Superniere/Superniere

35°

128°

152°

Acht/Acht (Blumlein-Verfahren)

45°

58°

72°

AB

30 cm 40 cm 50 cm 60 cm

Kugel/Kugel

 0°

84° 60° 48° 40°

180° 98° 74° 60°

gemischte Verfahren nach den WilliamsDiagrammen Beispiele:

beliebig zwischen etwa 10 und 30 cm 10 cm 20 cm 25 cm 30 cm 17 cm

Niere/Niere, Superniere/Superniere, Hyperniere/Hyperniere Niere/Niere Niere/Niere Niere/Niere Niere/Niere Niere/Niere

69° 50° 45° 25° 55°

70° 66° 60° 64° 68°

100° 100° 90° 100° 102°

20 cm 18 cm

Kugel Kugel

EBS ORTF mit Trennkörper Kugel, Durchmesser

90° 120°

Die verschiedenen Aufnahme- und Mikrofonverfahren zeigen unterschiedliche Qualitäten des Klangbilds, sie eignen sich deshalb auch für die einzelnen Anwendungen in unterschiedlichem Maß. Die Verfahren der Intensitätsstereofonie zeichnen sich durch gute Lokalisierbarkeit und Präsenz der Phantomschallquellen aus, während der Raumeindruck, also die Wahrnehmung des Raums, seiner Größe, Halligkeit und Räumlichkeit (siehe Kap. 1.2.2) weniger ausgeprägt sind. Die Laufzeitstereofonie hingegen bildet bei etwas diffuser Lokalisierbarkeit der Schallquellen die Tiefenstaffelung und den Raumeindruck besser ab. Alle Hauptmikrofonverfahren unterstützen wegen des notwendigerweise größeren Mikrofonabstands nicht die Präsenz, geben aber einen besseren Raumeindruck als das Einzelmikrofonverfahren; sie bilden die Aufnahmesituation weitgehend getreu ab. Der geringe Mikrofonabstand beim Einzelmikrofonverfahren fördert die Präsenz einer Aufnahme, stellt aber den Raum kaum dar; das Klangbild muss durch die Tonregie zusammengesetzt werden. Als Mikrofontyp für Hauptmikrofonverfahren werden allgemein Kleinmembranmikrofone mit einem Membrandurchmesser von etwa 1/2“ = 12,7 mm verwendet, da deren Richtcharakteristiken weniger von der Frequenz abhängen, besonders im oberen Frequenzbereich,

5.3 Zweikanal-Stereofonie 

 267

als die Richtcharakteristiken der Großmembranmikrofone  mit einem Membrandurchmesser von etwa 1“ = 25,4 mm. In der Anfangszeit der Aufnahmetechnik standen zunächst nur Großmembranmikrofone zur Verfügung, aufgenommen wurde zunächst monofon in der One point-Technik – Aufnahme  mit einem Kugelmikrofon, vielfach dem legendären M 50 von Neumann, dann aber auch als AB-Anordnung mit denselben Mikrofonen. Erst mit dem Aufkommen des Fernsehens entstand der Wunsch nach kleinen, unauffälligen Mikrofonen, das KM 53 aus dem Jahr 1953 von Neumann, ein Kugelmikrofon wie das M 50, war das erste Kleinmembranmikrofon. Großmembranmikrofone haben sich bis heute mit einer Tonabnahme im Nahbereich bewährt, bevorzugt in der Musikproduktion populärer Musik.

5.3.2 Intensitätsstereofonie Bei Intensitätsstereofonie bestehen zwischen den Stereosignalen L und R für die Erzeugung von seitlichen Phantomschallquellen ausschließlich Pegeldifferenzen, keine Laufzeit- bzw. Phasendifferenzen; bei mittigen Phantomschallquellen sind die Pegel von L und R gleich. Aufnahmen in dieser Technik sind daher grundsätzlich monokompatibel. Nach Einführung der Stereofonie in den späten 1950er und frühen 1960er Jahren war die Frage der Kompatibilität eine zentrale Frage der Aufnahmetechnik, da zunächst noch überwiegend Monogeräte in den Haushalten existierten. Damit empfahl sich die Intensitätsstereofonie vor allem im Bereich des öffentlich-rechtlichen Rundfunks als Aufnahmetechnik erster Wahl. Bei der Schallplattenproduktion konnte  man  mit der neuen Technik hingegen werben. Der allgemein eingeführte Begriff Intensitätsstereofonie ist zwar nicht falsch, aber im Hinblick darauf, dass man stets von Pegeln spricht, etwas verwirrend. Bei der Intensitätsstereofonie gibt es drei Mikrofonverfahren, genauer Hauptmikrofonverfahren [Theile, 1984], [IRT]: –– das Hauptmikrofonverfahren in XY-Technik (Kap. 5.3.2.1), –– das Hauptmikrofonverfahren in MS-Technik (Kap. 5.3.2.2), –– das Einzelmikrofonverfahren (Kap. 5.3.6). –– das Stützmikrofonverfahren als Kombination aus einem der Hauptmikrofonverfahren und dem Einzelmikrofonverfahren (Kap. 5.3.5). Die Genauigkeit der Lokalisierung ist beim Hauptmikrofonverfahren in MS- und XY-Technik gut, sie liegt in der Praxis bei Standard-Lautsprecheranordnung, d. h. 60° Öffnungswinkel zu den Lautsprechern aus der Sicht des Hörers im Bereich von ± 5° auf jeder Seite; damit können einschließlich der Mittenposition bis zu sieben Positionen der Phantomschallquellen auf der gesamten Basis beim Abhören ausreichend unterschieden werden; dazu kommen die zwei Positionen der seitlichen Realschallquellen. Es ergeben sich also maximal neun unterscheidbare Positionen der Schallquellen auf der Lautsprecherbasis. Die Tiefenstaffelung, also die Wahrnehmung der Entfernung, ist weniger deutlich als bei den Hauptmikrofonverfahren der Laufzeit- und gemischten Verfahren; Entfernungen, die kleiner sind als der Abstand der Lautsprecher zum Hörer, können nicht dargestellt werden. Das Einzelmikrofonverfahren bietet durch die getrennte Aufnahme der Schallquellen bei guter Lokalisierbarkeit größere Freiheit bei der Gestaltung des Klangbilds: Die Position

268 

 5 Tonaufnahme und Tonwiedergabe

der Phantomschallquellen kann unabhängig von ihrer Position im Aufnahmeraum regietechnisch weitgehend frei bestimmt werden. Wichtiger ist aber, dass die Balance der Pegel bzw. Lautstärken der Einzelschallquellen  sowie ihre jeweiligen klanglichen Eigenschaften getrennt gewählt und eingestellt werden können, die Abbildung der Raumakustik des Aufnahmeraums ist dabei nur eingeschränkt möglich. Vielfach angewendet, hauptsächlich bei klassischer Musik und großen Klangkörpern, wird das sog. Stützmikrofonverfahren, mit dem die Qualitäten von Hauptmikrofonverfahren in Intensitätsstereofonie XY, MS oder in Laufzeitstereofonie AB und das Einzelmikrofonverfahren kombiniert werden. 5.3.2.1 XY-Mikrofonverfahren Das XY-Mikrofonverfahren verwendet ein Stereomikrofon oder zwei Einzelmikrofone in gleicher Anordnung, dessen bzw. deren Mikrofone dieselbe Richtcharakteristik haben, entweder Niere, Superniere, Hyperniere oder Acht, nicht aber Kugel. Sie liefern direkt die Signale L und R oder I und II, oft zur Kennzeichnung ihrer Herkunft und Eigenschaften auch als Signale X und Y bezeichnet. Ihre Summe M = L + R ergibt ein einwandfreies Monosignal. Die Achsen der Hauptempfindlichkeit der Systeme liegen gekreuzt und symmetrisch zur fiktiven, auf das Zentrum des Klangkörpers gerichteten Mittelachse. Sie schließen den sog. Achsen- oder Öffnungswinkel ein, der Winkel jedes der Mikrofone schließt mit der Mittelachse den Versatzwinkel ein, also den halben Achsenwinkel. Die folgenden Begriffe werden für die Beschreibung der Anordnung der Mikrofone und für den Winkelbereich verwendet, innerhalb dessen eine korrekte Aufnahme stattfindet, dargestellt in Abb. 5/21: –– Mikrofon oder System: I, X oder L ist im Aufblick auf die Schallquellen nach links gerichtet, Mikrofon oder System II, Y oder R nach rechts. –– Achsenwinkel, auch Öffnungswinkel: der Winkel zwischen den Achsen der Mikrofone in XYTechnik, zugleich zwischen den Richtungen maximaler Empfindlichkeit der Mikrofone, in Abb. 5/21 ist das der Winkel δx + δy. –– Versatzwinkel: der halbe Achsenwinkel, also der Winkel zwischen jedem der Mikrofone und der Mittenachse der Anordnung, der Winkel, um den jedes der Mikrofone aus der Mitte versetzt ist, lso in Abb. 5/21 δx bzw. δy. –– Aufnahmewinkel oder Aufnahmebereich: der gesamte Winkelbereich, innerhalb dessen die Schallquellen korrekt auf der Basis zwischen den Lautsprechern abgebildet werden, also φ1 + φ2. Für die Abbildung in einem der Lautsprecher ist eine Pegeldifferenz von  mindestens 15  dB erforderlich, angegeben werden auch 18, aber auch 12 dB. Betrachtet man aber Abb. 5/21, so ergibt sich für die Position der Schallquelle ganz rechts bei 135°, dass System I aus dieser Richtung kein Signal aufnimmt, System II gibt einen Pegel von – 6 dB bezogen auf den Maximalpegel des Systems ab; die Pegeldifferenz ist demnach unendlich groß, nicht aber 15 dB, wie für die Abbildung ganz seitlich benötigt würde. Auch eine unendlich große Pegeldifferenz führt zur Abbildung ganz seitlich, also im Lautsprecher L bzw. hier R, aber auch alle Pegeldifferenzen über 15 dB ergeben diesen Abbildungsort, somit wird der ganze Außenbereich im Lautsprecher zusammengefasst, während der Bereich um die Mitte korrekt abgebildet wird. Die Abbildung

5.3 Zweikanal-Stereofonie 

 269

des Klangbilds wird damit erheblich verzerrt. Um dies zu vermeiden, wird der Aufnahmebereich oder ‑winkel ermittelt und definiert. Stellt man bei der Aufnahme sicher, dass der Aufnahmebereich und die Ausdehnung der Schallquelle übereinstimmen, werden alle Schallquellen durch die Phantomschallquellen bei der Wiedergabe so gut, wie das Verfahren es zulässt, abgebildet. Der Aufnahmebereich definiert also den Winkelbereich, den das Mikrofonverfahren für die korrekte Aufnahme und Abbildung der Phantomschallquellen erfassen muss.

Abb. 5/21. Mikrofonanordnung in XY-Technik aus zwei gekreuzten Nieren mit den Versatzwinkeln φx bzw. φy, dem Achsenwinkel φ = φx + φy, dem Aufnahmebereich oder -winkel 100 %.

Die Auslenkung der Phantomschallquelle der Anordnung nach Abb. 5/21 zeigt Abb. 5/22. Man erkennt, dass die Anordnung einen Aufnahmebereich α von nur 180° besitzt. Der Aufnahmebereich wird ermittelt auf Grund der in Versuchen ermittelten Zusammenhänge für die Abbildung von Phantomschallquellen (siehe Kap. 5.2.2). Für die Position der Phantomschallquelle ganz  seitlich auf der Lautsprecherbasis gilt der Aufnahmebereich 100 % − hier also 180°, halb seitlich oder 50 % liegt hier bei 100°; der Aufnahmebereich 75 % bei 142° definiert die Position dreiviertel seitlich, dies ist zugleich der Aufnahmebereich, innerhalb dessen die Phantomschallquellen sicher und korrekt analog der Aufnahmesituation abgebildet werden. In der Praxis der Aufnahme  sollte also bevorzugt der Aufnahmebereich 75  %  mit der Ausdehnung des Klangkörpers in Übereinstimmung gebracht werden. Tab. 5/7 nennt die Aufnahmebereiche 50 %, 75 % und 100 % für einige Versatzwinkel/Achsenwinkel der XY-Anordnung Niere/Niere, Superniere/Superniere und Acht/Acht. Aufnahmebereich und Versatzwinkel verlaufen entgegengesetzt: Mit kleiner werdendem Versatzwinkel wird der Aufnahmebereich größer. Die Kombination Niere/Niere erlaubt – wie aus Tab. 5/7 ersichtlich – einen Aufnahmebereich 75 % zwischen ca. 65° und ca. 140°. Bei den praxisnahen Aufnahmebereichen von 85° bis 110° ist der Versatzwinkel von ca. ± 75° bis ± 60° allerdings sehr groß, d. h., dass die Mikrofone, weil sie weit nach außen gedreht sind, nicht mehr auf die Schallquelle gerichtet  sind und damit vom Schall aus Richtungen getroffen werden, in denen  sie bezüglich

270 

 5 Tonaufnahme und Tonwiedergabe

ihres Frequenzgangs je nach Typ möglicherweise nicht optimal arbeiten. Die Kombination Niere/Niere eignet sich demnach besonders für größere Aufnahmewinkel oder, anders ausgedrückt, für geringere Entfernungen von der Schallquelle.

Abb. 5/22. Abbildungskurve für die XY-Anordnung Niere/Niere mit dem Versatzwinkel ± 45° entsprechend Abb. 5/21 [Wittek, Image Assistant].

Die Kombination Superniere/Superniere erlaubt wie aus Tab.  5/7 ersichtlich kleinere Aufnahmebereiche. Bei den praxisnahen Aufnahmebereichen 75 % von ca. 75° bis 105° ist der Versatzwinkel mit rund ± 60° bis ± 45° zwar kleiner als bei der Kombination Niere/Niere, aber auch hier sind die Mikrofone nicht direkt auf die Schallquelle gerichtet. Tab. 5/7. Zusammenhang von Versatzwinkel und Aufnahmebereich für die Anordnungen Niere/Niere, Superniere/Superniere und Acht/Acht [Wittek, Image Assistant]. Richtcharakteristik Niere/Niere

Superniere/Superniere

Acht/Acht Blumleinverfahren

Versatzwinkel oder Achsenwinkel ± 45° / 90° ± 60° / 120 ± 75° / 150° ± 90° / 180° ± 30° / 60° ± 45° / 90° ± 60° / 120° ± 75° / 150° ± 30° / 60° ± 45° / 90° ± 60° / 120°

Aufnahmebereich 50 % empfohlen: 75 %

100 %

142° 108° 84° 66° 142° 104° 76° 54° 87° 58° 36°

180° 146° 116° 92° 166° 130° 98° 72° 102 72° 46°

100° 76° 56° 44° 108° 76° 52° 38° 66° 42° 24°

5.3 Zweikanal-Stereofonie 

 271

Die Kombination Acht/Acht erlaubt – wie aus Tab.  5/7 ersichtlich – die kleinsten Aufnahmebereich 75 %, sie bietet also die höchste Richtungsauflösung. Bei den praxisnahen Aufnahmebereichen zwischen ca. 60° und 90° ist der Versatzwinkel mit ± 45° bis ± 30° relativ klein, die Mikrofone sind gut auf die Schallquelle gerichtet. Besonders für kleinere Aufnahmebereiche bzw. für größere Entfernungen von der Schallquelle eignet sich die Kombination Acht/Acht, die in der Praxis zu wenig Beachtung findet, besonders gut. Zwei unter einem Versatzwinkel von ±  45°, also Achsenwinkel 90°, rechtwinklig gekreuzte Achten ergeben einen Aufnahmebereich 100 % von 72°, diese Anordnung heißt Blumlein-Verfahren; es ist ein präzises Verfahren für kleine Aufnahmewinkel 75  % von 58° bzw. größere Entfernungen der Mikrofone von den Schallquellen. Die Befürchtung, diese Anordnung nehme zu viel Diffusschall von hinten auf, ist unbegründet, denn dieser Anteil ist ebenso groß wie bei der Anordnung Niere/Niere. 5.3.2.2 MS-Mikrofonverfahren Das MS-Mikrofonverfahren, engl. Mid/Side-Stereofonie, wurde schon in den frühen 1930er Jahren von Alan Blumlein entwickelt als ein bis heute etabliertes Stereoverfahren für Aufnahme und Übertragung der Stereosignale; heute versteht man aber unter Blumleinverfahren des ebenfalls von Blumlein vorgeschlagene Verfahren in XY-Aufnahmetechnik mit zwei gekreuzten Achten (siehe Kap. 5.3.2.1). Das MS-Verfahren verwendet wie das XY-Mikrofonverfahren ein Stereomikrofon oder eine äquivalente Anordnung aus zwei Einzelmikrofonen. Die Systeme I und II geben aber nicht unmittelbar die Signale L und R ab, sondern die Signale M und S: –– M-Signal, auch Monosignal, Mittensignal, Summensignal, Tonsignal, –– S-Signal, auch Stereosignal, Seitensignal, Differenzsignal, Richtungssignal. Erst durch Summen- und Differenzbildung werden die Signale L und R aus M und S gewonnen. Da die Summe zweier zwar unterschiedlicher Signale L und R, aber mit gleichem Pegel, eine Erhöhung des Gesamtpegels um 3 dB ergibt, muss bei der Addition der Summenpegel um 3 dB bedämpft werden. Die Umsetzung kann durch Übertrager, durch Differentialverstärker oder mit digitaler Verarbeitung erfolgen. Der Zusammenhang zwischen den Signalen M, S, L und R ist also L = M + S R = M – S M = L + R S = L – R

L = linker Kanal R = rechter Kanal M = Mono- oder Mittensignal S = Stereo- oder Seitensignal

Das M-Signal wird von System I, der feststehenden Kapsel eines Stereomikrofons, geliefert, es ist unmittelbar das Monosignal, das also im Gegensatz zum XY-Verfahren von einem einzigen Monomikrofon stammt, das vorteilhaft auf das Zentrum des Klanggeschehens gerichtet ist. Jede einstellbare Richtcharakteristik ist möglich, also Kugel, Nieren, Acht, auch alle Zwischenformen. Das S-Signal  stammt von System II, der drehbaren Kapsel eines Stereomikrofons;  sie ist stets auf Achterrichtcharakteristik und einen Versatzwinkel von - 90°, mit Blick vom Mik-

272 

 5 Tonaufnahme und Tonwiedergabe

rofon auf die Schallquelle also nach links, einzustellen. Wenn die positive Seite der Acht nach rechts anstatt nach links ausgerichtet ist, ergibt sich ein Seitentausch. Abb. 5/23 zeigt eine MS-Mikrofonanordnung mit Niere und Acht.

Abb. 5/23. MS-Mikrofonanordnung aus Niere und Acht.

Der Aufnahmebereich hängt vom Pegelverhältnis von M- zum S-Signal ab, er wird also bestimmt von den eingestellten Verstärkungen der Mikrofone und von der Richtcharakteristik des M-Signals. Er kann somit von der Regie aus, auch bei laufender Aufnahme, eingestellt oder verändert werden, wohingegen dies beim XY‑Verfahren stets am Mikrofon selbst durch Veränderung des Versatzwinkels geschehen  muss. Der Aufnahmebereich einer MS-Anordnung ist zunächst grundsätzlich der Winkelbereich, innerhalb dessen das M-Signal größer oder gleich groß wie das S-Signal ist. Allerdings heißt das, dass die Ränder des Aufnahmebereichs in dem jeweiligen Lautsprecher zusammengefasst werden, solange die Pegeldifferenz zwischen L und R größer 15 dB ist; deshalb ist der Aufnahmebereich etwas kleiner als es die Schnittstellen von M- und S-Signal vorgeben. Anstatt auf theoretische Überlegungen zu bauen, wird empfohlen, im Bewusstsein dieser Tatsache gehörmäßig in der Regie durch Pegeleinstellung des S-Signals den angemessenen Aufnahmebereich zu bestimmen. Besondere Beachtung bei der Anwendung des Verfahrens muss dem Winkelbereich, bei dem das S-Signal größer als das M-Signal wird, gewidmet werden, in Abb.  5/23 die  seitlichen Bereiche außerhalb der Schnittpunkte von M- und S-Signal. Wird M sehr klein gegen S und somit vernachlässigbar, so wird L = + S und R = − S, ein identisches, jedoch verpoltes Signal für L und R, das bei Monobildung M = L + R = + S – S = 0 ausgelöscht wird, also aufnahmetechnisch inakzeptabel ist, da nicht monokompatibel. Zu 0 kann M werden nur bei der Niere bei 180° und bei der Acht bei ± 90°. In der Aufnahmepraxis ist also stets besondere Aufmerksamkeit auf die Bereiche zu richten, in denen das S-Signal größer als das M-Signal ist. Ein besonderer Fall ist die MS-Kombination Acht/Acht, hier wird der rückwärtige Bereich grundsätzlich verpolt abgebildet, also diffus ohne Richtungsinformation, z. B. der Beifall von Publikum, der bei Monowiedergabe dann also teilweise ausgelöscht wird. 5.3.2.3 Äquivalenzen von XY- und MS-Mikrofonverfahren XY- und MS-Mikrofonverfahren  sind unter der Annahme idealer Richtcharakteristiken verlustfrei äquivalent, d. h., sie können in beiden Richtungen nach den obigen Formeln ineinander umgewandelt werden. Jede MS-Anordnung kann grundsätzlich, aber mit praktischen

5.3 Zweikanal-Stereofonie 

 273

Einschränkungen, in eine gleichwertige XY-Anordnung umgewandelt werden und umgekehrt. Diese Umwandlung wird als Stereomatrix oder Stereoumsetzung bezeichnet. Da M und S nach derselben Beziehung aus L und R gewonnen werden wie L und R aus M und S, kann die Umwandlung in beiden Richtungen mit demselben Gerät, dem Richtungsmischer, auch Stereomatrix, Stereoumsetzer, Differentialübertrager oder Summen-Differenzübertrager genannt, erfolgen; auch die Betriebsrichtung Eingang-Ausgang ist dabei dieselbe. Zu Details zum Richtungsmischer siehe die Kap. 6.1.2 und 8.8.2. Eine  schematische Zuordnung von XY- und MS-Richtcharakteristik-Kombinationen ist unter der Annahme idealer Richtcharakteristiken  mathematisch  schlüssig. Allerdings gibt es eine unüberschaubare Zahl von Kombinationen, da z. B. bei MS nicht nur die Richtcharakteristik des M-Signals, sondern auch das Pegelverhältnis M zu S zu berücksichtigen ist. In der Praxis erhebt sich die Frage nach äquivalenten Richtcharakteristiken indessen kaum, da man es nicht mit idealen Richtcharakteristiken zu tun hat und die Entscheidung für ein Verfahren im Vorfeld getroffen wird. 5.3.2.4 Praktischer Einsatz von Stereomikrofonen Ergänzend zu den obigen grundlegenden Ausführungen werden im Folgenden noch einige praktische Hinweise angefügt, die sowohl für das XY- als auch das MS-Verfahren gelten: Empirische Ermittlung des Aufnahmebereichs Möchte  man bei Verwendung reiner Intensitätsstereofonie für eine gegebene Aufnahmesituation in der Praxis den optimalen Aufnahmebereich einstellen, so kann man anstatt die vorhandenen Kenntnisse oder Hilfsmittel zu nutzen, ihn auch in der praktischen Situation empirisch finden, allerdings  mit geringerer Genauigkeit, weil die Raumakustik das Ergebnis mehr oder weniger beeinflusst: Man stellt z. B. ein Metronom auf den seitlichsten Punkt der Schallquelle, z. B. eines Chors, und zieht bei einer MS-Anordnung den S-Pegel solange hoch, bis die Pegeldifferenz zwischen L und R 15 dB erreicht, wobei der Korrelationsgrad in jedem Fall positiv bleiben muss. Bei der XY-Anordnung müssen die Mikrofonkapseln symmetrisch nach außen verdreht werden, bis eine Pegeldifferenz von 15  dB erreicht wird. Möchte man umgekehrt den Aufnahmebereich eines Stereomikrofons in der jeweiligen Situa­ tion ermitteln, geht man unter Hinwendung zum Mikrofon sprechend oder mit einer kleinen Schallquelle, z.  B. einem Metronom, den Winkelbereich vor dem Mikrofon ab, beobachtet den Aussteuerungsmesser und bestimmt den Ort links und rechts für das Erreichen einer Pegeldifferenz von 15 dB, auch hier ergibt sich ein brauchbares Ergebnis. Schall aus Richtungen außerhalb des Aufnahmebereichs Bei der Auswahl der Mikrofonanordnung in XY bzw. MS ist auch die Frage wichtig, wie Schallquellen aus dem Bereich außerhalb des Aufnahmebereichs auf der Lautsprecherbasis abgebildet werden. Die MS-Anordnungen Kugel/Acht sowie die XY-Anordnung mit zwei Nieren mit dem Versatzwinkel ± 90° − Achsenwinkel 180° − nehmen Schall von vorne und von hinten mit gleicher Empfindlichkeit auf, der rückwärtige Bereich wird seitenrichtig nach vorne geklappt und den vorderen Schallquellen überlagert. Demgegenüber nehmen die

274 

 5 Tonaufnahme und Tonwiedergabe

Anordnungen Niere/Acht in MS und zwei Nieren mit Versatzwinkeln unter etwa 60° in XY Schall von hinten deutlich vermindert seitenrichtig auf. Mit besonderer Sorgfalt  sind die Kombinationen Acht/Acht in MS und als Blumleinverfahren von XY einzusetzen, da rückwärtige Schallquellen hier  mit derselben Empfindlichkeit, aber seitenverkehrt eingeordnet werden. Kritisch sind seitliche Schallquellen: Sie erscheinen, wenn das S-Signal größer als das M-Signal ist, bzw. wenn beim XY-Verfahren zwischen L und R gegenphasige Signale auftreten, nicht oder diffus lokalisierbar als verpolte Signale. Diese Mikrofonanordnungen sind also ungeeignet bei Schallquellen außerhalb des Aufnahmebereichs, auch bedarf der Nachhall hier einer besonderen Aufmerksamkeit. Ausrichtung des Stereomikrofons Stereomikrofone bestehen aus zwei gegeneinander drehbaren, dicht nebeneinander oder auf einer gemeinsamen Achse dicht übereinander montierten Mikrofonkapseln. Alle möglichen Richtcharakteristiken können eingestellt werden. Die feststehende, mit dem Verstärker fest verbundene Kapsel von System I gibt das X- bzw. M-Signal ab; sie ist beim XY-Verfahren bei Blick auf das Klanggeschehen nach links ausgerichtet, beim MS-Verfahren auf die Mitte bzw. auf das Zentrum der Schallquelle, die Ausrichtung des Mikrofons wird durch einen Punkt, eine Leuchtdiode oder das Firmenzeichen markiert. Die drehbare Kapsel von System II gibt das Y- bzw. S-Signal ab; sie ist beim XY-Verfahren  spiegelbildlich zum X-System um den Versatzwinkel nach rechts gerichtet. Beim MSVerfahren – System II ist hier stets eine Acht – ist die Kapsel stets mit ihrer positiven Seite nach links, unter – 90̊° zur Achse des M-Signals ausgerichtet; ihre positive Seite ist ebenfalls durch einen Punkt o. ä. markiert. Bei hängendem Mikrofon – drehbare Kapsel unten, Kabelanschluss oben herausgeführt – ändert sich für das M-Signal nichts, das drehbare System II muss wieder nach links nachgeführt werden. Laufzeitdifferenzen zwischen den beiden Mikrofonsystemen des Stereomikrofons und dadurch hervorgerufene Phasendifferenzen zwischen den Stereosignalen können das Klangbild bei hohen Frequenzen insbesondere bei Stereomikrofonen mit großen Membranen, verfälschen. Schräger Schalleinfall ist demnach bei der Ausrichtung des Mikrofons zu vermeiden; eine sorgfältige Ausrichtung ist also nicht nur in der horizontalen Ebene, sondern auch in der vertikalen Ebene zu beachten. Doppel-Stereomikrofone Eine interessante Möglichkeit, ausgedehnte Klangkörper aufzunehmen, ist das Doppelstereoverfahren. Hierbei wird der gesamte Aufnahmebereich in zwei Sektoren aufgeteilt, links bis Mitte und Mitte bis rechts. Diese Sektoren lassen sich dann getrennt regietechnisch bzw. künstlerisch gestalten, hierzu Näheres in Kap. 5.4.2.1.

5.3.3 Laufzeitstereofonie Bei der Wahrnehmung der Richtung beim natürlichen Hören (siehe Kap.  3.4) wertet das Gehör Pegelunterschiede und Laufzeitunterschiede der Signale an den Ohren aus. Die Intensitätsstereofonie nutzt nur die Pegelunterschiede, die Laufzeitstereofonie nur die Laufzeitun-

5.3 Zweikanal-Stereofonie 

 275

terschiede. Die gemischten Mikrofonverfahren basieren auf der Kombination beider Unterschiede (Kap. 5.3.4). Das Mikrofonverfahren der Laufzeitstereofonie ist das sog. AB-Verfahren. Zwei Mikrofone werden in einem bestimmten Abstand zueinander, der Mikrofonbasis, nebeneinander vor der Schallquelle aufgestellt (Abb. 5/24). Sie liefern direkt die Signale L und R, oft zur Kennzeichnung ihrer Herkunft und Eigenschaften auch als Signale A und B bezeichnet.

Abb. 5/24. Prinzip des AB-Mikrofonverfahrens mit der Laufzeitdifferenz Δ l der Schallwege A – P und B – P.

Wenn zwischen einem Punkt P des Klangkörpers und den beiden Mikrofonen A und B eine Wegdifferenz Δl entsteht, ergeben sich Laufzeitdifferenzen zwischen den Mikrofonsignalen, die bei Lautsprecherwiedergabe Phantomschallquellen bilden (siehe Kap. 5.2.1.2). Die geringen Pegeldifferenzen, die sich wegen der unterschiedlichen Wege ergeben, sind in der Praxis bedeutungslos.  A und B  sind Monomikrofone  mit bevorzugt Kugelrichtcharakteristik von Druckempfängern, aber auch parallel ausgerichtete Nieren- oder Achterrichtcharakteristiken sind möglich; beide Mikrofone haben immer die gleiche Richtcharakteristik. Vorteilhafte Eigenschaften des AB-Mikrofonverfahrens  sind in erster Linie die Darstellung räumlicher Merkmale einer Aufnahme,  soweit dies in Zweikanal-Stereofonie  möglich ist, dazu gehört eine gute Tiefenstaffelung der Schallquellen, also eine bessere Unterscheidbarkeit der Entfernungen der Schallquellen und eine bessere Raumdarstellung als bei Intensitätsstereofonie. In der Praxis unterscheidet  man zwischen Klein-AB und Groß-AB. Während Klein-AB ein aufnahmetechnisch und in der Theorie einwandfreies, korrektes Klangbild ergibt, ist Groß-AB durch die Theorie nicht gedeckt, findet dennoch durch sein besonderes, beeindruckendes Abbild des Raumklangs vielfach Zustimmung, vor allem in Kombination mit dem Stützmikrofonverfahren. 5.3.3.1 Klein-AB Wie beim Stereomikrofon in XY oder MS der Zusammenhang von Versatzwinkel und Aufnahmebereich Grundlage der Mikrofoneinstellung ist, so ist beim Hauptmikrofon in Klein-ABTechnik der Zusammenhang von Mikrofonbasis und Aufnahmebereich Grundlage der Mikro­ foneinstellung. Sollen die vorteilhaften Eigenschaften einer Laufzeitmikrofonanordnung genutzt und gleichzeitig eine ausgewogene Richtungsabbildung des Klangkörpers erzielt werden, so müssen demnach die bekannten Gesetzmäßigkeiten des Aufnahmebereichs für Laufzeitstereofonie beachtet werden.

276 

 5 Tonaufnahme und Tonwiedergabe

In Tab.  5/8  sind die Aufnahmebereiche 50 %, 75 % und 100 % für Werte der Mikrofonbasis zwischen 25 und 40 cm angegeben. Auch bei Laufzeitstereofonie müssen vor allem die 75 % Werte beachtet werden. Für größere Aufnahmewinkel, also gerade den 100 %-Wert, machen komplexe Phänomene eine eindeutige Definition der Abbildungsrichtung gerade im Randbereich nur eingeschränkt möglich. Man sieht, dass die Breite der Mikrofonbasis sehr sensibel auf den Aufnahmebereich einwirkt, schon kleine Änderungen zeigen beachtliche Auswirkungen. Bei Werten unter 25 cm und über 40 cm ist das AB-Mikrofonverfahren, soweit eine korrekte Abbildung der Phantomschallquellen überhaupt erreicht werden soll, ungeeignet. Allgemein beim AB-Verfahren spielen der subjektive Klangeindruck und das Experimentieren allerdings eine wichtigere Rolle als bei Intensitätsstereofonie; z. B. kann die präzise Abbildung der Phantomschallquellen nicht alleiniges Ziel einer Aufnahme  sein, insofern kann die Mikrofonbasis auch Werte über 40 cm haben, vielfach werden gerade Werte zwischen 40 und 80  cm oder größer bevorzugt. Bei einer Orgelaufnahme etwa, wo –  bedingt durch die Konstruktion des Instruments – die Töne der Pedalregister abwechselnd auf den linken und rechten Pedalturm verteilt sind, ist eine Richtungsinformation nicht primär, vielleicht sogar verwirrend. Hier spielt die Einbeziehung des Raums eine besondere, bevorzugte Rolle, die durch den Aufnahmebereich nicht beschrieben wird. Überhaupt ist die Übertragung der Raumakustik gerade bei klassischer Musik – besonders hier wird AB eingesetzt – ein Qualitätsfaktor, der nicht unterschätzt werden darf. Sollen auch tiefe Frequenzanteile des Raumschalls beeindruckend übertragen werden, ist eine eigentlich korrekte Mikrofonbasis nicht mehr hilfreich. Um die Korrelation von Signal A und B aufzuheben, muss eine Phasendifferenz von 90° entsprechend 1/4 der Wellenlänge für ganz seitliche Schallquellen realisiert werden, Dazu ist für 100 Hz eine Mikrofonbasis von 82 cm erforderlich, für 50 Hz von 165 cm. Eine für eine optimale Wiedergabe des Raumschalls wünschenswerte Phasendifferenz von 90° erfordert hingegen schon bei 33 Hz eine Mikrofonbasis von 2,50 m, eine auch nur annähernd korrekte Abbildung der Phantomschallquellen ist dabei unmöglich. Tab. 5/8. Zusammenhang von Mikrofonbasis und Aufnahmebereich für die Anordnungen Kugel/Kugel bei 5 m Abstand zur Schallquelle [Wittek, Image Assistant]. Mikrofonbasis 25 cm 30 cm 32,5 cm 35 cm 37,5 cm 40 cm

Aufnahmebereich 50 % empfohlen: 75 % 62° 50° 46° 44° 40° 38°

108° 84° 76° 70° 66° 60°

100 % 180° 180° 136° 116° 106° 98°

Gelegentlich wird die Meinung vertreten, der Abstand der Ohren mit 17,5 cm sei eine optimale, „natürliche“ Mikrofonbasis. Dies entspricht einer  maximal  möglichen Laufzeitdifferenz für  seitliche Schallquellen unter ±  90° zur Blickrichtung eintreffenden Schall von 0,5 ms, zu kurz für eine Abbildung der Phantomschallquellen seitlich auf der Lautsprecherbasis. so dass der Ohrabstand keine brauchbare Mikrofonbasis darstellt. Wählt man dennoch

5.3 Zweikanal-Stereofonie 

 277

eine solche Mikrofonbasis, so müssen wie beim natürlichen Hören zusätzlich zu den Laufzeitdifferenzen auch Pegeldifferenzen hinzukommen, erzeugt durch gerichtete Mikrofone. Das führt dann aber zu den sog. gemischten Stereoverfahren, im Fall des Ohrabstands als Mikrofonbasis zum ORTF- und EBS-Mikrofonverfahren. Diese Verfahren werden unten in Kap. 5.3.4 besprochen. 5.3.3.2 Groß-AB Vielfach werden Kugelmikrofone, im Allgemeinen Druckempfänger, mit relativ großer Mikro­ fonbasis aufgestellt, z. B. 1,5 bis 3 m, oft auch als Grenzflächenmikrofone. Bei diesem Mikro­­ fonverfahren erzeugen Schallquellen um die Mitte des Aufnahmebereichs vorwiegend Laufzeitdifferenzen, Schallquellen in den Randzonen des Aufnahmebereichs bei vergleichsweise sehr großen Laufzeitdifferenzen zusätzlich Pegeldifferenzen, hervorgerufen durch die unterschiedlichen Entfernungen zu den Mikrofonen. Die Laufzeitdifferenzen führen nur in einem schmalen Bereich um die Mitte zu Phantomschallquellen, dabei wird dieser Bereich bei der Wiedergabe  stark gespreizt. Bei einem Mikrofonabstand zur Schallquelle von z. B. 6  m und einer Mikrofonbasis von 2  m wird nur ein Bereich von ca. ±  7° auf der gesamten Lautsprecherbasis abgebildet, die übrigen Schallquellen jeweils außen. So entsteht eine sehr verzerrte, ungleichmäßige Verteilung der Schallquellen auf der Basis, die so nicht akzeptabel ist. Um dem entgegenzuwirken, wird oft ein drittes Mikrofon in der Mitte der Mikrofonbasis aufgestellt. Da dieses Mikrofon auf den linken und rechten Kanal eingemischt wird, entstehen u. U. erhebliche Klangfärbungen durch Kammfiltereffekte. Das Mehrkugelverfahren wird meist mit dem Einzelmikrofonverfahren zum Stützmikrofonverfahren kombiniert, hierbei wird es vor allem die Rauminformationen aufnehmen und den Stützmikrofonen hinzufügen, eigentlich handelt es  sich dann um ein Einzelmikrofonverfahren  mit Raumstützmikrofonen; in diesem Fall ist die große Mikrofonbasis richtig, Kammfiltereffekte entstehen beim Raumschall nicht. Als Hauptmikrofonverfahren ist Groß-AB also nur geeignet, wenn die Übertragung des Raumschalls eindeutig im Vordergrund steht und der Abstand der ABAnordnung relativ groß ist Für Groß-AB werden oft Grenzflächenmikrofone (siehe Kap. 4.2.2) eingesetzt. Sie benötigen eine akustisch nicht oder wenig absorbierende Auflagefläche  mit einer Ausdehnung von mindestens 1,5 m, die der Mikrofonmembran die notwendige akustisch wirksame Ausdehnung verleiht. Meist wird dafür der Fußboden des Aufnahmeraums, evtl. auch  seine Wände verwendet. Grenzflächenmikrofone bieten die Übereinstimmung und Linearität von Direktfeld- und Diffusfeldfrequenzgang in idealer Weise. Da sie zudem noch Klangfärbungen durch wenig verzögerte Reflexionen am Boden vermeiden, erfüllen  sie besonders gut die Anforderungen der Laufzeitstereofonie, bei der ja in weit höherem Maße Raumschall aufgenommen wird als bei Intensitätsstereofonie. Die Bedingungen zum Einsatz von Grenzflächenmikrofonen  sind in der Praxis nicht immer erfüllbar: Oft  stehen in angemessener Entfernung nicht genügend große reflektierende Flächen zur Verfügung. Zudem verdecken z. B. Musiker der ersten Reihe diejenigen der zweiten. Bei öffentlichen Veranstaltungen kann das Verhalten des Publikums bei dieser Mikrofontechnik nicht akzeptable Nebengeräusche bedingen. Die auf dem Boden liegenden Mikrofone stellen außerdem bei Anwesenheit von

278 

 5 Tonaufnahme und Tonwiedergabe

Publikum ein gewisses Risiko für die Betriebssicherheit dar,  siehe zu diesem Mikrofontyp ausführlich Kap. 4.2.4.2. 5.3.3.3 Decca-Tree Der sog. Decca-Tree oder das Decca-Dreieck ist eine Stereo-Aufnahmeanordnung, die schon in der Versuchsphase stereofoner Aufnahmetechniken im Jahr 1953 bei Sitzungen der Aufnahmen der Firma Decca empirisch entwickelt und später bei vielen Decca-Aufnahmen eingesetzt wurde,  sich aber nicht in die theoretischen Überlegungen zur Mikrofonierung einfügen lässt. In der Anordnung eines Dreiecks oder auf den Kopf gestellten T werden drei Mikrofone, im Allgemeinen Druckkugeln, entsprechend Abb. 5/40 angeordnet. Das Mittenmikrofon C befindet sich typischerweise 1,5 m vor der Mikrofonbasis aus den Mikrofonen L und R mit einem gegenseitigen Abstand von ca. 2,0 m. Minimal sollten die Abstände 1,25 m nicht unterschreiten, eine Standardisierung fand nicht statt. Bevorzugt wurde das System bei großen Orchesteraufnahmen eingesetzt, wo die Anordnung in das Orchester in einer Höhe von 3 bis 4 m hineinragt. Das Decca-System bildet hauptsächlich und deutlich die Positionen links – Mitte – rechts ab und zeichnet sich durch einen beeindruckenden Raumklang aus. Es gilt nicht als abgewandeltes Groß-AB-Verfahren. Das System ist offen für zahlreiche Varianten wie die Verzögerung des Mittenmikrofons, Richtungsregelung der AB-Anordnung und Unterstützung durch Stützmikrofone [Gernemann, 2002/1]. Eine Renaissance erlebt der Decca-Tree als raumbetonte Aufnahmetechnik für Surround Sound-Aufnahmen, wo es direkt die Signale L, R und C liefert (siehe Kap. 5.4.2.3). 5.3.3.4 Praktischer Einsatz der Laufzeitstereofonie Ergänzend zu den grundsätzlichen Darlegungen zur Laufzeitstereofonie werden nachfolgend einige Hinweise für den praktischen Einsatz gegeben: Bedeutung der Raumakustik Bei der Mikrofonaufstellung für eine Aufnahme in Laufzeitstereofonie handelt es  sich wie beim Aufnahmeverfahren in XY- oder MS-Technik um ein Hauptmikrofonverfahren. Das bedeutet, dass  mit nur einem Mikrofonpaar das gesamte Klanggeschehen aufgenommen wird. Die Klangbalance kann hierbei aber nur dann gewahrt werden, wenn der Abstand der Mikrofone zur Schallquelle nicht kleiner ist als dessen Ausdehnung; anderenfalls werden die Abstände zu den Einzelschallquellen zu unterschiedlich. Damit befindet sich das Mikrofonsystem nicht mehr im Nahbereich der Schallquellen mit überwiegend Direktschall, sondern in einem Bereich, in dem Diffusschall einen relativ großen Anteil haben kann, je nach der Akustik, speziell der Nachhallzeit des Raums. Gerade die bei Laufzeitstereofonie vorteilhafte und übliche Verwendung ungerichteter Mikrofone ergibt einen größeren Diffusschallanteil als bei dem XY- bzw. MS-Mikrofonverfahren der Intensitätsstereofonie; deshalb sind parallel ausgerichtete Richtmikrofone durchaus eine bedenkenswerte Möglichkeit. So erhält die Akustik des Aufnahmeraums eine weit größere Bedeutung bei der Laufzeitstereofonie, als ihr bei den Verfahren der Intensitätsstereofonie zukommt: Das AB-Verfahren eignet sich deshalb

5.3 Zweikanal-Stereofonie 

 279

nur bei akustisch guten Räumen, das Hinzufügen künstlichen Nachhalls sollte sich bei ABAufnahmen also weitgehend erübrigen. Mikrofonauswahl Einer der Vorteile des AB-Mikrofonverfahrens, die gute Wiedergabe des Raumeindrucks des Aufnahmeraums, beruht wesentlich auf der Wiedergabe des Diffusschalls. Die adäquate Aufnahme des Diffusschalls erfordert im Allgemeinen Mikrofone  mit Kugelcharakteristik. Grundsätzlich können besonders bei übermäßig halligen Räumen aber auch parallel ausgerichtete Richtmikrofone verwendet werden. Hierbei ist zunächst an die breite Niere mit ihrer weitgehend frequenzunabhängigen Richtcharakteristik zu denken, aber auch an die Niere, es gelten dabei praktisch die Aufnahmebereiche für Kugeln (Tab. 5/8). Bereits in der Zeit der Monofonie wurden Druckempfänger bei Verwendung nur eines Mikrofons aus klanglichen Gründen gegenüber Druckgradientenempfängern bevorzugt. Das AB-Mikrofonverfahren ist die stereofone Weiterentwicklung dieser Klangästhetik. Maßgeblich dafür ist die technisch nicht vollständig zu dokumentierende Klangqualität dieser Mikro­ fone. Sie beruht wohl besonders auf der guten Aufnahme tiefer Frequenzen. Im hohen Frequenzbereich sind Druckmikrofone dadurch gekennzeichnet, dass zwischen Direktfeld- und Diffusfeldfrequenzgang ein Unterschied besteht, der auch durch Filterung nicht zu beseitigen oder herzustellen ist (siehe Kap. 4.2.1). Es gibt vier Typen von Kugelmikrofonen: –– diffusfeldentzerrte Druckempfänger mit linearem Diffusfeldfrequenzgang und Frei- oder Direktfeldfrequenzgang mit Höhenanhebung, –– frei- oder direktfeldentzerrte Druckempfänger  mit linearem Frei- oder Direktfeldfrequenzgang und Diffusfeldfrequenzgang mit Absenkung der Höhen, –– frei- oder direktfeldentzerrte Druckempfänger mit leicht ansteigendem Frei- oder Direktfeldfrequenzgang und leicht abfallendem Diffusfeldfrequenzgang, –– Grenzflächenmikrofone mit linearem Frei- oder Direktfeld- und linearem Diffusfeldfrequenzgang. Welchem Typ der Entzerrung im Einzelfall der Vorzug gegeben wird, ist keine aufnahmetechnische Entscheidung, sondern eine Frage der Klanggestaltung, abhängig von vielen Faktoren wie der Art der Schallquellen und dem Stil der Darbietung sowie der Raumakustik. Da sich die genannten Mikrofontypen nur in der Entzerrung ihres Frequenzgangs unterscheiden, können die verschiedenen Entzerrungen auch mit einem Filter z. B. aus einem diffusfeldentzerrten Mikrofon nachgebildet werden: eine Höhenabsenkung um 6  dB ergibt ein freifeldentzerrtes Mikrofon, eine Absenkung um 3 dB ein solches mit leichtem Höhenanstieg; nicht jedoch nachgebildet werden kann die unterschiedliche Entzerrung von Direkt- und Diffusfeld z. B. bei einer Niere. Abstand von der Schallquelle Der Abstand des Mikrofonpaars von der Schallquelle wirkt sich bei gleichbleibender Mikro­ fonbasis in folgender Weise auf das Klangbild aus: Je größer der Abstand ist, umso  mehr Raumschall erhält das Klangbild, umso schmaler wird die Schallquelle abgebildet und umso geringer wird die Tiefenstaffelung ausgedehnter Klangkörper wie Orchester. Andererseits

280 

 5 Tonaufnahme und Tonwiedergabe

gewinnt eine Aufnahme mit zunehmendem Mikrofonabstand an Homogenität. Da mit wachsendem Abstand sich die Klangqualitäten einer Aufnahme teils verbessern, teils verschlechtern, ist stets nach einem optimalen Kompromiss zu suchen, der nicht in einer allgemeinen Empfehlung ausgedrückt werden kann. Die Abbildungsbreite kann durch die Mikrofonbasis optimiert werden, so dass Hallanteil und Tiefenstaffelung die wesentlichen Gesichtspunkte für die richtige Wahl des Mikrofonabstands von der Schallquelle sind. Um eine räumliche Auflösung der Schallquellen bei der Wiedergabe zu realisieren, muss das Mikrofonpaar in einem Abstand von der Schallquelle aufgestellt werden, bei dem noch ein hörbarer Direktschallanteil vorhanden ist, also innerhalb des Hallradius (siehe Kap.  1.2,4). Bei Verwendung von Kugelmikrofonen ist der Bereich um die Schallquelle, in dem der Direktschallanteil überwiegt, deutlich kleiner als bei Verwendung von gerichteten Mikrofonen (siehe Abb. 5/29), wenn er z. B. bei der Kugel 5 m beträgt, erhöht er sich bei der Niere um den Faktor 1,7, also auf 8,5 m. Das Laufzeitverfahren kann mit den Aufnahmeverfahren der Intensitätsstereofonie ohne weiteres kombiniert werden. Da das AB-Mikrofonverfahren ein Hauptmikrofonverfahren ist, bietet sich insbesondere die Kombination mit dem XY-Verfahren für kleinere Untergruppen oder mit dem Einzelmikrofonverfahren für einzelne Instrumente als Stützmikrofone an. Es ergeben sich dabei Verfahren, die gleichzeitig Intensitäts- und Laufzeitdifferenzen enthalten; diese Verfahren werden im nachfolgenden Kapitel behandelt.

5.3.4 Kombination von Intensitäts- und Laufzeitstereofonie Die Aufnahmeverfahren der Intensitäts- und Laufzeitstereofonie können nicht nur einzeln für sich angewendet werden, sondern führen gerade in ihrer Kombination zu den aufnahmetechnisch sehr interessanten sog. gemischten Verfahren, bei denen das XY- mit dem ABVerfahren in einem Hauptmikrofonverfahren kombiniert wird. Es geht nicht darum, die Verfahren zu addieren,  sondern tatsächlich um ein Zusammenführen, ein Verschmelzen von AB und XY, nicht aber MS. Die gemischten Aufnahmeverfahren können die Qualitäten von Intensitätsstereofonie – präzise Phantomschallquellen auf der Lautsprecherbasis – und der Laufzeitstereofonie – guter Raumeindruck und Tiefenstaffelung –  miteinander verbinden. Die Laufzeitdifferenzen sorgen auch im tiefen Frequenzbereich bei Diffusschall für die Bildung von Phantomschallquellen und damit für eine Abbildung des Raums auf der Stereobasis; die Pegeldifferenzen sichern im höheren Frequenzbereich, wo Laufzeitdifferenzen zu unklaren, mehrdeutigen Abbildungen führen können, deutlich wahrnehmbare Phantomschallquellen,  so ergänzen  sich die Verfahren. Diese Aufnahmeverfahren werden deshalb auch oft erfolgreich verwendet. In der Praxis lassen  sich allerdings die Anteile von Laufzeit- und Pegeldifferenzen an der Stereoabbildung  meist nur grob abschätzen, da zu viele Faktoren darauf Einfluss nehmen. Wenn Intensitäts- und Laufzeitverfahren gleichgewichtig sind, spricht man von Äquivalenzverfahren. Bei XY bzw. MS und AB gibt es im Idealfall keine Abhängigkeiten der Signalpegel von der Frequenz, in der Praxis sind sie relativ gering. Da aber beim natürlichen Hören Laufzeit- und Pegeldifferenzen kombiniert auftreten, hier aber die Pegeldifferenzen  mehr oder weniger frequenzabhängig sind, liegt es nahe, auch bei den gemischten Verfahren bewusst mit fre-

5.3 Zweikanal-Stereofonie 

 281

quenzabhängigen Pegeldifferenzen zu arbeiten. Diese Verfahren werden  mit einem Trennkörper zwischen den Mikrofonen einer AB-Anordnung realisiert,  man nennt  sie deshalb zusammenfassend Trennkörper-Mikrofonverfahren oder kurz Trennkörperverfahren. Für die Formgebung der Trennkörper gibt es eine große Palette von Möglichkeiten: flache Scheiben, Zylinderabschnitte, Kugeln, Keile u. a. in verschiedenen Größen, aber eben auch eine Kopfnachbildung. Einige Trennkörper werden mit Grenzflächenmikrofonen kombiniert. Gemeinsam ist allen Trennkörpern, dass sie sich in ihren Dimensionen an der Größe des Kopfs orientieren, also an den Gegebenheiten des natürlichen Hörens. Ausgehend von theoretischen Überlegungen, aber auch auf Grund praktischer Experimente wurde eine große Anzahl von Mikrofonverfahren der gemischten Aufnahmetechnik entwickelt, einige der wichtigsten Verfahren werden unten besprochen. Man kann die Verfahren in zwei Gruppen einteilen: –– Verfahren ohne Frequenzabhängigkeit der Pegeldifferenzen mit gerichteten Mikrofonen und einer Mikrofonbasis, besprochen werden die Anordnungen nach den Williams-Diagramme (Kap. 5.3.4.1) sowie als deren spezielle, vielfach genutzte Lösungen das ORTF-, das EBS- und das NOS-Verfahren (Kap. 5.3.4.2), –– Verfahren  mit Frequenzabhängigkeit der Pegeldifferenzen,  sog. Trennkörperverfahren,  mit gerichteten oder ungerichteten Mikrofonen, die durch einen Körper getrennt werden, besprochen wird das Kugelflächenmikrofon (Kap. 5.3.4.3), auf andere Trennkörper wird hingewiesen (Kap. 5.3.4.4). Das Verfahren mit einer exakten Kopf- und Ohrnachbildung, das Kunstkopfverfahren, ist nicht ohne weiteres ein brauchbares Hauptmikrofonverfahren, da eine befriedigende Lautsprecherwiedergabe nicht direkt  möglich ist; ganz große Bedeutung erlangt das Kunstkopfverfahren im Rahmen von 3D‑Audio, also den Verfahren der dreidimensionalen Klangwiedergabe (siehe Kap. 5.5.5). Für die Anwendung der gemischten Aufnahmeverfahren gilt wie generell für die Hauptmikrofonverfahren der XY-, MS- und AB-Aufnahmetechnik: Sie  sind bevorzugt geeignet für in  sich klanglich ausgewogene Ensembles in akustisch guten Räumen, also besonders für Aufnahmen im Bereich der klassischen Musik und für in der Aufnahmetechnik vergleichbare Aufnahmen, nicht jedoch im Bereich populärer Musik, Jazz, Theater u. ä. Allen Verfahren der Trennkörperstereofonie ist gemeinsam, dass sie, anders als AB, XY und MS, einen fest dem Verfahren zugeordneten Aufnahmebereich haben, der also nur über die Entfernung von der Schallquelle angepasst werden kann. Der Abstand der Anordnung zur Schallquelle sollte nicht zu gering  sein,  schon damit die positiven Eigenschaften des AB-Anteils zur Geltung kommen. Weiterhin hat es sich als günstig erwiesen, die Wirkungen der Laufzeit- und Pegeldifferenzen ähnlich groß zu wählen, also die sog. äquivalenten Mikrofonverfahren zu bevorzugen. Ein weiterer Vorteil der gemischten Verfahren ist ihre gute bis ausreichende Monokompatibilität, da trotz vorhandener Laufzeitdifferenzen bei der Monobildung die sonst unvermeidlichen Auslöschungen bzw. Kammfiltereffekte gering ausfallen. Ursache hierfür  sind die  stets  mit zunehmenden Laufzeitdifferenzen ebenfalls zunehmenden Pegeldifferenzen, die nur geringe, in der Praxis nicht oder kaum hörbare Klangfärbungen erzeugen; sie treten erst oberhalb etwa 1 kHz auf.

282 

 5 Tonaufnahme und Tonwiedergabe

5.3.4.1 Verfahren mit Pegeldifferenzen unabhängig von der Frequenz Wie in Kap.  5.2.2.2 erläutert, können Pegeldifferenzen unabhängig von der Frequenz und Laufzeitdifferenzen auch zu einer weiteren Gruppe von Aufnahmeverfahren kombiniert werden. Diese  sog. gemischten Verfahren beruhen auf einer wählbaren Mikrofonbasis bis höchstens 40 bis 50 cm und einem wählbaren Versatzwinkel der Mikrofone, woraus sich der Aufnahmebereich ergibt. Es gibt naturgemäß eine sehr große Zahl von Kombinationsmöglichkeiten dieser Größen. Im Prinzip handelt es  sich um drei Größen – Aufnahmebereich, Mikrofonbasis, Versatzwinkel −, jeweils zwei davon können gewählt werden und bestimmen den Wert einer dritten Größe. Gewählt werden kann z. B. der Aufnahmebereich, der sich aus der Ausdehnung des aufzunehmenden Klangkörpers und der Entfernung des Mikrofonsystems hierzu ergibt, und die Mikrofonbasis, daraus errechnet sich dann der Versatzwinkel. Die Zusammenhänge können nicht im Kopfrechnung ermittelt werden, sondern dazu bedarf es einer Berechnung, die am einfachsten mithilfe der von M. Williams berechneten Diagrammen vorgenommen werden kann [Williams, 1987]. Diese sog. Williams-Diagramme sind systematisch für alle Richtmikrofontypen errechnet worden und zeigen in Diagrammen die Zusammenhänge zwischen den Größen Aufnahmebereich, Mikrofonbasis und Versatzwinkel. Abb. 5/12 zeigt als Beispiel die Zusammenhänge für zwei Nieren. Eine Vergrößerung der Mikrofonbasis ergibt eine eindrucksvollere Raumdarstellung, eine Verkleinerung eine präzisere Lokalisierbarkeit und Präsenz. Praktisch kann man z. B. von der beabsichtigten Mikro­ fonbasis ausgehen, ermittelt dann den Aufnahmebereich anhand der Aufnahmesituation und bestimmt schließlich den Versatzwinkel. Ein sehr nützliches Hilfsmittel für die Berechnung ist der im Internet frei verfügbare Image Assistant von Wittek [www.hauptmikrofon.de], auch als einfaches Handwerkzeug das sog. Tonmeister Survival Kit [Dickreiter, 2011]. Tab. 5/9. Aufnahmebereich, Mikrofonbasis und Versatzwinkel für ausgewählte Hauptmikrofonvarianten nach Williams für zwei Nieren [Williams, 1987]. Aufnahmebereich 100 % empfohlen: 75 %

Mikrofonbasis 10 cm

Versatzwinkel

100°

70° 66° 64°

10 cm 20 cm 30 cm

± 69° ± 50° ± 25°

90°

62° 60° 58°

10 cm 20 cm 30 cm

± 78° ± 58° ± 35°

80°

54° 54° 52°

10 cm 20 cm 30 cm

± 87°  ± 69° ± 48°

In Tab. 5/9 sind zur Orientierung eine Auswahl weiterer praxisbezogener Kombinationsmöglichkeiten mit zwei Nieren zusammengestellt, geordnet in der Reihenfolge Aufnahmewinkel, Mikrofonbasis, Versatzwinkel; hier beginnt man mit der Festlegung des Standorts des Hauptmikrofons bzw.  seines Abstands zum Klangkörper, wählt die Mikrofonbasis und  stellt den Versatzwinkel ein. Die Winkelangaben sind berechnet und nicht gerundet. Angegeben sind

5.3 Zweikanal-Stereofonie 

 283

die Aufnahmebereich 100 % und 75 %. Es sei daran erinnert, dass die 100 %-Werte in der angegebenen Genauigkeit theoretische Werte sind, da die Phantomschallquellen nahe bzw. in den Lautsprechern in der Wahrnehmung etwas problematisch  sind; deshalb  sind vor allem die Aufnahmewinkel 75 % zu beachten (siehe dazu Kap. 5.2.2.1), innerhalb derer eine zuverlässige Zuordnung von Schallquellen und Phantomschallquellen gegeben ist. 5.3.4.2 ORTF-, EBS- und NOS-Verfahren Um innerhalb der großen Vielfalt  möglicher Anordnungen nach Williams praxisgerechte Lösungen herauszugreifen, wurden drei Anordnungen quasi  standardisiert, zumindest  mit Namen versehen. Eines der am häufigsten benutzten Mikrofonverfahren ist das sog. ORTF-Verfahren. Es vereint das AB-Mikrofonverfahren mit einer Mikrofonbasis, die – beabsichtigt oder nicht – mit 17 oder 17,5 cm dem Ohrabstand entspricht, mit dem XY-Mikrofonverfahren mit zwei Nieren bei einem Versatzwinkel von ± 55°; der Aufnahmebereich 75 % entspricht 68°, bei nur 10 cm Mikrofonbasis steigt der Aufnahmebereich 75 % auf 90° (Abb. 5/25, siehe auch Tab. 5/6).

Abb. 5/25. ORTF-Mikrofonverfahren, Realisierung mit Einzelmikrofonen und einer Spezialhalterung bzw. mit einem Zwillingsmikrofon.

Das Verfahren erhielt den Namen der ehemaligen staatlichen Rundfunkorganisation Frankreichs, von wo aus es seine Verbreitung gefunden hat. Laufzeit- und Pegeldifferenzen sind bei ORTF etwa gleichgewichtig, ein Äquivalenzverfahren also und einer der Gründe für die

284 

 5 Tonaufnahme und Tonwiedergabe

gute Qualität dieser Anordnung. Zu Laufzeitunterschieden von höchstens 0,5 ms kommen hierbei frequenzunabhängige Pegeldifferenzen bis  maximal etwa 6  dB, da die verwendeten Mikrofone Nierencharakteristik haben und um ±  55° nach außen gedreht  sind. Diese bewährte Mikrofonaufstellung kann auch variiert werden: Einerseits kann durch eine andere Ausrichtung der Mikrofone die Pegeldifferenz vergrößert oder verkleinert werden, andererseits kann die Laufzeitdifferenz durch eine größere Mikrofonbasis erhöht werden, Für die Mikrofonaufstellung nach dem ORTF-Verfahren gibt es geeignete Halterungen für die Mikrofone oder fest montierte Zwillingsmikrofone (Abb. 5/25). Eine weitere einfach handzuhabende und praxisgerechte Anordnung ist das EBS-Verfahren nach EBerhard Sengpiel. Es besteht aus zwei Kleinmembranmikrofonen mit Nierencharakteristik mit einer Mikrofonbasis von 25 cm und nach außen gerichteten Versatzwinkeln von ±  45°, also einem Achsenwinkel von 90°, und einem damit übereinstimmenden Aufnahmebereich von ebenfalls 90°. Es ähnelt dem ORTF-System, bietet aber die Besonderheit, dass der Aufnahmebereich mit dem Achsenwinkel übereinstimmt, der Aufnahmebereich wird so anschaulich von den Mikrofonen markiert und kann im Gegensatz zum ORTF-Verfahren ohne Hilfsmittel bereitgestellt werden, der 90°-Winkel wird nach Augenmaß eingestellt, die Basis 25 cm entspricht meist einer Handspanne, die einmal individuell ermittelt wird. Ein ähnliches System, das NOS-System, wurde empirisch  mit zwei Kleinmembranmikrofonen  mit Nierencharakteristik von Toningenieuren der Stiftung des niederländischen öffentlich-rechtlichen Rundfunks NOS entwickelt. Bei einem Achsenwinkel von ebenfalls 90° und einer Mikrofonbasis von 30 cm ergibt sich ein Aufnahmebereich von 81°, die Laufzeitanteile sind hier also etwas größer als beim EBS- oder auch ORTF-Verfahren. 5.3.4.3 Kugelflächenmikrofon Mikrofonanordnungen mit Trennkörpern bieten Laufzeitdifferenzen, die wie bei AB von der Mikrofonbasis bzw. der Wegdifferenz zu den Mikrofonen abhängig sind, und Pegeldifferenzen, die wegen Abschattungen durch einen Trennkörper mit steigender Frequenz zunehmen. Die ursprüngliche Idee dabei war, sich an den Verhältnissen beim natürlichen Hören mit dem Trennkörper Kopf zu orientieren und dafür vereinfachte technische Lösungen zu realisieren. Bei Anordnungen mit Trennkörpern werden grundsätzlich Druckmikrofone verwendet, weil die besonderen klanglichen Eigenschaften – hervorragende Tiefenwiedergabe, natürliche Präsenz, und guter Raumeindruck – hier ohne Einschränkung genutzt werden können. Ansonsten ist Stereofonie mit Druckempfängern nur in Laufzeitstereofonie möglich, wobei Einschränkungen der Lokalisierbarkeit hingenommen werden müssen. Schon in den 1930er Jahren wurde mit Kugeln als Trennkörper experimentiert, aber erst ein Vorschlag von Theile 1986 mit einem Pflichtenheft mit präzisen Anforderungen führte zu einem System, das objektive Qualitätskriterien im Rahmen der Trennkörpersysteme erfüllt, eben dem Kugelflächenmikrofon mit integrierten Grenzflächenmikrofonen, auch kurz KFM genannt [Theile, 1987], [Wuttke, 1993]. Die Pegeldifferenzen zwischen zwei gegenüberliegenden Punkten auf einer Kugel  mit 17,5 cm Durchmesser – dem Durchmesser eines durchschnittlichen Kopfs – zeigt Abb. 5/26. Man erkennt, dass  mit zunehmend zur Seite wandernder Schallquelle die Pegeldifferenz zunächst bis zu einem Einfallswinkel von ca. ± 50° ansteigt, dann aber wieder bis ± 90° auf

5.3 Zweikanal-Stereofonie 

 285

Grund von Beugungseffekten zurückfällt, und dies bei einer  starken Frequenzabhängigkeit. D. h., dass für die Entwicklung eines qualitativ hochwertigen Kugelflächenmikrofons weitere Entwicklungsschritte nötig waren, um zu den in Abb. 5/27 gezeigten gleichmäßigen Frequenzgängen zu kommen. Anders gesagt, eine einfache selbst gebaute Vorrichtung kann die Erwartungen an das System nicht erfüllen.

Abb. 5/26. Pegeldifferenzen zwischen zwei gegenüberliegenden Punkten auf einer Kugel mit 17,5 cm Durchmesser.

Abb. 5/27. Frequenzgänge des Kugelflächenmikrofons bei Direktschall für Schalleinfallswinkel ± 20° und ± 60°.

286 

 5 Tonaufnahme und Tonwiedergabe

Schall, der seitlich eintrifft, erfährt eine Höhenanhebung (Abb. 5/27), zunehmend mit ansteigender Frequenz. Dies ist notwendig, um die ebenfalls  mit ansteigender Frequenz zunehmenden Abschattungen der Kugel am gegenüberliegenden Mikrofon auszugleichen. Die Summe der Klangfärbungen aus den beiden entsprechenden Richtungen bleibt klangneutral. Nur so kann auch der Diffusfeldfrequenzgang linear sein, eine ganz wichtige Forderung an ein Hauptmikrofon, das in größerem Abstand zur Schallquelle aufgestellt wird und damit verhältnismäßig viel Diffusschall aufnimmt. Dies kann  systembedingt für  seitliche Schallquellen bei geringerer Entfernung zu erhöhter Präsenz führen bis hin zu einer gewissen Schärfe. Vermieden wird diese durch einen größeren Abstand des KFMs zur Schallquelle und damit einem höheren Anteil von Hall. Abb. 5/28 zeigt den mechanischen Aufbau des Systems. In einer Kugel von 20 oder 18 cm Durchmesser sind seitlich mit ihrer Membran bündig zwei Druckempfänger eingebaut, also Grenzflächenmikrofone.

Abb. 5/28. Kugelflächenmikrofons oder KFM, mechanischer Aufbau.

Beim Kugelflächenmikrofon oder KFM sind also die folgenden Anforderungen realisiert, die zugleich die wichtigsten Kriterien für den Mikrofoneinsatz ergeben: –– Die Laufzeit- und Pegeldifferenzen an den beiden Mikrofonen  sind denjenigen beim natürlichen Hören ähnlich und etwa gleichwertig im Hinblick auf die Auswanderung der Phantomschallquelle, es handelt sich also um ein Äquivalenzmikrofon. –– Der Frequenzgang des direkten Schalls von vorn ist über den gesamten Übertragungsbereich linear. –– Der Frequenzgang des diffusen Schalls, also des Halls, ist ebenfalls linear. Dies ist wichtig, da ein Hauptmikrofon durch seine größere Entfernung von den Schallquellen relativ viel Diffusschall aufnimmt.

5.3 Zweikanal-Stereofonie 

 287

–– Schall, der seitlich eintrifft, erfährt eine Höhenanhebung, zunehmend mit ansteigender Frequenz. Dies kann für seitliche Schallquellen bei geringerer Entfernung zu erhöhter Präsenz führen bis hin zu einer gewissen Schärfe. –– Die Richtcharakteristik des KFMs ist nahezu ideal kugelförmig,  mehr noch als diejenige eines Druckempfängers. Der damit verbundene große Diffusschallpegel, der in allen Richtungen nur 3 dB niedriger liegt als der Direktschallpegel bei 0°, macht es zur Bedingung, ausschließlich in akustisch guten Räumen aufzunehmen. Kein Mikrofontyp nimmt so viel Diffusschall verglichen mit dem Direktschall auf wie das KFM. Man kann das KFM ein „ehrliches Mikrofon“ nennen. –– Durch den bündigen Einbau der Mikrofone in die Kugeloberfläche gibt es keinerlei Kammfiltereffekte, die bei anderen Trennkörperverfahren auftreten. –– Die Klangfärbung  seitlichen Schalls nimmt  mit der Entfernung kontinuierlich ab, während der Hallanteil klanglich gleichbleibt,  so wie bei diffusfeldentzerrten Druckempfängern. Damit erhält jede  seitliche Schallquelle eine für die Entfernung typische Klangfärbung, möglicherweise auch einer der Gründe für die gute Darstellung der Tiefenstaffelung. –– Durch den Kugeldurchmesser von 20 cm bzw. 18 cm entsteht ein fester Aufnahmebereich von 90° bzw. 120°, nur durch die Wahl der Entfernung kann also der Aufnahmebereich an die Aufnahmesituation angepasst werden. –– Bei der Kombination mit Stützmikrofonen gehen die besonderen und guten Eigenschaften des KFM erfahrungsgemäß schneller verloren als bei anderen Hauptmikrofonverfahren. –– Stehende Wellen liegen vielfach im Bereich tiefer Frequenzen, die das System wegen der verwendeten Druckempfänger besonders gut aufnimmt. Deshalb  muss  stets auch  mit kleinen Verschiebungen des KFMs nach einer optimalen Position, auch in der Höhe, gesucht werden. 5.3.4.4 Andere Trennkörper Bei der Wahl der Trennkörper gibt es eine große Vielfalt an denkbaren Formen, und so wurde gerade hier viel experimentiert. Da alle Trennkörper Laufzeit- und Pegeldifferenzen liefern, überraschen solche Anordnungen zunächst durchaus mit einer eindrucksvollen Abbildung des Raums. Erst bei genauerer Untersuchung zeigen Formen wie Keile, flache oder dicke Scheiben gerade bei ihren Frequenzgängen erhebliche Mängel, dies trifft auch auf das OSSVerfahren zu, das neben dem KFM bekannteste Trennkörperverfahren. Beim OSS-Verfahren (OSS = Optimales Stereo-Signal), auch Jecklin-Scheibe, befindet  sich als akustische Trennung zwischen den Mikrofonen − grundsätzlich diffusfeldentzerrte Druckempfänger − eine den Schall absorbierende Scheibe. Bei einer ersten Version ist die Mikrofonbasis mit 17,5 cm gleich dem Ohrabstand, die Scheibe hat einen Durchmesser von 30 cm; in einer zweiten Version beträgt der Abstand der Mikrofone zueinander 36 cm, der Scheibendurchmesser 35 cm. Neben den eingeführten Trennkörperanordnungen KFM und OSS sind weitere Anordnungen  mit unterschiedlichen Trennkörpern und Größenverhältnissen  möglich. Die definierte akustische Qualität des Kugelflächenmikrofons erreichen  sie nicht;  sie können im  semi-

288 

 5 Tonaufnahme und Tonwiedergabe

professionellen Bereich oft als Eigenbau  mit überraschendem Erfolg eingesetzt werden. Zunächst können dicke Scheiben, die den Raum zwischen den Mikrofonen ausfüllen und z.  B. aus Schall  schluckender Steinwolle bestehen, verwendet werden, weiterhin einfache oder doppelte Keile, ebenfalls Schall schluckend. Grenzflächenmikrofone werden bei schallharten Trennkörpern verwendet, sie finden z. B. in der Trennkörperanordnung des Systems SASS von Crown und Clara nach Peters Anwendung. Der Kunstkopf als Aufnahmesystem wird allgemein nicht zu den Trennkörperverfahren gerechnet, obwohl er eigentlich diesen zuzuzählen ist. Seine Zielsetzung ist aber nicht die Zweikanal-Stereofonie für Lautsprecherwiedergabe,  sondern die Kopfhörerwiedergabe  mit klangdokumentarischer oder messtechnischer Zielsetzung (siehe Kap. 4.2.4.6). Die Entwicklung von 3D-Audio hat den KK als binaurale kopfbezogene Übertragungstechnik eine neue Aktualität verschafft, auch die Möglichkeiten ihrer Lautsprecherwiedergabe wird wieder diskutiert, hierzu wird auf Kap. 5.5.5 verwiesen.

5.3.5 Stützmikrofonverfahren Aufnahmen ausgedehnter Klangkörper, z. B. Orchester, gerade mit Chor und Solisten, stellen hohe Anforderungen an die Durchsichtigkeit und Brillanz des Klangs, an die gleichmäßige Ausnutzung der gesamten Stereobasis, an gute und eindeutige Richtungsauflösung und an die übermittelte Raumillusion. Um das gewünschte Klangbild für den Hörer verwirklichen zu können, werden besonders bei akustisch unbefriedigenden Räumen, vielfach ergänzend zum Hauptmikrofon  mehrere Stützmikrofone eingesetzt. Auch  mehrere Hauptmikrofone können  sinnvoll  sein, wenn ein einziges Hauptmikrofon zu weit entfernt aufgestellt werden müsste, um das gesamte Klangbild erfassen zu können. Als Stützmikrofone können Monomikrofone für einzelne oder wenig ausgedehnte Schallquellen (siehe dazu Kap. 5.3.5.1) oder Stereomikrofone für ausgedehnte Schallquellen bzw. -gruppen verwendet werden (Kap. 5.3.5.2). Nimmt man den Anteil eines Hauptmikrofons an einer Aufnahme immer mehr zurück, bleibt zunehmend nur noch das Klangbild der Stützmikrofone, das Aufnahmeverfahren wird damit zum Einzelmikrofonverfahren. Somit gibt es einen gleitenden Übergang vom Stütz- zum Einzelmikrofonverfahren, siehe hierzu Kap. 5.3.6. Wenn mit einem oder auch mehreren Hauptmikrofonen nicht das gewünschte Klangbild realisiert werden kann, kann es neben anderen die folgenden Gründe geben: –– Der Klangkörper in sich nicht ausbalanciert, d. h., die Lautstärkeverhältnisse zwischen den Teilschallquellen, z.  B. Gesangssolisten,  sind unausgeglichen. Die Stützmikrofontechnik bietet die Möglichkeit, die Klangbalance zwischen den einzelnen Schallquellen herzustellen; einerseits können unterschiedliche Lautstärken angeglichen werden, andererseits kann durch Hervorhebungen eine Partitur nach  musikalischen Gesichtspunkten in die Aufnahmetechnik übersetzt werden. –– Der Saal ist akustisch ungeeignet, d. h., es kommen zu starke und/oder zu frühe oder zu späte erste Reflexionen zum Mikrofon und/oder der Nachhall überzeugt nicht, weil er unangemessen lang, zu dumpf oder zu hart ist oder Echos auftreten. –– Unabhängig von Saal, Gesamtklang und der klanglichen Balance  soll ein besonderes Klangbild geschaffen werden. Die Aufnahme soll z. B. Grundlage von Fernsehtonaufnah-

5.3 Zweikanal-Stereofonie 

 289

men sein, wobei einzelne Instrumente zeitweise groß ins Bild kommen sollen und dabei akustisch unterstützt werden müssen. –– Es besteht nicht die Möglichkeit, ein Hauptmikrofon an einem geeigneten Ort zu platzieren, z. B., wenn ein Orchester im Orchestergraben eines Opernhauses spielt. Die Stützmikrofontechnik hat die Fähigkeit, in den genannten Fällen Abhilfe zu  schaffen. Kennzeichen der Stützmikrofontechnik ist, dass einigen oder allen Schallquellen zusätzlich zum Hauptmikrofon in relativ geringem Abstand ein weiteres Mikrofon zugeordnet wird. Stereomikrofone  müssen dabei einen größeren Abstand haben als Monomikrofone, da  sie ausgedehnte Schallquellen aufnehmen. Der Abstand von Monostützmikrofonen wird im Allgemeinen zwischen 0,5 und 2 m liegen. Dabei erfordern Klangkörper aus Schallquellen sehr unterschiedlicher Lautstärke, wie Unterhaltungsorchester, Gruppen  mit populärer Musik, Bigbands, auch Jazzgruppen, weit mehr Stützmikrofone als ein in sich ausgeglichener konventioneller Klangkörper, wie z.  B. Kammermusikensembles oder das klassische Sinfonieorchester; diese traditionellen Ensembles  spielen Kompositionen, die für eine Aufführung ohne Korrekturen der Klangbalance konzipiert sind. Die Stützmikrofontechnik  steht aufnahmetechnisch zwischen den Hauptmikrofonverfahren und dem Einzelmikrofonverfahren. Sie kann einerseits ein Hauptmikrofonverfahren unterstützend optimieren, andererseits das Hauptmikrofon dominieren, dazwischen gibt es einen gleitenden Übergang. Das Hauptmikrofon hat beim Stützmikrofonverfahren eine integrierende, homogenisierende Aufgabe, bei geringen Anteilen stellt es u. U. nur noch ein Raummikrofon dar zur Aufnahme des Raumschalls. Grundsätzlich  sollte das Stützmikrofonverfahren nicht dazu dienen, ein unkorrekt eingesetztes Hauptmikrofon zu korrigieren. Jede Aufnahmesituation, in der die Stütztechnik geplant ist,  sollte also  mit der optimalen Einstellung des Hauptmikrofons beginnen. Danach erfolgt die Zumischung der Stützsignale. Dominieren diese, so dient das Hauptmikrofon nur noch der Aufnahme des Raumeindrucks, wofür dann wieder andere Kriterien maßgeblich sind. Stützmikrofone liefern in erster Linie Direktschall. Wegen des geringeren Mikrofonabstands verglichen mit dem Hauptmikrofon trifft Direktschall bei den Stützmikrofonen aber früher ein als beim Hauptmikrofon. Im Ergebnis bilden die Stützmikrofone die Lokalisierung, das Einschwingen und die Präsenz ab, das Hauptmikrofon liefert den Raumeindruck. Nachteilig an der konventionellen Stützmikrofontechnik ist demnach, dass die Schallquellen dabei ohne Entfernungsmerkmale abgebildet werden, die Aufnahme also ohne Tiefenstaffelung bleibt. Diesen Mangel kann eine zeitverzögerte und ggf. verhallte Zumischung der Stützmikrofone beseitigen helfen (siehe dazu Kap. 5.3.5.3). Die Stützmikrofone werden in Übereinstimmung mit der Richtung der Schallquelle aus der Perspektive des Hauptmikrofons mit dem Panorama-Potentiometer in das Gesamtklangbild eingegliedert; sie stellen – sofern sie nicht ganz seitlich eingeordnet sind – Phantomschallquellen mit reinen Pegeldifferenzen dar und sind dadurch gut auf der Stereobasis lokalisierbar.

290 

 5 Tonaufnahme und Tonwiedergabe

5.3.5.1 Monostützmikrofone Als Monostützmikrofone eignen sich Richtmikrofone am besten, da über ein Stützmikrofon nur Direktschall der jeweiligen Schallquelle aufgenommen werden soll. Neben der Nierenrichtcharakteristik, die die beste Ausblendung des Direktschalls nach hinten bietet, kommen dafür die Super- und Hypernierenrichtcharakteristik in Betracht, die bei etwas geringerer Rückwärtsdämpfung eine erhöhte seitliche Ausblendung des Direktschalls bieten. Die Achterrichtcharakteristik hat die beste Ausblendung für seitlichen Schalleinfall, hat aber nach hinten dieselbe Empfindlichkeit wie nach vorne, sie eignet sich also besonders dann, wenn die Instrumente oder Stimmen in nur einer Reihe nebeneinander aufgestellt sind; für Diffusschall sind diese Mikrofone ebenso empfindlich wie die Nieren. Ein Stützmikrofon mit Kugelrichtcharakteristik ist nur in sehr geringem Abstand sinnvoll; ein Grund für die Verwendung eines Kugelmikrofons kann aber der Wunsch sein, mit Druckempfängern zu arbeiten, die u. a. eine besonders gute Wiedergabe tiefer Frequenzen bieten. Abb. 5/29 veranschaulicht die Fähigkeit gerichteter Mikrofone, Diffusschall auszublenden. Z. B. kann man eine Acht oder Niere um den Faktor 1,7 weiter entfernt von der Schallquelle aufstellen, ohne dass sie mehr Diffusschall aufnimmt als eine Kugel in einfacher Entfernung. Mit der Super- und Hypernieren kann man den Abstand in etwa verdoppeln. Aber bereits die breite Niere kann in vielen Fällen bei einem etwas geringeren Abstand als die Niere ein klanglich sehr ausgewogenes Stützmikrofon sein.

Abb. 5/29. Gleiches Verhältnis von Direkt- zu Diffusschall bei unterschiedlichen Mikrofonabständen.

5.3 Zweikanal-Stereofonie 

 291

5.3.5.2 Stereostützmikrofone Stereostützmikrofone  sind nur dann  sinnvoll, wenn räumlich ausgedehnte Klanggruppen gestützt werden  sollen, die in  sich ausbalanciert  sind. Da Stereo-Stützmikrofone in aller Regel gerichtete Schallempfänger  sein  müssen, kommen nur die Aufnahmeverfahren in Betracht, die dies leisten: die XY-Verfahren mit Nieren- und Supernierenmikrofonen und ihre äquivalenten Anordnungen in MS, also XY nicht mit Achten und MS nicht mit Kugel für das M-Signal, sowie gemischte Verfahren mit gerichteten Mikrofonen, z. B. ORTF oder EBS. Beim Einsatz mehrerer Stereomikrofone, egal ob als gleichberechtigte Hauptmikrofone oder als Stützmikrofone, kommt es stets darauf an, die Perspektiven der einzelnen Mikrofone in Übereinstimmung zu bringen, um mehrfache Abbildungen der Schallquellen zu vermeiden. Erfasst z. B. ein Hauptmikrofon über dem Dirigenten das gesamte Orchester, so muss ein Stereostützmikrofon für die Holzbläsergruppe bei der Abbildung zwischen den Lautsprechern auf die Breite eingeengt werden, wie sie sie vom Hauptmikrofon aus gesehen in Bezug auf das Gesamtklangbild einnimmt. 5.3.5.3 Verzögerte und raumbezogene Stützmikrofone Eine Möglichkeit, die den Klang bestimmende Funktion des Hauptmikrofons zu unterstützen, besteht darin, das zeitliche Voreilen der Stützmikrofone durch Verzögerung ihrer Signale aufzuheben,  sie also zeitlich nach dem Signal des Hauptmikrofons einzuordnen. Hierzu schätzt man die Differenz der Strecken Hauptmikrofon – Schallquelle und Stützmikrofon – Schallquelle ab und rechnet sie in die Verzögerungszeit um, für 1 m rechnet man mit 3 ms Laufzeit. Ein Beispiel: Abstand Hauptmikrofon – Hörnergruppe = 10 m, Abstand Stützmikrofon – Hörnergruppe 3 m, die Differenz sind 7 m entsprechend 21 ms. Es hat sich in der Praxis als günstig erwiesen, dem so errechneten Wert nochmals etwa 15 ms hinzuzufügen, in dem Beispiel ergeben sich damit 35 bis 40 ms Verzögerung des Stützmikrofons. In Abwandlung dieser einfachen Verzögerung der Stützmikrofone ist die raumbezogene Stützmikrofontechnik, eine Stütztechnik, die ohne Pan-Pots arbeitet; als Stützmikrofone werden Monomikrofone verwendet. Wie bereits oben erläutert, liefern Stützmikrofone in erster Linie Direktschall, der vor dem Signal des Hauptmikrofons wiedergegeben wird und damit eine Abfolge von Direktschall, ersten Reflexionen und Nachhall ergibt, die in ihrer zeitlichen Struktur nicht der Realität entspricht (Abb.  5/30). Der  starke Anteil von Direktschall und weitgehend fehlende Merkmale der Schallquellenentfernung führen dabei zu dem Gehöreindruck, dass alle Schallquellen „wie auf einer Schnur“ in gleichem Abstand vor dem Hörer zwischen den Lautsprechern aufgereiht  sind. Der konventionellen Stützmikro­ fontechnik fehlt also Raumtiefe. Das wird in vielen Fällen durchaus erwünscht, kann doch nur so eine für alle Schallquellen geltende Präsenz der Aufnahme realisiert werden. Eine andere Aufnahmephilosophie ist die von Theile vorgeschlagene raumbezogene oder panpotfreie Stütztechnik [Theile, 1984]. Sie geht davon aus, dass die Stützmikrofone zeitlich nicht vor den Signalen des Hauptmikrofons,  sondern danach eingeordnet werden. Damit wird nicht nur das Voreilen des Direktschalls der Stützmikrofone ausgeglichen, was schon früher gefordert bzw. praktiziert wurde, vielmehr wird das Signal des Stützmikrofons nach den Direktschall des Hauptmikrofons gesetzt und somit nicht als Direktschall, sondern als erste Reflexion behandelt. Die so gewonnene künstliche erste Reflexion erhöht zunächst die

292 

 5 Tonaufnahme und Tonwiedergabe

Lautstärke der Schallquelle; dieses Phänomen ist auch aus der Raumakustik bekannt und wird entsprechend z. B. zur Verbesserung der Sprachverständlichkeit in einem Saal genutzt. Diese Reflexion schafft aber keine Lokalisierbarkeit der Schallquelle. Diese kommt vielmehr vom Direktschallanteil des Hauptmikrofons. Entsprechend den natürlichen Bedingungen in einem Raum ist es günstig, die künstliche erste Reflexion des Stützmikrofons nicht als korreliertes Signal abzubilden, also eine lokalisierbare Phantomschallquelle zu schaffen, sondern das Stützmikrofon in den beiden Kanälen zu dekorrelieren, also etwas unterschiedlich zu verzögern, z. B. mit einem Zeitabstand von 3 bis 5 ms.

Abb. 5/30. Vergleich der konventionellen und raumbezogenen Stützmikrofontechnik: oben: nur Hauptmikrofon, Mitte: zusätzlich Stützmikrofon ohne Verzögerung, unten: zusätzlich Stützmikrofon mit Verzögerung.

Die Grundverzögerung der Stützmikrofone  sollte  so gewählt werden, dass  sie etwa 20 bis 30 ms nach den Signalen des Hauptmikrofons eintrifft. Eine Einordnung dieser Signale über Panoramapotentiometer entfällt also. Diese Stützmikrofontechnik hat die natürlichen Ver-

5.3 Zweikanal-Stereofonie 

 293

hältnisse in einem Raum als Vorbild. Abb. 5/30 demonstriert den Unterschied zwischen den Verhältnissen bei einem Hauptmikrofon, zusätzlich  mit konventioneller und  mit raumbezogener Stützmikrofontechnik. Mit dieser Stützmikrofontechnik ist  selbstverständlich ein Verlust an Lokalisierbarkeit verbunden. Gewonnen ist eine Annäherung an die Hörbedingungen, die beim natürlichen Hören herrschen. Ob dies wünschenswert ist oder den Aufwand rechtfertigt, hängt von der jeweiligen klangästhetischen Zielsetzung ab. Zu prüfen ist hier auch, ob bei der Monobildung Kammfiltereffekte hörbar werden.

5.3.6 Einzelmikrofonverfahren Beim Einzelmikrofonverfahren werden für jede Einzelschallquelle eines Klangkörpers üblicherweise gerichtete Mikrofone eingesetzt, deren Einzelsignale in der Regieeinrichtung durch geeignete Einstellung von Pegel und Abbildungsrichtung zu einem stereofonen Klangbild zusammengesetzt werden. Es handelt sich also um ein Aufnahmeverfahren reiner Intensitätsstereofonie. Mikrofon I wird z. B. ausschließlich dem linken, Mikrofon III dem rechten Kanal zugeordnet, während Mikrofon II als Mittensignal gleichmäßig auf beide Kanäle aufgeteilt wird. Voraussetzung für das einwandfreie Funktionieren des Einzelmikrofonverfahrens ist eine gute gegenseitige akustische Trennung der Mikrofone; so wird erst die von den Positionen der Schallquellen im Aufnahmeraum unabhängige Richtungszuordnung ermöglicht. Zwei Einzelmikrofone können dann als ausreichend akustisch getrennt angesehen werden, wenn ihre Übersprechdämpfung mindestens 12 bis 15 dB beträgt. Dieser Wert muss nur für die den Richtungseindruck bestimmenden ersten Wellenfronten gelten; der mit dem Aussteuerungsmesser abgeschätzte Wert kann also im Allgemeinen geringer sein, weil bei ihm auch Diffusschall gewertet wird; in der Praxis kommt man deshalb mit einem Wert um 10 dB aus, weicht die Aufstellung wenig von der Anordnung der Klangquellen auf der Lautsprecherbasis ab, können auch schon 6 dB ausreichend sein. Die akustische Trennung der Schallquellen wird durch distanzierte Anordnung der Klangquellen, durch Verwendung gerichteter Mikrofone und durch Trennwände und Kojen erreicht, durch geschickte Anordnung der Schallquellen − laute Schallquellen zu lauten, leise zu leisen − noch verbessert. Durch Einsatz von Filtern, die nur den Frequenzbereich der zugeordneten Schallquellen passieren lassen, kann sie u. U. noch weiter verbessert werden. Das Einzelmikrofonverfahren ist also vorteilhaft dann anzuwenden, –– wenn die einzelnen Schallquellen sich in ihrer natürlichen Lautstärke stark unterscheiden und von sich aus kein ausbalanciertes Gesamtklangbild ergeben, –– wenn die gewünschte Anordnung der Schallquellen im stereofonen Klangbild nicht der tatsächlichen Anordnung im Aufnahmeraum entspricht, –– wenn an den Einzelschallquellen unterschiedliche Manipulationen durch die Tonregie vorgenommen werden  sollen, also unterschiedliche Klangbeeinflussung, Verhallung, Verzögerung usw., –– wenn aus derselben Aufnahme unterschiedliche Abmischungen gewonnen werden sollten, z. B. für den Hörfunk, die Schallplatte oder das Fernsehen; in diesem Fall ist das Verfahren unverzichtbar.

294 

 5 Tonaufnahme und Tonwiedergabe

Durch den geringen Mikrofonabstand kommt der Akustik des Aufnahmeraums beim Einzelmikrofonverfahren eine geringe Bedeutung zu, sofern nicht die Nachhallzeit besonders lang oder der Raum besonders klein ist. Das Verfahren ist bei Musikaufnahmen in der Regel an die künstliche Verhallung gebunden. Es fordert von der Tonregie in hohem Maß die Gestaltung eines Klangbilds, das in der akustischen Realität des Aufnahmeraums nicht vorhanden ist. Tonmeister und Toningenieur werden gerade bei dieser Aufnahmetechnik künstlerische Mitgestalter. Die Richtcharakteristik der Instrumente und Sänger wirkt  sich bei diesem Aufnahmeverfahren wegen des geringen Mikrofonabstands  so  stark aus wie bei  sonst keinem Aufnahmeverfahren. Der Aufstellungsort des Mikrofons ist deshalb in besonderem Maß an die Klangabstrahlung der Instrumente und Sänger gebunden (siehe Kap.  2.3.3). Bei gleicher Richtcharakteristik der Mikrofone ist die Wahl des geeigneten Mikrofonorts von größerem Einfluss auf den Klang als die Wahl eines klanglich optimalen Mikrofons. Die Suche nach dem geeigneten Mikrofonort ist immer primär, erst danach kann eine geeignete Filtereinstellung vorgenommen werden. Grundsätzlich wird  so wenig Diffusschall aufgenommen wie  möglich. Niere und Acht nehmen den gleichen Diffusfeldanteil auf, die Ausblendung des Diffusschalls verbessert sich demgegenüber bei Supernieren, Hypernieren bzw. Keulen,  solange am Mikrofonort der Direktschall größer als der Diffusschall ist, also innerhalb des jeweils gültigen Hallradius. Abb. 5/29 zeigt, um wieviel die Mikrofonabständen verglichen mit Kugelcharakteristik vergrößert werden können. Als Spezialmikrofone für besondere Anwendungen stehen Ansteckmikrofone zur Verfügung (siehe Kap. 4.2.4.4). Sie werden vor allem bei Saiteninstrumenten, aber auch bei Blasund Schlaginstrumenten eingesetzt und ergeben einen Klang mit interessanter Präsenz. Bei Streich- und Zupfinstrumenten werden die Mikrofone meist am Steg befestigt, beim Flügel am Gussrahmen. Bei Blasinstrumenten  sind Ansteckmikrofone problematisch, weil die Klangstrahlung in starkem Maße frequenzabhängig auf die einzelnen Teile der Instrumente verteilt ist. Durch die Mischung der Mikrofonsignale liegt die Gesamtheit der Einzelpegel erheblich über den Pegeln der Einzelsignale. Aus diesem Grund muss die Aussteuerung in den Einzelkanälen reduziert werden. Bei der Mischung zweier Mikrofone mit gleichem Pegel entsteht ein durchschnittlich um 3 dB höherer Gesamtpegel, in Pegelspitzen kann er aber durchaus 6  dB höher liegen; bei vier Mikrofonen ergibt  sich durchschnittlich ein um 6  dB erhöhter Gesamtpegel. Bei acht Mikrofonen mit gleichem Pegel liegt die Aussteuerung des Einzelkanals deshalb bereits bei ca. − 9 dB oder weniger.

5.3.7 Überwachung der Stereosignale Für die umfassende Qualitätskontrolle  steht an erster Stelle die Kontrolle  mit dem Gehör. Dazu gibt es weitere optische Kontrollinstrumente, die die Beurteilung erleichtern oder ein schnelleres und sichereres Urteil ermöglichen, diese Instrumente werden umfassend in Kap. 19.4 behandelt. Tab. 5/10 fasst ihre Anwendungsbereiche zusammen.

5.3 Zweikanal-Stereofonie 

 295

Korrelationsgradmesser oder Goniometer und Stereosichtgerät  sind nur für Aufnahmen in reiner oder annähernd reiner Intensitätsstereofonie vorgesehen, bei Laufzeitstereofonie  sind ihre Anzeigen unbrauchbar, ja irreführend, und dürfen deshalb nicht beachtet werden. Dies gilt auch für die gemischten Verfahren, mit der Einschränkung, dass hier die Anzeigen immerhin Hinweise geben für Aufnahmefehler, die im Einzelfall oft  schwer zu bewerten sind. Das wichtigste Instrument zur Überwachung der Stereosignale beim Laufzeitverfahren ist das Gehör. Tab. 5/10. Kontrollinstrumente für die Tonaufnahme. Aussteuerungsmesser

Korrelationsgrad- Stereosichtgerät messer, Goniometer

anzuwenden

bei allen Verfahren nur bei Intensitätsstereofonie

Pegelkontrolle



Abhöreinheit

bei Abhörkontrolle

Kompatibilität



(●)



Breite des Klangbilds

















Kap. 19.4.4

Kap. 19.4.4.1

Kap. 8.12., 19.3

Richtungsverteilung Phasenlage/Verpolung Details in

Kap. 19.4

Korrelationsgradmesser Der Korrelationsgrad r ist ein Maß für die Gleichartigkeit der Signale im linken und im rechten Kanal, unabhängig vom jeweiligen Pegel (siehe auch Kap. 19.4.4). Wird bei einer Stereoaufnahme der Aufnahmebereich immer mehr eingeengt, so nimmt damit ihr monofoner Charakter mehr und mehr zu; gleichzeitig werden die Stereosignale L und R immer ähnlicher und damit nimmt auch der Korrelationsgrad r zu. Die Bedeutung von r fasst Tab. 5/11 zusammen. Tab. 5/11. Bedeutung des Korrelationsgrads r. Korrelationsgrad

Klangbild

stets 1 stets 0 > 0 oder um 0 1,2 m ± 15°

Abb. 5/32. 3/2-Referenz-Lautsprecheranordnung mit den Lautsprechern L-C-R und den SurroundLautsprechern LS und RS.

Auch die reguläre kreisförmige Anordnung der Lautsprecher gestaltet  sich in vielen praktischen Situationen  schwierig. Sollte eine kreisförmige Anordnung der Lautsprecher nicht möglich sein, schreiben die Empfehlungen vor, dass die Lautsprechersignale entsprechend verzögert werden. Entfernungsunterschiede lassen  sich für Center und Surround dadurch in gewissen Grenzen kompensieren (Abb.  5/33). Jedoch gibt es für die SurroundLautsprecher in der Praxis relativ große Toleranzen in Bezug auf Richtung und Entfernung.

5.4 Mehrkanal-Stereofonie 

 301

Abb. 5/33. Kompensation der Entfernung des Centerlautsprechers durch Verzögerung, 2,94 ms für 1 m „zu nahe“.

Optionale Lautsprecher LL und RR zwischen Front- und Surround-Lautsprechern nach Abb. 5/34 bieten die Möglichkeit, die stereofone Qualität bei der seitlichen Abbildung zu verbessern und die Hörzone zu erweitern. Interessante Abbildungsbereiche sind L-LL und R-RR, z.B. um das „Loch“ zwischen frontseitiger und seitlicher Abbildung zu schließen. Insgesamt ergibt  sich eine größere Freiheit für die räumliche Darstellung, insbesondere bei wichtigen seitlichen Hörereignissen.

Abb. 5/34. Standard 3/2- und optionale 3/4-Lautsprecheranordnung gemäß [ITU-R BS.775-18].

Um eine größere Hörzone bzw. verbesserte Einhüllung beim 3/2-Format zu erzeugen, kann man auch weitere Surround-Lautsprecher mit den zwei Standard-Kanälen LS und RS betreiben. Bei größeren Wiedergaberäumen wie z. B. Kinos ist dies unbedingt notwendig. In diesem Fall ist eine ausreichende Dekorrelation der zusätzlich angeschlossenen Lautsprecherkanäle wünschenswert, z. B. durch geeignete Verzögerungen, sowie der Anschluss über geeignete Signalverteiler (Matrizen) oder Prozessoren. 5.4.1.2 Hierarchie kompatibler Mehrkanal-Tonsysteme Das 3/2-System ist in eine Hierarchie von Mehrkanal-Tonformaten eingebettet. Für eine derartige Hierarchie, abwärtskompatibel bis zum Monoformat, sind einfache Bedingungen der Matrizierung zur Addition von Teilsignalen an den Übertragungs- und Speicherungs- oder

302 

 5 Tonaufnahme und Tonwiedergabe

Wiedergabestufen einer Signalkette in der internationalen Empfehlung [ITU-R BS.775-1] angegeben, wodurch die technische Kompatibilität zwischen den Kanalformaten ermöglicht wird. Das 3/1-Format z. B., also drei Frontsignale und ein Surround-Kanal, ist in diese Hierarchie integriert und kann mit der 3/2-Konfiguration wiedergegeben werden; in diesem Fall speist das monofone Surround-Signal S beide Surround-Lautsprecher LS und RS, die Verstärkung der Surround-Kanäle wird dabei um 3 dB reduziert. Systeme mit mehr Kanälen als beim 3/2-Format sind möglich und können an dieses angepasst werden, z. B. 3/3, 5/2, 5/4 usw. Diese Formate sind aber nicht im ITU-Standard enthalten. Formate mit fünf Frontlautsprechern werden im Filmbereich verwendet, natürlich sollte bei der Produktion beachtet werden, dass  sie zu den 3/2- und 2/0-Formaten abwärts­ kompatibel sind. Für alle möglichen Formatkombinationen sollte die Referenz­konfiguration 3/2 die Grundlage darstellen. 5.4.1.3 Tieftonwiedergabe Um Verwechslungen zu vermeiden, wird hier unterschieden zwischen einem Signal zur Erweiterung des Tieffrequenzbereichs, das über einen  separaten  sog. LFE-Kanal (low frequency effect) in einem Übertragungs- oder Aufzeichnungssystem übertragen wird, und einer  separaten Abstrahlung des tieffrequenten Programminhalts über Tieftonlautsprecher, sog. Subwoofer. LFE-Kanal Im Filmbereich wurde ein spezieller Übertragungskanal für den Bassbereich von 20 Hz bis etwa 80 bis120  Hz eingeführt, um den tieffrequenten Übertragungsbereich der Filmtonsysteme praxisgerecht zu erweitern. Dieser wurde in die Standards [ITU-R  BS.775-1] und [SMPTE RP-173] übernommen. Er kann optional als Ergänzung der Formate im Studio oder im Heim verwendet werden. Die Bezeichnung wird wegen des schmalen benutzten Frequenzbereichs mit „0.1“ oder „…/1“ abgekürzt. Daher sind die Bezeichnungen 5.1 bzw. 3/2/1 oder 7.1 bzw. 5/2/1 in Gebrauch. Die Nutzung des LFE-Kanals ist optional. Sie kommt in Betracht, wenn ergänzend zur Tonmischung in den Hauptkanälen tieffrequente Effekte hinzukommen  sollen. Dies trifft für Musik normalerweise nicht zu. EBU- und SMPTE-Dokumente [ITU-R 10C//11, 1987] und [EBU R22] zum Mehrkanalton enthalten einige Anmerkungen über die Verwendung des LFE-Kanals, das SMPTE-Dokument führt dazu aus: „Soll ein Tonprogramm, das ursprünglich für Filmtheaterversionen produziert wurde, in Consumer-Medien übertragen werden, wird der LFE-Kanal  meist von dem  speziellen Kino-Subwooferkanal abgeleitet. Im Kino erfolgt eine Wiedergabe stets über den speziellen Subwooferkanal, daher kann bei Filmabmischungen der LFE-Kanal zur Übertragung von wichtigem tieffrequenten Programminhalt benutzt werden. Sollen Programme, die ursprünglich für den Film produziert wurden, z. B. über Fernsehen, DVD oder streaming-Dienste übertragen werden, kann es notwendig sein, Anteile vom Inhalt des Subwooferkanals wieder in die Kanäle mit voller Bandbreite einzumischen. Es ist wichtig, dass jegliche Anteile tiefer Frequenzen, die für die Vollständigkeit des Programminhaltes sehr bedeutsam sind, nicht in dem LFE-Kanal untergebracht werden. Der LFE-Kanal sollte Programminhalten mit sehr tiefen Frequenzen sowie sehr hohen Pegeln

5.4 Mehrkanal-Stereofonie 

 303

unter 120 Hz vorbehalten bleiben, deren Fehlen bei der Wiedergabe die künstlerische Vollständigkeit des Programms nicht beeinträchtigt. Bei Kinowiedergabe ist die innere Verstärkung im LFE-Kanal üblicherweise 10 dB kleiner als die der anderen einzelnen Kanäle. Gemäß SMPTE [ITU-R 10C//11, 1987] wird dies durch eine Pegelerhöhung des Wiedergabekanals kompensiert. Dies muss aus Gründen der Kompatibilität im Studiobereich auch bei der Heimwiedergabe beachtet werden. Separate Tieftonlautsprecher oder Subwoofer Es kann nützlich  sein, zusätzlich zu den Hauptlautsprechern L, C, R, LS und RS Subwoofer, also Bass-Strahler, zur Erweiterung des Tieftonbereichs aufzustellen, so dass die untere Grenzfrequenz der fünf Hauptlautsprecher auf etwa 80 Hz erhöht und dementsprechend ihre Volumina reduziert werden können. Ein Bass-Management-System in der Wiedergabeanlage des Hörers gemäß Abb. 5/35 ermöglicht es normalerweise, dass der oder die Subwoofer sowohl 5.1-Filmton mit LFE-Signal als auch 3/2-Formatmaterial ohne separates LFE-Signal wiedergeben.

Abb. 5/35. Ableitung von kombinierten Subwoofer- und LFE-Signalen.

Natürlich können auch  mehrere Subwoofer für  spezifische einzelne Kanäle eingesetzt werden, z. B. einer für die Front- und einer für die Surround-Kanäle. Dies bietet den Vorteil, dass Subwoofer und Hauptlautsprecher näher beieinanderstehen können und deshalb die im unteren Frequenzbereich fehlende Kanaltrennung auch bei höheren Übergangsfrequenzen nicht wahrgenommen wird. Nichtlineare Verzerrungen des Subwoofers können im starken Maße dazu beitragen, dass Lokalisierungsfehler auftreten. Untersuchungen haben gezeigt,

304 

 5 Tonaufnahme und Tonwiedergabe

dass Eigengeräusche, Verzerrungen, und Informationen über 120 Hz, die vom Ort des Subwoofers abgestrahlt werden, ihn lokalisierbar machen können. Die getrennte Wahrnehmung eines Subwoofers ist zudem stark vom Programmmaterial abhängig. Über die optimale Aufstellung eines einzelnen Subwoofers in einem Abhörraum gibt es unterschiedliche Auffassungen, obgleich die Anordnung eines einzelnen Subwoofers in einer Raumecke den günstigsten Frequenzgang ergibt [Noussaine, 1997]. Lautsprecher, die in den Ecken angeordnet werden, können eine merkliche Bassverstärkung aufweisen und sind gut an die meisten Raumresonanzen, auch Moden genannt, anzukoppeln. Einige Subwoofer sind speziell für die Anordnung an besonderen Orten geeignet, während für andere subjektiv der optimale Aufstellungsort zu  suchen ist,  meist können befriedigende Ergebnisse erzielt werden. Es sind u. U. notwendig, den Frequenzgang zu entzerren, um einen flachen Gesamtfrequenzgang am Hörort zu erhalten. Teils werden Phasenverschiebungen oder Verzögerungen vorgenommen, um die Zeitbeziehungen zwischen dem Subwoofer und den anderen Lautsprechern zu korrigieren. Eine Phasenverschiebung beim Subwoofer wird mitunter auch angewendet, um die Pegelsumme des Subwoofers und der Hauptlautsprecher im Übergangsbereich in Bezug auf einen flachen Frequenzgang zu optimieren [Kügler, 1992]. Fullrange-Lautsprecher für alle Kanäle Die Verwendung von Breitband- oder Fullrange-Lautsprechern für alle Kanäle hat  signifikante Vorteile: Die tiefen Frequenzen im Bereich um 100  Hz werden bei der Wiedergabe gleichmäßiger im Raum verteilt und regen deshalb Raummoden weniger stark an als dies ein einzelner Subwoofer, insbesondere in einer Raumecke platziert, tun würde. Weiter können die einzelnen Lautsprecher Raumsignale mit einer Korrelation bis zu den tiefsten Frequenzen um Null herum aus den vorgesehenen Richtungen wiedergeben; Bass-Management-Systeme reduzieren die Richtungen der tiefen Frequenzen auf genau eine Richtung, und zwar auf diejenige, in der der Subwoofer aufgestellt ist. Damit geht ein wichtiges Phänomen der Umhüllung verloren: tieffrequente Fluktuation [Griesinger, 2018].

5.4.2 Stereofonie in den Sektoren L-C und C-R Aufgabe des zusätzlichen Center-Kanals C ist es, die Richtungsstabilität der Abbildung zu verbessern und die Hörzone zu vergrößern, wie in Kap. 5.2.1 beschrieben. Die für die ZweikanalStereofonie bekannten Abbildungseigenschaften bleiben im Prinzip erhalten, denn es bestehen zwischen den Lautsprecherpaaren in den stereofonen Sektoren L-C und C-R die gleichen Möglichkeiten wie in der Stereobasis L-C. Hinsichtlich der Klangfarbe gibt es einen zusätzlichen Vorteil: Ein diskretes Dreikanalsystem wird im Vergleich zu einem Zweikanalsystem bezüglich Klarheit und Klangfarbe der Mittenabbildung vom Hörer bevorzugt, selbst wenn er sich genau auf der Mittelachse befindet. Man vermutet, dass der Centerlautsprecher als Realschallquelle an Stelle einer Phantomschallquelle „einfacher“ zu hören ist, außerdem verursacht eine Phantomschallquelle als Mitte nachweislich Klangfärbungen [Griesinger, 1992]. Prinzipiell werden für die L-C-R-Lautsprecheranordnung zwei verschiedene Aufnahmephilosophien angewendet (Abb.  5/36): Im linken Bild bietet der Centerkanal  C eine wach-

5.4 Mehrkanal-Stereofonie 

 305

sende Richtungsstabilität der kompletten L-C-R-Stereoabbildung. Dabei werden die psychoakustischen Prinzipien der Lautsprecherstereofonie in den  stereofonen Teilbereichen L-C und C-R angewendet. Das  stereofone Klangbild  setzt  sich aus zwei Bereichen zusammen (siehe Kap.  5.2.2). Theoretisch kann auf diese Weise  mit dem zusätzlichen Center-Kanal ein stereofones Klangbild geschaffen werden, das mit einer entsprechenden zweikanaligen Aufnahme identisch ist. Dieser „unaufdringliche“ Centerkanal hat allein die Funktion der Richtungsstabilisierung für Hörer außerhalb der Symmetrielinie.

Abb. 5/36. Wiedergabe mit zwei bzw. drei Frontkanälen: Durch den Centerkanal C wird die Lautsprecherbasis L-R mit 60° in zwei stereofone Teilbereiche L-C und C-R mit je 30° aufgeteilt.

Die zweite Möglichkeit ist rechts in Abb. 5/36 dargestellt. Der Centerkanal C wird zur Stabilisierung der Mittenabbildung verwendet, z. B. für einen Solisten, zusätzlich zur üblichen Darstellung des Klangkörpers mit Zweikanaltechnik. Diese Technik hat sich seit langer Zeit in der Film- und Fernsehmischung bewährt. Dort werden Phantomschallquellen nur sehr selten für wichtige bildbezogene Quellen wie z. B. Dialoge verwendet; dieser wird in der Regel dem Centerkanal C zugeordnet. Stereofone Signale wie z. B. Musik, Atmo u. a. werden über L-R verteilt ohne besondere Berücksichtigung einer stabilen Lokalisierung. Im Gegensatz zum Konzept der stereofonen Teilbereiche sind die Signale von benachbarten Lautsprechern kaum korreliert. In der Praxis können und werden bei Musikaufnahmen beide Verfahren benutzt oder auch miteinander kombiniert. 5.4.2.1 Doppel-Stereoverfahren Die konsequente Umsetzung der L-C-R-Stereofonie bei der Aufnahme von größeren Klangkörpern wird mit einer in Abb. 5/38 dargestellten Anordnung verfolgt. Zwei getrennte Zweikanalhauptmikrofone werden jeweils für den linken bzw. rechten Teil des Orchesters ver-

306 

 5 Tonaufnahme und Tonwiedergabe

wendet. Da der Centerkanal Signale von zwei Mikrofonen erhält, sollte die Summe um 3 dB bedämpft werden. Eine dabei entstehende Richtungsverschiebung der Phantomschallquellen kann z. B. durch eine entsprechende Verzögerung kompensiert werden. Kritisch könnte allerdings der überlappende Bereich der zwei Aufnahmewinkel (vgl. auch Kap. 5.2.2) sein. Eine Schallquelle in der Mitte der Bühne wird von beiden Hauptmikrofonen gleichstark aufgenommen. In der Praxis hat sich allerdings gezeigt, dass weder die Lokalisierungsschärfe noch die Klangfarbe beeinträchtigt wird. Positiv wirkt  sich hier der große Abstand zwischen den zwei Hauptmikrofonen aus.

Abb. 5/37. Links: „echte“ L-C-R-Stereofonie, rechts: L-R-Stereofonie mit zusätzlichem Centerkanal C.

Abb. 5/38. Doppel-Stereo: Zwei Hauptmikrofone werden weit voneinander aufgestellt, um jeweils die linke bzw. rechte Hälfte des Orchesters wie gewohnt aufzunehmen. Überlappende Aufnahmewinkel sollten vermieden werden.

5.4 Mehrkanal-Stereofonie 

 307

Der Einsatz von zwei getrennten Zweikanal-Hauptmikrofonen hat den Vorteil, dass Orte und Aufnahmewinkel der zwei Stereomikrofone entsprechend der Situation im linken und rechten Aufnahmebereich individuell optimiert werden können. Die Hauptmikrofone müssen nicht in einer Linie stehen. Alle für die Zweikanal-Stereofonie praktizierten gestalterischen Maßnahmen lassen  sich bei jedem der beiden Hauptmikrofone anwenden wie bei nur einem Hauptmikrofon. Beispielsweise werden Stützmikrofone im linken Bühnenbereich dem linken Hauptmikrofon hinzugefügt, Stützmikrofone im rechten Bühnenbereich dem rechten Hauptmikrofon. [Gernemann, 2002/2] 5.4.2.2 Mehrfach-AB-Verfahren Die Mehrfach-AB-Konfiguration (Abb. 5/39) beruht auf der Laufzeitstereofonie. Fünf Mikrofone werden entlang der Bühne in einer Linie verteilt aufgestellt, wobei die Abstände zwischen benachbarten Mikrofonen im Bereich um 2  m oder  mehr liegen. Man erhält zu den Realschallquellen L, C und R je eine Phantomschallquelle zwischen L und C  sowie C und R. Die großen Abstände der einzelnen Mikrofone bewirken Laufzeitverhältnisse, die das Problem der mehrfachen Abbildung von Phantomschallquellen nach dem Gesetz der ersten Wellenfront verringern.

Abb. 5/39. Mehrfach-AB: Fünf Mikrofone werden in einer Linie weit voneinander aufgestellt und  stellen so fünf wenig korrelierte Signale bereit, um drei stabile Quellen und zusätzlich zwei Phantomschallquellen für die Richtungsabbildung zu erzeugen.

308 

 5 Tonaufnahme und Tonwiedergabe

Bei der Wiedergabe  sind fünf deutlich lokalisierbare Quellen für die Richtungsabbildung des Klangkörpers vorhanden. Obwohl dies nur einen Kompromiss darstellt, ergibt sich eine recht stabile und ausgewogene Stereoabbildung, verbunden mit den typischen klanglichen und räumlichen Eigenschaften der Laufzeitstereofonie. Durch Positionierung der Mikrofone kann in gewissen Grenzen auf die Hallbalance und die Balance der einzelnen Orchesterelemente zueinander Einfluss genommen werden. Es können auch Nierenmikrofone benutzt werden, um den Pegel des indirekten Schalls in den Frontkanälen zu reduzieren. Erfahrungsgemäß kann diese Konfiguration nur für größere Klangkörper benutzt werden. Sowohl die Doppel-Stereo- als auch die Mehrfach-AB-Anordnung führen bei kleineren Besetzungen meist nicht zu befriedigenden Ergebnissen. 5.4.2.3 Decca-Tree Für diverse Anwendungen wird ein echtes dreikanaliges Stereo-Hauptmikrofon benötigt. In diesem und dem folgenden Kapitel werden mit dem Decca-Tree und dem OCT-Verfahren zwei völlig unterschiedliche Dreikanal-Verfahren beschrieben. Schon lange bekannt und bereits für Zweikanal-Aufnahmen eingesetzt, siehe Kap. 5.3.3.3, ist die Hauptmikrofonanordnung des Decca-Tree [Streicher, 1999]. Die drei Mikrofone werden in Form eines Dreiecks bzw. entsprechend einem umgedrehten T aufgestellt, jedoch in relativ großem, durch das Verfahren nicht festgelegten Abstand zueinander unter Verwendung von Kugelmikrofonen (Abb. 5/40). Das Centermikrofon bewirkt eine Verbesserung der Laufzeitstereofonie, indem das „Loch in der Mitte“ mit einer stabilen Mitteninformation gefüllt wird. Auf Grund der räumlichen Trennung von L, C und R kommt es auch zu keinen  störenden Kammfiltereffekten, die bei der Zweikanalwiedergabe entstehen können, wenn das Mitten­­signal zu L und bzw. R gemischt wird. Der Decca-Tree wird gerne verwendet, wenn das offene, räumliche Klangbild des AB-Laufzeitverfahrens in Kombination mit einer dominierenden Mittenabbildung erwünscht ist. Nachteilig  sind die weit voneinander aufgestellten Mikrofone in Bezug auf Richtungsabbildung. Das erkennt man deutlich bei Betrachtung der Abbildungskurven für die Mikrofonpaare L-C und C-R, die sich mit Hilfe des Berechnungswerkzeugs [Image Assistant] leicht bestimmen lassen (siehe Kap.  5.2.2.4). Abb.  5/41 zeigt die Kurven. Man erkennt, dass auf Grund der Laufzeitverhältnisse die Mikrofonpaare L‑C und C‑R eine sehr starke Konzentration zur Mitte bewirken. Alle Schalleinfallsrichtungen im Bereich ± 45° erscheinen im CenterLautsprecher oder sehr nah bei ihm. Dieser Mitteneffekt kann durch ein Delay im Centerkanal etwas gemildert werden. Schallquellen außerhalb des Aufnahmebereichs 120° werden ausschließlich in L bzw. R wiedergegeben. Neben den Mikrofonpaaren L-C und C-R liefert das Mikrofonpaar L-R natürlich ebenfalls einen Beitrag zum Klangbild. Dieser ergibt sich hinsichtlich des Diffusschalls aus den Eigenschaften des Groß-AB-Verfahrens (siehe Kap.  5.3.3.2). Dagegen wirkt hinsichtlich des Direktschalls infolge des Gesetzes der ersten Wellenfront nicht die Groß-AB-Abbildungskurve (in Abb.5/41 L-R, gestrichelt eingetragen). Diese Abbildungskurve kann unberücksichtigt bleiben, da die L-R-Informationen etwa 3 bis 5 ms später eintreffen als L‑C bzw. C‑R und folglich die Richtungswahrnehmung nicht beeinflussen. Nur die Kurven L‑C und C-R können in Bezug auf die Lokalisierung herangezogen werden.

5.4 Mehrkanal-Stereofonie 

 309

Abb. 5/40. Decca-Tree: Drei Mikrofone mit Kugelcharakteristik werden in relativ großen Abständen zueinander in Form eines Dreiecks aufgestellt.

Abb. 5/41. Abbildungskurven des Decca-Tree.

Insgesamt liegen die Stärken der Decca-Tree-Konfiguration in den klanglichen Eigenschaften der Kugelmikrofone und der Wirkung von Laufzeitverfahren im diffusen Schallfeld. Eine ausgewogene Abbildung der Richtungsverteilung der aufzunehmenden Schallquellen ist wegen der starken Mittenkonzentration nicht möglich. In vielen Aufnahmesituationen möchte man den Pegel des direkten Schalls im Verhältnis zum indirekten Schall anheben, besonders in Räumen mit kleinem Hallradius und bei Einsatz von Raummikrofonen für die Surround-Kanäle. In diesen Fällen können die Kugelmikrofone des Decca-Tree durch Nierenmikrofone ersetzt werden, wobei bei jedem Mikrofon der Versatzwinkel 0° betragen  sollte, die Mikrofone also nach vorne ausgerichtet werden. Dies ändert die Richtungsabbildung nur unwesentlich, aber der Schallpegel des indirekten Schalls ist theoretisch 4,8 dB niedriger, bei Hypernieren sogar 5,7 dB. Im Zusammenhang mit dem Decca-Tree ist das Aufnahmekonzept Stereo+C zu nennen, weil die Anordnung gewisse Ähnlichkeiten zeigt. Stereo+C geht von allen bewährten Anordnungen der Zweikanal-Aufnahmetechnik mit Hauptmikrofon aus, nämlich von AB, MS, XY und den gemischten Verfahren − nicht aber von Groß-AB wie der Decca-Tree, denen es ein Centermikrofon hinzufügt, das nicht vor der Zweikanal-Anordnung platziert wird, sondern

310 

 5 Tonaufnahme und Tonwiedergabe

ca. 2 m über ihr auf einer Verlängerung des Mikrofonständers. Es wird mit einer Verzögerung von minimal 20 ms zugemischt [Gernemann, 2001]. 5.4.2.4 OCT-Verfahren Im Kap.  5.2.2.3 wurde bereits erläutert, dass ein optimales dreikanaliges L-C-R-Stereomikrofon die für Zweikanal-Stereofonie bekannten Abbildungseigenschaften gewährleisten soll, jedoch  mit dem Vorteil größerer Richtungsstabilität in einer breiteren Stereohörfläche. Dazu müssen für die stereofonen Teilbereiche L-C und C-R zwei entsprechende Abbildungskurven dergestalt realisiert werden, dass im Idealfall Schallquellenrichtungen im linken Sektor nicht in der rechten Teilzone abgebildet werden und Schallquellenrichtungen im rechten Sektor nicht in der linken Teilzone. Die äußeren Mikrofonkapseln L und R  sollen dabei einen vernachlässigbaren Beitrag zur Abbildung liefern, d. h., dass keine relevante Abbildungskurve für das Mikrofonpaar L-R existiert. Diese Vorgaben verdeutlicht Abb. 5/42. Es gibt prinzipiell in allen Fällen, in denen drei Mikrofone  mit Kugelcharakteristik verwendet werden, ein Übersprechen zwischen den Kanälen, das  mehr oder weniger zu einer Beeinträchtigung der Richtungsübersetzung, Lokalisierungsschärfe, Klarheit und Klangfarbe führt. Jede beteiligte Zweikanal-Stereobasis C-L, C-R und L-R erzeugt ihre eigenen Phantomschallquellen, welche an unterschiedlichen Orten erscheinen würden. Es ist nicht möglich, eine geometrische Anordnung der Mikrofone zu finden, bei der die drei Phantomschallquellen für jede Richtung übereinstimmen. Aus diesem Grund muss mit Hilfe richtender Mikrofone eine ausreichende Kanaltrennung realisiert werden, 15 dB sind dabei ausreichend.

Abb. 5/42. Übersprechen von Phantomschallquellen bei Dreikanal-Stereomikrofonen. In diesem Beispiel sind die Phantomschallquellen C-R und L-R unerwünscht.

Eine geeignete Konfiguration ist das  sog. OCT-Verfahren (Optimised Cardioid Triangle) [Theile, 2000]. Die prinzipielle Anordnung ist in Abb. 5/43 dargestellt. Als Mikrofoncharakteristiken für L und R werden Supernieren verwendet, welche um jeweils 90° nach außen gerichtet sind, um eine größtmögliche Übersprechdämpfung zu erhalten. Sie sollten für den

5.4 Mehrkanal-Stereofonie 

 311

Schalleinfallswinkel α = 30° freifeldentzerrt sein. Als Centermikrofon findet die Nierencharakteristik Anwendung, es ist um den Abstand h = 8 cm nach vorn versetzt, für Superniere ist h  =  12  cm. Die Basisbreite b ist wählbar und bestimmt den Aufnahmebereich der OCTAnordnung gemäß Tab. 5/12.

Abb. 5/43. OCT-Anordnung (Optimised Cardioid Triangle). Mikrofon C: Niere, Mikrofone L und R: Superniere, Abstand h = 8 cm, Basisbreite b: variabel, siehe Tab. 5/12.

Tab. 5/12. Aufnahmebereich der OCT-Mikrofonanordung (h = 8 cm).

Basis b

Aufnahmebereich empfohlen: 75 %

100 %

85 cm

72°

102°

70 cm 50 cm

80° 96°

118° 144°

Die Basisbreite b = 85 cm ergibt beispielsweise etwa die gleichen Aufnahmebereich wie ein ORTF-Mikrofon (vgl. Kap.  5.3.4.1) oder eine Klein-AB-Konfiguration  mit der Mikrofonbasis 38 cm (vgl. Kap. 5.3.3.1). Auch die Abbildungskurven entsprechen den in Kap. 5.2.2.3 geforderten Verläufen. Der Centerkanal ermöglicht eine natürliche und ausgewogene Verteilung von Schallquellen über die stereofone Basis L-C-R. In der Mitte des Aufnahmesektors (α = 0°) beträgt die Übersprechdämpfung in den Kanälen L und R gegenüber dem Centerkanal C ca. 10 dB. Sie wird zur Seite hin größer und ist bei α = ± 30° bereits größer als 18 dB. Damit ist das Übersprechen vernachlässigbar klein, die Lokalisierungskurve L-C ist nur für den linken Bereich wirksam, und L-R nur für den rechten Bereich. Auch die Eigenschaften insbesondere hinsichtlich Klang- und Raumeindruck lassen sich mit zusätzlichen Maßnahmen optimieren.

312 

 5 Tonaufnahme und Tonwiedergabe

OCT2, Raumeindruck und Abwärtskompatibilität Eine Modifikation gemäß Abb.  5/44 ermöglicht es, die oft gewünschte klangliche Wirkung von Laufzeitverfahren im diffusen Schallfeld zu erzielen, vergleichbar beispielsweise  mit Klein-AB oder dem Decca-Tree. Gleichzeitig wird erreicht, die Wiedergabequalität zu erhalten, wenn im Falle des Downmix für Zweikanal-Wiedergabe der Center mit − 3 dB den Kanälen L und R zugemischt wird, siehe Kap. 5.4.5. Das Center-Mikrofon befindet sich 40 cm vor der Mikrofonbasis. Um die Abbildungskurven weitgehend unberührt zu lassen, wird das Centersignal um 1 ms verzögert. Man kann sich mit Hilfe des [Image Assistant] überzeugen, dass die sog. OCT2-Konfiguration im Prinzip identische Eigenschaften bezüglich der Richtungsabbildung hat wie die ursprüngliche OCT-Version. Die Aufnahmewinkel sind jedoch kleiner bei gleicher Basisbreite, siehe Tab. 5/13.

Abb. 5/44. OCT2-Anordnung (Optimised Cardioid Triangle, Version 2). Mikrofon C: Niere, Mikrofone L und R: Superniere, Abstand h = 40 cm, Basisbreite b: variabel, Delay Δt: 1 ms.

Tab. 5/13. Aufnahmebereichl der OCT2-Anordung (h = 40cm, t = 1 ms)

Basis b 70 cm 50 cm 35 cm

 Aufnahmebereich empfohlen: 75 %

100 %

66° 74° 82°

90° 100° 111°

5.4 Mehrkanal-Stereofonie 

 313

Aufnahme tiefer Frequenzen Druckempfänger zeichnen sich durch ihren hervorragenden Frequenzgang im tieffrequenten Bereich aus. Um diese Eigenschaft in der OCT-Konfiguration zu nutzen, gibt es zwei Möglichkeiten, sie sind in Abb. 5/45 dargestellt. In den Konfigurationen A werden die Supernieren L und R mit zwei Kugeln ergänzt, wobei die Signale mit jeweils einem Tiefpass begrenzt sind, so dass die systembedingten Schwächen im Bassbereich der Supernieren aufgehoben werden. Die Kugeln können bei Bedarf mit größerer Basisbreite angeordnet sein. Dies hat den Effekt, dass auch der aufgenommene tieffrequente diffuse Schall eine Dekorrelation aufweist. Konfiguration B erspart zwei zusätzliche Mikrofone, liefert aber lediglich ein  monofones tieffrequentes Signal im Center-Kanal. Die Abbildungskurven gemäß Abb.  5/13 in Kap.  5.2.2.3 bleiben weitgehend erhalten. Der Anteil des Diffusschalls im Center-Kanal wird allerdings um etwa 5 dB erhöht.

Abb. 5/45. OCT-Anordnung mit optimierter Tiefenwiedergabe. Mikrofon C1: Niere, Mikrofone L1 und R1: Superniere, Mikrofone L2 und R2: Kugel mit Tiefpass, Mikrofon C0: Kugel.

Im praktischen Einsatz erfordert die OCT-Anordnung eine genaue Einhaltung der Mikrofon­ abstände und die  sorgfältige Wahl der Positionierung und der Einstellung des Aufnahmewinkels. Da die gewünschte Balance zwischen Direkt- und Diffusschall, auch als R/D-Ratio bezeichnet, wegen der gegebenen Richtcharakteristiken der Mikrofone nur durch die Wahl der Entfernung zum Klangkörper hergestellt werden kann, muss dies der erste Schritt sein. Steht die Entfernung fest, wird daran der Aufnahmewinkel angepasst. Platziert  man das Hauptmikrofon hoch, können bei einem tief gestaffelten Klangkörper die akustischen Ungleichheiten zwischen nahen und entfernten Schallquellen verringert werden.

314 

 5 Tonaufnahme und Tonwiedergabe

5.4.3 Einsatz der Surround-Kanäle Mit den Surround-Kanälen ergeben sich in vielerlei Hinsicht besondere künstlerische Möglichkeiten der Klangdarstellung. Das betrifft nicht nur die räumliche Auffächerung von lokalisierbaren statischen und bewegten Schallquellen außerhalb der stereofonen Abbildungsebene L-C-R bei Musik, Hörspiel, Off-Effekten im Film u. a. Oft von größerer Bedeutung sind die erreichbaren Wiedergabequalitäten für verschiedene Attribute des Hörens, beispielsweise reale räumliche Tiefe, Räumlichkeit, Halligkeit, Raumeindruck, Umhüllung, die vom akustischen Ambiente geprägt sind (vgl. Kap. 5.2.4). Hinsichtlich der Aufnahmetechnik  sind zwei Arten des darzustellenden akustischen Ambientes zu unterscheiden: indirekter Schall aus Reflexionen und Nachhall und Atmo aus direktem, aber diffus eintreffenden, nicht reflektierten Schall und nicht lokalisierbaren Quellen. Indirekter Schall, Reflexionen und Nachhall Die indirekten Schallanteile dienen der Darstellung bzw. Simulation des Aufnahmeraums und können eine „akustische Transformation“ des Hörers aus dem Wiedergabe- in den Aufnahmeraum ermöglichen, wenn die Surround-Kanäle hierzu eingesetzt werden. Besonders für Aufnahmen klassischer Musik besteht – verstärkt durch die Möglichkeiten der Mehrkanal-Stereofonie – häufig der Wunsch, die Natürlichkeit eines akustisch guten Raums adäquat abzubilden oder zu generieren. Die verschiedenen Wege, einen solchen Surround zu realisieren, entsprechen dabei den bekannten Techniken, z. B. mit Hilfe von Raummikrofonen im Aufnahmeraum oder durch die künstliche Nachbildung der indirekten Schallanteile mittels digitaler Effektgeräte. Diese Raumprozessoren basieren  meistens auf Faltungstechniken, wobei die Rauminformationen entweder aus Messungen in bestehenden, als akustisch gut anerkannten Räumen oder aus Modellrechnungen gewonnen werden. Atmo, diffuser nicht reflektierter Schall und nicht lokalisierbare Quellen Damit sind Umgebungsgeräusche gemeint, die keinen Beitrag für raumbezogene Attribute des Klangbilds liefern, allgemein  spricht  man hier von der vom Filmton bekannten Atmo. Das akustische Ambiente wird gebildet aus vielen einzelnen, in ihrer Gesamtheit nicht individuell lokalisierbaren, aber räumlich verteilten Schallquellen. Beispiele dafür sind das Blätterrauschen des Walds, Publikumsgeräusche und -reaktionen und Applaus während eines Konzerts oder einer Veranstaltung. Im Gegensatz zum indirekten Schall kann dieser Anteil des akustischen Ambientes nicht  mit Effektgeräten hergestellt werden. Für die Aufnahme gibt es oft besondere Anforderungen, die sich nicht mit denen für die Aufnahme der Rauminformationen decken. Sowohl für die Wiedergabe der Rauminformation als auch der Atmo werden die Surround-Kanäle LS und RS in Verbindung mit den vorderen Lautsprechern L und R eingesetzt, d. h., stereofone Beziehungen in den Signalpaaren L-LS bzw. R-RS sind notwendig für eine überzeugende Darstellung der räumlichen Situation (Abb. 5/46). Fehlen diese Signalbeziehungen, so kann der Höreindruck auseinander fallen in ein vorderes und ein hinteres Klangbild. Wie in Kap.  5.2.1.5 gezeigt, gewährleistet allerdings der  seitliche Abbildungsbereich der 3/2-Lautsprecheranordnung nicht die  stereofonen Darstellungsmöglichkeiten wie der

5.4 Mehrkanal-Stereofonie 

 315

vordere Abbildungsbereich L-C-R: Seitliche Phantomschallquellen sind instabil. Die Darstellung der Räumlichkeit setzt im Gegensatz zur Phantomschallquelle keine wahrgenommene Abbildung voraus, da die Signale eine Korrelation um Null aufweisen. Die Qualität der stereofonen Darstellung ist in Bezug auf räumliche Tiefe, der scheinbaren Schallquellenbreite, des räumlichen Eindrucks und der Umhüllung weitgehend unabhängig von der Position des Hörers im Wiedergaberaum.

Abb. 5/46. Anwendung der seitlichen stereofonen Bereiche für die räumliche Darstellung.

Vollkommen dekorrelierte Signale, die von zwei Lautsprechern wiedergegeben werden, erzeugen  sehr präzise Hörereignisse in den beiden Lautsprechern, weil keine Phantomschallquellen entstehen. Sind diese dekorrelierten Signale von unterschiedlicher Gestalt [Theile, 1981/1], spricht man von zwei getrennten Hörereignissen, zum Beispiel das eine in L und das andere in LS. Reproduzieren die Lautsprecher jedoch Nachhall mit einer Korrelation um Null herum, entsteht eine auditive Verbindung zwischen zwei Lautsprechern;  sie wird als „Wolke“ zwischen den Lautsprechern wahrgenommen. Dieses stereofone Phänomen ist stabil, es enthält aber keine Abbildung.

Abb. 5/47. Verwendung von vier stereofonen Bereichen zur Darstellung von Raumeindruck, Halligkeit und Umhüllung.

Die Situation ändert sich auch nicht, wenn vier Lautsprecherpaare gemäß Abb. 5/47 anstatt zwei verwendet werden, um weitgehend dekorrelierten Nachhall wiederzugeben. Der Hörer hat das Gefühl, von Raumschall umhüllt zu  sein, als  sei er im akustischen Geschehen, jedoch  sind keine  scharf lokalisierbaren Schallquellen zu hören. Vollständige Inkohärenz

316 

 5 Tonaufnahme und Tonwiedergabe

zwischen den Frontsignalen und den Surround-Signalen bedeutet, dass die seitlichen stereofonen Bereiche nicht für die Wiedergabe der Reflexionsmuster genutzt werden. Aus der Raumakustik weiß man, dass die natürlichen Reflexionsmuster in den seitlichen Bereichen L-LS und R-RS besonders wichtig sind. Daher ist es unerlässlich, eine auditive Verbindung zwischen der Front und Surround herzustellen, indem für alle vier beteiligten Lautsprecher Raumsignale aus dem Aufnahmeraum verwendet werden. Um mit der Aufnahme von diffusem, einhüllendem Schall optimale subjektive Diffusität und  subjektive Umhüllung zu erzielen,  sollten für die vier Mikrofone geeignete Abstände gewählt werden. Abb.  5/48 zeigt experimentelle Ergebnisse  mit durch einen Bandpass auf 0,25 bis 2,5 kHz begrenztem Rauschen zur Wirkung der Kohärenz zwischen den Kanälen in einer quadratischen Lautsprecheranordnung [Theile, 2000]. Man erkennt, dass der Grad der subjektiven Diffusität oder der subjektiven Umhüllung vom Abstand d der quadratischen Mikrofonanordnung abhängt. Ist d zu groß, folgt daraus eine Verminderung der  subjektiven Umhüllung. Die ausgewogene Verteilung der umhüllenden Quellen bricht ein und es bilden sich „Hörereigniswolken“ in den Bereichen um die Lautsprecher. Ist d allerdings zu klein,  so wird eine instabile Phantomquelle über dem Kopf des Hörers wahrnehmbar und die  subjektive Umhüllung verschwindet entsprechend. Es ist zu beachten, dass insbesondere tiefe Frequenzen unterhalb von 200 Hz einen großen Einfluss auf das Maß der Umhüllung haben [Griesinger, 1998]. Dies hängt damit zusammen, dass tiefe Frequenzen zu einer ausgeprägteren auditiven Verbindung führen als hohe Frequenzen; bei Zweikanal-Stereo ist dies u. a. an den ausgeprägten Verdeckungseffekten tiefer Frequenzen zu erkennen. Damit tiefe Frequenzen eine Korrelation um Null aufweisen,  sind allerdings wesentlich größere Abstände zwischen den Mikrofonen notwendig [Nipkow, 2012]. Zudem ist es zielführend, Mikrofone mit Kugelcharakteristik zu verwenden, damit auch tiefste Frequenzen unter 50 Hz uneingeschränkt eingefangen werden können.

Abb. 5/48. Auswirkung der Kohärenz auf die subjektive Diffusität [Theile, 2000]. Richtungswahrnehmung in einem diffusen Schallfeld, welches durch das abgestrahlte Rauschen (0,25 bis 2,5 kHz) von vier Lautsprechern mit Kohärenzfaktoren k = 0,2 und k = 0,35 erzeugt wurde. Das Rauschen wurde in einem Hallraum mittels verteilter Kugelmikrofone, Abstände d = 60 und 25 cm aufgenommen. Dunklere Bereiche markieren höhere statistische Häufigkeiten von Hörereignissen mit Richtungsinformationen.

5.4 Mehrkanal-Stereofonie 

 317

Prinzipiell sind wenigstens vier äquivalente stereofone Kanäle anzustreben, um einen realistischen Raumeindruck und eine überzeugende Umhüllung zu erreichen. Das gilt auch für Aufnahmen, die mit einem zusätzlichen Raummikrofonen gemacht werden. Die Größe der Hörzone innerhalb eines Lautsprecher-Setups ist einerseits abhängig von der Raumakustik – je trockener der Wiedergaberaum ist, desto kleiner ist die Hörzone, andererseits von der Anzahl der Lautsprecher, die Diffusschall  mit gleichem Pegel abstrahlen. Die  mindestens notwendige Lautsprecheranzahl für eine umhüllende Wirkung ist vier,  sie erlaubt jedoch nur eine kleine Hörzone (Abb. 5/49, links). Außerhalb der Hörzone führen Lautstärkenunterschiede zur Lokalisation des näheren Lautsprechers, so dass der Höreindruck der Umhüllung verloren geht. Eine höhere Anzahl von Lautsprechern vergrößert die Hörzone, dargestellt mit 12 Lautsprechern in Abb. 5/49 (rechts). Zu achten ist auf ausreichend geringe Korrelation zwischen den einzelnen Kanälen.

Abb. 5/49. Umhüllung ist mit vier Lautsprechern nur für eine kleine Hörzone darstellbar. Eine größere Lautsprecheranzahl, z. B. 12, vermindert die Gefahr der Lokalisation von Lautsprechern außerhalb des Sweetspots.

5.4.3.1 Surround Sound-Hauptmikrofone Der Begriff Hauptmikrofon wird heutzutage in verschiedenen Bedeutungen benutzt und die Gewichtung der charakteristischen Eigenschaften kann in Zwei- oder Fünfkanalanwendungen unterschiedlich sein. Im Prinzip sollte das 3/2-Stereo-Hauptmikrofon zwei psychoakustische Funktionen kombinieren: –– Abbildung der Richtung: Aufnahme des Direktschalls für die Richtungsdarstellung der aufgenommenen Schallquellen gemäß der Abbildungskurve, –– Abbildung des Raums: Aufnahme des indirekten und diffusen Schalls für die Darstellung räumlicher Tiefe, Räumlichkeit, Halligkeit, Raumeindruck, Umhüllung. Diese Doppelfunktionen kann bei konventioneller Zweikanal-Stereofonie  mit einem geeigneten Stereo-Hauptmikrofon  mit guten Ergebnissen bewältigt werden. Auch für Mehrkanalhauptmikrofone gibt es Lösungen. Im Folgenden werden zwei Lösungen erörtert, welche

318 

 5 Tonaufnahme und Tonwiedergabe

auf den in Kap.  5.4.2 gezeigten L-C-R-Konfigurationen basieren. Voraussetzungen für gute Aufnahmen sind immer geeignete Aufnahmebedingungen und der richtige Mikrofonstandort, der eine adäquate Richtungsabbildung wie auch die adäquate Balance zwischen Direktschall und indirekten Schallanteilen ermöglicht, die sog. R/D-Ratio. Fukada-Tree Der  sog. Fukada-Tree (Abb. 5/50) basiert für die Abbildung des Klangkörpers auf der Dreiecksaufstellung L‑C‑R, die eine modifizierte Variante des Decca-Tree darstellt, wobei an Stelle der Kugelcharakteristik Nieren benutzt werden [Bruck, 1998]. Dies reduziert den Pegel des diffusen Schallfelds. Auf Grund der großen Mikrofonabstände gibt es wie beim Decca-Tree keine brauchbare Abbildungskurve (Kap. 5.4.2.3). Als Folge des Gesetzes der ersten Wellenfront werden alle Schallquellen von der linken Seite links und Schallquellen von der rechten Seite rechts lokalisiert. Schallquellen im Aufnahmewinkelbereich um ±  35° werden in der Nähe des Centers wiedergegeben, Schallquellen außerhalb des Bereichs ± 55° im oder nahe der Lautsprecher L oder R, der Abbildungsbereich beträgt 110°.

Abb. 5/50. Fukada-Tree, Mikrofone L, C, R, LS, RS: Niere, Mikrofone LL und RR: Kugel.

Die räumliche Darstellung wird durch die Mikrofone L, R, RS, LS realisiert, die ein ca. 1.8 m großes Quadrat bilden: Ihre Abstände können je nach Gegebenheiten variiert werden. Die 45°-Ausrichtungen der L- bzw. R‑Nieren bewirken einerseits eine Reduktion des Übersprechens um etwa 4 bis 6 dB, abhängig von der Schalleinfallsrichtung, und andererseits eine gute Erfassung der Seitenbereiche. Die 135°-Ausrichtungen der LS- bzw. RS‑Nieren dient

5.4 Mehrkanal-Stereofonie 

 319

ebenfalls zwei Zwecken: Der Direktschall wird um 8 bis 18 dB bedämpft, abhängig von der Schalleinfallsrichtung. Gleichzeitig arbeiten die Mikrofonpaare L-LS bzw. R-RS für den wichtigen Seitenschall quasi als Groß-AB-Anordnung, die Richtcharakteristiken erzeugen nur kleine Pegeldifferenzen bis  maximal etwa 3  dB. Zusätzlich ergänzen die Kugelmikrofone LL und RR die Seiten LL und RR. Sie werden den Signalpaaren L-LS bzw. R-RS vorsichtig zugemischt, um die Orchesterbreite zu vergrößern und die klangliche Verbindung zwischen Front- und Surround-Lautsprechern zu verstärken. Diese Anordnung mit großen Mikrofonabständen liefert zwar keine ausgewogene Richtungsabbildung, jedoch ein offenes Klangbild, das durch räumliche Tiefe, Raumeindruck und Umhüllung gekennzeichnet ist. Der Aufstellungsort für diese Konstellation liegt normalerweise einige Meter über und hinter dem Dirigenten, wobei der genaue Standort – wie allgemein üblich – durch kritisches Hören optimiert werden muss. OCT-Surround Ergänzt man die OCT- bzw. die OCT2-Mikrofonanordnung mit Surround-Mikrofonen LS und RS mit Nierencharakteristik gemäß Abb. 5/51, so lassen sich Vorteile der ausgewogenen stabilen Richtungsabbildung und des variablen Abbildungsbereichs vereinen mit guten räumlichen Abbildungseigenschaften. Es ist wichtig, dass das Direktsignal von vorne in den Surround-Kanälen möglichst weitgehend unterdrückt wird. Aus diesem Grund sind die Nieren LS und RS nach hinten ausgerichtet, die damit erzielte Unterdrückung ist für alle Richtungen im Abbildungsbereich der OCT-Anordnung größer als 15 dB.

Abb. 5/51. OCT-Surround, Mikrofone L und R: Superniere, Mikrofon C: Niere, Mikrofone LS und RS: Niere.

Gleichzeitig ermöglicht die Anordnung der Nieren LS und RS in Verbindung  mit L und R eine stereofone Aufnahme der ersten Reflexionen aus dem seitlichen und hinteren Richtungsbereich. Der mit 40 cm relativ nahe Abstand von LS und RS zu den vorderen Mikrofonen L und R führt zu den gemäß Lokalisierungskurven gewünschten Laufzeitdifferenzen. Betrachtet man das seitliche stereofone Paar L-LS oder R-RS unter der Annahme einer seitlichen Reflexion, so

320 

 5 Tonaufnahme und Tonwiedergabe

ergibt sich aus der Richtcharakteristik der Mikrofone ein Pegelunterschied von 6 dB. Die geometrische Konfiguration bewirkt jedoch, dass seitliche Reflexionen etwa 0.3 ms später von den Mikrofonen L bzw. R aufgenommen werden. Damit kompensiert das Delay den um 6 dB kleineren Pegel in LS bzw. RS. Im rückseitigen stereofonen Mikrofonpaar LS-RS beträgt die Pegeldifferenz immer ΔL = 0 dB, d. h., für die rückseitige Aufnahme ist eine reine AB-Mikrofonierung mit dem Mikrofonabstand b + 20 cm wirksam. Insgesamt erfüllt das OCT-Surround-Hauptmikrofon die oben gestellten Anforderungen hinsichtlich Richtungs- und Räumlichkeitsabbildung. Die natürliche Pegelbalance von Direktschall, frühen Reflexionen von allen Seiten und Nachhall bleiben erhalten, der Pegel des Diffusschalls ist in allen Kanälen ausgeglichen, eine genügende Korrelation ist sichergestellt. Wie bei allen Mikrofonierungen hängt beim OCT-Surround-System der Erfolg von der richtigen Positionierung ab, die viele Parameter berücksichtigen und in Übereinstimmung bringen muss wie Lautstärke- und Richtungsbalance, Direkt-Diffusschall-Verhältnis (R/D-Ratio), Klangfarbe, Breite des Klangkörpers, Applaus, Atmo des Publikums usw. Ein variabler Aufnahmebereich erleichtert diese Aufgabe. Damit kann zunächst der optimale Mikrofonstandort hinsichtlich R/D-Ratio und Klangfarbe gewählt werden. Erst wenn dieser gefunden ist, wird der Aufnahmewinkel entsprechend der gegebenen Ausdehnung des Klangkörpers eingestellt. Doppel-MS Das MS-Mikrofonverfahren (siehe Kap.  5.3.2.2) bietet gewisse Vorteile gegenüber diskreten Mikrofonierungen. Sie bestehen v. a. in der Flexibilität des Formats und der Möglichkeiten der Bearbeitung in der Postproduktion. Es liegt nahe, diese Vorteile auch bei Mehrkanaltonaufnahmen zu nutzen. Weitere Argumente sind die hohe Kompaktheit des Aufbaus und die perfekte Monokompatibilität. Daher wurde in den 1990er Jahren eine MS-Aufnahmetechnik für Surround entwickelt, die später den Namen Doppel-MS-Technik erhielt, man kann auch von einem Mehrkanal-Koinzidenzmikrofon  sprechen. Bei dieser Technik wird einem nach vorne gerichteten MS-Mikrofonpaar, bestehend aus Niere und Acht eine weitere, nach hinten gerichtete Niere hinzugefügt. Diese Niere bildet mit derselben Acht ein weiteres MS-Mikrofonpaar, daher der Name Doppel-MS-Technik. Aus drei Mikrofonen werden also zwei MSPaare gebildet. Abb. 5/52 veranschaulicht das Prinzip.

Abb. 5/52. Doppel-MS-Mikrofonanordnung.

Die praktische Realisierung dieser Mikrofontechnik erfordert hinreichend kleine Mikrofone und eine geeignete Aufhängung, um größere Abstände zwischen den Kapseln und damit

5.4 Mehrkanal-Stereofonie 

 321

Kammfiltereffekte im hörbaren Bereich zu vermeiden. Abb. 5/53 zeigt als Beispiel eine solche Standardaufhängung für Doppel-MS-Aufnahmen. Analog zur Zweikanal-MS-Technik müssen die drei Mikrofonsignale durch Summen- und Differenzbildung zu diskreten Signalen dematriziert werden. Die einfachste und am meisten verbreitete Methode ist eine  separate Decodierung der Mikrofonpaare vordere Niere/Acht, die L und R ergibt, und hintere Niere/Acht, die LS und RS ergibt. Das Signal der vorderen Niere kann außerdem dem Centerkanal zugeführt werden.

Abb. 5/53. Realisierungsbeispiel der Doppel-MS-Technik mit gemeinsamer, gefederter Aufhängung von Kompaktmikrofonen.

Eine verbesserte Decodierung hinsichtlich der Signaltrennung und der Vermeidung von Übersprechen zwischen den decodierten Lautsprechersignalen kann erreicht werden, wenn jeweils alle drei Mikrofone zur Decodierung herangezogen werden. Dies löst ein grundsätzliches Problem der MS-Technik: Bei der konventionellen Zweikanal-MS-Aufnahme hängen Versatzwinkel und Richtcharakteristik der dematrizierten virtuellen Mikrofone voneinander ab, denn eine Zumischung des Achtermikrofons bewirkt stets sowohl die Vergrößerung des Versatzwinkels als auch die Veränderung der decodierten Richtcharakteristik. Bei der Doppel-MS-Technik hingegen kann jedes virtuelle Mikrofon jede beliebige Ausrichtung und Richtcharakteristik erhalten. Hierdurch verbessert  sich die Signaltrennung und dies führt zu einer Verringerung der Korrelation der Kanäle mit klanglichen Vorteilen. Die Doppel-MSTechnik wird vielfach bei Reportagen und Dokumentationen eingesetzt, wo es auf Kompaktheit des Mikrofonsystems, einfache Handhabbarkeit und Flexibilität besonders ankommt. Näheres dazu in Kap. 5.4.3.3. KFM-Surround Diese Aufnahmetechnik für Mehrkanalton basiert auf einer Variante des Kugelflächenmikrofons, dem KFM 360 [Bruck, 1998]. Eigenschaften des Kugelflächenmikrofons, wie die

322 

 5 Tonaufnahme und Tonwiedergabe

besonders natürliche räumliche Abbildung (siehe Kap. 5.3.4.3), sollen so auf Mehrkanalton übertragen werden. Die vorderen und rückwärtigen Signale werden dadurch erzeugt, dass die beiden Mikrofone des KFM zusammen  mit jeweils einem Achtermikrofon ein MS-Paar ergeben. Die Summe der Mikrofonsignale ergibt jeweils den vorderen Kanal, die Differenz den hinteren Kanal. Dies ist für die rechte Seite der Aufnahmezone in Abb. 5/54 veranschaulicht, eine konkrete Realisierung zeigt Abb. 5/55.

Abb. 5/54. Die Lautsprechersignale entstehen beim KFMSurround durch Dematrizierung analog zur MS-Technik

Wie bei der MS-Technik kann mit diesem System die Dematrizierung abgestuft erfolgen und eine flexible Mischung auch in der Postproduktion erstellt werden. Die hierdurch entstehenden Mikrofoncharakteristiken sind – wie die seitlichen Achten – nach vorn und hinten ausgerichtet. Sie lassen sich jeweils über die Niere bis zur Acht variieren, wobei die Charakteristik der beiden rückwärtigen Kanäle eine andere sein kann als bei den vorderen. Das erlaubt eine auch nachträgliche flexible Anpassung an die Aufnahmesituation.

Abb. 5/55. Realisierung des KFM-Surround-Verfahrens  mit dem KFM 360.

5.4 Mehrkanal-Stereofonie 

 323

Die vier so erhaltenen Kanäle ergeben eine Surround-Wiedergabe ohne Center-Kanal. Dieser kann in verschiedenen Fällen auch entbehrlich sein, wenn zusätzliche Stabilität im vorderen Abbildungsbereich keinen Vorteil bringt. Er kann auch zusätzlich gewonnen werden, beispielsweise durch Zumischung eines Solistenmikrofons. Die Nutzung des Centerkanals allein für die  stabile und präzise Darstellung eines Solisten ist  sicherlich lohnend. Jedoch  sollte nicht übersehen werden, dass zu diesem Zweck mit studiotechnischen Mitteln ein passender Entfernungs- und Raumeindruck geschaffen werden  muss,  so dass  sich der Solist harmonisch in das akustische Umfeld einfügt (siehe Kap. 5.4.4). 5.4.3.2 Raummikrofone Im vorangegangenen Kapitel ist deutlich geworden, dass 3/2-Stereo-Hauptmikrofone nur sinnvoll eingesetzt werden können, wenn die Schallfeldverhältnisse bei der Aufnahme sowohl Richtungsabbildung als auch Raumdarstellung zulassen. Es  muss ein Mikrofon-Standort existieren, wo der Direktschall eine ausgewogene Richtungsabbildung und gleichzeitig der indirekte und diffuse Schall die Darstellung der räumlichen Tiefe, der Räumlichkeit, der Halligkeit, des Raumeindrucks und der Umhüllung ermöglichen. Wesentlich flexiblere Lösungen bilden aber die Verfahren, die das Hauptmikrofon lediglich zur Richtungsdarstellung in der L-C-R-Abbildungsebene einsetzen und  separat davon spezielle Raummikrofon-Anordnungen für die räumlichen Eigenschaften des Klangbilds nutzen. Grundsätzlich ist aus den in Kap. 5.4.3 behandelten Gründen als Raummikrofon nur eine vierkanalige Konfiguration zu empfehlen, wobei die Signale der rückwärtigen Mikro­­fone auf die Surround-Kanäle LS bzw. RS gegeben und die des vorderen Raumikrofonpaars den Kanälen L bzw. R beigemischt werden. Welche Konfiguration eines VierkanalRaummikrofons geeignet ist, hängt von der Schallfeldsituation und von den praktischen Gegebenheiten ab. Hamasaki-Square Hervorragend bewährt hat  sich bei diversen Konzertsaal-Aufnahmesituationen der  sog. Hamasaki-Square [Hamasaki, 2000], entsprechend Abb. 5/56. Er besteht aus vier in einem Quadrat angeordneten Mikrofonen mit Achtcharakteristik, die Mikrofonabstände d betragen 1 bis 3 m. Die Mikrofonachsen liegen quer zur Bühne, um den Pegel des Direktsignals so weit wie möglich zu reduzieren. Die Unterdrückung ist im vorderen Schalleinfallsbereich bei ± 15° größer als 12 dB. Sie nimmt zur Seite hin ab, bei ± 30° sind es nur noch 6 dB. Die Mikrofone LB und RB können den Kanälen L und R zugeordnet oder zwischen L‑LS bzw. R‑RS eingeordnet werden. Ebenso wird der rückwärtige Direktschall stark abgeschwächt, dies hat manchmal Vorteile in Hinblick auf Geräusche aus dem Auditorium. Auch weiß man, dass erste Reflexionen aus der Medianebene eher schädlich als nützlich sind. Zur Seite hin wirken die Mikrofonpaare LS-LB bzw. RS-RB wie Groß-AB-Anordnungen. Hierin liegen die besondere Eigenschaft und der große Vorteil bei Aufnahmen im Konzertsaal, nur der Seitenschall wird erfasst, dies geschieht mit Groß-AB-Laufzeitstereofonie.

324 

 5 Tonaufnahme und Tonwiedergabe

Abb. 5/56. Raummikrofon-Konfiguration Hamasaki-Square.

Abb. 5/57. Berücksichtigung von psychoakustischen Phänomenen für natürliche Aufnahmen. Phänomene beim Hawasaki-Square.

Abb. 5/57 zeigt das Zusammenwirken der zwei Werkzeuge, das L-C-R-Hauptmikrofon für die Richtungsabbildung des Klangkörpers und die separate Konfiguration LB, RB, RS, LS für die räumliche Abbildung. Die Kanäle LF und LB werden kombiniert zu L, die Kanäle RF und RB zu R. Das L‑C‑R-Hauptmikrofon wie auch die Raummikrofonkonfiguration lassen sich unabhängig voneinander nach der jeweiligen künstlerischen Absicht positionieren. Das Raummikrofon kann beispielsweise problemlos weit entfernt vom Hallradius entfernt aufgestellt werden, um frühe Reflexionen, ein optimales R/D-Verhältnis, adäquate Dichte und Klangfarbe zu erhalten, aber auch weit entfernt vom Auditorium, um Störgeräusche zu vermeiden. Die optimale Verzögerung zwischen Haupt- und Raummikrofonanordnung ist ebenfalls konfigurier-

5.4 Mehrkanal-Stereofonie 

 325

bar, ohne dass die stereofone Information des Hamasaki-Square verändert werden muss (vgl. Kap. 5.4.4). Dies gilt für jede räumlich getrennte Hauptmikrofonanordnung. Es ist zu beachten, dass die Verwendung von Mikrofonen mit Richtcharakteristik Acht zu einem Abfall tiefer Frequenzen führt, weil es sich um reine Druckgradientenempfänger handelt. Die Signale des Hamasaki-Square weisen deshalb bei tiefen Frequenzen eine wesentlich weniger stark ausgeprägte Umhüllung auf. Theile-Trapez In vielen Aufnahmesituationen haben die frühen  seitlichen Reflexionen nur eine geringe oder keine Bedeutung. Beispielsweise geht es bei der Aufnahme von Live-Popmusik eher darum, die Reaktion des Publikums und das akustische Ambiente darzustellen. Dabei muss ebenfalls der Direktschall, der in diesem Fall von der Beschallungsanlage kommt,  möglichst stark unterdrückt werden, und eine korrekte Richtungsabbildung ist meistens unwesentlich. Daher kann die Anordnung aus vier richtenden Mikrofonen so konfiguriert und ihre Platzierung  so gewählt werden, dass das akustische Ambiente einerseits ohne  störenden Direktschall bleibt und andererseits eine zufriedenstellende akustische Umhüllung erzeugt wird. Beim Theile- oder Nieren-Trapez weisen alle Nieren nach hinten, um Direktschall aus dem vorderen Halbraum auszublenden (d = 60 cm). Ein Beispiel dafür zeigt Abb. 5/58. Die nach rückwärts ausgerichteten Nieren in der trapezförmigen Anordnung bewirken, dass Schall aus dem vorderen Halbraum weitgehend ausgeblendet wird. Die Unterdrückung ist im Schalleinfallsbereich ±  45° größer als 15  dB und damit wesentlich wirkungsvoller im Vergleich zum oben erläuterten Hamasaki-Square. Der Pegel einer Schallquelle, die von hinten nach vorne wandert, nimmt kontinuierlich ab gemäß der Richtwirkung der Niere, also bezogen auf die Richtung von hinten nach vorne, beginnend hinten bei 180° mit 0 dB, bei 120° mit – 3 dB, bei 60° mit – 11 dB, bei 30° mit – 18 dB. Alle drei Stereo-Mikrofonpaare LB-LS, LS-RS und RS-RB wirken dabei in identischer Weise als reine Klein-AB-Anordnungen, aus den Abständen d = 60 cm ergibt sich ein Aufnahmebereich von 60° für jeden der drei Aufnahmesektoren.

Abb. 5/58. Theile-Trapez für Atmo-Aufnahmen aus dem rückwärtigen Halbraum.

326 

 5 Tonaufnahme und Tonwiedergabe

5.4.3.3 Reportage und Dokumentation Für Surround-Aufnahmen der akustischen Atmosphäre, der Atmo, sind verschiedene, mindestens vierkanalige Mikrofon-Konfigurationen geeignet. Um die gewünschte Umhüllung gemäß Abb. 5/57 zu erreichen, muss nicht der Centerkanal einbezogen werden, denn eine richtungsstabile Abbildung von Schallquellen ist nicht wichtig. Vielmehr geht es um die Darstellung umgebender Geräusche und diffusen Schalls, wobei alle vier Seiten eine gleichwertige Bedeutung haben. In der Praxis der Atmo-Aufnahme kommt es zudem darauf an, dass die Mikrofon-Konfigurationen möglichst kompakt und einfach handhabbar sind. Doppel-MS Diesbezüglich besonders geeignet ist die in Kap.  5.4.3.1 bereits beschriebene Doppel-MSTechnik. Sie wird in der Praxis besonders da eingesetzt, wo die Möglichkeit der flexiblen Bearbeitung in der Nachbearbeitung, Kompaktheit – die gesamte Anordnung lässt  sich in einem Windkorb unterbringen –  sowie Monokompatiblität vorrangig  sind. Dies ist hauptsächlich bei Filmton und Sportübertragungen  sowie für Publikums-Atmo in TV-Shows der Fall, aber auch bei Hörspielen, Features und Dokumentationen. Das Doppel-MS-Verfahren kann auch mit einem Richtrohr aufgebaut werden, das beim Filmton für die Dialogaufnahme Standard ist. Da bei Dokumentationen und in der aktuellen Berichterstattung kein separates Atmo-Mikrofon möglich ist, wird der Mehrkanalton aus dem Richtrohr und zwei an ihm angebrachten Kompaktmikrofonen gebildet. Abb. 5/59 zeigt diese Speziallösung.

Abb. 5/59. Beispiel einer Mikrofonanordnung in Doppel-MS-Technik mit einem Richtrohr.

IRT-Kreuz Ein Alternative für die Atmo-Aufnahme ist das  sog. IRT-Kreuz (Abb.  5/60). Die vollkommen symmetrische Kapselanordnung gewährleistet für die Signalpaare L-R, R-RS, RS-LS und LS-L eine gleichwertige Korrelation im diffusen Schallfeld sowie eine gute stereofone Qualität der umgebenden Geräusche. Die Versatzwinkel zwischen den Mikrofonachsen betragen 90°. Der Abstand der Mikrofone sollte 25 cm betragen, damit sich für jedes der Mikrofonpaare ein Abbildungswinkel von 90° ergibt. Besonders bewährt hat  sich das kompakte Atmo-Kreuz bei Sportübertragungen, Talkshows und im Bereich der Dokumentation, wobei der Centerkanal frei bleibt und eine separate Handhabung von Kommentar, Dialog oder anderen, z. B. bildbezogenen Signalquellen

5.4 Mehrkanal-Stereofonie 

 327

erlaubt. Für den Einsatz als Raummikrofon im Konzertsaal ist die Anordnung weniger geeignet, da der Direktschall des Klangkörpers nicht unterdrückt wird. Für den Einsatzbereich einer wirklichkeitsnahen Dokumentation der akustischen Umgebung ist die Positionierung des Atmo-Mikrofons in den  meisten Situationen unkritisch. Die folgenden Einschränkungen sind zu beachten: –– Im Fall einer Bilddokumentation besteht die Gefahr einer Diskrepanz zwischen akustischer und optischer Richtung, wenn das Mikrofon bildbezogene Quellen aufnimmt. Besonders störend ist eine Seitendiskrepanz, z. B. wenn eine linke Bildquelle akustisch rechts erscheint und umgekehrt. Generell sollten Richtungsdarstellungen für bildbezogene Quellen vermieden werden. –– Schallquellen in der Nähe des Atmo-Mikrofons  sollten bei einem Mindestabstand von 3 m vermieden werden. Eine Quelle nahe am Mikrofon wird bei der Wiedergabe ähnlich nahe am Lautsprecher wahrgenommen. Für die realitätsnahe Umhüllung, d. h., für die Illusion einer kopfnahen akustischen Umgebung ist dies problematisch, weil die Lautsprecherentfernung verstärkt als Grenze des Hörereignisraumes wahrgenommen werden kann. Beispielsweise würde beim Applaus der Hörer um sich herum leicht eine „akustisch leere Blase“ empfinden, wenn das Atmo-Mikrofon zu nahe am Publikum aufgestellt wäre.

Abb. 5/60. IRT-Kreuz für Atmo-Aufnahmen

5.4.4 Verwendung von Delay Die natürliche Abbildung der Tiefe und der Räumlichkeitseindruck erfordern eine sorgfältige Handhabung der Verzögerungssituation; darauf beruht das Prinzip der raumbezogenen Stütztechnik [Theile, 1984], [Wöhr, 1991], [Theile, 1991], [Hugonnet, 1998], das in Kap. 5.3.5.3 beschrieben wurde. Dies gilt entsprechend für die Mehrkanaltechnik, jedoch muss sichergestellt sein, dass das Raummikrofon die im vorangegangenen Abschnitt beschriebene Abbildung des indirekten Schalls auch hinsichtlich der zeitlichen Struktur gewährleistet. Die Verzögerungen werden so gestaltet, dass sie dem Reflexionsmuster des Aufnahmeraums bzw. eines anderen Raums bei künstlicher Verhallung entsprechen. Dies unterstützt die Natürlichkeit des Raumeindrucks und die Darstellung räumlicher Tiefe. Hervorzuheben ist, dass dieses Konzept nicht auf das Haupt-Stützmikrofonverfahren beschränkt ist,  sondern auch

328 

 5 Tonaufnahme und Tonwiedergabe

entsprechend für die Einzelmikrofonverfahren (Kap. 5.3.6) angewendet werden kann [Noussaine, 1997], [Zacharov, 1998], [Griesinger, 2000].

5.4.4.1 Delay bei Einsatz von Hauptmikrofonen Am Beispiel der Aufnahme eines Orchesters mit einem Hauptmikrofon, einem Raummikrofon und Stützmikrofonen. zeigt Abb.  5/61 das Grundkonzept notwendiger Verzögerungen. Für die nicht verzögerten Mikrofonsignale ergeben  sich die fehlerhaften Zeitverhältnisse, dargestellt in der oberen Grafik. Nach korrekt eingesetzten Verzögerungen ergibt  sich das gewünschte Reflexionsmuster in der unteren Grafik. Man erkennt, dass das Stützmikrofonsignal in der ursprünglichen Situation, wie oben dargestellt, früher wiedergegeben wird als das entsprechende Hauptmikrofonsignal. Als Folge davon interpretiert das Gehör das Stützmikrofonsignal als den Direktsignal, so dass die Lokalisierung und die bevorzugten Abbildungseigenschaften des Hauptmikrofons verloren gehen. Solche Aufnahmen klingen unnatürlich, ohne räumliche Tiefe und ohne adäquaten Raumeindruck. Dem lässt  sich entgegenwirken, indem jedes Stützmikrofonsignal bezüglich Zeit- und Pegelverhältnissen als eine Anzahl von frühen Reflexionen dargestellt wird. Die Verzögerungen werden  so gestaltet, dass das resultierende Stütz-Reflexionsmuster in den Bereich der frühen Reflexionen fällt, die vom Haupt- oder Raummikrofon aufgenommen werden. Um Klangfärbungsprobleme zu vermeiden und die Wahrnehmung der räumlichen Tiefe und des Raumeindrucks wirkungsvoll zu unterstützen, sollten mindestens vier räumlich und zeitlich verteilte Seitenreflexionen generiert werden. Die Qualität des Raumeindrucks für die gestützte Schallquelle kann ferner durch Hinzufügen eines adäquaten Nachhalls optimiert werden. Auf diese Weise kann die räumliche Qualität der stereofonen Aufnahme erhalten bleiben, und zugleich trägt das Stützmikrofonsignal zur gewünschten Klangbalance von Lautstärke, Transparenz usw. bei.

Abb. 5/61. Raumbezogene Stütztechnik für Haupt-, Stütz- und Raummikrofone.

5.4 Mehrkanal-Stereofonie 

 329

Da das Stützmikrofonsignal in Form einer Anzahl von verzögerten Reflexionen dem stereofonen Hauptmikrofonsignal hinzugefügt wird, ändert sich nicht die vom Hauptmikrofon gegebene Richtungsinformation. Folglich ist die raumbezogene Stütztechnik nicht geeignet, um die eventuell unbefriedigende Richtungsabbildung eines bestimmten Hauptmikrofons oder gravierende Mängel in der Lautstärkebalance zu verbessern. Vielmehr muss in diesen Fällen das Stützmikrofon den Direktschall des Hauptmikrofons ersetzen, d. h., mit Hilfe einer geeigneten Nachbearbeitung muss der passende indirekte Schall erzeugt werden, so dass er sich in das Reflexionsmuster des übrigen Klangkörpers einfügt. Da die Signale des Stützmikrofons und die entsprechenden Signalanteile des Hauptmikrofons inkohärent  sind, gibt es keine Klangfärbungsprobleme durch Kammfiltereffekte. Das gestützte Instrument entspricht  mit der raumbezogenen Nachbearbeitung bezüglich Entfernung und Klangfarbe dem gesamten Klangbild und kann problemlos mit der gewünschten Balance zugemischt werden. Auf diese Weise können beliebig viele Teile des Klangkörpers gestützt werden. Im Extremfall entfällt das Hauptmikrofon, die raumbezogene Stütztechnik wird dann durch das Einzelmikrofonverfahren ersetzt. Auch ohne Hauptmikrofon kann die gewünschte zeitliche Struktur von Direktschall, frühen Reflexionen und Nachhall für den gesamten Klangkörper hergestellt werden. Das ist mit den heutigen technischen Möglichkeiten in vielen Situationen ein praktikabler und sinnvoller Weg, denn er bietet Flexibilität und macht von den gegebenen raumakustischen, aufführungs- und produktionsbedingten Realitäten in hohem Maße unabhängig.

Abb. 5/62. Setzen des Bezugspunkts für den Delay-Plan.

Die Wahl der Positionierung des Raummikrofons ist bestimmt durch die Optimierung der frühen Reflexionen, des R/D-Verhältnisses und der Diffusität hinsichtlich räumlicher Tiefe, Raumeindruck und Umhüllung. Dies kann unabhängig von der Entfernung zum Hauptmi­ krofon geschehen. Wie aus Abb. 5/62 hervorgeht, wird zur Vermeidung von Echowirkungen die zu große Entfernung korrigiert, indem  sowohl das Stützmikrofonsignal als auch das

330 

 5 Tonaufnahme und Tonwiedergabe

Hauptmikrofonsignal so weit verzögert werden, dass der fiktive Abstand etwa 10 m beträgt, entsprechend einer Verzögerung von ca. 30 ms. 5.4.4.2 Delay-Plan Erfahrungen haben gezeigt, dass die genaue Beachtung der Zeitverhältnisse unerlässlich ist, um räumliche Tiefe und Raumeindruck zu gewährleisten. Dazu ist die Erstellung eines DelayPlans für alle beteiligten Mikrofone enorm hilfreich. Im ersten Schritt ist dazu festzulegen, welches Mikrofonsignal den Direktschall bei der Wiedergabe erzeugen und damit die Richtungsabbildung leisten  soll. Im Beispiel gemäß Abb.  5/62 ist dies das L-R-Hauptmikrofon. Die Zeit- oder Verzögerungswerte beziehen sich auf den Bezugszeitpunkt dieses Mikrofons (t = 0 ms), alle weiteren Mikrofone liefern entweder vor- oder nacheilende Signale. Der Delay-Plan enthält die individuellen Delays der Mikrofonsignale, die sich am Reflexionsmuster der konkreten Situation im Saal orientieren. Es werden darin die zeitliche Reihenfolge und die räumliche Zuweisung festgelegt. Ein Beispiel zeigt Tab. 5/14, es entspricht der in Abb.  5/62 gezeigten Aufnahmesituation  mit einem L‑C‑R-Hauptmikrofon und einem vierkanaligen Raummikrofon. Es wird angenommen, dass sich das Raummikrofon etwa 20 m hinter dem Hauptmikrofon befindet und dass drei Stützmikrofone A, B und C eingesetzt sind. Tab. 5/14. Delay-Plan für die Mikrofonsignale, Beispiel für die in Abb. 5/62 gezeigte Aufnahmesituation, 1 m entspricht ca. 3 ms, 1 ms entspricht ca. 0,33 m. 1

2

3

4

5

6

Mikrofone

Entfernungskompensation [ms]

Abstand vom Direktschall [ms]

Kompensation + Abstand [ms]

benötigtes Routing Delay [ms]

Hauptmikrofon

L C R

0 0 0

0 0 0

0 0 0

– 35 – 35 – 35

L C R

Stützmikrofon A

Refl. 1: Refl. 2: Refl. 3: Refl. 4:

– 25 – 25 – 25 – 25

– 22 – 19 – 27 – 30

– 47 – 44 – 52 – 55

– 82 – 79 – 87 – 90

L R LS RS

Stützmikrofon B

Refl. 1: Refl. 2: Refl. 3: Refl. 4:

– 35 – 35 – 35 – 35

– 29 – 31 – 32 – 35

– 64 – 66 – 67 – 70

– 99 – 101 – 102 –105

L R LS RS

Stützmikrofon C

Refl. 1: Refl. 2: Refl. 3: Refl. 4:

– 45 – 45 – 45 – 45

– 27 – 21 – 29 – 33

– 72 – 66 – 74 – 78

– 107 – 101 – 109 –113

L R LS RS

Raummikrofon

L R LS RS

+ 60 + 60 + 60 + 60

– 25 – 25 – 25 – 25

+ 35 + 35 + 35 + 35

0 0 0 0

L R LS RS

5.4 Mehrkanal-Stereofonie 

 331

Von jedem Stützmikrofonsignal werden hier vier virtuelle frühe Reflexionen abgeleitet, Spalte 2 zeigt zusätzlich die Laufzeit zwischen Stütz- und Hauptmikrofon bzw. Haupt- und Raummikrofon. Spalte 3 enthält die beabsichtigten und frei gewählten zeitlichen Abstände der frühen Reflexionen, sie sollten im Bereich 20 bis 50 ms liegen. Daraus resultieren für die Stützen die individuellen Delays, bezogen auf das Hauptmikrofon. Da die vom Hauptmikrofon aufgenommenen Reflexionen auf Grund der Entfernung von 20 m vom Hauptmikrofon zu spät eintreffen, muss der Ausgleich durch zusätzliches Delay für Haupt- und Stützmikrofone erfolgen, in diesem Fall sind es 35 ms (Spalte 4, vgl. auch Abb. 5/61). Daraus ergeben sich die individuell einzustellenden Gesamtdelays in Spalte 5. Spalte 6 zeigt das beabsichtigte Routing. In diesem Fall werden die vier abgeleiteten Signale eines Stützmikrofons auf die Kanäle L, R, RS, LS gegeben, so dass sich neben der zeitlichen Verteilung auch eine Richtungsverteilung ergibt. Der Delay-Plan enthält keine Pegelanpassungen; diese können nun innerhalb eines breiten Bereichs in bestimmten Grenzen variiert werden, ohne die Wahrnehmung von Richtung und räumlicher Tiefe zu verändern. 5.4.4.3 Digitale Signalverarbeitung Anstelle des einfachen Routings eines Stützsignals auf die vier Kanäle L, R, RS, LS kann mit der heutigen digitalen Signalverarbeitung das Stützsignal-Reflexionsmuster wesentlich feiner dargestellt werden. Schon ältere Untersuchungen  mit Zweikanal-Stereofonie [Wöhr, 1991] haben gezeigt, dass das vom Hauptmikrofon gewonnene Klangbild eines Instruments im Saal im Prinzip ebenso mit einem geeignet nachbearbeiteten Stützmikrofonsignal hergestellt werden kann und ein derartiges Stützsignal einen hohen „Stützgewinn“ bei hervorragender Einfügung in das gesamte Klangbild hinsichtlich Tiefenstaffelung und Raumeindruck gewährleistet. Entsprechende Mischpulte  sind  seit einigen Jahren verfügbar. Die digitalen Signalverarbeitungen erlauben z. B. eine hohe Anzahl von räumlich verteilten Reflexionen pro Stützmikrofon, ergänzenden adäquaten Nachhall und „Entfernungsequalizing“, d. h. Berücksichtigung von spektralen Veränderungen auf Grund der Absorption während der Schallausbreitung. Im Prinzip ermöglichen die digitalen Werkzeuge ein „natürliches“ Panning der Richtung und Entfernung der gestützten Schallquelle. In der Fortführung dieser Entwicklung können Einzelmikrofonverfahren prinzipiell ein  sehr ähnliches klangliches Ergebnis hervorbringen wie die raumbezogene Stütztechnik. Dazu muss theoretisch jedes „trockene“ Einzelmikrofonsignal mit den entsprechenden Raumimpulsantworten gefaltet werden, welche mit der Haupt- und Raummikrofon-Konfiguration im Saal gemessen werden. Hier eröffnen sich bisher nicht realisierte Möglichkeiten der kreativen räumlichen Gestaltung stereofoner Aufnahmen. Sie sind nicht gebunden an raumakustische Bedingungen im Aufnahmeraum oder an aufführungspraktische Gegebenheiten.

5.4.5 Einsatz von Höhenlautsprechern Seit Verabschiedung des internationalen Standards [ITU-R BS. 775-1] im Jahr 1992 verging viel Zeit bis zur Etablierung entsprechender Übertragungstechnik in wichtigen Medien und bis zur Erlangung ausreichender Erfahrung bei der Produktion. Die Umstellung der Aufnahme-

332 

 5 Tonaufnahme und Tonwiedergabe

technik von 2.0 auf 5.1 war ein erster wichtiger Schritt, weg von reiner Stereofonie zwischen zwei Lautsprechern vor dem Hörer, hin zur Reproduktion einer real wirkenden akustischen Umgebung. Der 5.1-Standard ist noch ein Kompromiss, er war damals notwendig wegen gegebener Rahmenbedingungen, wegen der Kompatibilität mit 2.0-Stereo und mit Kino-Formaten und wegen maximal 6 Übertragungskanälen. Die Verbesserungen beschränken sich deshalb im Wesentlichen auf zwei Punkte [Theile, 2000/2]: –– Vergrößerte Hörzone  sowie verbesserte Stabilität und Qualität des  stereofonen Klangbilds vor dem Hörer durch Aufteilung der Lautsprecherbasis L-R mit 60° in zwei stereofone Teilbereiche L‑C und C‑R mit je 30°. –– Einsatz der zwei zusätzlichen Surround-Lautsprecher im seitlichen bzw. hinteren Bereich des Hörers, so dass sich das akustische Umfeld des Hörers in bestimmten Grenzen real gestalten lässt. Inzwischen ist das technische Umfeld für 5.1 bei Produktion, Distribution und Endgeräten nahezu durchgehend eingeführt. Auch akzeptiert der Konsument weitgehend eine höhere Zahl von Lautsprechern, zumindest in Verbindung  mit der Fernsehanlage, vermarktet als Heimkino. Festzustellen ist aber auch, dass tatsächlich nur wenige Hörer die mit SurroundSound erreichbare Wiedergabequalität realisieren. Ungünstige geometrische und akustische Raumbedingungen beim Hörer, Schwierigkeiten bei der praktischen Handhabung, aber auch ein Mangel an überzeugenden 5.1-Surround-Produktionen  machen den Einsatz von alternativen Wiedergabetechniken attraktiv, insbesondere der „Soundbars“ (Surround-Wiedergabe mittels virtueller Lautsprecher, vgl. Kap. 5.5.2.6). Überzeugende 5.1-Surround-Produktionen erfordern auf der Wiedergabeseite vom Konsumenten Akzeptanz für ein Wohnzimmer mit Heimkino-Outfit. Auf der Produktionsseite sind neben dem passenden Equipment vor allem Erfahrung und besondere Sorgfalt erforderlich, um für Konzerte, Dokumentationen, Reportagen, Spielfilme, Talkshows usw. die Illusion eines realen akustischen Umfelds zu erzeugen oder spannende Richtungseffekte zu generieren. Die Darstellungsmöglichkeiten des 5.1-Formats sind begrenzt: Mangelhafte Rundumabbildung, fehlende Einbeziehung der Höhe und der Kopfnähe, eingeschränkte Möglichkeiten für die Entfernungsdarstellung. Sie lassen sich teilweise mit einer Steigerung der Zahl der Übertragungskanäle und Lautsprecher beseitigten. Bereits der Standard [ITU-R BS. 775-1] enthält optionale Lautsprecher LL und RR zwischen Front- und Surround-Lautsprechern. Sie bieten die Möglichkeit, die stereofone Qualität bei seitlicher Abbildung zu verbessern, die Hörzone zu vergrößern und das „Loch“ zwischen frontseitiger und seitlicher Abbildung zu schließen. Insgesamt ergibt sich eine größere Freiheit für die räumliche Darstellung stationärer seitlicher Hörereignisse oder die wichtigen seitlichen Reflexionen. All diese Surround-Formate basieren im Prinzip auf Stereofonie, d. h., die Quellenabbildung geschieht kanalbasiert (siehe Kap. 5.5.1) mit Phantomschallquellen zwischen zwei benachbarten Lautsprechern. Im  seitlichen Bereich ist die Phantomschallquellenrichtung vom Hörerplatz abhängig und instabil, weshalb hier praktisch nur die Orte der Lautsprecher die Richtungsdarstellung übernehmen. Auch die Balance der Lautstärkeverhältnisse ist platzabhängig, besonders auffallend für das Verhältnis Front-Surround. Daher bezwecken

5.4 Mehrkanal-Stereofonie 

 333

zusätzliche Kanäle in der Horizontalebene eine größere Hörzone bzw. eine homogenere und stabilere Richtungsauflösung. In alternativen Anwendungen zusätzlicher Kanäle wird die Horizontalebene verlassen. Lautsprecheranordnungen in der Ebene oberhalb des Hörers vervollständigen den räumlichen Gestaltungsbereich und ermöglichen in bestimmten Grenzen den Aufbau eines dreidimensionalen Klangbilds. Vor fast 20 Jahren hatte Dabringhaus mit seiner 2+2+2-recordingTechnik die ersten Musikaufnahmen auf den Markt gebracht; es handelt sich um 5.1 ohne Centerkanal und Subwoofer, dafür mit zwei Lautsprechern oberhalb L und R. Das Konzept war für die Audio-DVD ausgelegt und darauf, ein möglichst authentisches Klangbild aus dem Konzertsaal zu reproduzieren und deshalb zugunsten der Lautsprecher für die Höheninformationen auf Center und Subwoofer zu verzichten. Im Jahr 2006 stellte Wilfried Van Baelen das sog. Auro-3D-Format vor, das die Höhe konsequent mit vier zusätzlichen Kanälen einbezieht. In der Basisversion Auro 9.1 ergänzen die Höhenlautsprecher das 5.1-Format, sie befinden sich über den Lautsprechern L, R, RH, LH (Abb. 5/63).

Abb. 5/63. Basis-Konfiguration Auro 9.1 nach [Van Baelen, 2010], abwärtskompatibel mit [ITU-R BS. 775-1].

In ähnlicher Weise berücksichtigt Holman mit zwei hoch angeordneten Lautsprechern schräg rechts und links vor dem Hörer die dritte Dimension. Seine sog. 10.2-channel surround soundKonfiguration beansprucht allerdings 8 Kanäle in der Horizontalebene und ist ursprünglich für Kino- und Heimkino-Anwendung gedacht [Holman, 2007]. Für das Ultra High-Definition TV in Japan stellte Kimio Hamasaki das 22.2 Multichannel Sound System vor, das neben 10 Lautsprecherkanälen in der Horizontaleben weitere 9 „Upper Layer“-Kanäle sowie 3 „Lower Layer“-Kanäle vorsieht [Hamasaki, 2007]. Ab dem Jahr 2012 begann Dolby, mit einer Vielzahl von Lautsprecherkonfigurationen  mit bis zu 64 Kanälen die „Atmos“-Technologie in Filmtheatern zu etablieren [Hidalgo, 2012]. Für die Heimkino- und Musikproduktionen-Szene entstanden verschiedene Lautsprecherformate, üblicherweise mit bis zu 16 Kanälen in den zwei Technologien „Atmos“ und „Auro-3D“, die nur teilweise und bedingt miteinander kompatibel sind.

334 

 5 Tonaufnahme und Tonwiedergabe

5.4.5.1 Nutzen der Höhenlautsprecher Die Erweiterung des Darstellungsbereichs nach oben bietet Möglichkeiten, das akustische Umfeld des Hörers in bestimmten Grenzen besonders real zu gestalten. Eine Konfiguration gemäß Abb. 5/62 bildet eine einem Kubus ähnliche Anordnung von acht Lautsprechern, so dass für die Wiedergabe der frühen Reflexionen der gesamte obere Halbraum einbezogen werden kann und sich die subjektive räumliche Diffusität des Nachhalls in ausreichendem Maße reproduzieren lässt. Damit  sind wiedergabeseitig gute Voraussetzungen für die Darstellung von Umhüllung, Räumlichkeit und räumlicher Tiefe geschaffen. Zusätzlich bieten die oberen Lautsprecher die gleichen Möglichkeiten der stereofonen Quellenabbildung wie die ITU-Anordnung ohne Centerlautsprecher. Phantomschallquellen zwischen den unteren und oberen Lautsprechern, also stabile stationäre Hörereignisrichtungen mit Elevation zwischen 0° und 30° sowie direkt über dem Hörer sind allerdings praktisch nicht realisierbar. Bestimmte Schwächen des 5.1-Surround-Formats können mit einem 9.1-Surround-Format beseitigt oder gemildert werden, andere nicht. In Tab. 5/15 sind verschiedene Attribute des reproduzierten Klangbilds aufgeführt. Die ersten vier betreffen den Direktschall, meist mit Panning gestaltet, die nächsten vier betreffen Wirkungen des indirekten Schalls,  mit Aufnahmetechnik und Processing gestaltet. Mit den Attributen lassen sich die Leistungsprofile der unterschiedlichen Verfahren einigermaßen  sachgerecht charakterisieren und vergleichen, unter dem Vorbehalt, dass wiedergabeseitig die Empfehlungen korrekt realisiert und aufnahmeseitig die passenden Mikrofon- und Mischtechniken eingesetzt werden. Tab. 5/15 zeigt, dass 9.1‑Surround verglichen mit den anderen Lautsprecherverfahren bei einigen Attributen prinzipielle Vorteile aufweist. Dies lässt sich auf andere Formate übertragen, die 2D Surround-Wiedergabesysteme mit Quadrofonie-ähnlichen Lautsprecheranordnungen in der Ebene über dem Hörer ergänzen. Tab. 5/15. Leistungsprofile der Verfahren im Vergleich, geeignete Aufnahme- und Wiedergabetechnik vorausgesetzt. * horizontale Arrays, ** simulierte Tiefe bzw. Räumlichkeit, *** nur im Sweet Spot, sonst instabil. Attribute des reproduzierten Schalls

2.0Stereo

5.1Surround

9.1Surround

Wellenfeldsynthese

binaurale Verfahren mit head tracking

Richtung vorne



●●

●●

●●*

●●





●●*

●●

Richtung rundum Elevation

(●)***

Höhe

●●

●●

●●

Nähe am Kopf

●*

●●

Intra-aktive Perspektive

●●*

Räumlichkeit

(●) **

(●)**

Umhüllung Klangfarbe

●●



●●

●● ●●*

Entfernung, Tiefe



●●

●*

●●



●●

●*

●●

●●

●●

●*

●●

5.4 Mehrkanal-Stereofonie 

 335

5.4.5.2 Anwendung der Höhenlautsprecher Die Lautsprecher in der oberen Ebene weisen dieselben Abbildungseigenschaften auf wie die in der Horizontalebene ohne den Center-Lautsprecher. Die stereofone Darstellung im Bereich L-C-R wird durch Zweikanal-Stereo in der Basis Lh-Rh der oberen Etage ergänzt, und ebenso können die oberen zusätzlichen Surround-Lautsprecher ebenso genutzt werden wie die unteren. Allein daraus ergibt sich eine beachtliche Erweiterung des Gestaltungsspielraums. Interessant  sind die Möglichkeiten, die  sich aus dem Zusammenwirken beider Ebenen ergeben, einerseits hinsichtlich Quellendarstellung in der von den fünf Lautsprechern vor dem Hörer aufgespannten Fläche, andererseits hinsichtlich der Reproduktion von Reflexionen und diffusem Schall im dreidimensionalen Surround. Die Fläche vor dem Hörer zwischen L-R und Lh-Rh lässt sich am unteren und oberen Rand zur stereofonen Darstellung lokalisierbarer Quellen wie gewohnt nutzen. Die Lokalisierung von Phantomschallquellen zwischen den unteren und oberen Lautsprechern ist sehr instabil bezüglich Laufzeitdifferenzen und auch abhängig vom Spektrum. Schon kleine Laufzeitdifferenzen führen zu einer Auswanderung der Phantomschallquelle nach oben oder unten. Ein Delay von 0,5 ms reicht aus, um das Hörereignis in den einen oder anderen Lautsprecher zu verschieben, verbunden mit Klangverfärbung. Diesbezüglich ist die Hörzone in der Tiefe und in der Höhe stark eingeschränkt, wie Abb. 5/64 illustriert.

Abb. 5/64. Laufzeitdifferenzen bei Hörpositionen abweichend vom Sweet Spot.

Die Elevation einer stationären Quelle ist mit Hilfe der oberen Lautsprecher praktisch nicht erreichbar, besonders bei Berücksichtigung der Forderung einer großen Hörzone. Panning zu diesem Zweck funktioniert nicht, es stellen sich unkontrollierbare klangliche und räumliche Effekte ein. Die Verhältnisse stellen sich ähnlich dar wie bei den seitlichen Lautsprecherpaaren L‑LS bzw. R‑RS: Stabile Quellenpositionen sind allein die Lautsprecher. In bestimmten Grenzen sind jedoch bewegte Quellen darstellbar. Wesentlich günstigere Verhältnisse findet  man bei der Reproduktion vieler einzelner, in ihrer Gesamtheit nicht individuell lokalisierbarer, aber räumlich verteilter Schallquellen wie z. B. Reflexionen. Sie ähneln den Eigenschaften einer Groß-A-B-Konfiguration oder eines Decca-Tree: Obwohl die Richtungsabbildung wegen viel zu steiler Abbildungskurven nicht praktikabel ist, ermöglichen sie dennoch eine platzunabhängige, klanglich ausgewogene Darstellung beispielsweise eines großen Klangkörpers und des reflektierten Schalls. Die Gefahr des „Lochs in der Mitte“ ist in vielen Aufnahmesituationen nicht gravierend, vor

336 

 5 Tonaufnahme und Tonwiedergabe

allem wenn der diffuse Schallanteil das Klangbild dominiert. Das Füllen der Flächen in der Höhe ist also möglich und ein wichtiges Gestaltungselement. Die frühen Reflexionen lassen sich auf diese Weise vorteilhaft in der Höhe verteilen. Die vielen unterschiedlichen Laufzeitdifferenzen individueller Reflexionen an den Mikrofonen bewirken dies. Die Reflexionen fallen in natürlicher Weise auch aus oberen Richtungen ein. Die bessere Verteilung der Reflexionen vermindert ihre räumliche Dichte,  somit kann das Gehör die räumlichen Informationen besser erkennen. Abb. 5/65 veranschaulicht den Effekt beim Übergang von 2.0 über 5.1 nach 3D-Audio (9.1-Surround). Wichtig ist dabei auch eine günstige Auswirkung auf die Klangfarbe, die mit einer verbesserten Wahrnehmung der Reflexionen verbunden ist.

Abb. 5/65. Räumliche Verteilung der Reflexionsmuster in 2.0, 5.1 und 3D-Audio (9.1-Surround). Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen (vgl. Abb. 5/18 und 5/19).

Will man die oben geforderte räumliche Auflösung der Direktschallkomponenten, der Atmo, des Diffusschalls und/oder der Reflexionen erzeugen,  so  muss die Mikrofonanordnung eine ausreichende akustische Kanaltrennung am Ort des Hörers gewährleisten (Abb. 5/66). Andernfalls wäre die räumliche Anordnung mehrerer Lautsprecher nur wenig nützlich. Die Realisierbarkeit der notwendigen akustischen Kanaltrennung für die RaummikrofonVerfahren ist umso schwieriger, je mehr Kanäle für die Wiedergabe vorgesehen sind. Die Gefahr von unerwünschtem Übersprechen, also korrelierten Inhalten auf drei oder  mehr Lautsprechern, steigt. Die Folge ist eine deutliche Klangverfärbung, die auch noch von der Hörerposition im Abhörraum abhängt. Eine Hauptmikrofonanordnung ohne störenden Crosstalk ist aber bei neun Kanälen äußerst schwierig zu bewerkstelligen. Es gibt zwei Möglichkeiten, die auch in 5.1 funktionieren: Entweder muss das Übersprechen durch optimierte Verfahren wie OCTSurround (siehe Kap. 5.4.3.1, Abb. 5/51) weitgehend vermieden oder durch größere Abstände der Mikrofone zueinander die Abbildungseigenschaften einer A/B-Konfiguration (siehe Kap. 5.3.3) erzielt werden. Anordnungen mit hoher Kanaltrennung sind nicht nur bezüglich der Lokalisation vorteilhaft (siehe Kap. 5.4.2.4), sondern ebenso bezüglich der räumlichen Transparenz, der realitätsnahen Wiedergabe insbesondere der frühen Reflexionen.

5.4 Mehrkanal-Stereofonie 

 337

Abb. 5/66. Ausreichende akustische Trennung der Mi­­krofonsignale ist erforderlich für die realitätsnahe räumliche Wiedergabe

Abb. 5/67. Reflexionsmuster im Sweetspot eines 9.1 Lautsprecher-Auro-3D-Setups, erzeugt mit zwei verschiedenen 3D‑Mikrofon-Arrays [Wittek, 2012].

Abb. 5/67 zeigt beispielhaft die Reflexionsmuster im Vergleich, die mit zwei unterschiedlichen Mikrofon-Setups in einem Saal vom Typ Schuhschachtel aufgenommen und im Sweet-

338 

 5 Tonaufnahme und Tonwiedergabe

spot einer 9.1 Auro-3D-Lautsprecheranordnung gemessen wurden [Wittek, 2012]. Das obere Bild enthält die Reflexionsmuster, die  mit einer 9-Kanal-Anordnung  mit hoher Kanaltrennung erzeugt werden (OCT  sowie vier nach oben gerichtete Supernierenmikrofone,  siehe Abb.  5/69). Direktschall und die frühen Reflexionen werden deutlich detektierbar aus den Richtungen wiedergegeben, die mit dem Aufnahmeraum übereinstimmen. Das zweite Bild zeigt das entsprechende Ergebnis mit einem 9-kanaligen Groß-A/B-Setup in ähnlicher Mikro­ fonanordnung, die Frontmikrofone L-C-R bilden einen Decca-Tree (vgl. Kap. 5.4.2.3). Offensichtlich gibt es kaum verwertbare diskrete Reflexionen, jeder der neun Kanäle enthält alle Erstreflexionen aus sämtlichen Richtungen, sozusagen ein „neunfaches Mono“. Das resultierende Klangbild kann für bestimmte Aufnahmen erwünscht sein, in Räumen mit langem Hall, in denen das Diffusfeld das Hörerlebnis dominiert, beispielsweise in einer Kirche. Jedoch wird der natürliche Raumeindruck eines Saals nicht erreicht. Stabile transparente Lokalisation der Quellen und realitätsnahe Wahrnehmung der Entfernungen und der Tiefe gelingen nur mit ausreichender Vermeidung des Übersprechens. Mit heutigen Technologien sind Lösungen denkbar, die auf Faltungstechniken basieren, wobei die Rauminformationen entweder aus Messungen im aktuellen Aufnahmeraum oder in bestehenden, akustisch gut anerkannten Räumen oder aus Modellrechnungen gewonnen werden. 5.4.5.3 Höhenlautsprecher für immersiven Sound Der diffuse Schall, also Nachhall oder Atmo, muss auch diffus beim Hörer ankommen. Dies kann gelingen, wenn die zusätzlichen Lautsprecher auch geeignet beschickt werden. Es ist notwendig, dass die diffusen Signale auf allen Lautsprechern ausreichend verschieden sind, also im gesamten Frequenzbereich weitgehend dekorreliert [Nipkow, 2019]. Gerade bei tiefen Frequenzen ist ausreichende Unabhängigkeit wichtig, da davon die Wahrnehmung der Umhüllung abhängt [Griesinger, 1998]. Es ist jedoch nun aufnahmeseitig durch die größere Anzahl der Kanäle, die unabhängig sein sollen, wesentlich schwieriger geworden. Da man mit Mikrofonen erster Ordnung in Bezug auf die Erzeugung dekorrelierter Signale sehr schnell an  seine Grenzen kommt, führt dies dazu, dass der Mikrofonaufbau größer wird, da nur dadurch eine Dekorrelation durch Pegel- und Laufzeitdifferenzen erreicht wird. Richtungsdiffuser Direktschall: Atmo Das akustische Ambiente einer Szene wird aus vielen einzelnen, in ihrer Gesamtheit nicht individuell lokalisierbaren, aber räumlich verteilten Schallquellen gebildet. Beispiele dafür sind das Blätterrauschen des Walds, entfernte Stimmen, Verkehrslärm, Publikumsreaktionen und Applaus während eines Konzerts oder einer Veranstaltung. Dieser Schallanteil trägt beim natürlichen Hören in vielen Situationen im besonderen Maß zum immersiven Hörendruck bei. Die hohe Relevanz dieser Schallanteile wurde lange unterschätzt, tatsächlich ist dieser Aspekt im Gegensatz zur Richtungsabbildung oft der wichtigere [Theile, 2012]. Dies trifft besonders für 3D-Audio Aufnahmen zu; eine geeignete Mikrofonierung und/oder sinnvolle Mischung ist von großer Bedeutung. Die Eigenschaften diverser Mikrofontechniken für AtmoAufnahmen werden in [Wittek, 2012] detailliert beschrieben.

5.4 Mehrkanal-Stereofonie 

 339

Eine besonders für Sportreportagen bewährte Atmo-Anordnung für acht Kanäle ist das ORTF-3D Verfahren. Ursprung ist die Doppelung einer modifizierten Version des IRT-Kreuzes (siehe Kap.  5.4.3.3) auf zwei Ebenen (Abb.  5/68). Je vier Supernieren für die untere und die obere Ebene sind in einem Rechteck übereinander angeordnet. Die Kapseln sind jeweils um 45° nach oben bzw. unten geneigt, um auch in der vertikalen Ebene für maximale Signaltrennung zu sorgen. Es entsteht also eine 8-kanalige Anordnung, deren Abbildungseigenschaften innerhalb der horizontalen Ebenen in etwa dem IRT-Kreuz entsprechen. Die Abbildungseigenschaften in den vertikalen Richtungen entsprechen in etwa den Verhältnissen im seitlichen Bereich des 5.1‑Formats (siehe Kap. 5.4.3, Abb. 5/46). Die Mikrofonsignale werden diskret auf die Kanäle L, R, LS, RS in der unteren Ebene und Lh, Rh, LSh, RSh in der oberen Ebene geroutet.

Abb. 5/68. Ambience Supernieren Würfel [Theile, 2012]. Jedes Stereo-Mikrofonpaar hat eine Basis von 10 bis 20 cm und einen Achsenwinkel von 90°.

Zur Verbesserung der praktischen Handhabung kann auf den Abstand zwischen der oberen und unteren Mikrofonebene verzichtet werden [Wittek, 2016]. Die Abbildung in den vertikalen Lautsprecherpaaren wird allein durch die aus der Neigung der Mikrofone entstehenden 90°–X/Y-Paare aus zwei Supernieren erzeugt. Durch die hohe Richtwirkung der Supernieren ergibt  sich eine ausreichende Dekorrelation in der Vertikalebene,  sie ist im Diffusfeld weniger relevant ist als in der Horizontalebene. Insgesamt dieser 8-kanalige ORTF-3D-Ambience-Mikrofon-Set hohe Signaltrennung, optimale Diffusfeld-Dekorrelation und gute immersive 3D-Abbildung bei hoher Stabilität im Wiedergaberaum. Auch für Aufnahmen im Saal liegt es nahe, eine für die Surround-Aufnahme eingesetzte Mikrofon-Konfiguration so zu ergänzen, dass die Atmo dreidimensional erfasst werden kann (vgl. Kap. 5.4.3). Hier ist es wichtig, dass sowohl das Mikrofonarray für die untere Ebene als auch das für die obere Ebene den Direktschall weitgehend unterdrückt, um den ambienten richtungsdiffusen Schall realitätsnahe abbilden zu können. Durch sorgfältiges Ausprobieren und mit einiger Erfahrung lassen sich mit der Wahl der Kapsel-Richtcharakteristiken sowie Ihrer Positionierungen die Balance, beispielsweise unten/oben, zwischen Nachhall und Applaus und Publikumsgeräusch realitätsgetreu gestalten.

340 

 5 Tonaufnahme und Tonwiedergabe

Abb. 5/68 zeigt die entsprechende Konfiguration eines 9-kanaligen Hauptmikrofon-Sets. Die für 5.1-Surround konzipierte OCT-Konfiguration (siehe Kap. 5.4.2.4) ist mit vier nach oben gerichteten Supernieren ergänzt, sie werden auf die vier Höhenlautsprecher geroutet. Somit enthält der bei der Wiedergabe von oben abgestrahlte Schall keinen Direktschall, sondern vorwiegend den indirekten Schall des Saals. Die Wiedergabe geschieht aus allen vier oberen Raumecken und damit ausreichend richtungstransparent (vgl. Kap. 5.4.5.2). Dieses bewährte OCT-3D Mikrofon-Set gewährleistet eine natürliche und stabile räumliche Abbildung.

Abb. 5/69. OCT-3D Mikrofon-Konfiguration. Für die Wiedergabe der indirekten Schallanteile über Höhen-Lautsprecher ist die OCT-Anordnung mit vier nach oben gerichteten Supernieren ergänzt [Theile, 2012].

Für Musik mit synthetischen Klängen können vereinzelt auftretende, helle Drum-Sounds wie z.  B. Becken und rhythmisches Zischen eingesetzt und vorzugsweise aus der oberen Lautsprecherebene wiedergegeben werden. Dies verleiht der Musik mehr Feinstruktur und eine gesteigerte Aufmerksamkeit des Hörers; die Durchhörbarkeit ist besser, weil die unteren Lautsprecher in der Regel Schallanteile mit tiefen und mittleren Frequenzen abstrahlen, die Schallanteile mit hohen Frequenzen etwas verdecken können. Reflexionen im oberen Halbraum Die von den vorderen Lautsprechern aufgespannte Ebene ermöglicht die räumlich transparente Wiedergabe der frühen Reflexionen, Abb.  5/70 zeigt eine geeignete Strategie für die Mikro­­fonierung. Das Hauptmikrofon liefert Direktschall und frühe Reflexionen für die unteren Frontlautsprecher, Raummikrofone an den Seitenwänden in Bühnennähe vorwiegend Signale  mit frühen  seitlichen Reflexionen; dadurch entsteht für das Gehör eine Verbindung zwischen der unteren und oberen Lautsprecher-Ebene. Der Direktschall führt zu einer  stabilen Lokalisation des Klangkörpers in der unteren Ebene. Die Wiedergabe der frühen Reflexionen aus dem oberen Bereich haben den Effekt, dass der Klangkörper  mit einer Höhenausdehnung wahrgenommen wird, was den realen Verhältnissen entspricht. Bei Aufnahmen in Konzertsälen lassen sich frühe seitliche Reflexionen mit Mikrofonen an den Seitenwänden in Bühnennähe einfangen. Sie eignen  sich gut, um die gewünschte auditive Verbindung in Kombination  mit dem Direktschall herzustellen. Hauptmikrofone nehmen neben Direktschall immer auch frühe Reflexionen auf. Es ist vorteilhaft, die Signale des Hauptmikrofons für die unteren Front-Lautsprecher zu verwenden und die Signale mit

5.4 Mehrkanal-Stereofonie 

 341

vorwiegend seitlichen Reflexionen für die oberen Front-Lautsprecher. Dies bewirkt bei Aufnahmen in gut klingenden Räumen, dass das Fundament des Klangkörpers  stabil in der unteren Höhenebene lokalisiert wird und die frühen seitlichen Reflexionen dem Klangkörper einen attraktiv klingenden Glanz verleihen. Dieses Gefüge zerfällt, wenn die beiden Höhenebenen zu weit auseinander positionier/ sind bzw. wenn der Elevationswinkel 35° überschreitet [Van Baelen, 2011/2]

Abb. 5/70. Einbeziehung der Höhe für die Wiedergabe der frühen Reflexionen.

Umhüllung und Räumlichkeit Geben alle Lautsprecher eines 9.0 Setups diffusen Raumschall  mit einer Korrelation von etwa Null wieder, führt dies zu einer Empfindung der Umhüllung, die einzelnen Lautsprecher werden nicht als Einzelschallquellen wahrgenommen (Abb. 5//71). Die Pegel des diffusen Raumschalls in allen Kanälen müssen ausbalanciert sein, um die auditive Verbindung zwischen den Seiten und oben und unten sicherzustellen. Eine Korrelation von 1, d. h. aus allen Lautsprechern identische Signale, birgt die Gefahr von hörbaren Kammfiltereffekten, insbesondere für statische breitbandige Signale wie Rauschen oder Applaus. Tiefe Frequenzen unter 200 Hz, die von allen Lautsprechern eines 3D-Audio Lautsprecher-Setups mit einer Korrelation um Null wiedergegeben werden, unterstützen den Umhüllungseindruck und das immersive Hörerlebnis, sich im Aufnahmeraum zu befinden. Für eine optimale Umhüllung  muss besonders die Balance zwischen vorne und hinten ausgeglichen sein. Je mehr Raumsignale von hinten wiedergegeben werden, desto schwächer ausgeprägt ist die hörbare Verbindung zwischen vorne und hinten. Geben die Lautsprecher in der Front keinen Raumschall wieder, treten zwei verschiedene Hörereignisse auf; es besteht keine auditive Verbindung zwischen vorne und hinten. Dagegen können die Pegel zwischen den oberen und unteren Lautsprechern variieren. Dies kann genutzt werden, um die Durchhörbarkeit anderer Sounds zu verstärken. Beispielsweise werden zur Steigerung der klanglichen Transparenz des „Stage Sounds“ die Pegel des Raumschalls in den unteren Frontlautsprechern reduziert,  siehe Abb.  5/72. Die Feinstruktur des Direktschalls wird durch Raumschall beeinträchtigt. Soll eine  möglichst hohe Transparenz des Klangkörpers erreicht werden, ist eine Überlagerung von Direkt- und Raumschall aus derselben Richtung zu vermeiden.

342 

 5 Tonaufnahme und Tonwiedergabe

Abb. 5/71. Einbeziehung aller Lautsprecher für Schall mit Korrelation um Null.

Abb. 5/72. Balanceeinstellung des Raumschalls zugunsten der Durchhörbarkeit, hier Solisten aus der Richtung der unteren Solisten Front-Lautsprecher (‚Stage Sound’).

Vordergrund und Hintergrund: Tiefe Räumliche Tiefe ist ein wichtiges Gestaltungselement (siehe Kap. 5.2.4). Der diffuse Schall unterstützt den Eindruck der Tiefe, wenn die akustische Szene Objekte im Vordergrund enthält. Ein lokalisiertes Objekt befindet sich im Vordergrund, wenn Nachhall oder nichtreflektierter Diffusschall vorhanden ist. Die Unterscheidbarkeit zwischen Vorder- und Hintergrund kann variieren; in diesem Zusammenhang spricht man von räumlicher Kontur [Terhardt, 1989]. Ist die Kontur  stark ausgeprägt, wirkt das resultierende Klangbild plastisch, da sich die Schallquellen im Vordergrund stark vom akustischen Hintergrund abgrenzen – dieses Phänomen ist vergleichbar mit einem Portraitfoto, bei dem der visuelle Hintergrund komplett unscharf ist. Die räumliche Kontur tritt insbesondere in großen Aufnahmeräumen wie Kirchen oder Konzertsälen mit langer Nachhallzeit auf: Dort wird der Raumschall über die Zeit  stark „verschmiert“ und  somit impulsartige Klänge  maximal verschliffen. Durch den größeren zeitlichen Abstand zwischen Direkt- und Raumschall als in kleineren Räumen treten zudem weniger stark wirkende Verdeckungseffekte auf. Bewegt  sich zudem der akustische Hintergrund gegenüber den  statisch positionierten Schallquellen, wird die Kontur noch ausgeprägter; unser Gehör kann somit die Schallquellen

5.5 Verfahren der räumlichen Tonübertragung 

 343

im Vordergrund besser unterscheiden als bei einem statischen Hintergrund, die Entfernung des Hintergrundes gegenüber dem Vordergrund wird deutlicher hörbar. Bewegte Räumlichkeit entsteht durch zufällig wirkende Bewegungen, Fluktuationen, des Hintergrunds und wird als angenehm empfunden. Es ist deshalb zweckdienlich, Fluktuation in die 3D-Audio Produktion einzubauen.

5.5 Verfahren der räumlichen Tonübertragung 5.5.1 Kanalbasierte Verfahren Der Begriff ‚kanalbasierte Verfahren‘ oder ‚kanalbasierte Aufnahme und Wiedergabe’ entstand in den letzten Jahren in Abgrenzung zu  sog. ‚objektbasierten Verfahren‘ bzw. ‚zur objektbasierten Aufnahme und Wiedergabe‘ und zur Schallfeldsynthese. Die kanalbasierten Verfahren bzw. die räumliche Darstellung ist dadurch gekennzeichnet, dass die Kanalzuordnung an die Lautsprecheranordnung gebunden ist und nicht geändert werden kann. Eine bei der Produktion gewählte Lautsprecheranordnung legt also die Kanalkonfiguration für Verteilung und Wiedergabe fest. Ebenso festgelegt ist damit das Klangbild, das aufnahmeseitig mit der Wahl und der Positionierung geeigneter zwei- bzw. mehrkanaliger stereofoner Mikrofonanordnungen realisiert wird. Einzelheiten der Gestaltungsmöglichkeiten für die verschiedenen Formen der Stereofonie werden in den Kap. 5.2 bis 5.4 behandelt. Kanalbasierte Formate beinhalten standardisierte und etablierte Anordnungen der Lautsprecher und entsprechende Bezeichnungen der Kanäle, sie machen den einfachen Produktionsaustausch innerhalb der Verteilungswege bis hin zum Endverbraucher  möglich. Produktions- und wiedergabeseitig werden die gleichen Lautsprecheranordnungen eingesetzt und standardisierte Downmix-Regeln befolgt, beispielsweise die Abwärtskompatibilität für den Downmix vom 5.1-Format nach 2.0-Stereo gemäß ITU-R BS. 775-1. 5.5.1.1 Nomenklatur und Notation Mit dem Aufkommen der vielen Mehrkanal-Tonformate, verstärkt  seit Einbeziehung des gesamten oberen Halbraums für immersiven Sound, wächst durch die Entwicklung von 3D-Audiosystemen die Anzahl genutzter Lautsprecherkanäle und Wiedergabeformate. So werden bei 3D-Audio-Wiedergabesystemen die bekannten Stereo- oder Surroundanordnungen durch zusätzliche Wiedergabequellen über oder unter der Höhenposition der Ohren erweitert. Beispielsweise handelt es sich beim 5.1+4H-Format um ein 3D-Audio-Format, welches im Vergleich zum 5.1-Format vier zusätzliche Höhenlautsprecher enthält (siehe Kap. 5.4.5.2). Dadurch ist die Klassifizierung und Zuordnung von Kanälen sowohl produktions- und wiedergabeseitig als auch die Positionierung von Lautsprechern komplexer geworden. Falsche Kanalzuordnungen oder fehlerhafte Wiedergabe durch falsch interpretierte Wiedergabeformate führen zu Missachtungen künstlerischer Intentionen.  Über die Jahre wurde eine Vielzahl von 3D-Audiosystemen und deren Wiedergabelayouts vorgeschlagen, beispielsweise Dolby Atmos, MPEG-H 3D Audio, Auro 3D oder DTS:X. Oft bleibt jedoch die konkrete Anzahl von Wiedergabekanälen, deren Kanalzuordnung und die

344 

 5 Tonaufnahme und Tonwiedergabe

empfohlene, optimale Positionierung der Lautsprecher unklar. Häufig führen unterschiedliche Sachverhalte und Begriffe für dieselbe Sache − oder gravierender − die gleichen Begriffe für unterschiedliche Sachverhalte der an Produktion, Übertragung und Wiedergabe beteiligten Personen zu Verwirrung. 5.1 oder 3/2, 7.1 mit fünf Front-, mit vier Surroundlautsprechern oder sogar mit Höhenlautsprechern? Was ist 2+2+2, 9.1, 13.1, 22.2 oder 9.1.6? Rvss, TpSiR und U-90 sind reguläre Lautsprecherbezeichnungen, doch was bedeuten sie?  Es gibt eine Vielzahl von Standards, Organisationen und Hersteller, die unterschiedliche Bezeichnungen für Lautsprecher und deren Positionen benutzen. Eine weit verbreitete Nomenklatur für 3D-Audio-Formate ist m.n + hH oder m.n.h, welches unter anderem im Kontext von MPEG-H 3D-Audio oder Dolby Atmos zu finden ist.  Hier bedeutet m die Anzahl der Lautsprecher in der horizontalen Ebene, n die Anzahl der LFE-Kanäle und h die Anzahl der Decken- oder Höhenlautsprecher. Einige Konfigurationen sind komplexer und folgen nicht dieser Konvention, wie z. B. die Konfigurationen 22.2 und 10.2. Weitere Verfahren wie z. B. Auro 3D bevorzugen die traditionelle Schreibweise aus Anzahl der Lautsprecher und LFE, getrennt durch einen Punkt, z. B. Auro 3D 9.1 oder Auro 3D 13.1. In den MPEG-Normen werden Mehrdeutigkeiten bei Lautsprecherkonfigurationen durch die Verwendung einer Index-Tabelle in der MPEG-Norm für kodierungsunabhängige Codepunkte (CICP) definiert, siehe [ISO/IEC 23091]. Im Tab. 5/16 wird beispielhaft ein Auszug der Kanal- und Lautsprecherbezeichnungen aktuell relevanter Standards für das 22.2 Lautsprecherlayout dargestellt. Die Nummerierung der Kanäle (Wiedergabekanal 1 bis 24) bezieht  sich auf den jeweiligen Standard. Hier ist besonders zu beachten, dass sich die Reihenfolge der Lautsprecher in der Wiedergabe von Standard zu Standard unterscheidet. Außerdem zeigt Tab. 5/17 Wiedergabeformate mit den zugehörigen Codierformaten ohne Anspruch auf Vollständigkeit.  Tab. 5/16. Kanal- und Lautsprecherbezeichnung mit unterschiedlichen Nomenklaturen in relevanten Standards für das 22.2 Lautsprecherlayout. Wieder­gabekanal

ITU-R BS. 2051

ISO/IEC 23091-3

ITU-R BS. 2159-8

ISO/IEC 23008-3 ETSI TS 103 190-2 (MPEG-H 3D Audio) (Dolby AC-4)

1

M+000

Center Front ‚C‘

Front left ‚FL‘

CH_M_L060

Left ‚L‘

2

M+030

Left Front Center ‚Lc‘

Front right ‚FR‘

CH_M_R060

Right ‚R‘

3

M-030

Right Front Center ‚Rc‘

Front center ‚FC‘

CH_M_000

Center ‚C‘

4

M+060

Left Front ‚L‘

LFE-1 ‚LFE1‘

CH_M_LFE2

Low-Frequency Effects ‚LFE‘

5

M-060

Right Front ‚R‘

Back left ‚BL‘

CH_M_L135

Left Surround ‚Ls‘

6

M+090

Left Side Surround ‚Lss‘

Back right ‚BR‘

CH_M_R135

Right Surround ‚Rs‘

7

M-090

Right Side Surround Front left center ‚Rss‘ ‚FLc‘

CH_M_L030

Left Back ‚Lb‘

5.5 Verfahren der räumlichen Tonübertragung 

8

M+135

Rear Left Surround ‚Lsr‘

9

M-135

10

Front right center ‚FRc‘

 345

CH_M_R030

Right Back ‚Rb‘

Rear Right Surround Back center ‚Rsr‘ ‚Bc‘

CH_M_180

Top Front Left ‚Tfl‘

M+180

Rear Center ‚Cs‘

LFE-2 ‚LFE2‘

CH_M_LFE3

Top Front Right ‚Tfr‘

11

LFE1

Left Front LFE ‚LFE‘

Side left ‚SiL‘

CH_M_L090

Top Back Left ‚Tbl‘

12

LFE2

Right Front LFE ‚LFE2‘

Side right ‚SiR‘

CH_M_R090

Top Back Right ‚Tbr‘

13

U+000

Center Front Vertical Height ‚Cv‘

Top front left ‚TpFL‘

CH_U_L045

Top Side Left ‚Tsl‘

14

U+045

Left Front Vertical Height ‚Lv‘

Top front right ‚TpFR‘

CH_U_R045

Top Side Right ‚Tsr‘

15

U-045

Right Front Vertical Height ‚Rv‘

Top front center ‚TpFC‘

CH_U_000

Top Front Center ‚Tfc‘

16

U+090

Left Vertical Height Side Surround ‚Lvss‘

Top center ‚TpC‘

CH_T_000

Top Back Center ‚Tbc‘

17

U-090

Right Vertical Height Side Surround ‚Rvss‘

Top back left ‚TpBL‘

CH_U_L135

Top Center ‚Tc‘

18

T+000

Top Center Surround Top back right ‚Ts‘ ‚TpBR‘

CH_U_R135

Low-Frequency Effects 2 ‚LFE2‘

19

U+135

Left Surround Vertical Height Rear ‚Lvr‘

Top side left ‚TpSiL‘

CH_U_L090

Bottom Front Left ‚Bfl‘

20

U-135

Right Surround Vertical Height Rear ‚Rvr‘

Top side right ‚TpSiR‘

CH_U_R090

Bottom Front Right ‚Bfr‘

21

U+180

Centre Vertical Height Rear ‚Cvr‘

Top back center ‚TpBC‘

CH_U_180

Bottom Front Center ‚Bfc‘

22

L+000

Centre Front Vertical Bottom front Bottom center ‚Cb‘ ‚BtFC‘

CH_L_000

Back Center ‚Cb‘

23

L+030

Left Front Vertical Bottom ‚Lb‘

Bottom front left ‚BtFL‘

CH_L_L045

Left Wide ‚Lw‘

24

L-030

Right Front Vertical Bottom ‚Rb‘

Bottom front right ‚BtFR‘

CH_L_R045

Right Wide ‚Rw‘

346 

 5 Tonaufnahme und Tonwiedergabe

Tab. 5/17. Unterschiedliche Wiedergabesysteme mit assoziiertem Codec und Markennamen. Anzahl der Wiedergabekanäle

zugeordnetes Wiedergabeformat

Bezeichnung nach ITU-R BS.2051

Markennamen und Codecs

1

Mono

1.0

0+1+0

2

Stereo

2.0

0+2+0

mp3, (xHE-)AAC

6

3/2 (ITU-R BS.775)

5.1

0+5+0

Dolby Digital, Dolby Pro Logic II, MPEG Surround, HE-AAC

8

7.1 Surround

7.1

0+7+0

8

5/2 (7.1)

7.1

0+7+0

Dolby 7.1, Dolby Digital Plus, DTS-HD Sony SDDS

10

9.1

9.1

4+5+0

Auro 3D 9.1, DD+JOC (Atmos), Dolby AC-4, MPEG-H

12 12

11.1 11.1

11.1 11.1

5+5+1 4+7+0

Auro 3D 11.1 MPEG-H, Dolby Digital+JOC (Atmos), Dolby AC-4

14 14

13.1 13.1

13.1 13.1

6+6+0 5+5+3

Auro 3D 13.1 Sony 360 Reality Audio, MPEG-H

24

NHK 22.2

22.2

9+10+3

MPEG-H, Dolby AC-4

5.5.2 Objektbasierte Verfahren Objektbasiertes Audio ist eine Audiodarstellung, bei der die Elemente der auditiven Szene voneinander getrennt sind und durch beschreibende Metadaten begleitet werden. Ein Renderer am Empfangsgerät interpretiert die Metadaten und erzeugt auf Basis der Eingangssignale die Ausgangssignale, die für das zur Verfügung stehende Wiedergabesystem am besten geeignet sind. Metadaten können sich im Laufe der Zeit ändern, zum Beispiel um Bewegungen von Audioobjekten zu realisieren. Außerdem kann ein objektbasierter Ansatz es ermöglichen, den Benutzer mit den Audioinhalten interagieren. Im Folgenden sind Grundprinzipien der objektbasierten Audiowiedergabe erläutert. Weitere Ausführungen finden  sich in Kap. 13.2.5 und Kap. 18.6 wieder. 5.5.2.1 Grundprinzipien von objektbasierten Verfahren Objektbasiertes Audio führt neue Konzepte in die Audioproduktion ein, mit Konsequenzen für die gesamte Verarbeitungskette von der Produktion bis zur Wiedergabe, dementsprechend auch für Codierung und Übertragung der Audiosignale. Objektbasiertes Audio erweitert die bekannte kanalbasierte Wiedergabe (siehe Kap. 5.5.1). Werden bei kanalbasierten Systemen Audiosignale zu Lautsprechersignalen gemischt, übertragen und wiedergegeben,  so werden bei objektbasiertem Audio, Audioelemente als einzelne Objekte mit beschreibenden Metadaten erzeugt und an einen Renderer übergeben. Das Ergebnis einer objektbasierten Produktion ist, im Gegensatz zu einer traditionellen kanalbasierten Produktion, kein final abgemischtes Signal für ein bestimmtes Lautsprecherfor-

5.5 Verfahren der räumlichen Tonübertragung 

 347

mat, beispielsweise Stereo oder 5.1, sondern eine flexibel definierbare Anzahl von Signalen zusammen mit einer Beschreibung ihrer Eigenschaften mit Hilfe sog. Objektmetadaten (siehe Kap. 5.5.2.4). Der Renderer generiert auf Basis der beschreibenden Metadaten in Abhängigkeit des verfügbaren Wiedergabesystems etwa die Position der Objekte im Raum oder die Lautsprechersignale. So kann eine Produktion aus einer bestimmten Anzahl, z. B. 16 oder 24, von Objektsignalen bestehen, die einzelne Instrumente oder Singstimmen abbilden. Audioobjekte können  sowohl Mono-Punktschallquellen  sein, welche  mit Eigenschaften wie Position, Pegel, Ausdehnung und Wichtigkeit beschrieben werden, als auch  mehrkanalige Signale, die gemeinsam ein Objekt bilden, das wieder mit Eigenschaften wie Position, etc. beschrieben wird. Wichtig hierbei ist, dass Audioobjekte nur dann als Objekte bezeichnet werden können, wenn ihre beschreibenden Metadaten von Produktion bis Wiedergabe am Endgerät vorhanden bleiben. Die Positionierung eines Audiosignals in einem Raum, beispielsweise mit Hilfe eines 3D-Panners, kann nur dann objektbasiert sein, wenn die Positionsdaten bis zu dem Renderer verfügbar sind. Werden bereits in der Produktion Lautsprechersignale erzeugt, spricht man weiterhin von kanalbasierten Verfahren.  Ein weiteres Beispiel ist ein hybrider Ansatz aus einer kanalbasierte Basismischung, dem sog. „Bed“, z. B. im 5.1 oder 5.1+4H Format, in Kombination mit zusätzlichen Objektsignalen z. B. für Sprache. Hierbei werden die Objekte separat vom kanalbasierten Bed, jedoch im gleichen Übertragungsstrom zum Wiedergabesystem transportiert, was eine Nutzerinteraktion ermöglichen kann. Beispielsweise kann der Dialog am Empfangsgerät im Pegel oder Position verändert werden, ohne das kanalbasierte Bed zu beeinflussen, um dadurch die Sprachverständlichkeit zu beeinflussen (siehe Kap. 13.4.6.4 oder Kap. 18.8.7). Objektbasiertes Audio bietet also eine weitreichende Flexibilität in der Produktion, die dadurch nicht direkt auf ein bestimmtes Zielformat ausgerichtet ist. Ein Vorteil dieses Konzepts ist, dass das übertragene Signal auf der Decoder-Seite flexibler auf unterschiedliche Wiedergabesituationen angepasst werden kann als eine auf ein bestimmtes Lautsprecherformat festgelegte Produktion. Dies ist vor allem bei immersiven, 3D-Audio-Produktionen von Vorteil, insbesondere bei der Wiedergabe über Kopfhörer, Soundbars, oder Multi-Lautsprechersysteme (siehe Kap. 5.5.2.6). 5.5.2.2 Die Aufgaben des Renderers Ein wichtiges neues Element, das bei objektbasiertem Audio benötigt wird, ist der  sog. Audio-Renderer im Empfangsgerät, bzw. im Decoder (siehe Kap.  13.4.6.1 oder Kap.  18.8.7) und während der Produktion als Teil des Monitorings. Der Renderer interpretiert die Metadaten und erzeugt auf Basis der Eingangssignale die sog. gerenderten Signale, also die Signale für das zur Verfügung stehende Wiedergabesystem. Jedes Empfangsgerät verfügt über einen eigenen Renderer, der für dieses Gerät die bestmöglichen Wiedergabesignale erzeugt. Beispielsweise benötigt eine Heimkinoanlage einen flexiblen Renderer, da  mehrere Lautsprecher an verschiedenen Positionen im Raum aufgestellt  sein können, während bei einem Fernsehgerät die internen Lautsprecher an bekannten Positionen fixiert sind. Audio-Renderer beinhalten typischerweise unterschiedliche Module, die auf Basis der Eingangssignale und deren Metadaten aktiviert werden. Neben objektbasierten Audioin-

348 

 5 Tonaufnahme und Tonwiedergabe

halten können Audio-Renderer auch kanalbasierte Signale verarbeiten. Dabei wird mittels Metadaten definiert, welches Modul die Eingangssignale  mit welchen Eigenschaften auf ein zur Verfügung stehendes Wiedergabesystem rendert. So kann eine 3D-Audio Produktion an alle Arten von Empfangsgeräten gleichermaßen übertragen werden. Der Audio-Renderer übernimmt die Audiosignale vom Decoder und passt die Ausgangssignale auf Basis der Metadaten an das Zielformat an, unabhängig davon, ob beispielsweise bei einer kanalbasierten Produktion die Lautsprechersignale im Empfangsgerät direkt als Ausgangssignale verwendet werden können oder über einen Downmix in ein niedriges Kanalformat angepasst werden müssen. Je nach Audiosystem können die Metadaten auch Informationen über die Downmix-Parameter beinhalten, um  somit produktionsseitig das Rendering zu beeinflussen. Eine 3D-Audio Produktion kann somit an alle Empfangsgeräte gleichermaßen übertragen werden, und in diesem kann dann das Rendern in die Ausgangssignale mittels Metadaten gesteuert werden (siehe auch  Kap. 5.5.2.4). Ein weiteres Beispiel  sind dynamische  Pegelsequenzen, die produktionsseitig definierte Lautstärkeautomation beinhalten. Die Pegel der Audioelemente können im Audio-Renderer gesteuert werden, um unterschiedliche dynamische Mischungen von Kanälen und Objekten zu ermöglichen, die während der Wiedergabe je nach persönlicher Präferenz oder den Abhörbedingungen manuell oder automatisch gewählt werden können. So kann das sog. Ducking über Metadaten dazu verwendet werden, die Lautstärke eines Elements der Audioszene, z. B. das kanalbasierte Bed automatisch zu verringern, damit ein weiteres Element, z. B. der Dialog, besser zu hören ist. Im Renderer werden außerdem auf Basis der gemessenen Programmlautheit meist nach ITU-R BS.1770-4  die Wiedergabesignale in eine Ziellautheit normalisiert. In Abhängigkeit der Einstellungen am Empfangsgerät, z. B. − 31 LUFS für Heimkinoanlagen, − 24 LUFS für Fernsehgeräte, − 16 LUFS für mobile Geräte oder unterschiedliche Profile wie „Late Night“ oder „Noisy Environment“ kann somit der Dynamikumfang eingeschränkt und individuell angepasst werden. Für das Rendern von Objektsignalen können unterschiedliche Prinzipien zur Generierung der Ausgangssignale eingesetzt werden. Gängige Verfahren, die auch in der Praxis eingesetzt werden, sind beispielsweise Vector Base Amplitude Panning (VBAP) [Pulkki, 1997], PositionBased Panning, z. B. Triple-Balanced Panning [Tsingos, 2018] oder Polygon-Based Panning, z. B. Edge Fading Amplitude Panning (EFAP) [Borss, 2014]. Ein Ziel haben alle Objektrenderer gemeinsam: die Generierung der Ausgangssignale auf Basis des zur Verfügung  stehenden Wiedergabesystems in Abhängigkeit der Metadaten. Objektmetadaten können hier, neben Positionsdaten in einem kartesischen Koordinatensystem mit x-, y- und z-Achse oder einem Polarkoordinatensystem mit Azimut, Elevation und Distanz, auch Informationen über Pegel, Wichtigkeit und Dynamic Range Control beinhalten (siehe Kap. 13.2.4). Für die Kopfhörerwiedergabe oder auch bei der Wiedergabe über Soundbars oder smart speaker kann als Nachverarbeitung noch ein Binaural-Renderer (siehe Kap.5.5.5) oder ein Virtualisierer folgen (siehe Kap. 5.5.2.6). Alternativ kann auch ein für den Anwendungsfall optimierter Renderer eingesetzt werden, der die Objektsignale direkt für Kopfhörer bzw. für eine Soundbar aufbereitet. Während der Produktion spielt der Audio-Renderer im Monitoring eine wichtige Rolle, um das Ausgangssignal abhören zu können und die verschiedenen Wiedergabesituationen, wie sie in den Endgeräten auftreten können, zu kontrollieren. 

5.5 Verfahren der räumlichen Tonübertragung 

 349

5.5.2.3 Personalisierung und Interaktion Ein weiterer wesentlicher Vorteil von objektbasiertem Audio ist die Möglichkeit zur Interaktion im Endgerät. Dadurch kann die Wiedergabe personalisiert werden, beispielsweise kann der Dialog für eine bessere Sprachverständlichkeit herausgehoben werden. Anweisungen an das Endgerät in Form der Objekt-Metadaten sorgen dafür, dass die Art und der Umfang der Personalisierung nicht unkontrolliert sind, sondern nur in einem während der Produktion vorgegebenem Rahmen vorgenommen werden kann. Während des Monitorings ist es wichtig, dass das Verhalten des Endgeräts  simuliert werden kann. Dabei können die Auswirkungen der Nutzerinteraktivität kontrolliert werden und alle  möglichen Varianten abgehört werden. Falls dabei ein unerwünschtes Verhalten hörbar wird, beispielsweise ein zu starker Eingriff in das Mischungsverhältnis von Dialog mit dem restlichen Signal, können die Metadaten entsprechend geändert und die Änderungen sofort wieder überprüft werden. Digitale Audioworkstation Metadatenerstellung / Rendering Aufnahme

Schnitt

Klangbearbeitung

3D Panning Kanal-Bed Objekte

Erstellung weiterer Metadaten

Monitoring Renderer

Export des Masters

Master Wellenform + Metadaten

Lautsprecher Kopfhörer

Abb. 5/73. Signalfluss für Objektsignale in der Produktion, von den Quellensignalen, über Panner, Renderer, Erstellung von Metadaten, über das Monitoring bis zum Ausgabeformat, dem Masterformat.

5.5.2.4 Metadaten Ein wesentliches Element bei objektbasiertem Audio  sind beschreibende Metadaten, welche während aller Verarbeitungsschritte eng  mit den einzelnen Audiosignalen verknüpft sein müssen. Metadaten können sowohl statisch sein, z. B. semantische Informationen wie „Dialog“, als auch dynamisch, wie z. B. eine sich zeitlich verändernde Positionsbeschreibung für eine räumlich angepasste Wiedergabe. Im Wiedergabegerät dienen diese Metadaten einerseits als Anweisungen für den Audio-Renderer (siehe Kap 5.5.2.2), andererseits beschreiben sie die Interaktionen, die im Wiedergabegerät zur Personalisierung möglich und zulässig sind. Alle Metadaten entstehen während der Produktion (siehe Abb.  5/73), z. B. die Positionsdaten im 3D-Panner bei der räumlichen Anordnung der Objektsignale, und werden im Renderer angewandt, damit die Gesamtmischung sofort auf dem Ausgabesystem abgehört werden kann (Monitoring). Am Ende des Produktionsprozesses werden die Metadaten zusammen  mit den Audiodaten der Objektsignale in einem Masterformat gespeichert. Ein Beispiel, das in Masterformaten zur Metadatenbeschreibung verwendet wird, ist das „Audio Definition Model“ (ADM), das unten noch genauer beschrieben wird.

350 

 5 Tonaufnahme und Tonwiedergabe

Ausgehend vom Masterformat müssen die Metadaten während der Codierung und Übertragung erhalten bleiben (siehe auch Kap. 13.2.5 und Kap. 18.8.7) und stets mit dem dazugehörigen Audiosignal verknüpft bleiben. Audiocodecs für objektbasiertes Audio benötigen also zwingend ein Metadatenmodell (siehe Kap. 13.2.5), das die Metadaten aus der Produktion abbildet und so als Teil des codierten Bitstroms bis zum Wiedergabegerät und AudioRenderer transportiert. Die Metadaten für objektbasiertes Audio können in folgende Hauptkategorien eingeteilt werden: Quellenbeschreibende Metadaten: –– Positionsdaten, entweder auf den Zuhörer bezogen (egozentrisch) in Polarkoordinaten (Azimut, Elevation, Distanz) oder auf den Wiedergaberaum bezogen (allozentrisch) in kartesischen Koordinaten (x-, y-, z-Achse), –– Lautstärke, –– weitere Eigenschaften, wie eine virtuelle Ausdehnung einer Quelle, im Gegensatz zu Punktquellen. Inhaltliche und strukturelle Metadaten: –– Art des Objekts, z. B. Dialog, –– Gruppenzuordnungen: Kombination  mehrerer Objekte/Signale, die als eine Einheit behandelt werden sollen, –– Zusammenstellungen aller Objekte bzw. Signale sowie Mischungsverhältnisse zu einer Auswahlkombination für eine Wiedergabesituation, je nach Metadatenmodell werden dafür unterschiedliche Begriffe verwendet, in ADM „audioProgramme“ (siehe unten), in MPEG-H 3D Audio „Preset“ (siehe Kap.  13.4.6), oder in AC-4 „Presentation“ (siehe Kap. 13.4.7.4). –– Textuelle Beschreibungen aller Objekte, Gruppen bzw. Vorauswahlvarianten, die während der Wiedergabe zur Personalisierung angezeigt werden können. Metadaten zur Steuerung der Wiedergabe: –– Erlaubnis, bzw. Verhinderung nutzerseitiger Eingriffe, z. B. die Lautstärke oder Position einzelner Objekte innerhalb vorgegebener Grenzen während der Wiedergabe zu verändern, –– Zuordnung von Objekten zu einer Auswahlgruppe, aus der während der Wiedergabe genau ein Objekt gewählt werden kann. Objekte, die durch diese Metadaten beschrieben werden, können neben Mono-Punktquellen auch mehrkanalige Untermischungen sein, die im Raum frei platziert bzw. bewegt werden können, bis hin zu kanalbasierten Basismischungen, die an einer festen Raumposition verankert sind. Alle quellenbeschreibenden Metadaten können  sowohl  statisch, zeitlich unverändert, als auch dynamisch, also zeitlich veränderbar sein. Die Metadaten der anderen oben genannten Kategorien sind typischerweise für eine komplette Produktion, bzw. einen Produktionsabschnitt unverändert, also statisch. Beispiele zeigt Tab. 5/18.

5.5 Verfahren der räumlichen Tonübertragung 

 351

Tab. 5/18. Beispiele für Metadaten basierend auf der ADM-Syntax nach ITU-R BS. 2076. Beispiele für Quellen beschreibende ADM-Metadaten position width, height, depth, diffuse channelLock zoneExclusion screenRef importance integratedLoudness mute

statische Lautsprecherposition für kanalbasierte Audiosignale dynamische Positionsdaten für objektbasierte Audiosignale Ausdehnung und Korrelationseigenschaften eines Objekts Bevorzugung der Wiedergabe eines Objekts über einen Einzellautsprecher gegenüber dessen Wiedergabe über mehrere Lautsprecher Definition von Raumbereichen für die Wiedergabe eines Objekts Objekt mit Bezug zum Bildschirminhalt Wichtigkeit eines Objekts für die Audioszene Lautheit eines Objekts Aktivität eines Objekts

Beispiele für strukturelle und inhaltliche ADM-Metadaten dialogue audioProgramme audioContent audioObject

Beschreibung der Art eines Objekts Zusammenstellung vorhandener Objektgruppen zu einer Auswahlkombination Definition von Objektgruppen, die typischerweise in Kombination mit anderen Objektgruppen innerhalb einer Audioszene wiedergegeben werden. Definition von Objekten durch Verknüpfung von Audiosignalen mit Metadaten

Beispiele für ADM-Metadaten zur Wiedergabesteuerung gain, positionOffset gainInteractionRange positionInteractionRange

Veränderung von Lautstärke und Position eines Objekts Definition von Grenzen für die zulässige Lautstärkeänderung eines Objekts Definition von Grenzen für die zulässige Positionsänderung eines Objekts

Eine  standardübergreifende Beschreibung von Metadaten für objektbasiertes Audio liefert das sog. Audio Definition Model (ADM), das von der ITU-R in der Empfehlung BS.2076 spezifiziert wurde. Tab 5/18 zeigt einige Beispiele von ADM Metadaten, welche auch auf objektbasierte Audiocodecs abgebildet werden können (siehe Kap. 13.4.6 und Kap. 13.4.7.4). 5.5.2.5 Universelle Übertragung Die traditionelle Übertragung von Stereosignalen verwendet eine gut definierte Infrastruktur von Produktion bis hin zur Wiedergabe meist über Fernsehgeräte, Lautsprecher oder Kopfhörer. Neuartige Übertragungswege, sowie neue Klassen von Wiedergabegeräten in Kombination  mit kanal- und objektbasiertem 3D-Audio lassen jedoch zukünftig eine Vielzahl an Interpretationen während der Produktion zu. Beispielswiese betrifft die folgenden Aspekte: –– Wie ist das Produktionslayout der 3D-Audio Produktion? –– Wie wird das Produktionslayout im Endgerät wiedergegeben? –– Unter welchen Abhörbedingungen bzw. an welchem Ort werden die Inhalte wiedergegeben? –– Welches Gerät wird zur Wiedergabe verwendet, z. B. Fernsehgerät, Smartphone, Tablet, Soundbar oder Car-Audio?

352 

 5 Tonaufnahme und Tonwiedergabe

–– Welche Interaktionsmöglichkeiten während der Wiedergabe  sind  mittels Audioobjekten möglich? –– Werden die Signale über Rundfunk oder Streaming empfangen? Neue Klassen von Wiedergabegeräten und Übertragungsplattformen bzw. -infrastrukturen haben an Bedeutung gewonnen und entwickeln  sich  ständig weiter. Aus Konsumentensicht sollten die Eigenschaften der Audioinhalte den individuellen Hörbedingungen und Vorlieben entsprechen, unabhängig von Produktionsverfahren und Übertragungskanal.  Eine Entkopplung des Produktions- und Monitoringformats vom Wiedergabeformat in den Endgeräten ermöglicht eine flexible Anpassung der Audioinhalte und hilft somit mit dieser großen Variabilität der Hörumgebungen und Wiedergabesituationen umzugehen. Statt einer Vielzahl von dedizierten Mischungen und Ausgangsformaten wie Stereo, 5.1 oder immersiv wird nur ein einziges, universelles Masterformat erzeugt, aus dem dann vom Audiocodec ein einziger Bitstrom erzeugt wird (siehe Kap. 13.4.6 und Kap. 13.4.7.4), der an alle unterschiedlichen Endgeräte übertragen werden kann. Die Kombination aus dem Renderer (siehe Kap. 5.5.2.2) und Metadaten (siehe Kap. 5.5.2.4) nimmt hier eine zentrale Rolle, sowohl in Produktion als auch Wiedergabe, ein. Bereits während der Produktion ist es entscheidend, die unterschiedlichen Renderingsignale der möglichen Wiedergabesysteme, z. B. 3D-AudioFormate, 5.1 oder Stereo abhören zu können. Von Bedeutung ist daher die Erstellung der Metadaten am Ort der Produktion, um das Rendererverhalten im Endgerät zu  simulieren. Produktionswerkzeuge für die Erstellung der Metadaten, sowohl in Live- als auch in der Postproduktion, beinhalten deshalb einen universellen Renderer, der dem eines Endgeräts entspricht. Der Renderer im Endgerät erzeugt auf Basis der Eingangssignale und Metadaten die Ausgangssignale, zur optimalen Wiedergabe in Abhängigkeit des verfügbaren Wiedergabesystems und äußeren Einflüssen, wie Umgebungsgeräusche oder Nutzerpräferenzen (siehe auch Kap. 5.5.2.2). 5.5.2.6 Flexible Wiedergabemöglichkeiten 3D-Audiosysteme ermöglichen  mit immersiven und ggf. auch interaktiven Audioinhalten einen deutlichen Mehrwert für allen Arten von Audioinhalten. Neben den konventionellen Ansätzen zur Wiedergabe, welche die Installation einer hohen Anzahl von Lautsprechern und technisches Wissen für den Aufbau erfordert, werden vermehrt auch Soundbars oder Smartspeaker zur Wiedergabe verwendet. Diese Geräte sind einfach zu installieren und integrieren alle Komponenten, die für die Audiowiedergabe nötig  sind, z. B. Schnittstellen zu externen Wiedergabegeräten über HDMI oder Streaming, Sprachsteuerung, Decoder, Verstärker und Lautsprecher. Viele Soundbars sind mit einem externen Subwoofer ausgestattet, einige Modelle bieten zudem zusätzliche, drahtlos angebundene Satelliten-Lautsprecher. Die  speziellen Geräteklassen der 3D-Soundbars und 3D-Smartspeaker  haben zumeist eine höhere Anzahl an Lautsprechertreibern als herkömmliche Stereo- und Surroundgeräte  sowie eine erweiterte Signalverarbeitung. Ihr Ziel ist es, das Klangbild eines 3D-Lautsprecher-Setups virtuell nachzubilden. Um dies zu erreichen, können akustische und psychoakustische Methoden Anwendung finden.

5.5 Verfahren der räumlichen Tonübertragung 

 353

Systeme, die auf akustischen Prinzipien basieren, nutzen üblicherweise die akustischen Eigenschaften des Raums, in welchem das Wiedergabegerät platziert wird. Die akustische Energie der verschiedenen Signale wird entweder direkt über eine Vielzahl an Lautsprechern, die in verschiedene Richtungen weisend im Gehäuse angeordnet sind, oder durch Nutzung von Array-Processing in die gewünschten Richtungen verteilt. Eine gängige Methode hierfür ist z. B. Beamforming. Durch Nutzung der schallreflektierenden Eigenschaften der Decke und der Wände des Wiedergaberaums ist es möglich, den Klang auch aus anderen Richtungen als nur vom Wiedergabegerät kommend an den Hörort zu bringen. Um die individuellen Raumeigenschaften optimal zu nutzen, verwenden einige Hersteller automatisierte Einmessroutinen.  Systeme, die auf psychoakustischen Prinzipien basieren, zielen darauf ab, an den Ohren des Hörers Signale zu erzeugen, welche den Ohreingangssignalen entsprechen, die von einem Lautsprecher oder einem Audioobjekt an der  simulierten Position erzeugt würden. Eine gängige Methode hierfür ist z. B. Binauralwiedergabe mittels Crosstalkcancelation. Die Feinabstimmung einer  spezifischen Methode oder die Kombination verschiedener Methoden  sowie die charakteristische Ausgestaltung aller Einflussfaktoren bieten Herstellern einen großen Spielraum. [Olivera, 2019]

5.5.3 Schallfeldsynthese Die in Kap.  5.4 beschriebenen  mehrkanaligen  stereofonen Verfahren haben verschiedene Nachteile, wie beispielsweise die instabile Lokalisierung der Phantomschallquellen, insbesondere in  seitlichen und vertikalen Richtungen und ihre Abhängigkeit vom Standort des Hörers, oder die Größe der Hörzone, abhängig von der Aufnahmetechnik, und auch die Unmöglichkeit, den Abbildungsbereich zwischen Lautsprechern und Hörer zu nutzen. Ebenso existieren für die Binauraltechnik (Kap.  5.5.5) grundlegende Nachteile, vor allem ausschließliche Verwendung von Kopfhörern. Diese Nachteile kann die Schallfeldsynthese großenteils vermeiden. Die physikalische Synthese eines Schallfelds kann prinzipiell und mit praxisbedingten Einschränkungen mit einem Ensemble von Lautsprechern ein akustisch korrektes Schallfeld und entsprechende virtuelle Schallquellen und Räume erzeugen. Anstelle von Phantomschallquellen bilden virtuelle Schallquellen die Grundlage der räumlichen Darstellung (siehe Kap. 5.1.2., Abb. 5/1), und anstelle der Binauraltechnik mit Kopfhörer­wiedergabe entstehen die für das Hörereignis erzeugenden Ohrsignale auf natürlichem Wege im realen Schallfeld. Die eingesetzten Verfahren sind Wellenfeldsynthese (WFS) [de Vries, 2000], [Horbach, 2000], [Pellegrini, 2002]  sowie Higher-order Ambisonics (HOA) [Berkhout, 1993], [Olivera, 2019]. Bei beiden Verfahren wird mit Lautsprecherarrays – viele nebeneinander angeordnete Einzellautsprecher – ein Schallfeld in der Hörzone erzeugt, das mit einem entsprechenden realen Schallfeld identisch bzw. weitgehend identisch ist.

354 

 5 Tonaufnahme und Tonwiedergabe

5.5.3.1  Wellenfeldsynthese Prinzip der Aufnahme und Wiedergabe Die Wellenfeldsynthese oder abgekürzt WFS ist ein Verfahren, mit dem ein Schallfeld eines Raums in einem anderen Raum realistisch und weitgehend identisch nachgebildet werden kann. Wegen der Ähnlichkeit mit der optischen Holografie spricht man bei der WFS auch von Holofonie. Während bei Zwei- oder Mehrkanal-Stereofonie die Schallquellen als Phantomschallquellen auf den Linien zwischen den Lautsprechern erscheinen, wird mit der WFS ein akustischer Raum mit virtuellen Schallquellen erzeugt; diese haben prinzipiell die gleichen akustischen Eigenschaften wie reale Schallquellen. Virtuelle Schallquellen werden überall in der Hörzone ortsstabil und realistisch abgebildet und lokalisiert, auch außerhalb der Lautsprecheranordnung. Die virtuellen Schallquellen können bei entsprechenden Anlagen selbst durch den Raum wandern, sie können aber auch bedingt umwandert werden. Was das binaurale Verfahren mit Kunstkopfaufnahme und Kopfhörerwiedergabe leistet, nämlich die realistische Simulation von Hörereignissen, leistet die WFS für Lautsprecherwiedergabe. Das Verfahren wurde ab 1988 an der Technischen Universität Delft entwickelt und dort auch das erste Mal in einem Demonstrationssystem mit 160 Lautsprechern realisiert. Weitere Forschungen und Entwicklungen erfuhr die WFS mit dem 2001 bis 2003 von der EU geförderten Projekt CARROUSO, an dem  mehrere Universitäten, Institute und Firmen beteiligt waren. In den vergangenen Jahren wurden im öffentlichen Bereich verschiedene WFS-Systeme installiert, z. B. für die Bregenzer Festspiele und die Seefestspiele Mörbisch sowie an verschiedenen Universitäten; die TU Berlin verfügt in einem Saal mit 650 Plätzen über eine Anlage mit 2.700 Lautsprechern. Die Wellenfeldsynthese ist eine Simulation auf einer horizontalen Fläche im Raum. Eine große Zahl von Lautsprechern ist auf Kopfhöhe angeordnet, optimal als Lautsprecherkreis. Der Bereich, in dem die Hörbedingungen optimal sind, die Hörfläche, ist begrenzt durch die endliche Zahl an Lautsprechern,  sie ist aber  sehr groß verglichen  mit herkömmlicher Stereofonie, bei der optimale Hörbedingungen nur an einem einzigen Ort, dem Sweet Spot, bestehen. Die vertikale Dimension wird bei der WFS derzeit aus praktischen Gründen und wegen des hohen Aufwands nicht realisiert, auch weil die Richtungswahrnehmung in der Vertikalen deutlich geringer ausgebildet ist als in der Horizontalen. Grundsätzlich aber ist das Prinzip nicht auf zwei Dimensionen beschränkt; so wurde schon 1965 im physikalischen Institut der Universität Göttingen ein System mit 65 Lautsprechern in einer Halbkugelanordnung realisiert. Das physikalische Prinzip der WFS ist das sog. Huygens-Prinzip, das der niederländische Universalgelehrte Christian Huygens im 17. Jahrhundert für die Ausbreitung des Lichts entdeckt hatte. Danach kann jede von einer Quelle beliebiger Form und Ausdehnung erzeugte Wellenfront – und damit auch sich ausbreitender Schall – als Summe von unendlich vielen Einzel- oder Elementarwellen betrachtet werden, die sich, jede für sich, kugelförmig ausbreiten. Durch Überlagerung aller Elementarwellen entsteht eine neue Wellenfront, die mit der ursprünglichen Wellenfront identisch ist. Sind Schalldruck und Schallschnelle aller Punkte der Umgrenzung einer geschlossenen Fläche bekannt – oder eines Volumens im dreidimensionalen Modell, kann der Schalldruck jedes Punkts in dieser Fläche bzw. in diesem Volumen berechnet werden. Jedes Schall­feld kann demnach theoretisch durch unendlich viele Laut-

5.5 Verfahren der räumlichen Tonübertragung 

 355

sprecher nachgebildet werden. In der Nachbildung ergibt sich die ursprüngliche Schallquelle als sog. virtuelle Schallquelle. Der sog. akustische Vorhang zeigt nochmals anschaulich das Prinzip der WFS: Wenn in die Wand zwischen einem Aufnahmeraum und einem Wiedergaberaum dicht nebeneinander Löcher gebohrt würden,  so könnte  man die Schallereignisse durch diese Wand perfekt hören. Man kann nun jedes dieser Löcher durch ein Mikrofon und einem Lautsprecher mit gleichen Richtcharakteristiken ersetzen, das ergibt den sog. akustischen Vorhang (Abb. 5/74).

Abb. 5/74. Prinzip des akustischen Vorhangs.

Anders als beim Prinzip des akustischen Vorhangs werden bei der Wellenfeldsynthese aber nicht die einzelnen Signale des Mikrofonarrays übertragen,  sondern getrennt die trocken, also ohne Raumanteile, aufgenommenen Signale der Schallquelle und die des Raumanteils. Vor oder nach der Aufnahme wird zur Ermittlung der akustischen Eigenschaften des Aufnahmeraums eine  sog. Raumimpulsantwort aufgenommen, gemessen und abgespeichert (Abb.  5/75, oben). Regt  man einen Raum  mit einem Knall, einem  sog. Dirac-Impuls, zum Schwingen an, so gibt der Raum darauf eine Impulsantwort, er hallt nach. Diese Impulsantwort stellt quasi einen Fingerabdruck des Raums dar. aus dem alle wichtigen akustischen Kriterien des Raums wie Nachhallzeit, Klarheitsmaß usw. abgeleitet werden können. Der Raum wird also bei der WFS getrennt von der Gestalt der Schallquelle übertragen, man spricht von objektorientierter Übertragung. Die Aufnahme des Direktschalls erfolgt nahe an der Schallquelle. Durch die Trennung von Gestalt und Raum oder Direkt- und Diffusschall kann der Aufnahme auch die Akustik eines anderen Aufnahmeraums zugeordnet werden, die Schallquellen sozusagen in einen akustisch besser geeigneten Raum versetzt werden. Wiedergabeseitig werden Klanggestalt und Raum im Wave Field-Synthesizer durch einen  mathematischen Prozess wieder zusammengefügt (convolution). Das „trockene“ Quellsignal wird dabei mit der vorliegenden Impulsantwort des Raums verrechnet, man sagt

356 

 5 Tonaufnahme und Tonwiedergabe

gefaltet (FIR-Filterung) und den Lautsprecherkanälen zugeführt (Abb.  5/75, unten). Die Schallquelle erhält also ihre ursprünglichen räumlichen Eigenschaften im Prinzip vollständig zurück.

Abb. 5/75. Prinzip der Wellenfeldsynthese.

Die Raumimpulsantworten können auch nach Maßgabe eines raumakustischen Modells dynamisch berechnet und ebenso wie gemessene Raumdaten abgespeichert werden. Im Gegensatz zum datenbasierten Verfahren, welches die Reproduktion der originalen Raumakustik erlaubt, erzeugen die modellbasierten Verfahren mit berechneten Raumimpulsantworten synthetische Räume. Im wiedergabeseitigen WFS-Prozessor können Impulsantwor-

5.5 Verfahren der räumlichen Tonübertragung 

 357

ten beliebiger Räume als Datensätze gespeichert vorliegen und wahlweise eingesetzt werden. [Berkhout, 1993], [Boone, 1995], [Horbach, 2000], [de Vries, 2000], [Pellegrini, 2002], [Theile, 2002], [Wittek, 2004]. Fähigkeiten der Wellenfeldsynthese Die Wellenfeldsynthese ist ein leistungsfähiges System für eine räumliche, perspektivisch überzeugende Gestaltung der akustischen Szene. Die typischen Schwächen der konventionellen Lautsprecher-Stereofonie gibt es grundsätzlich nicht, ihre besonderen Merkmale sind:

Abb. 5/76. Die WFS ermöglicht die Wiedergabe sowohl von ortsfesten Punktquellen (PQ 1, PQ 2) als auch von stabilen Einfallsrichtungen ebener Wellen im gesamten Bereich der Hörfläche.

–– Virtuelle Punktschallquellen können an jedem Ort im Wiedergaberaum an der gleichen Stelle der Szene wie im Aufnahmeraum lokalisiert werden, auch im Bereich zwischen dem Hörer und den Lautsprechern,  solange  sich der Hörer innerhalb der Hörfläche bewegt. In Abb. 5/76 sind die Hörereignisrichtungen an unterschiedlichen Orten für zwei Punktquellen PQ 1 und PQ 2 angedeutet. –– Es können ebene Schallwellen entsprechend einer unendlich großen Entfernung der virtuellen Quellen erzeugt werden. Die Hörereignisrichtung ist an jedem Ort der Hörfläche dabei dieselbe,  sie wandert  mit dem Hörer wie die Sonne (Abb.  5/76). Dabei wird die Richtung ebenso präzis wahrgenommen wie bei Punktschallquellen.

358 

 5 Tonaufnahme und Tonwiedergabe

–– Es entsteht eine realistische Perspektive durch ortsfeste Punktschallquellen und Präsenz in der virtuellen akustischen Szene. –– Der Hörer wird umhüllt durch einen realistisch empfundenen Raumeindruck mit einer ausgewogenen Hallbalance in weiten Bereichen der Hörzone mit Hilfe der Synthese von ebenen Wellen für die Wiedergabe des Nachhalls bzw. der Atmo. Insgesamt ist die Synthese komplexer akustischer räumlicher Szenen möglich, die der Hörer besonders realistisch erleben kann, wenn er in der Hörzone umherwandert. Abb. 5/76 deutet an, in welcher Weise sich der Höreindruck bei Wechsel des Hörorts verändert. Darüber hinaus hat sich gezeigt, dass im Vergleich zur Stereofonie die Wellenfeldsynthese eine gesteigerte räumliche Transparenz gewährleisten kann. Einschränkungen in der Praxis Die theoretischen Möglichkeiten der Wellenfeldsynthese sind in der Praxis nicht ohne Einschränkungen realisierbar. Aufnahme- und wiedergabeseitig gibt es praktische Zwänge und technische Unzulänglichkeiten, die das Ergebnis in vielen Situationen negativ beeinflussen. Die folgende Aufzählung lässt erkennen, dass das System in der Theorie zwar hervorragende Eigenschaften zeigt, eine praktische Umsetzung mit ihren Einschränkungen aber noch viele Forschungsaufgaben bereithält: –– Spatial Aliasing: Der unvermeidbare Abstand der Array-Lautsprecher voneinander verursacht oberhalb einer Grenzfrequenz räumliche und  spektrale Fehler. Oberhalb dieser Spatial Aliasing-Frequenz kann das Schallfeld physikalisch bedingt nicht  mehr korrekt  synthetisiert werden. Beträgt der  minimale gegenseitige Abstand für größere Lautsprecher z. B. 20 cm, so ist die Grenzfrequenz 1 kHz. Nur das Spektrum unterhalb dieser Frequenz kann vom Gehör für die Lokalisierung der virtuellen Schallquellen ausgewertet werden. –– Spatial Truncation: Die Theorie geht von einem unendlich langen Lautsprecher-Array aus. Bei begrenzten Array-Abmessungen entstehen von den Rändern her Beugungswellen, die sich als Nach- und Vorechos bei fokussierten Schallquellen bemerkbar machen und Klangverfärbungen verursachen können. Es gibt jedoch Methoden zur Reduzierung dieser Effekte, z. B. die Anwendung von tapering windows, welche die Amplituden der äußeren Lautsprechersignale reduzieren. Dies verkleinert allerdings auch die Hörfläche. –– Spatial Interference: Ein WFS-Array kann das angestrebte Schallfeld nicht optimal synthetisieren, wenn  störende Reflexionen des Wiedergaberaums hinzukommen. Dies wirkt  sich besonders aus auf die Wahrnehmung von Entfernungen, der räumlichen Tiefe sowie des Raumeindrucks. Das Gehör ist äußerst empfindlich und erkennt die reale Situation von Lautsprecher und Wiedergaberaum bevorzugt, auch auf Grund visueller Informationen. Das „Eigenleben“ des Wiedergaberaums muss stark unterdrückt werden, damit die virtuellen Schallquellen und der virtuelle Raum nicht verdeckt werden. –– Beschränkung auf die horizontale Ebene: Die durch die praktische Realisierbarkeit bedingte Beschränkung auf die horizontale Ebene hat verschiedene Nachteile. Zunächst ist klar, dass in einer horizontalen Anordnung der Arrays nur virtuelle Quellen in der Horizontalebene  synthetisiert werden können. Auch die Reproduktion des indirekten Schalls ist auf die horizontale Ebene beschränkt, obwohl zur Messung der Raumimpul-

5.5 Verfahren der räumlichen Tonübertragung 

 359

santwort bei den üblichen Methoden nahezu alle Reflexionen im oberen und unteren Halbraum erfasst werden. Das nur zweidimensionale Reflexionsmuster ist entsprechend ungenau und kann die Wahrnehmung von Raumeindruck und Umhüllung negativ beeinflussen. Hinzu kommt, dass eine Kugelwelle oder ebene Welle nur dreidimensional generiert werden kann. Eine mit einem Linienarray erzeugte ebene Welle beispielsweise hat dann die Form eines Zylinders, der das Array umgibt. Deshalb nimmt im Gegensatz zu einer idealen ebenen Welle ohne Pegelabnahme der Pegel mit der Entfernung um 3 dB bei Verdopplung der Entfernung ab. –– Erforderliche Übertragungskapazität: Bei der Wellenfeldsynthese  steigt die Zahl der erforderlichen Übertragungskanäle etwa proportional  mit der Anzahl der zu übertragenden Schallquellen. Für den erfolgreichen Einsatz der WFS müssen in der Mehrzahl der Anwendungen deshalb Methoden entwickelt werden, die die Zahl der erforderlichen Kanäle für die Übertragung und Speicherung begrenzen, ohne dabei gleichzeitig die Qualität zu beeinträchtigen. –– Übertragung ausgedehnter Schallquellen: Am Beispiel der Übertragung eines Chors wird deutlich, dass das Konzept der getrennten Übertragung von Klanggestalt und Raum nicht immer praktikabel ist. Die Qualität der Aufnahme würde im Vergleich zu einer stereofonen Aufnahme nicht wachsen, wenn die Zahl der Stützmikrofone, d. h., die Zahl der zu übertragenden „trockenen“  monofonen Quellsignale der Chormitglieder oder Chorgruppen, beliebig gesteigert werden könnte. Sie wäre wahrscheinlich selbst dann nicht optimal, wenn jedes Chormitglied ein eigenes Stützmikrofon bekäme, wovon die Theorie ausgeht. Hinzu kommt, dass für jedes der Stützmikrofone die Raumimpulsantworten gemessen und diese Datensätze übertragen werden  müssten. Auf der Wiedergabeseite  müssen entsprechend viele der rechenintensiven Operationen durchgeführt werden. Ebenso anspruchsvoll ist beispielsweise die Übertragung eines Klaviers im Konzertsaal. Ein Klavierklang setzt sich aus vielen räumlich verteilten Klangelementen zusammen, es ist keine punktförmige Schallquelle. Die reine Lehre der Wellenfeldsynthese wird dieser Aufgabe nicht gerecht. –– Übertragung der Atmo: Auch Atmo, Umgebungsgeräusche aller Art, setzen sich aus vielen räumlich verteilten Quellen zusammen, beispielsweise Applaus im Konzertsaal. Hunderte von Einzelschallquellen, die im ganzen Raum fern und nah verteilt sind, formen das Hörerlebnis Applaus oder Atmosphäre. Mit dem Konzept der binauralen Reproduktion der Ohrsignale (Kunstkopftechnik, siehe Kap. 5.5.5) ist im Prinzip eine realitätsgetreue Übertragung erreichbar. Mit Einschränkungen gilt das ebenso für Verfahren der Mehrkanal-Stereofonie. Das Konzept der Aufnahme trockener Einzelschallquellen bei der WFS kann dies aber nicht leisten. Virtual Panning Spot Die genannten praktischen Einschränkungen der Wellenfeldsynthese lassen  sich zum Teil mit technischen Maßnahmen mildern, das trifft besonders für die o. g. Punkte 1 bis 4 zu. Die Punkte 5 bis 7 dagegen zeigen, dass die getrennte Übertragung von Einzelquellen und Rauminformationen offenbar in vielen Fällen wenig  sinnvoll ist. Die Lautsprecher-­ Stereofonie besitzt aber erstaunlicherweise gerade dort Stärken, wo das WFS-Übertragungsverfahren die o. g. prinzipiellen Schwächen aufweist.

360 

 5 Tonaufnahme und Tonwiedergabe

Um die Vorteile der herkömmlichen Zwei- oder Mehrkanal-Stereofonie nutzen und mit der WFS kombinieren zu können, werden sog. Virtual Panning Spots (VPS) eingeführt. Das Prinzip ist in Abb. 5/77 dargestellt. Obgleich neben dem Solisten ein Chor mit vielen Einzelschallquellen aufgenommen werden soll, werden insgesamt nur vier virtuelle Schallquellen vorgesehen. Eine davon repräsentiert den Solisten nach dem Prinzip der WFS, also  separate Übertragung der Nahfeld-Aufnahme und der dazugehörigen Raumimpulsantwort. Für die Aufnahme des Chors ist dagegen eine konventionelle stereofone Technik vorgeschaltet (L-C-R). Die Mischung sollte so beschaffen sein, dass sie einerseits wenig Rauminformation enthält, andererseits aber die flächige Verteilung der Chormitglieder in dem genannten Beispiel adäquat wiedergibt. Das dreikanalige stereofone Signal des Chors wird in der folgenden WFS-Übertragungskette wie drei diskrete Einzelquellensignale behandelt, also ebenfalls zusammen  mit den zugehörigen Raumimpulsantworten übertragen. Die drei WFS-Signale repräsentieren somit virtuelle Lautsprecher, welche das stereofone Klangbild des Chors im Aufnahmeraum wiedergeben.

Abb. 5/77. Virtuelle Panning Spots (VPS) zur Nutzung stereofoner Verfahren.

Da die Virtual Panning-Spots virtuelle Quellen darstellen, müssen wiedergabeseitig natürlich auch die passenden Raumimpulsantworten zur Verfügung  stehen. Diese können im Ursprungsraum gemessen oder synthetisiert werden. In der Praxis müssen Messungen einzelner Raumimpulsantworten bestimmter Räume nicht für jede Aufnahme neu gemessen

5.5 Verfahren der räumlichen Tonübertragung 

 361

werden, sondern stehen in einer Datenbank zur Verfügung. Das Beispiel in Abb. 5/77 stellt den Chor  mit drei VPS dar, die per Wellenfeldsynthese wiedergeben werden und dadurch hinsichtlich Lokalisierung, Ausdehnung und Entfernung relativ frei konfigurierbar sind. Die stereofone Aufnahme des Chors erzeugt im Gesamtbild einen großen Klangkörper, denn es existiert eine Abbildung zwischen den VPS nach den Gesetzen der Stereofonie. Die „Lautsprecher“  sind virtuelle Quellen, per WFS generiert und  mit den räumlichen Eigenschaften des Aufnahmeraums versehen. Die Orte der VPS verhalten sich für den Bereich der Hörzone richtungsstabil. Die bekannten Nachteile der Lokalisierung der Phantomschallquellen, insbesondere die geringe Richtungsstabilität, lassen sich leicht vermeiden, indem eine ausreichende Anzahl von VPS gesetzt wird, z. B. drei bis fünf VPS für den vorderen Abbildungsbereich. Dies ist nur eine Frage der technischen Möglichkeiten während der Aufnahme und der verfügbaren Übertragungskapazität, nicht aber eine Frage der Lautsprecheranordnung beim Hörer. Das VPS-Konzept hat für die WFS-Übertragung wesentliche prinzipielle Vorteile, sowohl hinsichtlich der Wiedergabequalität als auch bezüglich der Handhabung der Aufnahmetechniken. Es basiert auf der Anwendung stereofoner Techniken, es gibt keine völlig neuen Konzepte der Mikrofonierung, die Abmischung auf die VPS-Positionen benötigt keine neuen Methoden. Neu ist allerdings, dass die Entfernungsdarstellung einfach mit der Festlegung der VPS-Positionen vollzogen wird. Wie bereits erwähnt, befindet  sich die Schallquelle bei ebenen Wellen theoretisch unendlich weit entfernt. Diese Eigenschaft ist günstig für die Darstellung von Atmo oder Umhüllung durch Nachhall. Es hat sich gezeigt, dass bereits wenige ebene Wellen aus unterschiedlichen Richtungen ausreichen, um einen als subjektiv diffus empfundenen Nachhall zu erzeugen. Schon mit heute üblichen Hallgeräten lassen sich unkorrelierte Nachhallfahnen mit mindestens vier Kanälen herstellen, die dann als ebene Wellen über das Lautsprecherarray synthetisiert werden. Virtuelle Lautsprecher Einen wichtigen Sonderfall für die VPS-Anwendung  stellt eine  spezielle wiedergabeseitige Voreinstellung der VPS dar, die die Wiedergabe von konventionellen Mehrkanal-Aufnahmen in einem virtuellen Abhörraum ermöglicht. Zu diesem Zweck sind für den wiedergabeseitigen WFS-Decoder zwei Maßnahmen vorgesehen (Abb. 5./78): –– Die Konfiguration der VPS hinsichtlich Raumimpulsantworten und räumlicher Anordnung erfolgt nicht nach Maßgabe der im WFS-Kanal übertragenden Informationen, sondern gemäß der voreingestellten Darstellung virtueller Lautsprecher in einem virtuellen Abhörraum. Beliebige Anordnungen der virtuellen Lautsprecher können voreingestellt  sein und abhängig vom wiederzugebenden Stereofonie-Format aktiviert werden. –– Die virtuellen Quellsignale werden nicht aus dem WFS-Übertragungskanal empfangen, sondern vom wiedergabeseitigen Mehrkanaldecoder, z. B. einem DVD-Player. Die WFS-Wiedergabeanlage arbeitet hier völlig losgelöst von einer WFS-Übertragung, kann aber in diesem Modus prinzipiell bereits einige attraktive Vorteile im Vergleich mit einer konventionellen Wiedergabeanlage bieten:

362 

 5 Tonaufnahme und Tonwiedergabe

–– Diverse  stereofone Mehrkanal-Formate lassen  sich problemlos durch Wahl einer VPSVoreinstellung optimal wiedergeben, ohne die Lautsprecheranordnung z. B. im Wohnzimmer entsprechend anpassen zu müssen. –– Auch in beengter Raumsituation ist durch die größeren Entfernungen der virtuellen Lautsprecher die Hörzone für Mehrkanal-Stereofonie ausreichend groß. –– Ebene Wellen für die Surround-Signale vergrößern die Hörzone, weil der Schalldruckpegel bei Verdopplung der Entfernung nur um 3 dB abnimmt und die Hörereignisrichtung in der Hörzone ortsunabhängig ist. –– Eine hochwertige WFS-Wiedergabeanlage erlaubt eine elektronische Kompensation verschiedener Mängel des Wiedergaberaums, insbesondere die Reduktion der Wirkung von frühen Reflexionen sowie den Ausgleich unsymmetrischer Anordnungen der Lautsprecherarrays.

Abb. 5/78. VPS als virtuelle Lautsprecher für konventionelle Mehrkanalformate.

Diese rein wiedergabeseitige Anwendung der Wellenfeldsynthese für Mehrkanal-Stereofonie könnte aus technischer und praktischer Sicht der erste Schritt für die Einführung auf dem Markt sein. Interessant ist hier die Entwicklung der MAP-Technologie [Bauck, 1996], [Boone, 2004]. Diese flachen, mit einer Glasfaser gespeisten Panels sind in Wohnräumen meistens besser zu integrieren als Lautsprecherboxen. Die Praktikabilität der Panels, verbunden mit den oben dargestellten Vorteilen der WFS-gestützten virtuellen Lautsprecher, könnte schon in naher Zukunft zum ersten Markterfolg der Wellenfeldsynthese führen. Dabei ist nicht

5.5 Verfahren der räumlichen Tonübertragung 

 363

nur an die Anwendung im Heim als Home Theatre gedacht, sondern auch an den Einsatz in Kinos, Theatern oder ähnlichen Wiedergaberäumen. Verfahren der echten WFS-Übertragung werden wohl erst später folgen. Wichtige Faktoren für die Akzeptanz der Wellenfeldsynthese in den verschiedenen Anwendungsbereichen werden die Praktikabilität sowie die tatsächlich erreichbare Wiedergabequalität sein, dies nicht nur hinsichtlich räumlicher Merkmale wie Lokalisierung, räumliche Tiefe, Perspektive und Transparenz,  sondern insbesondere auch bezüglich der Klangfarbe. Virtueller Kopfhörer Die binauralen Signale einer Kunstkopfaufnahme werden über Lautsprecher mit einem sog. crosstalk cancellation-Filter (XTC) wiedergegeben, um die Beschallung des jeweils abgewandten Ohrs zu verhindern [Weissgerber, 2009]. Dazu müssen die Übertragungseigenschaften dieser Wege gemessen oder berechnet werden, das Filter hat dann dementsprechend inverse Filterkennlinien für alle Richtungen, diese  müssten durch head tracking  mit jeder Kopfdrehung nachgestellt werden, was mit realen Lautsprechern kaum zu verwirklichen ist. Die WFS hingegen kann die Lautsprecher durch virtuelle Punktschallquellen ersetzen. Wenn diese nahe bei den Ohren des Hörers positioniert werden, kann eine stabile virtuelle Kopfhörersimulation erreicht werden ohne XTC-Filter. Anstelle einer linearen WFS-Standardanordnung bietet eine Kreisanordnung über dem Hörer einen konstanten Abstand zwischen den Ohren, den virtuellen Schallquellen und den Lautsprechern, dies wieder führt zu einer konstanten und hohen Aliasing-Frequenz und stark reduzierten Klangfärbungen während der Kopfbewegungen. Die tiefen Frequenzen werden über Subwoofer abgestrahlt, der Lautsprecherkreis kann unsichtbar über dem Kopf des Hörers angebracht werden. Binaural Sky Eine mögliche Anwendung des virtuellen Kopfhörers ist der Binaural Sky, ein neuartiges Wiedergabesystem speziell für die binauralen Signale einer Kunstkopfaufnahme, wobei die Wellenfeldsynthese und die dynamische Kompensation des Übersprechens bei Lautsprecherwiedergabe kombiniert werden. Der 2005 entwickelte Prototyp besteht aus einem über dem Kopf des Hörers befestigten Lautsprecherring. Mit Hilfe der Wellenfeldsynthese werden damit Quellen in Ohrnähe fokussiert, wodurch Ohrsignale  so reproduziert werden können, dass eine dreidimensionale Abbildung von Schallereignissen ohne die Verwendung von Kopfhörern oder im Sichtfeld aufgestellten Lautsprechern möglich ist. Unabhängig von der Akustik des jeweiligen Abhörraums kann z. B. in einem kleinen Übertragungswagen die Akustik der gewohnten Tonregie simuliert werden. Die Basis des Systems bildet das Verfahren der Binauralen Raumsynthese (binaural room scanning, BRS), das Mitte der 1990er Jahre am IRT entwickelt wurde. Ein realer Abhörraum wird mit Hilfe eines Kunstkopfs vermessen, die binauralen Raumimpulsantworten des Raums (binaural room impulse response, BRIR) werden für jeden einzelnen der beteiligten Lautsprecher und für verschiedene Ausrichtungen des Kunstkopfs gemessen und gespeichert. Für die Wiedergabe wird der aktuelle Drehwinkel des Kopfs mittels eines head tracking-Systems ermittelt, so dass für die Faltung auf den passenden Satz Impulsantworten aus der Datenbank zugegriffen werden kann. Mit dem BRS-System ist es  möglich, eine beliebige LautsprecherAbhörsituation mit Hilfe von Kopfhörern zu virtuell darzustellen, Näheres in Kap. 5.5.6.1.

364 

 5 Tonaufnahme und Tonwiedergabe

Grundsätzlich funktioniert der Binaural Sky wie ein Kopfhörer, d. h., es gibt zwei Ausgangskanäle, deren Signale direkt am rechten und linken Ohr wiedergegeben werden. Besonders interessant ist aber das komplette System, also die Wellenfeldsynthese mit Übersprechkompensation in Kombination  mit der Binauralen Raumsynthese, weil es faszinierende Möglichkeiten eröffnet: Es lassen sich stabile dreidimensionale Abhörsituationen mit beliebigen Quellenkonstellationen realisieren und zwar ohne störende Kopfhörer oder im Sichtfeld befindliche Lautsprecher. Der Hörer kann damit in eine virtuelle akustische Umgebung versetzt werden. Das System eignet sich daher speziell für virtual reality-Anwendungen oder z. B. für Computerspiele. Durch eine subjektive Beurteilung in Hörversuchen zeigte sich, dass das System eine stabile räumliche Abbildung von binauralen Signalen mit einer sehr guten Lokalisierungsschärfe bietet. Bis etwa 7 kHz ist das System weitgehend ohne Klangfärbungen, darüber machen sich wegen Alias-Effekten der WFS geringe Klangfärbungen bemerkbar. [Horbach, 1999], [Menzel, 2005/1, 2]. 5.5.3.2 Ambisonics Das Aufnahme- und Wiedergabesystem Ambisonics wurde Anfang der 1970er Jahre durch Gerzon [Gerzon, 1973], Fellgett et al. [Fellgett, 1974, 1975] als Alternative unter dem Begriff Ambiophonie zu den damals populären, aber psychoakustisch wenig fundierten und untereinander inkompatiblen Quadrophonie-Formaten entwickelt. Das Verfahren erlaubt bereits mit vier Kanälen eine vollständige 3D-Darstellung, allerdings bei sehr kleiner Hörzone und geringer räumlicher Auflösung. Durch das Hinzufügen weiterer Kanäle können diese Einschränkungen entsprechend den Anforderungen vergrößert werden. Diese Erweiterung heißt ‚Higher-order Ambisonics‘ [Daniel 2001]. Ambisonics ist isotrop, das bedeutet, dass die Aufnahme- und Wiedergabequalität einer Quelle unabhängig von ihrer Richtung ist. Dank dieser Eigenschaft kann ein AmbisonicsSignal ohne Qualitätsverlust beliebig rotiert werden, was für Anwendungen  mit head tracking sehr nützlich ist. Ein weiterer Vorteil liegt in der Entkopplung von Signal und Wiedergabesystem – eine Ambisonics-Aufnahme wird zum Abspielen decodiert und kann innerhalb gewisser Grenzen über verschiedene Lautsprecheranordnungen befriedigend wiedergegeben werden; auch eine Binauralisierung ist möglich. Signalformat und Mikrofontechnik Ambisonics erster Ordnung lässt sich als Erweiterung der MS-Stereofonie verstehen, siehe Kap. 5.3.2.2. Die Basis bildet eine ungerichtete Druckkomponente, früher mit W, heute mit der Ambisonic channel number ACN 0 bezeichnet, und dem bekannten links/rechts-Gradienten Y bzw. ACN 1. Fügt  man nun einen oben/unten-Gradienten Z bzw. ACN 2 und einen vorn/ hinten-Gradienten X bzw. ACN 3 hinzu, hat man in einem kleinen Bereich um den Messpunkt den Schalldruck und in allen drei Raumdimensionen die Schallschnelle beschrieben. Das resultierende Signal heißt B-Format. [Gerzon, 1975/1], [Chapman, 2009] Ein entsprechendes Mikrofonarray aus einer Kugel und drei Achten in koinzidenter Anordnung wird als ‚natives B-Format-Array‘ bezeichnet. Eine perfekte Koinzidenz ohne Laufzeiteffekte lässt sich aber wegen der Größe der Kapseln nur für bestimmte Einfallsrichtungen erzielen; Schall aus anderen Richtungen ist mit unterschiedlich großen Laufzeitfehlern behaftet,

5.5 Verfahren der räumlichen Tonübertragung 

 365

was der Zielsetzung der Isotropie widerspricht. Daher wird das native Array üblicherweise nur in der dreikanaligen Version für 2D-Anwendungen benutzt und die Kapseln werden übereinander so angeordnet, dass sie für horizontal einfallenden Schall koinzident sind [Benjamin 2005]. Es entspricht damit dem Doppel-MS-Mikrofon [Wittek 2006]. Für 3D-Aufnahmen kommt überwiegend eine Anordnung von breiten Nieren [Farrar 1979] oder Nieren auf den vier Ecken eines Tetraeders zur Anwendung (siehe auch Kap. 4.2.2.8). Die vier Kanäle dieses Tetraeder-Mikrofons lassen sich durch eine einfache Matrix-Operation in die B-Format-Komponenten überführen. ACN 0 entspricht dabei der Summe aller Kapseln, für ACN 1 werden die beiden linken Kapseln addiert und die rechten subtrahiert. ACN 2 und 3 werden in gleicher Weise aus den oben/unten- und vorn/hinten-Differenzen gewonnen. Die unvermeidlichen Koinzidenzfehler durch unterschiedliche Laufzeiten werden durch eine möglichst kompakte Bauweise minimiert und sind recht gleichmäßig über alle Richtungen verteilt. Die resultierenden Kammfilterverfärbungen im Hochtonbereich können daher durch eine Diffusfeld-Entzerrung der Mikrofonsignale korrigiert werden [Gerzon 1975/2]. Voraussetzung für die Isotropie ist, dass die Komponenten jeder Ordnung zusammen den umgebenden Raum tatsächlich gleichmäßig abtasten. Für die ideale Kugelcharakteristik der „nullten“ Ordnung ist dies unmittelbar einsichtig. Aber auch die drei idealen Achtercharakteristiken der ersten Ordnung ergeben über alle Richtungen summiert wieder eine Kugel. Diesem Kriterium folgend könnte auch die tetraedrische Anordnung von vier Nieren als Grundlage der Schallfeldbeschreibung dienen. Es ist aber vorteilhaft, dass die Komponenten einer Ordnung darüber hinaus jeweils linear unabhängig sind, also im mathematischen Sinn einen minimalen Satz Basisfunktionen zur Zerlegung der Kugeloberfläche bilden. Das B-Format erfüllt dieses zusätzliche Kriterium. Im Gegensatz zur Stereofonie, die psychoakustische Reize durch Laufzeit- und Pegelunterschiede nachbildet, die sich über die Mikrofonauswahl und -position willkürlich kontrollieren und damit frei gestalten lassen, beschreibt Ambisonics das physikalische Schallfeld am Aufnahmeort. Dessen Zerlegung in die Komponenten des B‑Formats lässt sich als räumliche Abtastung verstehen. Panning Genau wie bei Stereoproduktionen können Monosignale von elektronischen oder nah mikro­ fonierten akustischen Quellen mit einem geeigneten Panner in einer B-Format-Summe positioniert werden. Dazu wird das Monosignal mit passenden Gain-Koeffizienten auf die Komponenten des B-Formats verteilt (encodiert). Wenn S das  monofone Eingangssignal, 0 ≤ θ ≤ 360° der gewünschte Azimut- oder Horizontalwinkel und −90° ≤ ϕ ≤ 90° der gewünschte Elevations- oder Vertikalwinkel ist, dann ergeben sich für die Komponenten bis zur ersten Ordnung die folgenden Beziehungen, in der Praxis nötige konstante Normalisierungskoeffizienten sind hier vernachlässigt: ACN 0 = W = S ACN 1 = Y = sin θ⋅ cos φ ACN 2 = Z = sin φ ACN 3 = X = cos θ ⋅cos φ

366 

 5 Tonaufnahme und Tonwiedergabe

Wenn man diese Gleichungen über alle Azimut- und Elevationswinkel dreidimensional darstellt, ergeben sich die Graphen nullter und erster Ordnung aus Abb. 5/79, Panning ist also das „Aufnehmen“ des Quellsignals  mit den virtuellen „Mikrofonen“ der jeweiligen Komponenten. Die zum Encodieren nötigen Operationen  sind, genau wie die Rotation um die Z-Achse, trivial. Rotationen um andere Achsen sind wegen der Mischung der Dimensionen geringfügig komplexer, der Rechenaufwand ist aber in beiden Fällen gering. Higher-order Ambisonics Ambisonics erster Ordnung ist in seiner räumlichen Auflösung durch die Richtcharakteristik des Gradientenempfängers erster Ordnung, der Acht, begrenzt. Die Betrachtung ihres Polardiagramms zeigt, dass eine Ortsveränderung der Quelle um 45° aus der Achse nur eine Pegelabschwächung von 3  dB bewirkt. Dies verdeutlicht die geringe Lokalisationsschärfe. Eine weitere Konsequenz ist die geringe Größe der Hörzone, also jenes Bereichs, in dem das Schallfeld hinreichend genau beschrieben und rekonstruiert werden kann. Soll die räumliche Auflösung erhöht und damit die Hörzone vergrößert werden, benötigt man feiner auflösende Basisfunktionen, die ebenfalls die Kugeloberfläche gleichmäßig abtasten. Die Komponenten nullter und erster Ordnung sind der Beginn einer unendlichen Folge von  sogenannten  spherical harmonics,  mit denen ein Schallfeld im Prinzip beliebig genau beschrieben werden kann. Der Name, sinngemäß Kugeloberwellen, lässt sich so verstehen, dass sie den Eigenresonanzen einer vibrierenden Kugeloberfläche ähneln.

Abb. 5/79. Spherical harmonics 0. bis 5. Ordnung [Zotter, 2012].

Für jede neue Ordnung gilt, dass die Summe ihrer Komponenten über alle Raumrichtungen wieder eine Kugel ergibt. Genau wie die Dipole der ersten Ordnung zur Unterscheidung von vorn und hinten die nullte Ordnung als Polaritätsreferenz benötigen,  sind die Multipole der höheren Ordnungen nur in Bezug auf die Komponenten darunter eindeutig bestimmt.

5.5 Verfahren der räumlichen Tonübertragung 

 367

Wenn man von einem B-Format n-ter Ordnung spricht, sind also die Komponenten aller niedrigeren Ordnungen immer eingeschlossen. Die Zone nahezu perfekter Rekonstruktion hat nach [Ward, 2001] einen Radius von r0 ≈  N · c / 2π · f , wobei N die Ordnung des Systems, c die Schallgeschwindigkeit und f die Frequenz ist. In einem System dritter Ordnung wird also ein etwa kopfgroßes Volumen bis 1,7 kHz nahezu perfekt rekonstruiert. Eine subjektiv befriedigende Lokalisation wird wegen der Bandbegrenztheit der Lokalisationsreize aber ohne weiteres über mehrere Meter erreicht; in der Praxis ist der limitierende Faktor die Annäherung eines Hörorts außerhalb der Mitte an den nächstgelegenen Lautsprecher, der irgendwann die Lokalisierung dominiert [Nettingsmeier, 2011]. Mikrofone höherer Ordnung werden in der Regel aus einer großen Anzahl von Druckempfängern realisiert, die in eine schallharte Kugel eingebaut sind [Meyer 2004], aber auch offene Konstruktionen [Plessas 2009] und solche aus reinen Druckgradienempfängern sind möglich [Craven, 2009]. Allen Anordnungen ist gemeinsam, dass die Richtcharakteristiken höherer Ordnung durch Differenzbildung der Kapselsignale gewonnen werden. Die höhere Auflösung von Higher-order-Mikrofonen wird also erkauft durch einen Anstieg des Grundrauschens. Dazu kommt, dass der unvermeidliche Bassabfall von Druckgradientenmikrofonen, der  mit zunehmender Ordnung steiler wird, durch teilweise extreme Anhebungen des Frequenzgang kompensiert werden muss. Die aufwändige Kalibrierung der Kapseln und die Entzerrung der Komponenten höherer Ordnung  sind erst durch die Digitaltechnik praktikabel geworden. Dennoch sind Higher-order-Mikrofone sowohl im Rauschabstand als auch in der Klangfarbe konventionellen Mikrofonen unterlegen, und in der Praxis nimmt die Bandbreite zu höheren Ordnungen hin schnell ab. Ungeachtet dessen ist Higher-order Ambisonics durch die Möglichkeit, Einzelsignale präzise zu pannen, als Produktions- und Wiedergabeformat sehr nützlich. Das B-Format kann dann auf ein gewünschtes Layout wie 5.1 oder 7.1.4 vorgerendert werden. Idealerweise wird es jedoch bis zum Endverbraucher beibehalten. Letzteres ist bei Binauralwiedergabe mit HeadTracking oder für Großbeschallungen  mit immersiven Inhalten  sinnvoll. In der Forschung ist Higher-order Ambisonics als Beschreibungs- und Analysewerkzeug für Schallfelder allgegenwärtig. Decodierung Ähnlich wie MS-Aufnahmen vor der Wiedergabe in ein linkes und ein rechtes Lautsprechersignal umgeformt werden müssen, bedarf ein Ambisonics-Signal zur Wiedergabe der Decodierung auf die gegebene Lautsprecher-Anordnung. Analog zur Encodierung eines Monosignals im Panner gewinnt man die Lautsprechersignale durch eine Matrixoperation, die allerdings bei niedrigen Ordnungen noch psychoakustisch optimiert wird; wegen der Frequenzabhängigkeit der Lokalisationsreize ist es vorteilhaft, den Anteil der Schallschnelle im tiefen Frequenzbereich unter Beibehaltung der spektralen Ausgewogenheit etwas zu erhöhen [Gerzon, 1980] [Heller, 2008]. Da das im B-Format räumlich kontinuierlich beschriebene Schallfeld jetzt über einzelne Punktschallquellen rekonstruiert werden  muss, entsteht ein  sog. Diskretisierungsfehler. Außerdem ist durch den üblicherweise geringen Abstand zu den Lautsprechern die Krümmung der Wellenfronten nicht zu vernachlässigen und muss besonders

368 

 5 Tonaufnahme und Tonwiedergabe

bei höheren Ordnungen durch eine Nahfeldkompensation korrigiert werden [Daniel, 2003], [Adriaensen, 2006]. Regelmäßige Anordnungen der Lautsprecher sind nur realisierbar, wenn sie auf die Ecken von platonischen Körpern gesetzt werden, dabei handelt es sich um die fünf allein möglichen Körper, die aus gleichseitigen Vielecken gebildet werden; die meisten Ecken hat mit 20 der Dodekaeder. Damit sind in einer gleichmäßigen Anordnung maximal 20 Kanäle möglich. Für nicht perfekt regelmäßige Lautsprecheranordnungen ist die Berechnung einer Decodierungsmatrix kompliziert. Es existieren aber effiziente Optimierungsalgorithmen für nahezu beliebige Anordnungen, die auch eine Abschätzung der Richtungs- und Pegelfehler bei der Wiedergabe ermöglichen [Heller, 2010], [Zotter, 2012]. Sind die Matrixkoeffizienten einmal errechnet, ist der Rechenaufwand für die eigentliche Dekodierung vernachlässigbar. Für die Konzertbeschallung mit Höheninformation haben sich hemisphärische Anordnungen als praktikabel erwiesen. Konzert-Wiedergabesysteme ab der dritten Ordnung, also 16 B-Format-Kanälen aufwärts, haben  sich in der Praxis bewährt [Zotter, 2010], [Rudrich, 2016], [Nettingsmeier, 2010]. Dabei ist es vorteilhaft, durch eine einfache Neuberechnung des Decoders auf Änderungen des Lautsprecher-Layouts reagieren zu können, ohne das Originalmaterial neu mischen zu müssen. Die Anzahl der Wiedergabekanäle sollte sich an der Ordnung des Ambisonics-Quellmaterials orientieren. Genau wie die Bandbreite eines PCM-Signals durch die endliche Abtastfrequenz begrenzt ist, ist die räumliche Genauigkeit des Systems durch die Ordnung und damit das Auflösungsvermögen der B-Format-Komponenten bestimmt. Wird ein räumlich hochaufgelöstes Signal über zu wenige Lautsprecher wiedergegeben, stellt sich analog zum spektralen Aliasing eines PCM-Systems das auch bei der Wellenfeldsynthese zu beobachtende räumliche Aliasing in Form von Nebenkeulen und Fehllokalisationen ein. Um dies zu vermeiden, können im einfachsten Fall die Komponenten höherer Ordnungen vor der Dekodierung vollständig verworfen werden, was einer räumlichen Tiefpassfilterung entspricht. Moderne Decoder können einen Teil der zusätzlichen Information außerdem zur Kompensation von Unregelmäßigkeiten des Wiedergabelayouts verwenden. Dies ist besonders bei den stark anisotropen n.1-Systemen interessant [Wiggins, 2007]. Bei der Wiedergabe über zu viele Lautsprecher ähneln sich deren Signale stark und es entstehen vermehrt Kammfilter und Phasing-Effekte. In der Praxis ist die Hörzone bei Ambisonics erster Ordnung auf eine Person im Zentrum des Wiedergabesystems beschränkt. Durch stark korrelierte Lautsprechersignale kann es bei Bewegung des Kopfes zu Phasing-Artefakten im Hochtonbereich kommen. Vorteilhaft ist, dass bei korrekter Wiedergabe auch in erster Ordnung bereits eine brauchbare Lokalisation erzielt wird. Der Richtungsvektor der Schallschnelle wird im unteren Frequenzbereich, also dort, wo interaurale Zeitdifferenzen (ITD) das Richtungshören dominieren, zufriedenstellend wiedergegeben. Im mittleren und oberen Frequenzbereich ist das Volumen korrekter Schallfeldrekonstruktion kleiner als der menschliche Kopf. Der resultierende Schallschnellevektor wird dadurch weitgehend zufällig, ist aber psychoakustisch auch weniger relevant. Der Richtungsvektor der Schallenergie hingegen ist hier hinreichend genau, um Lokalisation über die bei höheren Frequenzen  maßgeblichen interauralen Pegeldifferenzen (ILD) zu ermöglichen [Gerzon, 1992]. Das reproduzierte Hörereignis [Blauert, 1974] ist jedoch in der Regel von größerer Ausdehnung und geringerer Schärfe als das aufgezeichnete Schallereignis. Die

5.5 Verfahren der räumlichen Tonübertragung 

 369

physikalisch nicht korrekte und stark aliasing-behaftete, aber ästhetisch vielfach präferierte Räumlichkeit von AB-Mikrofonen lässt sich mit Ambisonics-Wiedergabe nicht ohne weiteres erzeugen. ITD-Stimuli sind aber im rekonstruierten Schallfeld prinzipiell gegeben [Lipshitz, 1985]. Neben der Decodierung auf Lautsprecherwiedergabe ist die Binauralisierung ein wichtiges Anwendungsgebiet. Durch einen head tracker gemessene Kopfbewegungen lassen sich durch entsprechende Gegenrotationen des B-Formats einfach kompensieren, wodurch die Hörereignisrichtungen  stabil bleiben. Ein weiterer Vorteil der Kopfhörerwiedergabe ist, dass sich der Hörort immer exakt im Zentrum, also dem Bereich optimaler Rekonstruktion, befindet. Die Binauralisierung (siehe Kap. 5.5.6) kann über virtuelle Lautsprecher oder eine direkte Konversion der B-Format-Komponenten erfolgen [McKeag, 1996], [Zaunschirm, 2018].

5.5.4 Kopfhörerwiedergabe Es gibt drei Arten der Kopfhörerdarbietung,  man unterscheidet dabei zwischen Kopf- und Ohrhörern (Tab. 5/19): Tab. 5/19. Darbietungsarten von Tonsignalen über Kopf- bzw. Ohrhörer. Darbietungsart

Bezeichnung

nur ein Ohrhörer erhält ein Signal beide Ohrhörer erhalten dieselben Signale die beiden Ohrhörer erhalten unterschiedliche Signale

monotisch diotisch dichotisch

Obwohl Lautsprecherwiedergabe im Tonstudiobereich die übliche Wiedergabeform ist, bietet Kopfhörerwiedergabe Vorteile, die in bestimmten Situationen eine echte Alternative zur Lautsprecherwiedergabe darstellen können. Die nach 1970 eingeführte Kunstkopfstereofonie ist prinzipiell nur mit Kopfhörern wiederzugeben, wenn die speziellen Vorteile dieser Übertragungstechnik zur Geltung kommen sollen (siehe Kap. 5.5.5). Kopfhörer können bei wesentlich geringerem Aufwand zumindest dieselbe Bandbreite, Freiheit von nichtlinearen und linearen Verzerrungen und am Ohr denselben  maximalen Schalldruck erreichen wie Lautsprecher. Besonders vorteilhaft bei Kopfhörerwiedergabe ist, dass die Akustik des Wiedergaberaums ohne Einfluss auf die Wiedergabe ist. Es hat sich gezeigt, dass bestimmte Störgeräusche oder andere Audioartefakte, wie z. B. Bitfehler oder Artefakte der Codierung  mit Kopfhörern besser erkannt werden können, das kann für die auditive Kontrolle vorteilhaft, aber für das Zuhören durchaus störend sein. Ein entscheidender Faktor ist die größere Abbildungsschärfe. Sie kennzeichnet die erreichbare räumliche Auflösung des Klangbilds. Der Tonmeister weiß, dass bereits Nearfield-Monitoring die Transparenz erhöht, weil der Einfluss des indirekten Schalls im Wiedergaberaum reduziert wird. Dieser Effekt ist besonders deutlich bei Kopfhörerwiedergabe, wie entsprechende Hörtests auch quantitativ nachgewiesen haben. Abb. 5/80 zeigt die relative Anzahl der richtig erkannten Unterschiede von Testsignalen für Kopfhörerwiedergabe

370 

 5 Tonaufnahme und Tonwiedergabe

im Vergleich zur Lautsprecherwiedergabe. Man sieht, in welchem Maß der Kopfhörer eine höhere Abbildungsschärfe als Lautsprecher im Regieraum gewährleisten kann, besonders im Vergleich zu einer üblichen Anordnung in einem gleichseitigen Dreieck mit 3 m Kantenlänge.

Abb. 5/80. Abbildungsschärfe bei Wiedergabe mit Kopfhörer und mit Lautsprechern im Regie­rau; Nachhallzeit 0,4 s, Stereoanordnung 1 m bzw. 3 m. Erkannte Unterschiede in % beim Vergleich des Referenzsignals A (Kreuz­korrelationsgrad kA = 1,0) mit einem Vergleichssignal B (Kreuzkorrelationsgrade kB) [Ripka, 1987].

Auch hinsichtlich der Klangfarbe ist die Kopfhörerwiedergabe wegen der Unterschiedlichkeit der Lautsprecher und der Abhör- und Regieräume unerreichbar. Die mit ITU-R Recommendation BS.1116-1 festgelegten Mindestanforderungen für Hörtest-Abhörräume liegen deshalb unter den Möglichkeiten des Kopfhörers. Für die sog. Operational room response curve am Hörort wird hier im Frequenzbereich 250 Hz bis 2 kHz ein Toleranzschlauch von ± 3 dB zugelassen, doppelt so breit wie für Kopfhörer (Abb. 5/81), und daher nicht geeignet, um Klangfärbungen auszuschließen. Hinzu kommen notwendige Toleranzen für die Raumgröße und ‑geometrie, Nachhallzeit, frühe Reflexionen, die in der Praxis nur schwer einzuhalten sind. Aus diesem Grund wird in diesem Standard alternativ die Kopfhörerwiedergabe gemäß ITU-Rec.BS.708 empfohlen. Die Kopfhörerwiedergabe ist prinzipiell als Alternative zur Lautsprecherwiedergabe geeignet, nicht nur bei schlechten Abhörbedingungen, sondern auch für gut reproduzierbare Beurteilungen kritischer Signale. Schließlich können mit Kopfhörern an verschiedenen Orten und/oder für größere Hörerzahlen absolut gleiche und im Rahmen der Kopfhörerwiedergabe optimale Abhörbedingungen geschaffen werden. Ein grundsätzlicher Unterschied zur Laut-

5.5 Verfahren der räumlichen Tonübertragung 

 371

sprecherdarbietung ist, dass jedem Ohr ganz definiert ein elektroakustischer Wandler zugeordnet ist, der praktisch nicht auf das jeweils andere Ohr einwirkt, Gegebenheiten, die bei der üblichen Lautsprecherwiedergabe nicht realisierbar  sind. Nachteilig ist bei Kopfhörerwiedergabe, soweit es sich nicht um Kunstkopfaufnahmen handelt, die Lokalisiertheit des Hörereignisses im oder am Kopf, also die sog. Im-Kopf-Lokalisierung oder IKL. Dazu kommen eine gewisse Lästigkeit des Tragens des Kopfbügels und das Mitwandern des Klangbilds bei Kopfdrehungen, also die Kopfbezogenheit des Klangbilds, sofern diese nicht durch das relativ aufwändige head trackingverfahren überwunden wird (siehe hierzu Kap. 5.5.5.1).

Abb. 5/81. Frequenzgang-Toleranzen im Vergleich: Lautsprecher: Für den Schallpegel am Referenzpunkt in einem Abhörraum gemäß ITU-Rec.BS.1116, gestrichelt, Kopfhörer: Für das Diffusfeld-Übertragungsmaß eines Studio-Kopfhörers nach ITU-Rec.BS.708, durchgezogen.

5.5.4.1 Phantomschallquellen im Kopf Wird eine Zweikanal-Stereoaufnahme über Kopfhörer abgehört, so entsprechen den Phantomschallquellen auf der Lautsprecherbasis Phantomschallquellen im Kopf auf einer Verbindungslinie zwischen den Ohren. Die Auslenkung eines Hörereignisses auf dieser Linie wird als Lateralisation bezeichnet. Diese Linie ist nach oben gebogen, so dass Mittenschallquellen erhöht zur Schädeldecke hin erscheinen. Wie bei den Phantomschallquellen bei Lautsprecherwiedergabe führen Pegel- und/oder Laufzeitdifferenzen zur Auswanderung des Hörereignisorts. Während bei Lautsprecherwiedergabe der Hörereignisort bereits bei rund 15 dB Pegeldifferenz zwischen den Lautsprechersignalen ganz zur Seite der Lautsprecherbasis auswandert, wird bei Kopfhörerwiedergabe eine größere Pegeldifferenz für eine Abbildung ganz seitlich benötigt. Auch nimmt die Lateralisationsunschärfe zu. Bei monotischer Darbietung wird das Hörereignis am Ohreingang lokalisiert, was oft als unangenehm empfunden wird. 5.5.4.2 Entzerrung der Kopfhörer Beim natürlichen Hören werden die spektralen Merkmale der Ohrsignale, die sich aus der Richtcharakteristik des Außenohrs ergeben, im Lokalisierungsprozess so verrechnet, dass sie nicht als Klangfarbenmerkmal in Erscheinung treten. Die Wahrnehmung der Klangfarbe ist

372 

 5 Tonaufnahme und Tonwiedergabe

vom Ort der Schallquelle weitgehend unabhängig. Diese sog. inverse Filterung der Außenohr-Übertragungsfunktion durch das Gehör [Theile, 1986] erfolgt jedoch nur dann, wenn die Wirkung des Außenohrs auf die Bildung der Ohrsignale erkannt und als sol