warum sich nicht alles mit Statistik in einer Betriebsprüfung erklären lässt
Von RA Dr. Jur. Jörg Burkhard, Fachanwalt für Steuerrecht, Fachanwalt für Strafrecht
Die Finanzverwaltung hat statistische Verprobungs- und Analysemethoden als Allzweckwaffe bzw. „Wunderwaffe“ zur Aufdeckung von Hinterziehungen für sich entdeckt. Mit den statistischen Methoden soll in einem zeitlich überschaubaren Rahmen vorgelegte (Massen-) Daten aus der Buchführung, aus der Kosten- und Leistungsrechnung, aus den Warenwirtschafts- und Kassensystemen auf Schlüssigkeit geprüft werden. Dies gilt insbesondere für Betriebe mit einem überwiegenden Anteil von Bargeschäften. Weiter soll mit Hilfe von betriebswirtschaftlichen und stochastischen Verprobungsmethoden eventuelle Manipulationen frühzeitig erkannt werden.
Die Summarische Risikoprüfung (SRP) soll dabei in einer Prüfung bei der Buchführung des Steuerpflichtigen lohnenswerte Prüffelder aufspüren, damit der Prüfer nicht sinnlose Zeit an unergiebigen Prüfstationen abarbeitet und für die lohnenden Punkte dann keine Zeit bleibt oder er sie gar übersieht. In der SRP vergleicht die BP daher die Erwartung (Arbeitshypothese, Nullhypothese) mit der Beobachtung (Istzustand, Ergebnis der Buchführung). Weicht die Beobachtung von der Erwartung ab, so bedarf dies einer genaueren Untersuchung durch die Betriebsprüfung: gibt es betriebswirtschaftliche Besonderheiten, die diese Auffälligkeit begründen? Klingt harmlos und logisch. Ist aber brandgefährlich, wenn man die Dienstanweisungen liest, die die Finanzverwaltung daraus macht, nämlich Abschnitt 122 AEAO, wonach der Steuerpflichtige die Beweis- und Aufklärungslast für die Abweichungen von der Statistik trägt (dazu gleich mehr). Liegen Besonderheiten bei der Datenhaltung vor? Gibt es Auffälligkeiten beim Übergang von einer alten zu einer neuen Datenbank? Kann der Steuerpflichtige an dieser Stelle manipulativ eingegriffen haben?, so die Fragen der Finanzverwaltung in dem Aufsatz von Nowotzin/Teutemacher in der BBP im Sonderdruck 2017: „neue Wunderwaffe der BP: Summarische Risikoprüfung“. Im Rahmen der betriebswirtschaftlichen Analyse wird die Erwartung an die zu analysierenden Daten durch das betriebswirtschaftliche Profil bestimmt.
Darin liegt das Problem. Welche Erwartungshaltung kann man haben? Was ist realistisch? Ist die Erwartung der Finanzverwaltung realistisch?
Beispiel: Ein Betrieb verbessert sein Ergebnis in 2013. Er steigert noch mal seinen Gewinn in 2014. In 2015 toppt der Betrieb noch mal seine eigene Zahlen und stellt nach 2014 erneut ein Rekordergebnis auf. In 2016 geht der Gewinn zurück. Warum? Legt man einen Chart fest und sieht die Gewinnsprünge jedes Jahr, so weist der Trendkanal deutlich nach oben. Kommt der Einbruch durch eine Hinterziehung zustande? Wie kann es sein, dass der so schön darstellbare Trend auf einmal abreißt? Graphisch weist doch alles nach oben. In Fortführung des Trendkanals aus 2013, 2014 und 2015 wäre nun in 2016 ein erneut höheres und besseres Ergebnis als in 2015 zu erwarten gewesen. Warum wird die Erwartungshaltung nun enttäuscht? Es erinnert ein wenig an die Charterten bei der Börse, die die künftigen Steigerungen ihrer Aktien aus den Trendkanälen ableiten und ganz vergessen, dass es da draußen einen Markt gibt, der empfindliche auf konjunkturelle Vorboten reagiert oder auf solche, die dafür gehalten werden. Reagieren die Marktteilnehmer aber nicht auch teilweise nur schwer vorhersehbar auch viele Faktoren.
Kaufen Sie gerade ein Dieselfahrzeug? Warum ja – warum nein? Welche Faktoren spielen eine Rolle für Ihre Kaufentscheidung? Und warum keinen Superbenziner, sondern ein Elektroauto – oder warum nicht? Und jetzt muss der Unternehmer (z.B. VW) erklären, warum es bei ihm Abweichungen von der Erwartungshaltung bei seiner Umsatz- und Gewinnentwicklung gibt und wenn er sie nicht oder nicht nachvollziehbar erklären oder ausreichend belegen kann, muss es eine Hinterziehung sein und es wird geschätzt und zwar der Mehrumsatz bis zur chartmäßigen Erwartungshaltung… ist das so richtig? Ist das unser Steuerrecht?
Die BP meint, dass die betriebswirtschaftliche Auswertung mithilfe des Zeitreihenvergleichs sowie der Erlösanalyse und der Stochastik jeweils mit den Erwartung einerseits und den tatsächlichen Ergebnisse abzugleichen sei. Unter anderem werden dabei die statistischen Wahrscheinlichkeitsmethoden wie Chi-Quadrat-Test und Newcomb Benford`s Law genutzt.
Schauen wir uns dabei den Newcomb Benfords Law-Test einmal an. Der erwartet bei den führenden Ziffern einer Zahl also vorne als erste Zahl überwiegend eine 1, selten eine 9. Genauer: Mit über 30 % Wahrscheinlichkeit soll vorne eine 1 stehen, in nur weniger als 5 % der Fälle eine 9. Im Detail wird folgende Verteilung erwartet: die 1 soll mit 30,1 %, die 2 mit 17,6 %, die 3 mit 12,5 %, die 4 mit 9,7 %, die 5 mit 7,9 %, die 6 mit 6,7 %, die 7 mit 5,8 %, die 8 mit 5,1 % und 9 mit 4,6 % an führender Stelle stehen.
Weichen die tatsächlichen Zahlen davon ab, so prüfen die Statistiker die Signifikanz der Abweichung: es wird also geprüft wie groß die Abweichungen der beobachteten Verteilung von der erwarteten Verteilung mindestens sein müssen, damit ein Manipulationsverdacht entsteht. Im Klartext: Normale Abweichungen sind unerheblich, wenn sie auffallend sind, also nicht mehr zufällig sind, dann besteht der Verdacht, dass händisch eingegriffen wurde, etwa durch Manipulationen. Dabei schaut man sich die Differenzen von der erwarteten Benford-Verteilung zur tatsächlichen Ist-Verteilung und wenn die nicht der Chi-Quadrat-Verteilung entspricht, sondern hierbei bestimmte Lieblingszahlen häufiger benutzt wurden, dann soll dies für einen manipulativen Eingriff sprechen.
Gleichwohl sind nach Auffassung der Finanzgerichte Abweichungen von der Chi-Quadrat-Verteilung (etwa an der Einerstelle jeweils gleich viele Ziffern von 0 bis 9) nichtssägend und belegen weder eine Hinterziehung noch rechtfertigen sie eine Verwerfung der Buchführung. Denn allein auf eine Abweichungen von der Erwartung nach der Chi-Quadrat-Verteilung lässt sich allerdings eine Verwerfung der Buchführung nicht stützen (FG Rheinland-Pfalz, Urt. v. 24.08.2011 – 2 K 1277/10). Insoweit würde man bei Chi-Quadrat bei etwa 3 Jahren Kassenberichten aus einer offenen Ladenkasse erwarten, dass bei 309 Öffnungstagen pro Jahr, also bei 927 KAssenberichten aus drei Prüfungszeiträumen, jede Ziffer zwischen 0 und 9 an der Einerstelle gleich häufig auftaucht, also 929/10 mal die 0, also 92,9 mal die 0, ebensohäufig die 1, die 2 usw. Die tatsächlichen Abweichungen quadriert und durch die Gesamtmenge geteilt, ergbibt dann die Chi-Quadrat-Abweicheung. Ist diese Größer als 30, spricht dies für eine unnormale, nicht zufällige Verteilung. Insoweit sollten bei große Zahlenmengen (größer 500) die Normalverteilung nach Chi-Quadrat eigentlich erfolgen. Dabei ist man sich einig, dass Chi-Quadrat bei Lottozahlen, Wetterdaten, Fahrtenbüchern und Zahken, die einer Gesetzmäßigkeit folgen, nicht greift. Das FG Rheinland-Pfalz wies in der obigen Entscheidung zu Recht darauf hin, dass allein der Umstand, dass ein Chi-Quadrat-Test − eine statistische Methode des Vergleichs der festgestellten Ziffern mit deren theoretisch erwarteter Häufigkeit, basierend auf der Annahme, dass derjenige, der manipuliert, unbewusst bestimmte Lieblingszahlen häufiger verwendet und unliebsame Zahlen unbewusst weglässt oder seltener verwendet– nach Auffassung des Prüfers eine 100-prozentige Manipulationswahrscheinlichkeit ergeben hat, rechtfertigt keine Zuschätzungen, wenn das häufigere Auftreten bestimmter Zahlen sich zwangsläufig aus der Preisgestaltung des Unternehmers ergibt (FG Rheinland-Pfalz, Urt. v. 24.08.2011 – 2 K 1277/10 – juris). So hielt das FG Rheinland-Pfalz aufgrund der Preisgestaltung in einem Friseursalon das häufigere Auftreten bestimmter Zahlen für normal und keineswegs für auffällig und teilte die Einschätzung des Prüfers nicht. Der Friseur hatte Preise, die auf der Zehnerzahl der Centbeträge fast ausschließlich auf 0 oder 5 lauteten und die beliebige Addition dieser Ziffern führt natürlich zwangsläufig auf die 0 oder die 5 zurück, so dass diese auch Chi-Quadrat zu häufig und die anderen zu selten vorkamen, was zu einer 100-prozentigen Auffälligkeit nach Chi-Quadrat führte. Das FG urteilte, dass die von dem Beklagten ins Feld geführte „Manipulationswahrscheinlichkeit von 100 Prozent“ aufgrund des vom Prüfer durchgeführten Chi-Quadrat-Tests (vgl. Bl. 108–119 Prüferhandakte) nicht zur Zuschätzungsbefugnis nach § 162 Abs. 1 AO führen kann. Der Test allein ist jedenfalls nicht geeignet, Beweise dafür zu erbringen, dass die Buchführung nicht ordnungsgemäß ist . Ähnlich hatte ich das niedersächsische FG bereits 2009 geäußert und die Verwerfung der Buchführung bloß wegen einer Auffälligkeit nach Chi-Quadarat zu Recht abgelehnt (vgl. Urteil des niedersächsischen Finanzgerichts vom 17.11.2009 m.w.N.). Abgesehen davon, dass er bei einem Friseursalon, bei dem − wie hier − für die Leistungen ausschließlich volle beziehungsweise halbe Eurobeträge berechnet werden (vgl. Preisliste für 2007, Bl. 120 u. 121 Prüferhandakte), ungeeignet erscheint. Denn mit dem Chi-Quadrat-Test werden Verteilungseigenschaften einer statistischen Grundgesamtheit untersucht. Ausgehend von der Preisliste im Streitfall des Friseurs ergibt sich aber, dass bei einer solchen Preisgestaltung naturgemäß die Zahl 0 wie auch die Zahl 5 überdimensional häufig auf der 10-Cent-Stelle auftreten müssen (zum Beispiel Föhnfrisur: 15 Euro; Färben: 25 Euro beziehungsweise 46,50 Euro, Föhnen: 40,50 Euro; vgl. FG Rheinland-Pfalz, Urt. v. 24.08.2011 – 2 K 1277/10).
Zudem ist der Chi-Quadrat-Test keine von der Rechtsprechung anerkannte Methode, eine Einnahme-Manipulation sicher zu belegen. Auch das FG Düsseldorf hat bei summarischer Prüfung in einem Eilverfahren die Ergebnisse des Chi-Quadrat-Tests auch nicht als geeignet angesehen, die Ordnungsmäßigkeit einer Buchführung zu verwerfen (FG Düsseldorf, Beschluss vom 14.04.2004 – 11 V 632/04 A(U) – juris). Losgelöst von der Frage im Einzelfall, ob die Verprobungsmengen ausreichend sind beziehungsweise die Preisgestaltung gegebenenfalls Chi-Quadrat-ungeeignet ist, genügt der Chi-Quadrat-Test allein auch nicht zur Verwerfung der Buchführung: Wie das Finanzgericht Münster in seinem Beschluss vom 14.08.2003 (8 V 2651/03 E, U, EFG 2004, 9) ausgeführt hat, ist der Chi-Quadrat-Test keine von der Rechtsprechung anerkannte Methode, eine Einnahme-Manipulation sicher zu belegen (vgl. FG Münster, Beschluss vom 11.02.2000 − 9 V 5542/99 K, U, F, DStRE 2000, 549). Andererseits kann der Chi-Quadrat-Test neben anderen Prüfungsschritten zusätzliches Indiz für die Manipulationen sein (FG Düsseldorf, Beschluss vom 03.06.2008 – 14 V 1214/08 A: „Das Ergebnis des Chi-Quadrat-Tests war somit zur Rechtfertigung der Schätzung nicht erforderlich. Der Antragsgegner hat das Ergebnis lediglich als ein weiteres Indiz für eine fehlerhafte Kassenführung angesehen.“).
Umgekehrt hilft aber auch nicht ein unauffälliger Chi-Quadrat-Test: Sollte also der Chi-Quadrat-Test keine Auffälligkeiten zeigen, entlastet er den Steuerpflichtigen nicht allein, beweist also nicht die Richtigkeit der Buchführung, ist aber dann ein positives Indiz für die Richtigkeit. Nach FG Rheinland-Pfalz soll der Chi-Quadrat-Test nicht einmal ein positives Indiz für die Richtigkeit der Buchführung, da seine Unauffälligkeit durch Manipulations-Software ausgelöst sein könnte, da moderne Manipulationsprogramme die Zufälligkeitsverteilungen auch Chi-Quadrat berücksichtigen. Dem ist zwar nicht zu folgen, da die Buchführungsprogramme auf Zappen hin untersucht werden könnten, aber das zeigt schon, wie wenig vertrauenswürdig und wie wenig der Chi-Quadrat-Test von der finanzgerichtlichen Rechtsprechung gehalten wird. Und vor dieser deutlichen und langjährigen und fast schon alten Rechtsprechung der Finanzgerichte kommen nun Nowotzin/Teutemacher in dem BBP-Sonderdruck mit der Wunderwaffe der BP um die Ecke, die eigentlich von der Rechtsprechung in vielen Urteil eigentlich schon klar als nicht ausreichend abgehandelt beiseitegelegt ist …Nowotzin/Teutemacher versuchen daher wohl einen alten Hut als neuen Hit zu verkaufen …
Insgesamt sind die statistischen Verprobungen eigentlich keine neuen oder speziellen Methoden der Betriebsprüfung für kleine und mittlere Unternehmen, sondern eigentlich eine Erprobungsmethode in großen Konzernen um betrügerische Manipulationen von Mitarbeitern aufzudecken. So sollen nach Wikipedia-Berichten die Manipulationen bei Enron, WorldCom und in den griechischen Wirtschaftsdaten dadurch mit aufgedeckt worden sein. Umstritten ist, ob diese Methode auch zur Aufdeckung von Manipulationen bei Wahlergebnissen aussagekräftig ist. Eine ganz andere Frage wäre natürlich, wie häufig der Test versagt, in die Irre leitet und sich als nicht belastbar herausstellt und in wieviel Fällen er nichtssägend ist. Unterstellen wir mal, die drei Beispiele (Enron, WorldCom und griechische Wirtschaft würden stimmen) in wievielten tausend Fällen wurde der Test angewandt und war nichtssagend und in wieviel tausend Fällen führte er zu Fehlergebnissen. Und war er wirklich bei den 3 vorgenannten Ergebnissen allein entscheidend, oder nur mit auch in dieselbe Richtung weisend? Gerade weil der Test bei Zappeln, den knallharten Manipulationen nicht ausschlägt, fragt sich, wie belastbar, wie brauchbar er ist …
Umstritten ist, ob die Chi-Quadrat-Methode auch zur Aufdeckung von Manipulationen bei Wahlergebnissen aussagekräftig ist. Wenn aber dich der Test aussagekräftig ist, dann müsste er doch bei allen großen Zahlenmengen Auffälligkeiten nachweisen, wenn es Auffälligkeiten gibt?
Schauen wir uns einmal an, ob diese Methode bei den kleinen und mittleren Unternehmen passt. Nehmen wir eine Gaststätte, eine normale Pizzeria mit normaler Speisekarte und mit 60 Sitzplätzen, mittags und abends geöffnet. Da fragt sich schon, was wir verbuchen wollen: die Tageserlöse oder die einzelnen Umsätze. Nehmen wir mal die einzelnen Umsätze: die meisten Pizzen, die bestellt werden, liegen zwischen 6 und 8,50 €, einige wenige Pizzen kosten bis 12,50 €. Die meisten Gäste trinken pro Person ein Glas Wasser oder Cola mittags, abends meistens ein Bier oder ein Glas Rotwein oder eine Cola zum Essen. Getränkekosten meist zwischen 2,80 € (kleines Bier) bis 5,50 € (Rotwein, Hefeweizen). Manchmal kommen auch ein Salat (5,50 €) dazu, oder es wird statt einer Pizza ein großer Salat zwischen 8,50 € und 9,50 € bestellt. Kurzum: Pro Einzelperson liegt der durchschnittliche Umsatz mittags bei bei 10,40 €, abends bei 12,30 €. Würde jeder der Gäste alleine zahlen, wären dies lauter einzelne Bons mit der führenden 1 vorne. Manchmal mittags vielleicht die acht oder neun vorne, weil das Mittagsmenü nur acht Euro ungerade oder neun Euro und ein paar zerquetschte kosten würde. Nun ist es aber so, dass diese Pizzeria doch häufig von Pärchen besucht wird und was unter Benford- Gesichtspunkten noch viel schlimmer ist: einer von beiden bezahlt für beide. Lauter Kassenbons um die paarundzwanzig €. Die 2 führt. Manchmal kommen auch kleinere Gruppen mit drei oder vier Personen, ab und zu Familien mit ein oder 2 oder 3 Kindern. Auch hier liegen dann die Bons jeweils zwischen paarundreißig bis paarundfünfzig €. Ca. 120 Gäste mittags, ca. 60 Gäste abends. Nicht alle gleichzeitig. Ein paar Tische sind immer mal leer. Manche Tische sind mittags oder abends dann nacheinander doppelt besetzt. Insgesamt ca. 90 Bons zwischen paarundzwanzig bis paarundfünfzig €. Die Tageslosung beträgt meistens zwischen 2500-3300 €. Bei ca. 120 Bons ca. 21-27 € pro Bon durchschnittlich, mithin durchschnittlich ca. 11-14 € pro Besucher im Durchschnitt je nach Tag und meist abends etwas teurer. So gut wie keiner geht alleine essen. So gut wie keiner zahlt alleine. Die 1 ist bei den Tagesbons völlig unterrepräsentiert: unter 5 %. Und dabei haben wir genug Bons: 360 Öffnungstage mal ca. 120 Bons täglich = 43.200 Bons. Und dann nur rund 2.000 mal einen Bon unter 20 € und gleichzeitig ab 10,00 € mit der führenden Eins. Was soll der Gastwirt machen: die Pärchen bitten, getrennt zu zahlen, damit er zwei Bons mit einer Zehnerzahl, also der begehrten 1 vorne hat um die Statistik aufzubessern und in die Unauffälligkeit zu fallen? Sonderangebote für Einzelzahler? Oder Preise, etwa eine Tombola, für die, die einen Kassenbon mit der 1 vorne schaffen?
Und belegen die vorgefundenen Abweichungen von der erwarteten Verteilung nach Benford nun eine Hinterzieherkasse oder ist das alles noch normal? Was sagt die Statistik? Was sagt uns die Anwendung von Newcomb Benfords Gesetz? Hinterzieher? Und wenn ja, in welcher Höhe? Wieviel Mehrsteuern?
Schauen wir uns mal die Tageslosungen an: an keinem Tag die 1 vorne, auch die 4-9 fehlen vollständig. Immer nur Zweier und Dreier vorn als führende Zahl bei der Tageslosung. Ist das nun eine Hinterzieherkasse oder ist das alles noch normal? Was sagt uns die Anwendung von Benfords Law? Und hier? Wieviel Mehrsteuern?
Aber auch in Großbetrieben gibt es natürlich zum Beispiel Einkaufsverhalten, das durch bestimmte Vorgaben gesteuert ist, dass die Statistik massiv beeinflusst und auf falsche Fährten führt: der Prokurist, der Bestellungen bis 5.000 € aufgeben kann, splittet möglicherweise größere Aufträge so, das jeweils seinen Verfügungsrahmen nicht überschritten wird. Damit kommt es zu einer erstaunlichen Häufung von Rechnungsbeträgen bis 5.000 €.
In größeren Abteilungen in Behörden wie in Unternehmen gibt es zugewiesene Budgets und ein gewisses Dezemberfieber, dergestalt, dass noch nicht verwendete Mittel jetzt schnell ausgegeben werden, sonst das Budget im nächsten Jahr ggf. kleiner ausfällt, weil es offensichtlich nicht benötigt wird, so die übliche gefürchtete Argumentation. Damit finden das ganze Jahr über kaum oder wenig Käufe statt, und im Dezemberfieber wird alles auf den Kopf gehauen, nur um im nächsten Jahr keine Budgetkürzungen hinnehmen zu müssen. Die unnatürliche Anschaffungswut im Dezember führt zu einer Explosion der Kosten im Dezember und zu einem Verstopfen aller Lagerkapazitäten im Januar, wenn die bestellte Ware dann eintrifft. Dieses unsinnige Ausgabeverhalten hat nichts mit einer Hinterziehung, sondern mit der Angst um geringere Budgets bzw. mit Verteilungskämpfen und Positionierungen etwas zu tun.
Genauso führen Mode, Werbung und Angebote als Kaufanreize zu ebenfalls möglicherweise unsinnigen Einkäufen. Der geschickte Handelsvertreter oder Vertreter der Werbeagentur kann vielleicht den einen oder anderen Auftrag dem Abteilungsleiter oder der Geschäftsleitung entlocken, auch wenn eigentlich kein Bedarf ist. Dann gibt es auf einmal Einkäufe, obwohl das Lager noch halb voll ist, nur weil scheinbar besonders gute Preisangebote oder Sonderangebote vorgelegt wurden oder eine angeblich bevorstehende Verknappung oder in den Raum gestellte spätere Lieferschwierigkeiten zu erfolgreichen Bestellungen führten.
Auch fehlerhafte Eingaben in Inventur- und Warenwirtschaftsprogramme führen dazu, dass entweder Ware nicht oder nicht rechtzeitig nachbestellt oder aber zu früh nachbestellt wird, obwohl das Lager noch eigentlich im Verhältnis zu dem erwarteten Umsatz gut gefüllt ist. Dann würde man vielleicht statistisch noch keine nach Bestellung erwarten, weil noch Ware (scheinbar) vorhanden ist, gleichwohl erfolgen Bestellungen. Die BP schließt daraus teilweise, dass nur bei nahezu vollständigen Abverkauf nach Bestellungen erfolgen, also das Lager eigentlich leer gewesen sein muss. Damit sind aber dann, so die BP, Lagerbestände schwarz verkauft worden, da die Erlöse nicht erfasst wurden. Die Erlöse sind natürlich nicht erfasst worden, weil es sie nicht gab: die Ware war noch im Lager, aber nicht oder nicht richtig erfasst oder nicht auffindbar, sodass das Lager betreffend dieser Position nur scheinbar leer war. Dass dies Fehler in der Warenbestandsaufnahme sein könnten, ist zwar eine denklogische Alternative, die der von der BP aber nicht immer ins Auge gefasst wird und gegebenenfalls nur als Schutzbehauptung abgetan wird.
Die Definition der Erwartung und das richtige Verständnis und das richtige Interpretieren der tatsächlichen Zahlen ist somit für die Anwendung der SRP zentral entscheidend. Insbesondere muss die BP erkennen, dass am Markt mehrere Faktoren zusammen spielen und der wirtschaftliche Erfolg natürlich nicht nur von einem Faktor alleine abhängt.
Da aber eine Hinterziehung nach Auffassung der Finanzverwaltung so schwer aufzudecken ist, muss es einfacher gehen. Wenn man des Diskutieren leid ist und keine Argumente findet und die Erklärungen der Unternehmer nicht widerlegen kann, muss es doch einfacher gehen, ein Mehrergebnis zu finden und durchzusetzen. Da hilft die Statistik. Jedenfalls nach Auffassung einiger aus der Finanzverwaltung. Passen die Daten nicht zu den manipulierten Richtsatzsammlungen (vgl. dazu Burkhard, BBP 2017, 11 ff) oder passen die Daten des Betriebes nicht zu externen oder internen Betriebsvergleichen, muss das auf Manipulation zurückzuführen sein. Nowotzny/Teutemacher stellen in einem Sonderdruck der BBP aus 2017 die digitalen Betriebsprüfungsmethoden als Wunderwaffe vor. Mit statistischen Verprobungen wie Chi-Quadrat, Benfords Law und Zeitreihenvergleich sollen Hinterziehungen aufgedeckt werden. Nur: Schwankungen sind normal. Kein Mensch gleicht dem anderen. Kein Betrieb gleicht dem anderen. Unzählige Faktoren greifen ineinander und bedingen sich teilweise, beeinflussen sich, verstärken sich gegenseitig oder wirken auch gegenläufig und nivellieren sich dann teilweise auch wieder. Wenn man nur ein Zahnrad im Getriebe sich ansieht und hieran dreht, kann dies Auswirkungen auf das Ganze haben, oder vielleicht auch nur auf das nächste Zahnrad. In Betrieben drehen manchmal auch einzelne Zahnräder leer oder drehen sich nur mit wenigen anderen, ohne den großen Einfluss auf das Ganze zu haben. Es ist in einem Unternehmen anders als in einem Uhrwerk einer Schweizer Präzisionsuhr: Nicht jedes Rad macht Sinn und nicht jedes Rads dreht in der richtigen Richtung und manche Räder im Betrieb laufen auch gegen den Strom und die allgemein zu erwartende Drehrichtung. Die Ansätze der BP, einen Parameter zu verproben und damit das Ei des Columbus zu entdecken, ist schon der falsche Ansatz. Es wird eine Milch-Mädchen-Wirtschaftswelt abgebildet oder nachgestellt, die so nirgends existiert und funktioniert, bei der es nur eine Stellschraube gibt und der Rest vernachlässigt wird und wenn da was nicht stimmt, dann muss es eben eine Hinterziehung sein. Auch anderen alternativen Erklärungsmöglichkeiten, nach Antithesen zur Nullhypothese wird gar nicht erst gesucht. Es soll dann Aufgabe des Unternehmers sein, sich gegen diese Anwürfe aus der Milch-Mädchen-Wirtschaftswelt zu exkulpieren und die wahren Gründe für die schlechte Ausbeute oder die Abweichungen von der nach Statistik zu erwartenden Zahl zu finden und sich zu rechtfertigen. Schon der Anwendungserlass zu § 158 AO (Abschnitt 122 AEAO) geht diesen abwegigen Weg und entfernt sich deutlich von dem Grundsatz, dass die Darlegungs- und Beweislast für Mehrergebnisse beim Finanzamt liegen. Er lautet wie folgt wörtlich:
„Abschnitt 122 AEAO – AEAO zu § 158 – Beweiskraft der Buchführung:
Die Vorschrift enthält eine gesetzliche Vermutung. Sie verliert ihre Wirksamkeit mit der Folge der Schätzungsnotwendigkeit nach § 162 AO, wenn es nach Verprobung usw. unwahrscheinlich ist, dass das ausgewiesene Ergebnis mit den tatsächlichen Verhältnissen übereinstimmt. Für die formelle Ordnungsmäßigkeit der Buchführung ist das Gesamtbild aller Umstände im Einzelfall maßgebend. Eine Buchführung kann trotz einzelner Mängel nach den §§ 140 bis 148 AO aufgrund der Gesamtwertung als formell ordnungsmäßig erscheinen. Insoweit kommt der sachlichen Gewichtung der Mängel ausschlaggebende Bedeutung zu. Eine Buchführung ist erst dann formell ordnungswidrig, wenn sie wesentliche Mängel aufweist oder die Gesamtheit aller (unwesentlichen) Mängel diesen Schluss fordert (BFH-Beschluss vom 2.12.2008, X B 69/08, m. w. N.). Werden digitale Unterlagen bei Bargeschäften nicht entsprechend dem BMF-Schreiben vom 26.11.2010, BStBl I S. 1342 aufbewahrt, kann dies ein schwerwiegender formeller Mangel der Ordnungsmäßigkeit sein. Die gesetzliche Vermutung der Richtigkeit der Kassenbuchführung erfordert, dass ein schlüssiger Nachweis hinsichtlich der Unveränderbarkeit der Einzelbuchungen und deren Zusammenführung bei der Erstellung steuerlicher Abschlüsse geführt werden kann. Das Buchführungsergebnis ist nicht zu übernehmen, soweit die Beanstandungen reichen. Eine Vollschätzung an Stelle einer Zuschätzung kommt nur dann in Betracht, wenn sich die Buchführung in wesentlichen Teilen als unbrauchbar erweist.“
Schon Satz 2 des Anwendungserlasses ist mit der Beweislastverteilung nicht zu vereinbaren: Schätzungen sollen nach dem Willen das BMF schon dann notwendige Folge sein,
„wenn es nach Verprobung usw. unwahrscheinlich ist, dass das ausgewiesene Ergebnis mit den tatsächlichen Verhältnissen übereinstimmt.“ Damit wird ein Wahrscheinlichkeitssteuerrecht eingeführt. Wer von der erwarteten statistischen Norm abweicht, muss bezahlen. Gleichgültig ob er die Einnahmen hatte oder nicht. Wofür wir dann noch Steuererklärung abgeben, lässt sich kaum noch erklären. Denn wenn statistische Durchschnittssätze und Statistische Erwartungen dann die Besteuerungsgrundlagen sind, kann es eigentlich dogmatisch auch kein pflichtwidriges Unterlassen der Erklärungsabgabe mehr geben. Denn die statistischen Zahlen liegen ja schließlich vor. Und jeder, der mit seiner Erklärung von der erwarteten Norm abweicht, begeht eine Steuerhinterziehung? Ist das so?
Weichen die betrieblichen Kennzahlen von der erwarteten statistischen Norm ab soll angeblich nach Abschn. 122 AEAO geschätzt werden müssen. Das ist nicht nur Unsinn, das ist auch krass rechtswidrig. Denn für steuerliche Mehrergebnisse ist das FA darlegungs- und beweisbelastet (Niedersächsisches Finanzgericht, Urteil vom 19. Januar 2016 – 15 K 155/12 –, juris). Denn der Maßstab, nach dem im Besteuerungsverfahren vom Vorliegen einer Steuerhinterziehung ausgegangen werden darf, ist seit der Entscheidung des Großen Senats des Bundesfinanzhofs (BFH) vom 5. März 1979 geklärt (vgl. GrS 5/77, BStBl II 1979, 570, 573, m.w.N. aus der älteren Rechtsprechung). Die für das Vorliegen einer Steuerhinterziehung gemäß § 169 Abs. 2 Satz 2 AO erforderlichen Feststellungen sind danach zwar nicht nach den Vorschriften der Strafprozessordnung, sondern nach denjenigen der Abgabenordnung und der Finanzgerichtsordnung zu treffen. Indessen ist auch im Besteuerungs- und Finanzgerichtsverfahren der strafverfahrensrechtliche Grundsatz „in dubio pro reo“ zu beachten. Dies bedeutet, worauf bereits der Große Senat des BFH hingewiesen hat, keine Übernahme von Grundsätzen des Strafverfahrensrechts, sondern lässt sich daraus ableiten, dass die Finanzbehörde (der Steuergläubiger) im finanzgerichtlichen Verfahren die objektive Beweislast (Feststellungslast) für steueranspruchsbegründende Tatsachen trägt. Es ist bezüglich des Vorliegens einer Steuerhinterziehung kein höherer Grad von Gewissheit erforderlich als für die Feststellung anderer Tatsachen, für die das FA die Feststellungslast trägt (Niedersächsisches Finanzgericht, Urteil vom 19. Januar 2016 – 15 K 155/12 –, juris). Und bei nicht behebbaren Zweifeln ist die Feststellung einer Steuerhinterziehung mittels reduzierten Beweismaßes –mithin im Schätzungswege– nicht zulässig. Hängt die Rechtmäßigkeit eines Bescheides davon ab, dass eine Steuerhinterziehung vorliegt, kann das Gericht eine Straftat nur feststellen, wenn es von ihrem Vorliegen überzeugt ist. Es ist ausschließlich § 96 Abs. 1 Satz 1 1. Halbsatz FGO anwendbar, der, der Sache nach mit § 261 StPO übereinstimmend, regelt, dass das FG nach seiner freien, aus dem Gesamtergebnis des Verfahrens gewonnenen Überzeugung zu entscheiden hat (vgl. BFH-Urteil vom 7. November 2006 VIII R 81/04, BStBl II 2007, 364, m.w.N.; Niedersächsisches Finanzgericht, Urteil vom 19. Januar 2016 – 15 K 155/12 –, juris).
Alle Finanzbeamten sind allerdings an die der geltenden vorzitierten Rechtsprechung entgegenstehenden Anweisungen des BMF, hier Abschnitt 122 AEAO gebunden.
Oder man macht auch mal in einem Handwerksbetrieb eine Ausbeutekalkulation: das FA erklärt dem Sanitärfachmann, er rechne seine beiden Meister mit 55 € pro Stunde ausweislich einiger Angebote bzw. einiger Rechnungen ab, die Gesellen jeweils mit 43 € pro Stunde und den einen der beiden Lehrlinge mit 28 €, den anderen mit 26 € pro Stunde. Das Material verkauft er durchschnittlich mit einem Rohgwinnaufschlag von 22 % und das führe zu folgender Nachkalkulation:
Einzelpreis/Stunde | 8 Std täglich | Pro Woche | Pro Monat | Pro Jahr/250 Arbeitstage | |
Meister 1 |
55,00 € |
440,00 € |
2.200,00 € |
9.460,00 € |
110.000,00 € |
Meister 2 |
55,00 € |
440,00 € |
2.200,00 € |
9.460,00 € |
110.000,00 € |
Geselle 1 |
43,00 € |
344,00 € |
1.720,00 € |
7.396,00 € |
86.000,00 € |
Geselle 2 |
43,00 € |
344,00 € |
1.720,00 € |
7.396,00 € |
86.000,00 € |
Geselle 3 |
43,00 € |
344,00 € |
1.720,00 € |
7.396,00 € |
86.000,00 € |
Geselle 4 |
43,00 € |
344,00 € |
1.720,00 € |
7.396,00 € |
86.000,00 € |
Lehrling 3. Lj. |
28,00 € |
224,00 € |
1.120,00 € |
4.816,00 € |
56.000,00 € |
Lehrling 1. Lj. |
26,00 € |
208,00 € |
1.040,00 € |
4.472,00 € |
52.000,00 € |
Chef |
55,00 € |
440,00 € |
2.200,00 € |
9.460,00 € |
110.000,00 € |
Summe: |
3.128,00 € |
15.640,00 € |
67.252,00 € |
782.000,00 € |
|
AK | RGAS, 22 % | Erwarteter Umsatz | |||
Material |
800.000,00 € |
176.000,00 € |
976.000,00 € |
||
erwarteter Umsatz | Material |
976.000,00 € |
|||
Arbeitslohn |
782.000,00 € |
||||
1.758.000,00 € |
|||||
Tatsächlicher Umsatz |
1.334.523,43 € |
||||
Differenz/Mehrumsatz |
423.476,57 € |
Aber ist das wirklich so? Gibt es nicht mal Leerlauf, mal das Lager aufräumen oder den Einsatzwagen aufräumen, neu bestücken, mal Weiterbildung, mal interne Schulung, mal Nachbesserungen, die man nicht in Rechnung stellen kann, mal Schäden, die man verursacht und selbst wieder beseitigt, mal berechtigte oder unberechtigte Preisminderungen, Material das verschwindet oder versehentlich nicht berechnet wird, Stunden die in der Abrechnung untergehen oder nicht bezahlt werden, Pauschalpreise oder günstigere Angebote, um einen Auftrag zu erlangen, Mengenrabatte und Sicherungseinbehalte? Was ist mit Krankheit, Urlaub und anderen Ausfällen der Mitarbeiter? Kann man wirklich zu 100 % alle Leistungen der theoretisch zur Verfügung stehenden Arbeitszeiten abrechnen? Welche Quote ist realistisch? 80 %, 85 oder 90 % der theoretischen Arbeitszeit als abrechenbare Zeit? Mehr oder weniger? Oder ist das betriebs- und personenabhängig? Kann derselbe Mitarbeiter, wenn er zufrieden ist und keine privaten Beziehungs- und/oder Geld-Probleme hat, 90 % seiner theoretisch leistbaren anrechenbaren Zeiten tatsächlich erbringen und wenn er 3 Monate später Geldprobleme hat nur 70 % und wenn 2 Monate später auch noch Beziehungsprobleme hinzukommen nur noch 50 %? Er schreibt Stunden nicht richtig auf, macht viele Fehler, ist unkonzentriert, hört nicht richtig zu, führt Aufträge nicht oder nicht richtig aus, viele Stunden sind dann einfach nicht abrechenbar. Schlimmer noch: andere Mitarbeiter müssen seinen Pfusch beseitigen – und das ist natürlich gegenüber dem Kunden nicht abrechenbar. Dann hat er v.B. die ersten 6 Monate 90 % abrechenbare Leistung erbracht, ab dem 7. bis 9. Monat nur noch 70 % und ab dem 10. Monat nur noch 50 %…? Der Tiefpunkt ist dann im November, als sich seine Freundin von ihm trennt. Nur noch 40 % Leistung. Kurz vor Weihnachten hat er eine Neue. Die Welt ist in Ordnung. Er ist superglücklich, die Arbeit macht wieder Spaß, er hat ein Ziel, will heiraten und die Arbeitsleistung geht wieder auf 90 % abrechenbare Leistungen hoch. Das bewahrt ihn vor der Kündigung. Sein Chef war natürlich mit ihm unzufrieden, aber nun wird alles besser. Und so oder so ähnlich mit ähnlichen Schwankungen geht es allen – natürlich nicht gleichzeitig, aber versetzt. So hat jeder seine Biokurve, mal stärkere Leistungsfähigkeiten, mal schwächere, mal eigene Probleme, mal keine oder weniger Probleme. Und dann kommen Kunden und Lieferanten, die natürlich auch ihre Schwankungen haben: Kunden, die bei Auftragserteilung zahlen wollten, dann aber nicht oder jedenfalls nicht mehr alles komplett zahlen können, Kunden die zu Unrecht reklamieren, bei denen das (fast) schon System ist, Prozesse die vorfinanziert werden müssen, was Aufenthalte bei Anwalt und Gericht bedingt, was dem Chef Zeiten für Angebote, Akquise und Büro- und Baustellen-Kontrolle raubt, dann kommen Falschlieferungen von Lieferanten oder Falschbestellungen oder Rückgaben und Umtausch hinzu, für den Chef auch noch Angebote schreiben, Akquise und Marketingmaßnahmen, Sponsoring und Mitarbeitergespräche, Schulungen und Personaleinstellungen, Abmahnungen und Kündigungen, Bürokram, Buchführungsarbeiten und Besprechungen mit seinem Steuerberater usw. was seine anrechenbaren Zeiten drastisch reduziert. 3 Jahre später kommt die BP und meint, 100 % der theoretisch möglichen Stunden inkl. der des Chefs seien abrechenbar und auch abgerechnet worden, nur die Differenz schwarz kassiert worden. Die Differenz soll dann das Mehrergebnis sein …?
Anderes Beispiel: Die Umsätze einer Eisdiele sind in der Schönwetterperiode nicht hoch genug. Das Finanzamt vergleicht die Wetterdaten des Wetteramtes mit den Umsätzen. Dazu verprobt es weiter die Niederschlagsstatistik für die Region. Es war sonnig, warm und trocken. Warum aber steigende Umsätze der Eisdiele nicht oder nicht entsprechend? Nun ist es zwar bekannt, dass die besten Umsätze in einer Eisdiele zwischen 20-32° erfolgen und, wenn es noch heißer ist, die Umsätze eher wieder rückläufig werden. Trotzdem meint das Finanzamt, dass die Umsätze im Verhältnis zu den Schlechtwetterperioden viel zu gering sind. Zuschätzung erlaubt? Hinterziehung nachgewiesen?
In einem Biergarten ist es nicht anders: Je heißer die Temperaturen, um so weniger Alkohol wird konsumiert. Die meisten wollen sich eben nicht sinnlos betrinken und stellen bei heißen Temperaturen ihre Nachfrage um: ab 30 bis 32 Grad Celsius sinkt drastisch die Nachfrage nach alkoholischen Getränken und die Nachfrage nach Wasser steigt. Die Arbeitsthese des Finanzamts, dass bei steigenden Temperaturen der Eiskonsum oder der Bierkonsum quasi parallel ansteigen müsse, ist nicht zutreffend. Es gibt natürlich grundsätzlich eine Relation von Witterungseinflüssen zu Konsumentenverhalten. Bei Dauerregen werden mehr Schirme und Regencapes gekauft, als bei Sonnenschein. Das sind ein paar Gelegenheits- oder Notkäufe. Aber wieviel müssen das sein, um der erwarteten Normalkurve zu entsprechen? Und natürlich verkauft der Eissalon mehr Eis, wenn die Temperaturen im Frühjahr von 8 Grad Celsius auf 18 oder 24 Grad Celsius steigen. Aber wieviel Prozent mehr müssen das sein? Was entspricht der erwarteten Normalverteilung und ab welcher Unterschreitung ist das auffällig und ab wann soll es eine Hinterziehung sein? Und vor allem: wieviele Faktoren spielen noch eine Rolle? Ist das Wetter der einzige Faktor?
Manchmal glaubt man, die Prüfungsbeamten, die in ruhigen, geregelten Bahnen leben, nach Dienstalter unabhängig von ihrer Leistungsfähigkeit und Leistungsbereitschaft gehalts- und dienstgradmäßig befördert werden, bei denen alles statisch verläuft und die mit Ernennung zum Beamten schon ihren Pensionseintritt und alle Gehaltsschritte und die Pension berechnen können, könnten gar nicht die freie Marktwirtschaft und die teilweise schwer bis gar nicht vorhersehbaren Marktfaktoren verstehen und das, was einen Unternehmer ausmacht, nämlich Unternehmerchancen und Unternehmerrisiken nachvollziehen oder diese Worte in die Praxis umsetzen: Das Verständnis für das Marktgeschehen, das Zusammenspiel zahlreicher Faktoren, scheint bei den zuweilen milchmädchenhaft anmutenden Betrachtungen und Berechnungen komplett zu fehlen. Es ist eben gerade nicht so, dass für einen Unternehmenserfolg nur ein Parameter maßgebend wäre, wie umgekehrt für den Misserfolg ein, zwei passende positive Parameter grobe Fehler nicht zum Erfolg werden lassen. Folgende Beispiele mögen das illustrieren: Eine Pizzeria in bester Lage hat 2 Bedienungen. Die eine ist unaufmerksam, schaut nicht nach den Gästen, die gerne bestellen möchten, die ihr Winken und Zurufen. Sie kommt nicht, drückt sich immer vor der Arbeit, fragt nie, ob es denn noch etwas sein dürfe. Die andere kommt zwar, ist aber unfreundlich bis garstig. Die Pizzeria gegenüber mit vergleichbarem Angebot, Lage und Größe boomt. Warum wohl? Und warum lässt sich das statistisch nun nicht irgendwie verstehen. Beide Lokale haben scheinbar gleiche äußere Rahmenbedingungen und gleiche Personalkosten. Die eine Pizzeria läuft, die andere nicht. Ist die schlecht oder schlechter laufende Pizzeria nun eine Hinterzieher-Pizzeria? Sind markt-und betriebswirtschaftliche Kriterien tatsächlich auf statistische Verprobungen und externe Betriebsvergleiche reduzierbar? Na gut, argumentiert der Prüfer, dann hätte doch der Gastwirt die unfreundliche Bedienung gefeuert oder feuern sollen, wenn die so schlecht ist. Ja, wenn er das herausgefunden hat und dies arbeitsvertraglich möglich ist. Meist ist das aber gar nicht so einfach: Da gibt es eine Kollegialität zwischen den Berufsangehörigen, die das vielleicht eher sehen, aber beim Chef nicht petzen wollen, oder die eigene Probleme haben und weggucken oder fehlende Zivilcourage haben oder einfach keinen Ärger haben möchten, die Angst haben, das ihnen nicht geglaubt wird, die vielleicht Ausländer sind und sich nicht ausdrücken können, sich unterlegen fühlen, falls es zum Disput kommt, Angst vor Mobbing haben oder einfach denken, was geht es mich an, dass muss doch der Chef selbst sehen oder die darauf hoffen, dass die schlechte Phase der Kolleginnen bald vorüber ist, schließlich kann jeder mal eigene Probleme haben und deren Art wird vielleicht darauf zurückzuführen sein. Innere Kündigungen oder eine Stellung bloß als Aushilfskraft und fehlende Identifizierung mit dem Unternehmern tun dann ihr übriges. Und wenn das nicht die einzigen Bedienungen sind, dann fallen die auch nicht so schnell auf …
Fragen hierzu? Probleme im streitigen Steuerrecht oder Steuerstrafrecht? Ärger und Probleme mit der BP, Steufa oder dem Hauptzollamt? Einspruchsverfahren, Klage, Nichtzulassungsbeschwerde, Verfassungsbeschwerde? Dann rufen Sie an: Dr. Jur. Jörg Burkhard, Fachanwalt für Steuerrecht, Fachanwalt für Strafrecht, 0611-890910 oder www.drburkhard.de