Wie maschinelles Sehen die Automatisierung fährt

Machine Vision ist die Verschmelzung einer Reihe von Technologien, die es industrieller oder anderer automatisierter Geräte ermöglichen, aus den Bildern ein erweitertes Verständnis der jeweiligen Umwelt abzuleiten. Ohne Machine Vision Software wären digitale Bilder mit unterschiedlichen Farbwerten und Tonintensitäten nichts weiter als eine einfache, nicht verbundene Sammlung von Pixeln für solche Geräte. Machine Vision ermöglicht es einem Computer (normalerweise an einen Maschinencontroller verbunden) Kanten und Formen in solchen Bildern zu erkennen, damit ein Prozessor über höherer Ebene ein vordefiniertes Zielobjekt erkennen kann. Bilder in diesem Sinne beschränken sich nicht auf fotografische Bilder im sichtbaren Spektrum. Sie können auch Bilder enthalten, die mit Infrarot-, Laser-, Röntgen- und Ultraschallsignalen erhalten wurden.

In industriellen Umgebungen ist es für Maschinenaufwandsanwendungen weit verbreitet, um bestimmte Teile aus den vielen Teilen zu erkennen, die in einer Strecke von materiellen Behältern platziert sind. Hier hilft Machine Vision dem Pick-and-Place-Roboter automatisch die richtigen Teile. Wenn die Teile alle ordentlich in der gleichen Ausrichtung auf einer Palette angeordnet sind, wäre es natürlich relativ einfach, sie mit bildgebendem Feedback zu erkennen. Starke Algorithmen für maschinelle Vision können jedoch Objekte erkennen, die in unterschiedlichen Entfernungen von der Kamera sind (und daher als Bilder mit unterschiedlicher Größe auf dem Bildgebungssensor auftreten) sowie Objekte, die nicht in der gleichen Richtung wie die Kamera ausgerichtet sind.

Die anspruchsvollsten Machine Vision -Systeme haben aufkommende Designs ermöglicht, die weitaus komplexer sind als die Auswahl von Teilen aus Behältern. Zum Beispiel kann es nicht komplexer Identifikation geben als ein selbstfahrendes Auto.

machine vision

Techniken im Zusammenhang mit dem Maschinenaufwand

Der Begriff Machine Vision ist manchmal für den Hinweis auf ausgefeiltere und effizientere mathematische Methoden reserviert, die Informationen aus den Bildern extrahieren können. Im Gegensatz dazu beschreibt der Begriff Computer Vision typischerweise modernere, recheninformierend anspruchsvolle Systeme, die Black-Box-Ansätze enthalten, die maschinelles Lernen oder künstliche Intelligenz (KI) verwenden. Machine Vision kann jedoch auch als allumfassender Begriff verwendet werden, der alle Methoden zum Extrahieren von Informationen auf hoher Ebene aus Bildern enthält. In diesem Fall beschreibt Computer Vision seine zugrunde liegende Operationstheorie.

Techniken, die eine hohe Bedeutung aus den Bildern extrahieren können, gibt es im Überfluss. In der Forschungsgemeinschaft werden solche Techniken häufig als maschinelles Sehen unterscheidet. In Wirklichkeit sind jedoch alle unterschiedliche Möglichkeiten zur Implementierung von Maschinenvisionen ... und sie überschneiden sich in vielen Fällen.

Die digitale Bildverarbeitung ist eine Form der digitalen Signalverarbeitung, die Bildverbesserung, Wiederherstellung, Codierung und Komprimierung umfasst. Vorteile gegenüber der analogen Bildverarbeitung sind die Minimierung von Rauschen und Verzerrungen sowie die Vielzahl der verfügbaren Algorithmen. Eine der ersten Arten der Bildverstärkung wurde verwendet, um die ersten Nahaufnahmen der Mondoberfläche zu korrigieren. In diesem Prozess wurden photogrammetrische Mapping sowie Rauschfilter verwendet, und es wurden Korrekturen für geometrische Verzerrungen vorgenommen, die durch die Ausrichtung der Bildgebungskamera auf die Mondoberfläche verursacht wurden.

Die digitale Bildverbesserung beinhaltet normalerweise einen zunehmenden Kontrast und möglicherweise geometrischen Korrekturen für die Anzeigewinkel und die Linsenverzerrung. Die Komprimierung wird häufig erreicht, indem komplexe Signale als Kombination aus Cosinusfunktionen genutzt werden-eine Fourier-Transformation, die als diskrete Cosinus-Transformation (DCT) bekannt ist. Das JPEG-Dateiformat ist die häufigste Anwendung des DCT. Die Bildwiederherstellung kann auch die Fourier -Transformation verwenden, um Rauschen und Unschärfe zu entfernen.

Photogrammetrie verwendet eine Art Merkmalserkennung, um Messungen aus Bildern zu extrahieren. Diese Messungen können 3D -Informationen enthalten, wenn mehrere Bilder derselben Szene von verschiedenen Orten erfasst werden. Die einfachsten photogrammetrischen Systeme verwenden eine Skala, um den Abstand zwischen zwei Punkten in einem Bild zu messen. Dazu ist es häufig notwendig, eine bekannte Referenzskala in das Bild aufzunehmen.

Durch die Erkennung von Funktionen kann der Computer Kanten, Ecken oder Punkte im Bild erkennen. Dies ist der erste Schritt, der für die Fotogrammetrie und für die Erkennung von Objekten und Bewegungen erforderlich ist. Die Erkennung von BLOB Identifiziert Bereiche mit Kanten, die für die Kanten- oder Eckerkennung zu glatt sind.

Die Mustererkennung wird verwendet, um bestimmte Objekte zu erkennen. Im einfachsten Fall könnte dies bedeuten, ein gut definiertes spezifisches mechanisches Teil an einem Förderband zu finden.

Die 3D -Rekonstruktion bestimmt die 3D -Form eines Objekts aus einem 2D -Bild. Diese Funktion kann durch photogrammetrische Methoden realisiert werden. In diesem Fall werden die Höhen gemeinsamer Merkmale (bestimmt in Bildern aus verschiedenen Beobachtungspunkten) unter Verwendung von Triangulation bestimmt. Die 3D -Rekonstruktion ist auch mit 2D -Bildern allein möglich; Hier erklärt die Software auch die geometrischen Beziehungen zwischen Kanten oder schattierten Bereichen.

Der Mensch kann Würfel einfach rekonstruieren, indem sie sie in seinem Gehirn unter Verwendung von Zeichnungszeichnungen verarbeiten - mit schattierten Kreisen, um Kugeln zu rekonstruieren. Die Schattierung zeigt die Neigung der Oberfläche. Dieser Ableitungsprozess ist jedoch weitaus komplexer als man denken könnte, da die Schattierung ein eindimensionaler Parameter ist, während die Steigung in einem zweidimensionalen Fall auftritt. Dies kann zu mehrdeutigen Situationen führen - eine Tatsache, die durch die Kunst der Darstellung physikalisch unmöglicher Objekte validiert wird.

Wie maschinelle Aufgaben aufgebracht werden

Viele Maschinenvisionssysteme enthalten die oben genannten Techniken schrittweise, indem sie mit niedrigem Operationen beginnen und dann zu höheren Operationen übergehen. Auf der niedrigsten Ebene werden alle Pixel eines Bildes als Daten mit hoher Bandbreite gespeichert. Jede Operation in der Sequenz erkennt dann Bildmerkmale und stellt die von Interesse von interessierenden Informationen mit einer relativ geringen Datenmenge dar.

Der erste ist der niedrige Betrieb der Bildverbesserung und -restauration, gefolgt von der Merkmalserkennung. Bei der Verwendung mehrerer Sensoren können die Operationen mit niedrigem Niveau durch verteilte Prozesse ausgeführt werden, die für einzelne Sensoren spezialisiert sind. Sobald Merkmale in einzelnen Bildern erkannt wurden, können fortschrittlichere Fotogrammetrie ausgeführt werden - wie bei jeder Objekterkennung oder einer anderen Aufgabe, die sich auf kombinierten Daten von mehreren Bildern und Sensoren stützt.

Direkte Berechnungs- und Lernalgorithmen

Im Falle von Machine Vision ist direkte Berechnung eine Reihe mathematischer Funktionen, die vom Programmierer definiert sind. Diese Funktionen nehmen Eingänge wie Bildpixelwerte auf und erzeugen Ausgänge wie Objektkantenkoordinaten. Im Gegensatz dazu werden Lernalgorithmen nicht direkt von Menschen geschrieben, sondern auf Beispieldatensätzen geschult, die Eingänge mit den gewünschten Ausgängen korrelieren. Infolgedessen werden Lernalgorithmen als schwarze Boxen verwendet. Die meisten dieser maschinellen Lernen nutzen jetzt ein tiefes Lernen, das auf künstlichen neuronalen Netzwerken zur Berechnung basiert.

Einfaches maschinelles Lernen für industrielle Anwendungen ist in der Regel zuverlässiger und weniger rechnerisch anspruchsvoll, wenn sie auf direkter Berechnung basieren. Natürlich gibt es Grenzen für das, was durch direkte Berechnung erreicht werden kann. Zum Beispiel sollte man niemals hoffen, Gesichter auszuführen, um die erforderlichen erweiterten Erkennungsmuster zu erkennen, insbesondere nicht aus Videoaufnahmen in überfüllten öffentlichen Räumen. Im Gegensatz dazu kann maschinelles Lernen solche Anwendungen geschickt umgehen. Es ist daher nicht überraschend, dass maschinelles Lernen zunehmend für Machine Vision Operations auf niedrigem Niveau eingesetzt wird, insbesondere für die Erkennung von Bildverbesserungen, Wiederherstellung und Merkmals.

Verbesserte Lehrmethoden (nicht Algorithmen)

Die zunehmende Raffinesse von Deep -Lern -Techniken hat deutlich gemacht, dass es nicht die Lernalgorithmen selbst sind, die verbessert werden müssen, sondern die Art und Weise, wie die Algorithmen trainiert werden. Ein verbessertes Schulungsverfahren ist als datenzentrierter Computer Vision bekannt. Hier akzeptiert ein Deep -Lern -System ein sehr robustes Trainingssatz, das aus Tausenden, Millionen oder sogar Milliarden Bildern besteht - und speichert dann die aus jedem Bild extrahierten synthetisierten Informationen durch seine Algorithmen. Diese Algorithmen lernen effizient, indem sie sie mit Arbeitsbeispielen verknüpfen, und beziehen sich dann auf ein "Antwortbuch", um zu überprüfen, ob die richtigen Werte abgeleitet wurden.

Es gibt eine alte warnende Geschichte über die Erkennung digitaler Muster. Das US -Militär hatte einst beabsichtigt, Maschinenvision für die Zielerkennung zu verwenden, und die Demonstration eines Verteidigungsunternehmers identifizierte sowohl die USA als auch die russischen Panzer zuverlässig. Panzer aller Arten könnten korrekt unterschieden werden, nacheinander, von den Luftaufnahmen des Lieferanten. Wenn das System jedoch erneut mit der eigenen Bildbibliothek des Pentagon getestet wurde, gab das System immer wieder falsche Antworten. Das Problem war, dass die Bilder der Verteidigungsunternehmen alle amerikanische Panzer in der Wüste und in den russischen Panzern auf grünen Feldern darstellten. Anstatt die verschiedenen Tanks zu identifizieren, identifizierte das System die verschiedenen farbigen Hintergründe. Was sind die Anerkennungskriterien? Lernalgorithmen erfordern sorgfältig kuratierte Schulungsdaten, um zu arbeiten.

Schlussfolgerung: Eine sichere Vision für Roboterarbeitzellen

Machine Vision ist keine Nischentechnologie mehr. Im aktuellen Antrieb ist der Industriesektor der größte Wachstumsgebiet für Bereitstellungen für Maschinenvisionen. Die bemerkenswerteste Entwicklung in diesem Bereich ist, wie Maschinenaufenthalte die Sicherheitssysteme in Industrieanlagen, dh Systeme, die Alarm erteilen oder Sprachbenachrichtigungen ergeben, wenn ein Arbeiter in einen Arbeitsbereich ohne Helm, Maske oder andere geeignete Schutzausrüstung eingeht. Machine Vision kann auch in Systemen verwendet werden, die beim Bewegen von Maschinen wie Gabelstapler aufmerksam werden, die dem Personal zu nahe kommen.

Diese und ähnlichen Machine Vision Systems können manchmal harte Schutzmaßnahmen für Industrieroboter ersetzen, um den Betrieb effizienter zu gestalten. Machine Vision Systems können auch Sicherheitssysteme basierend auf leichten Bewachung ersetzen oder verbessern, die Maschinen stoppen, wenn ein Arbeiter in die Arbeitszelle eindringt. Wenn Machine Vision den Fabrikboden um eine Arbeitszelle überwacht, können die Roboter in dieser Zelle das Potenzial haben, allmählich langsamer zu werden, wenn sich Menschen nähern.

Während sich das Design der industriellen Umgebungen entwickelt, um kollaborative Roboter und andere Arbeitskräftegeräte aufzunehmen, mit denen das Anlagenpersonal sicher herumlaufen kann (auch wenn die Ausrüstung läuft), werden diese und andere Systeme für maschinelles Sehvermögen ein häufigerer Bestandteil von Anlagenprozessen.

Wie maschinelles Sehen die Automatisierung treibt