So führen Sie ein Jobinterview für die Stelle Ingenieur für maschinelles Lernen
Dieses Interview-Profil für Machine Learning Engineers ist eine Sammlung aller wichtigen Infos, auf die Sie beim Jobinterview achten sollten.
Was macht ein Machine Learning Engineer und worauf müssen Sie achten?
Die Rolle des Ingenieurs für maschinelles Lernen ist eine sehr technische Rolle, die normalerweise für Unternehmen relevant ist, deren Hauptproduktlinie eine sehr starke datengesteuerte Komponente aufweist. Ingenieure für maschinelles Lernen verfügen über die praktischen Fertigkeiten, die für einen Datenwissenschaftler relevant sind, konzentrieren sich aber besonders auf den Entwurf und die Anwendung von Modellen, die mit maschinellem Lernen erstellt wurden, um Probleme der realen Welt zu lösen. Als solcher hat ein Machine Learning Engineer sowohl die theoretischen Grundlagen als auch die praktischen Anwendungen des maschinellen Lernens studiert und ist besonders stark in verwandten Bereichen wie Statistik, Optimierung, Data Mining und algorithmisches Design.
Sie wissen, wie man den richtigen Modelltyp für ein bestimmtes Problem aus einer Vielzahl von Modellen auswählt. Für jedes Modell verstehen sie die Einschränkungen und Annahmen, wissen, wie man die Modellleistung abstimmt und verbessert und die richtigen Metriken zur Bewertung der Modellgenauigkeit verwendet. Forschung ist oft eine Kernkompetenz für diese Rolle, und Kandidaten mit einem starken Forschungshintergrund, wie z.B. einem Doktortitel, sind sehr begehrt. Aus praktischer Sicht haben die Kandidaten Erfahrung in der Arbeit mit spezialisierten Werkzeugen und Paketen für maschinelles Lernen wie Scikit-Lernen (Python), Spark ML, R, Mahout und so weiter. Kandidaten nähern sich dieser Aufgabe am häufigsten aus einem Informatik- oder Statistik-Hintergrund.
Rollenspezifische Fragen
Eine gute Möglichkeit, ein Fachgespräch zu beginnen und aufzubauen, besteht darin, sich von einem Kandidaten beschreiben zu lassen, wie ein Modell funktioniert, mit dem er vertraut ist. Technische Gespräche können für Kandidaten oft sehr anstrengend sein, und dies ist eine Möglichkeit, den Kandidaten die Möglichkeit zu geben, sich etwas zu entspannen und über etwas zu sprechen, in dem sie mehr Erfahrung haben. Es spielt keine Rolle, ob sie etwas sehr Einfaches wählen, denn das Ziel ist zu sehen, ob der Kandidat das Modell wirklich versteht und nicht nur die Grundlagen kennt. Es kann für einen Kandidaten sehr interessant sein, wenn er bei so etwas Einfachem wie den k-nearest Neighbors oder der linearen Regression in die Tiefe gehen kann.Welche Art von Problem versucht das Modell zu lösen?Neigt es zur Überanpassung? Wenn ja - was kann man dagegen tun?Macht das Modell wichtige Annahmen über die Daten? Wann könnten diese unrealistisch sein? Wie untersuchen wir die Daten, um zu prüfen, ob diese Annahmen erfüllt sind?Hat das Modell Konvergenzprobleme? Hat es eine Zufallskomponente oder werden die gleichen Trainingsdaten immer das gleiche Modell erzeugen? Wie gehen wir mit Zufallseffekten im Training um?Welche Arten von Daten (numerische, kategoriale etc...) kann das Modell verarbeiten?Kann das Modell mit fehlenden Daten umgehen? Was können wir tun, wenn wir fehlende Felder in unseren Daten finden?Wie interpretierbar ist das Modell?Welche alternativen Modelle könnten wir für die gleiche Art von Problemen verwenden, die dieses Modell zu lösen versucht, und wie steht es im Vergleich zu diesen?Können wir das Modell aktualisieren, ohne es von Anfang an umzuschulen?Wie schnell ist die Vorhersage im Vergleich zu anderen Modellen? Wie schnell ist das Training im Vergleich zu anderen Modellen?Hat das Modell irgendwelche Meta-Parameter und muss daher abgestimmt werden? Wie können wir dies tun?
Fragen zum maschinellen Lernen
Was ist der EM-Algorithmus? Geben Sie ein paar Anwendungen anWas ist tiefes Lernen und was sind einige der Hauptmerkmale, die es vom traditionellen maschinellen Lernen unterscheidenWas ist linear in einem verallgemeinerten linearen Modell?Was ist ein probabilistisches graphisches Modell? Was ist der Unterschied zwischen Markov networks und Bayesian networks?Geben Sie ein Beispiel für eine Anwendung der nicht-negativen MatrixfaktorisierungAuf welcher Art von Ensembletechnik basiert ein random forest ? Welche besondere Beschränkung versucht sie anzugehen?Welche Methoden der dimensionality reduction kennen Sie und wie vergleichen Sie sie miteinander?Was sind einige gute Methoden zur Durchführung der Merkmalsauswahl, die keine erschöpfende Suche erfordern?Wie würden Sie die Qualität der Cluster bewerten, die durch einen Lauf von K-means erzeugt werden?
Tools und Research
Verfügen Sie über Forschungserfahrung auf dem Gebiet des maschinellen Lernens oder einem verwandten Gebiet? Verfügen Sie über Publikationen?Welche Werkzeuge und Umgebungen haben Sie zur Ausbildung und Bewertung von Modellen verwendet?Haben Sie Erfahrung mit Spark ML oder einer anderen Plattform zur Erstellung von Modellen für maschinelles Lernen unter Verwendung sehr großer Datensätze?