Auf den ersten Blick sieht das nicht auffällig aus. Aber hinsichtlich implizier Methode kann ich keine fundierte Methodenberatung leisten - wir kümmern uns um solide Technik.
Für das Design und die Interpretation der Daten sollten Sie (wenn die entsprechende Kompetenz an der Hochschule nicht ohnehin vorhanden ist) am besten mit einem Lehrbuch starten. Ein konkretes kann ich nicht empfehlen, weil das nicht mein Schwerpunkt ist, aber die Suche nach "Lehrbuch Implizite Methoden" in den gängigen Suchmaschinen liefert eine respektable Anzahl Treffer.
Meine Prognose ist: Es wird darauf hinauslaufen, dass die geringe Korrelation zwischen Übungs- und Messblock die Interpretation nahelegt, dass Ihre Messung nicht besonders verlässlich war. Mögliche Ursachen habe ich in der vorigen Antwort ja schon dargelegt (und vermutlich sind diese nicht einmal vollständig). Vermutlich wären weitere Studien erforderlich, um zu klären, ob die geringe Reliabilität am Konstrukut, am Stimulus, an den Teilnehmer:innen oder an Kontexteffekten liegt.
Womöglich ist die Reliabilität der Messung im Hauptteil auch vollkommen in Ordnung, und die Befragten brauchten bei diesem Konstrukt einfach das Training vorneweg. Sollte der traditionelle D-Score stärkere Effekte aufweisen als der "improved", würde ich diese Interpretation in Betracht ziehen. Wie gesagt: Die Korrelation zwischen Test- und Hauptteil der Messung ist lediglich eine Schätzung der Reliabilität - und eine Schätzung kann immer auch falsch liegen.