Verständnis / Spelling Correction

Ansonsten gibts noch das Protokoll, steht da etwas sinnvolles drin?

Ja also ich würde halt gerne mal alle Werte sehen, sprich nur mit Entity “ORG” und den ganzen anderen. Und dann hattest du ja in deinem, was du mir gestern geschickt hast, die kombiniert die sinn machen und dann noch sowas gemacht
pipe_1 = (bm25*0.99) + (bm25_ents*0.01)
um den wert weiter zu verbessern
Das würde ich gerne noch machen

Ok, kannst du den code bitte auf das minimum aufräumen, und dann committen? Damit ich es mir in einem minimalem Hello World beispiel anschauen kann?

mach ich sekunde

Hier Projekt, oder brauchst du nur bis den Teil der nicht geht

Hi, ich hab jetzt hier ein kleines Notebook hingelegt: [ir-lab-sose-2024-ir-nfmj/entity-recognition/entity-recognition-with-spacy.ipynb at main · tira-io/ir-lab-sose-2024-ir-nfmj · GitHub]

Das macht erstmal die entity recognition ohne alles weitere, als mimimalbeispiel, und schreibt alle erkannten entities pro typ mit raus.

Das läuft jetzt ca. eine stunde, und dann können wir direkt die ausgaben davon von tira laden. Das sind am ende ca. 40 MB komprimiert, und ist denke ich angenehmer als wenn wir in wieder und wieder diesen prozess im Codespace starten wo dann irgendwann gekillt wird aus welchem Grund auch immer. Das sollte auch das entwickeln deutlich angenehmer machen, ich stell mir mal den Wecker auf in ca. einer Stunde, damit ich mich dann zurückmelden kann.

Viele grüße,

Maik

alles klar danke

Oki doki, ist jetzt duchgelaufen, das geht jetzt schön schnell, wenn man nur die schon vorgelabelten entities lädt.

Hier habe ich ein kleines Jupyter Notebook, das zeigt wie du es nutzt: https://colab.research.google.com/drive/1qgsn-sny8O6Ro5X6YAFe3-4OZ9gGPF8r?usp=sharing

Damit solltest du jetzt denke ich problemlos den ganzen corpus im Codespace verarbeiten können?

Viele Grüße,

Maik

hab kein zugriff darauf, jhab zugriffsanfrage gemacht
(also auf das notebook)

Ah, sorry, hier der aktualisierte Link: Google Colab

ja geht danke

1 Like

das lief einmal durch
document_entity_recognition = tira.pt.transform_documents('ir-lab-sose-2024/ir-nfmj/entity-recognition', pt_dataset)
jetzt geht es nicht mehr und Kernel crashed wieder

Musst du den Codespace vielleicht mal neu starten?

Vielleicht sind zu viele sachen im Hintergrund aktiv?

ja also iwas stimmt mit codespace nicht. Wenn ich PC neu starte tut coddespace es auch?

Es ist so verbuggt,


Wieso ist der run pfeil vorne weg und es findet kein Kernel zum ausführen

Starte den vielleicht nochmal neu. Am anfang braucht es etwas zum starten.

Um einen neuen Codespace zu starten, bitte auf “Code” → “Codespaces” → “Create Codespace” clicken

Ansonsten kannst du auch deine lokale IDE mit dem Codespace verbinden, oder Colab würde es hier auch tun.

Ok, alles beim alten, kann mich nicht erinnern das beim letzten mal so geöffnet zu habe
Hat wieder geladen

Beim alten heißt es klappt nicht? Oder klappt wieder?

es klappt wieder. kleine verständnis Frage in der for loop warum den “_”. Also ich sehe was es bewirkt. Ist es sogesehen der _, i wobei _ für alles davor ist und i dann für rest?