Ansonsten gibts noch das Protokoll, steht da etwas sinnvolles drin?
Ja also ich würde halt gerne mal alle Werte sehen, sprich nur mit Entity “ORG” und den ganzen anderen. Und dann hattest du ja in deinem, was du mir gestern geschickt hast, die kombiniert die sinn machen und dann noch sowas gemacht
pipe_1 = (bm25*0.99) + (bm25_ents*0.01)
um den wert weiter zu verbessern
Das würde ich gerne noch machen
Ok, kannst du den code bitte auf das minimum aufräumen, und dann committen? Damit ich es mir in einem minimalem Hello World beispiel anschauen kann?
mach ich sekunde
Hi, ich hab jetzt hier ein kleines Notebook hingelegt: [ir-lab-sose-2024-ir-nfmj/entity-recognition/entity-recognition-with-spacy.ipynb at main · tira-io/ir-lab-sose-2024-ir-nfmj · GitHub]
Das macht erstmal die entity recognition ohne alles weitere, als mimimalbeispiel, und schreibt alle erkannten entities pro typ mit raus.
Das läuft jetzt ca. eine stunde, und dann können wir direkt die ausgaben davon von tira laden. Das sind am ende ca. 40 MB komprimiert, und ist denke ich angenehmer als wenn wir in wieder und wieder diesen prozess im Codespace starten wo dann irgendwann gekillt wird aus welchem Grund auch immer. Das sollte auch das entwickeln deutlich angenehmer machen, ich stell mir mal den Wecker auf in ca. einer Stunde, damit ich mich dann zurückmelden kann.
Viele grüße,
Maik
alles klar danke
Oki doki, ist jetzt duchgelaufen, das geht jetzt schön schnell, wenn man nur die schon vorgelabelten entities lädt.
Hier habe ich ein kleines Jupyter Notebook, das zeigt wie du es nutzt: https://colab.research.google.com/drive/1qgsn-sny8O6Ro5X6YAFe3-4OZ9gGPF8r?usp=sharing
Damit solltest du jetzt denke ich problemlos den ganzen corpus im Codespace verarbeiten können?
Viele Grüße,
Maik
ja geht danke
das lief einmal durch
document_entity_recognition = tira.pt.transform_documents('ir-lab-sose-2024/ir-nfmj/entity-recognition', pt_dataset)
jetzt geht es nicht mehr und Kernel crashed wieder
Musst du den Codespace vielleicht mal neu starten?
Vielleicht sind zu viele sachen im Hintergrund aktiv?
ja also iwas stimmt mit codespace nicht. Wenn ich PC neu starte tut coddespace es auch?
Starte den vielleicht nochmal neu. Am anfang braucht es etwas zum starten.
Um einen neuen Codespace zu starten, bitte auf “Code” → “Codespaces” → “Create Codespace” clicken
Ansonsten kannst du auch deine lokale IDE mit dem Codespace verbinden, oder Colab würde es hier auch tun.
Ok, alles beim alten, kann mich nicht erinnern das beim letzten mal so geöffnet zu habe
Hat wieder geladen
Beim alten heißt es klappt nicht? Oder klappt wieder?
es klappt wieder. kleine verständnis Frage in der for loop warum den “_”. Also ich sehe was es bewirkt. Ist es sogesehen der _, i wobei _ für alles davor ist und i dann für rest?