--- library_name: transformers tags: - japanese - ner - medical --- # Model Card for `Tomohiro/MedTXTNER` **本モデルは、日本語医療テキストの NER(固有表現抽出)タスク向けに `cl-tohoku/bert-base-japanese-v3` をファインチューニングしたモデルです。** ## モデル詳細 ### 説明 - ベースに `cl-tohoku/bert-base-japanese-v3`を使用 - 奈良先端大で作成された日本語医療テキストのアノテーション付きデータ(症例報告、読影レポート、看護記録)でファインチューニングを実施 | 項目 | 詳細 | |-------------------------|----------------------------------------| | **Developed by** | NAIST ソーシャルコンピューティング研究室 | | **Model type** | Token classification    | | **Language(s)** | Japanese | | **Finetuned from** | cl-tohoku/bert-base-japanese-v3 | ### モデルソース - **Hub リポジトリ**: https://huggingface.co/Tomohiro/MedTXTNER ## 利用方法 ```python import torch from transformers import AutoTokenizer, AutoModelForTokenClassification model_dir = "Tomohiro/MedTXTNER" model = AutoModelForTokenClassification.from_pretrained(model_dir) tokenizer = AutoTokenizer.from_pretrained(checkpoint_dir, use_fast=True) device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model.to(device) model.eval() def predict_text(text: str): enc = tokenizer( text, return_tensors="pt", truncation=True, padding="max_length", max_length=512, is_split_into_words=False ).to(device) with torch.no_grad(): outputs = model(**enc) logits = outputs.logits pred_ids = torch.argmax(logits, dim=-1)[0].cpu().tolist() tokens = tokenizer.convert_ids_to_tokens(enc["input_ids"][0]) id2label = model.config.id2label result = [] for tok, pid in zip(tokens, pred_ids): if tok in tokenizer.all_special_tokens: continue result.append((tok, id2label[pid])) return result sample = "症例】53歳女性。発熱と嘔気を認め、プレドニゾロンを中断しました。" for tok, lab in predict_text(sample): print(f"{tok}\t{lab}")