AI in Medicine: NLP

Reading time ~3 minutes

Sources:
- Medical reports (radiology, pathology), discharge summaries, clinical notes, transcriptions
- Publications (papers, guidelines), patient‐generated text (social media, interviews)
Public Datasets:
- MIMIC-III/IV (clinical notes, QA pairs, MedNLI)
- MIMIC-CXR (200 k chest X-ray reports + images)
- Open-I (4 000 radiology reports + images)
- PubMed RCT abstracts (200 k)

Formats: BoW (counts), token sequences, parse trees
Tokenization:
- Word‐level (OOV issues), character‐level, sub‐word (BPE, WordPiece)
- Pipeline: normalization → pre‐tokenization → vocabulary lookup → post‐processing
Embeddings:
- Word2Vec (CBOW, Skip-gram)
- GloVe: co-occurrence factorization
- End-to-end learned embeddings in deep models

Attention: scaled dot-product on queries/keys/values
Multi-Head: parallel heads, separate projections, concat + linear
Self vs Cross: self‐attention within sequence; cross‐attention between encoder/decoder
Components:
- Input: token + positional embeddings
- Encoder: stacked self-attention + feed-forward + layer norms
- Decoder: masked self-attention + cross-attention + feed-forward
Position Encodings: sinusoidal or learned vectors
Masks: causal masks for decoder; full for encoder
Variants: encoder-only (BERT), decoder-only (GPT), encoder-decoder (T5)

Continual Pre-training: further train general model on medical corpora (BioBERT, ClinicalBERT)
In-Domain from Scratch: train on medical texts with dedicated vocabulary (PubMedBERT)
Mixed-Domain: joint sampling from general + medical corpora, amplified medical content

Scaling: 10–100 B parameters, 100s B tokens
Instruction Tuning & RLHF: handcrafted instruction datasets, human feedback alignment
Emergent Zero/Few-Shot: perform unseen tasks via prompts, learn reasoning patterns

Problems: generic style, synonym mismatch, factual inconsistency
Evaluation:
- BERTScore for semantic similarity
- factENT/factENTNLI for factual completeness & consistency
Training: combine NLL with RL using factual rewards
Architectures: image-conditioned encoder-decoder, meshed attention, memory modules

ConVIRT: CLIP-style contrastive pre-training on X-ray/report pairs
ChexZero: zero-shot classification via prompt templates & cosine similarity
Joint Modeling: single-stream multimodal transformer with alignment objectives