CIBMTR Field Extraction Comparison & LLM Training Analysis

Comparing Final Review extracted entries vs. typical inputs from 20 filled forms

Fields Extracted (Final Review)

Fields with Patterns (Filled Forms)

Conflict Resolutions

157

Total CIBMTR Fields

📊 What This Analysis Shows

These are fields extracted from uploaded PDFs in the Final Review page, including:

Auto-filled fields: Automatically extracted by models (52 fields)
Manual corrections: Fields corrected by users
Conflict resolutions: Fields where multiple values existed and were resolved (23 fields)

These are answer patterns extracted from 20 professionally filled-out CIBMTR forms, showing:

Answer variations: Different ways the same question can be answered
Format patterns: Date formats (MM/DD/YYYY, M/D/YYYY), number formats, text variations
Value types: What types of answers are expected (dates, numbers, codes, text)
6 fields with extracted patterns: Q1, Q2, Q3, Q5, Q63, Q97

By comparing extracted values with typical patterns, we can:

Constrain answer options: Limit LLM to valid answer formats (e.g., dates must be MM/DD/YYYY)
Improve accuracy: Train models to recognize correct patterns (e.g., Q97 accepts numeric values: 315, 459, 460, 474)
Reduce errors: Filter out invalid formats automatically
Guide extraction: Provide examples of what to look for in prompts
Limit answer scope: Instead of asking open-ended questions, provide constrained choices based on observed patterns

Exact match | Partial match | No match

Field ID	Final Review Extracted Value	Typical Input Patterns	Match Status	LLM Constraint

Showing entries extracted from each of the 20 filled-out PDF forms

PDF File	Patient ID	Fields Extracted	Sample Fields	Answer Variations

Based on typical inputs, LLMs should be constrained to accept only valid formats:

Include example answers in prompts to guide extraction:

Implement validation to reject invalid formats:

Instead of open-ended extraction, limit LLM responses to observed patterns: