Note: I did a quick search and couldn’t find a similar report, but if this has already been discussed, feel free to merge or redirect this post. Posting here to surface the issue formally.
[English Version]
Issue Type:
Token parsing error / Numerical range concatenation
Context:
While using GPT for academic planning, I input a sentence like:
“I want to study for 130~160 hours. If I study 5 hours a day, how long will it take?”
Instead of treating 130~160
as a numerical range, GPT internally appears to concatenate the values, interpreting it as 130160
. This leads to massively inflated and incorrect scheduling estimates.
Observed Behavior:
The model output indirectly referenced durations like “5–8 weeks” — which implies it may have used 130160 / 5 = 26032 days (~71 years)
as a base figure. This number never appeared explicitly, but the downstream contradiction strongly suggests silent numerical corruption.
Expected Behavior:
130~160
should be treated as a range.- The system should apply arithmetic separately to both endpoints, outputting something like:
“If you study 5 hours/day, it will take 26–32 days.”
Proposed Fixes:
- Improve parser to treat
~
,-
, and/
as range delimiters when between numeric tokens. - Validate and catch illegal numeric merges (e.g.,
130160
,5070
, etc.). - Use a dual-branch logic for arithmetic on ranges.
Why This Matters:
This kind of silent misinterpretation undermines GPT’s reliability in any math-based or planning use case. It’s especially harmful in education, time management, or cost estimation tasks where trust in basic arithmetic is critical.
Thanks for your attention — happy to provide more examples if needed.
[한글 버전]
문제 유형:
토큰 파싱 오류 / 숫자 범위 병합 오류
상황:
GPT를 사용해 학습 계획을 세우는 중 다음과 같은 문장을 입력했습니다:
“130~160시간 공부하고 싶어요. 하루 5시간 공부하면 얼마나 걸릴까요?”
GPT는 130~160
을 숫자 범위로 해석하지 않고, 130160
이라는 하나의 수로 병합한 것으로 보입니다.
이로 인해 계산 결과가 매우 부풀려졌고, 출력에서는 ‘5~8주 소요’ 같은 모순된 표현이 등장했습니다.
관찰된 현상:
명시적으로 130160
이라는 숫자가 출력되진 않았지만,
'하루 5시간 공부하면 5~8주 소요’라는 모순된 추정이 나왔습니다.
이는 내적으로 130160 ÷ 5 = 26032일
을 기반으로 한 잘못된 흐름으로 추정됩니다.
기대되는 동작:
130~160
은 숫자 범위로 인식되어야 하며- 계산은 각각의 끝값(130, 160)에 대해 별도로 적용되어야 합니다.
예상 출력 예시:
“하루 5시간씩 공부하면 26~32일 정도 걸립니다.”
제안하는 수정안:
~
,-
,/
등 구분 기호를 수치 범위로 정확히 인식하도록 파서 개선130160
,5070
등 불합리한 숫자 병합 감지 및 차단- 범위 값에 대한 산술 연산은 양 끝점을 나눠서 처리하는 dual-branch 논리 도입
중요성:
이런 조용한 숫자 해석 오류는 GPT가 시간 계획, 비용 추정, 교육적 계산 등에
신뢰할 수 없다는 인상을 줄 수 있습니다.
특히 수학이나 일정 기반 태스크에서 치명적인 신뢰성 손상을 초래합니다.
필요하다면 재현 가능한 예시 더 제공 가능합니다. 감사합니다.