Foundational must read GPT/LLM papers

I imagine he re-ran the test a few times, so I doubt that’s an issue.

One thing I didnt like was breaking at failure though, so I tried that. Results mostly hold up for gpt-4o, though the success at 30 is interesting.

{10: {‘prcntg_trials_passed’: 0.6666666666666666}, 15: {‘prcntg_trials_passed’: 0.6666666666666666}, 20: {‘prcntg_trials_passed’: 1.0}, 25: {‘prcntg_trials_passed’: 0.0}, 30: {‘prcntg_trials_passed’: 1.0}, 50: {‘prcntg_trials_passed’: 0.0}, 75: {‘prcntg_trials_passed’: 0.0}, 85: {‘prcntg_trials_passed’: 0.0}}

gpt-4
{10: {‘prcntg_trials_passed’: 1.0}, 15: {‘prcntg_trials_passed’: 1.0}, 20: {‘prcntg_trials_passed’: 1.0}, 25: {‘prcntg_trials_passed’: 1.0}, 30: {‘prcntg_trials_passed’: 1.
0}, 50: {‘prcntg_trials_passed’: 1.0}, 75: {‘prcntg_trials_passed’: 0.3333333333333333}, 85: {‘prcntg_trials_passed’: 0.6666666666666666}}

gpt-4-turbo
{10: {‘prcntg_trials_passed’: 1.0}, 15: {‘prcntg_trials_passed’: 1.0}, 20: {‘prcntg_trials_passed’: 1.0}, 25: {‘prcntg_trials_passed’: 0.3333333333333333}, 30: {‘prcntg_tri
als_passed’: 0.6666666666666666}, 50: {‘prcntg_trials_passed’: 0.6666666666666666}, 75: {‘prcntg_trials_passed’: 0.3333333333333333}, 85: {‘prcntg_trials_passed’: 0.3333333
333333333}}

Hmm, tried changing the seed as well: gpt-4o different results, but same perf:

{10: {‘prcntg_trials_passed’: 0.6666666666666666}, 15: {‘prcntg_trials_passed’: 0.6666666666666666}, 20: {‘prcntg_trials_passed’: 1.0}, 25: {‘prcntg_trials_passed’: 0.0}, 30: {‘prcntg_trials_passed’: 0.6666666666666666}, 50: {‘prcntg_trials_passed’: 0.0}, 75: {‘prcntg_trials_passed’: 0.0}, 85: {‘prcntg_trials_passed’: 0.0}}

gpt-4-turbo
{10: {‘prcntg_trials_passed’: 1.0}, 15: {‘prcntg_trials_passed’: 1.0}, 20: {‘prcntg_trials_passed’: 0.6666666666666666}, 25: {‘prcntg_trials_passed’: 0.6666666666666666}, 3
0: {‘prcntg_trials_passed’: 0.6666666666666666}, 50: {‘prcntg_trials_passed’: 1.0}, 75: {‘prcntg_trials_passed’: 0.3333333333333333}, 85: {‘prcntg_trials_passed’: 0.3333333
333333333}}

gpt-4
{10: {‘prcntg_trials_passed’: 1.0}, 15: {‘prcntg_trials_passed’: 1.0}, 20: {‘prcntg_trials_passed’: 1.0}, 25: {‘prcntg_trials_passed’: 1.0}, 30: {‘prcntg_trials_passed’: 1.
0}, 50: {‘prcntg_trials_passed’: 1.0}, 75: {‘prcntg_trials_passed’: 0.6666666666666666}, 85: {‘prcntg_trials_passed’: 0.6666666666666666}}

And for fun I fiddled with prompt placement and changed the names to AAA,BBB,CCC,DDD … same results.

1 Like