LocalLLaMA

1800년대 런던 텍스트(12억 개의 매개변수, 90GB 데이터 세트)로 처음부터 학습된 LLM

익명디자이너9290·1개월 전·조회 709

안녕하세요, 현대적 편견을 줄이기 위해 단일 기간 및 위치의 데이터를 사용하여 언어 모델을 처음부터 학습하는 TimeCapsuleLLM이라는 오픈 소스 프로젝트의 업데이트를 공유하고자 합니다.

최신 모델은 1800~1875년 사이에 런던에서 출판된 텍스트로만 학습됩니다. 미세 조정이나 최신 데이터가 없으며, 현재로서는 명령어나 질의응답 쌍이 없으므로 모델은 프롬프트에서 텍스트를 계속 읽습니다. 이 모델은 12억 개의 매개변수로 구성되어 있으며 책, 저널, 법률 문서, 종교 문서, 의학 논문 등으로 구성된 90GB의 데이터 세트를 사용합니다. 또한 데이터 세트 자체에 대해 학습된 사용자 지정 토큰화기를 사용하며, 대여한 H100 SXM에서 지금까지 182,000단계에 대해 모델을 학습시켰습니다.

출력 예시:

프롬프트에 특정 연도만 언급되어 있지만, 모델은 로마 가톨릭 교회에 대한 논증을 생성합니다. 데이터 세트에는 많은 양의 종교적, 정치적 글이 포함되어 있고 가톨릭 해방법이 1829년에 시행되었으므로 이 동작은 의미가 있습니다.

전화는 1876년에 발명되었으므로(데이터 세트는 1875년에 끊김) 이 용어에 익숙하지 않고 일종의 비밀\/외교적 장치나 물건으로 취급합니다.

다음 단계에서는 데이터 세트 자체를 사용하여 일종의 합성 Q&A 쌍을 만들어 보겠습니다.

https://github.com/haykgrigo3/TimeCapsuleLLM

https://huggingface.co/haykgrigorian/TimeCapsuleLLM-v2-1800-1875