LST20 Corpus

LST20 Corpus เป็นคลังข้อมูลภาษาสำหรับการประมวลผลภาษาไทย ที่พัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ คลังข้อมูลนี้กำกับด้วยข้อมูลทางภาษา 5 ระดับ ได้แก่ ขอบเขตของคำ (word boundaries), ชนิดของคำ (part of speech), ขอบเขตและชนิดของชื่อเฉพาะ (named entities), ขอบเขตของประโยคย่อย (clause boundaries), และขอบเขตประโยคใหญ่ (sentence boundaries) คลังข้อมูลนี้ประกอบด้วย: 3,164,002 คำ, 288,020 ชื่อเฉพาะ, 248,181 ประโยคย่อย, and 74,180 ประโยคใหญ่ โดยที่มีชนิดของคำทั้งสิ้นเพียง 16 แท็กเท่านั้น นอกจากนี้คลังข้อมูลนี้สร้างขึ้นจากการรวบรวมข่าว 3,745 ชิ้น ซึ่งกำกับชนิดของข่าวเอาไว้ 15 ชนิดอีกด้วย ทำให้คลังข้อมูลนี้สามารถนำไปใช้ประโยชน์ในการพัฒนาระบบการประมวลผลภาษาไทยที่มีโครงสร้างซับซ้อนได้

LST20 Corpus is a dataset for Thai language processing developed by National Electronics and Computer Technology Center (NECTEC), Thailand. It offers five layers of linguistic annotation: word boundaries, POS tagging, named entities, clause boundaries, and sentence boundaries. At a large scale, it consists of 3,164,002 words, 288,020 named entities, 248,181 clauses, and 74,180 sentences, while it is annotated with 16 distinct POS tags. All 3,745 documents are also annotated with one of 15 news genres. Regarding its sheer size, this dataset is considered large enough for developing joint neural models for NLP.

ข้อมูลและทรัพยากร

LST20 Corpusthe CoNLL-2003-style format 23 downloads
LST20 Corpus เป็นคลังข้อมูลภาษาสำหรับการประมวลผลภาษาไทย ที่พัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ คลังข้อมูลนี้กำกับด้วยข้อมูลทางภาษา 5 ระดับ ได้แก่ ขอบเขตของคำ (word...
สำรวจ
- ข้อมูลเพิ่มเติม
- ไปสู่ทรัพยากร

ข้อมูลเพิ่มเติม

ฟิลด์	ค่า

* ประเภทชุดข้อมูล	ข้อมูลระเบียน
ยินยอมให้นำชื่อชุดข้อมูลไปใช้ที่ GD-Catalog	ยินยอม
* ชื่อฝ่ายงานสำหรับติดต่อ	เลขานุการคณะทำงานบริกรข้อมูล
* อีเมลสำหรับติดต่อ	ds-sec@nstda.or.th
* วัตถุประสงค์	ยุทธศาสตร์ชาติ เพื่อการให้บริการประชาชน

* หน่วยความถี่ของการปรับปรุงข้อมูล	ไม่ทราบ

ค่าความถี่ของการปรับปรุงข้อมูล (ความถี่น้อยที่สุด)
* ขอบเขตเชิงภูมิศาสตร์หรือเชิงพื้นที่	ไม่มี

* แหล่งที่มา	ข่าว
* รูปแบบการเก็บข้อมูล	อื่นๆ
	the CoNLL-2003-style format
* หมวดหมู่ข้อมูลตามธรรมาภิบาลข้อมูลภาครัฐ	ข้อมูลสาธารณะ
ระดับชั้นข้อมูล
* สัญญาอนุญาตให้ใช้ข้อมูล	อื่นๆ

เงื่อนไขในการเข้าถึงข้อมูล	ข้อตกลงการใช้งานคลังข้อมูล 1. การใช้งานที่ไม่ใช่เชิงพาณิชย์ การใช้ในงานวิจัย และโครงการที่เปิดซอร์สโค้ด ผู้ใช้สามารถนำคลังข้อมูลนี้ไปใช้ในการใช้งานที่ไม่ใช่พาณิชย์ การวิจัย และโครงการที่เปิดซอร์สโค้ด ได้โดยไม่คิดมูลค่า อย่างไรก็ตามหากท่านใช้คลังข้อมูลนี้ โปรดอ้างอิงรายงานเชิงเทคนิคของเราเพื่อเป็นข้อมูลบรรณานุกรมต่อไป หากท่านต้องการเก็บรักษาโมเดลที่เทรนบนคลังข้อมูลชุดนี้ และเผยแพร่กับชุมชนวิจัยในประเทศไทย โปรดส่งโมเดล โค้ด และ APIs มายังโครงการ AI for Thai ได้ โดยติดต่อ ดร. เทพชัย ทรัพย์นิธิ ผ่านทางอีเมล์ thepchai@nectec.or.th ทั้งนี้ห้ามผู้ใช้ทำซ้ำหรือแก้ไขส่วนหนึ่งส่วนใดของคลังข้อมูลชุดนี้ นอกจากจะได้รับอนุญาตจากเจ้าของข้อมูล 2. การใช้งานคลังข้อมูลในเชิงพาณิชย์ ในการที่จะใช้งานคลังข้อมูลนี้ในเชิงพาณิชย์ ผู้ใช้จะต้องเลือกทำตามเงื่อนไขหนึ่งในสองข้อต่อไปนี้ - ทางเลือกที่ 1: ผู้ใช้เลือกที่จะสร้างคลังข้อมูลขนาด 50,000 คำ ซึ่งกำกับข้อมูลทางภาษาศาสตร์ให้ครบถ้วนตามคู่มือการกำกับข้อมูลที่แนบมา แล้วนำมาเผยแพร่ในชุมชนวิจัยในประเทศไทย โดยผู้ใช้จะได้รับการยกย่องในฐานะของผู้ร่วมสร้างคลังข้อมูลด้วย - ทางเลือกที่ 2: ผู้ใช้เลือกที่ซื้อไลเซนส์สำหรับสิทธิ์ในการใช้คลังข้อมูลนี้ โดยมีระยะเวลาการใช้งานตลอดชีวิต ทั้งนี้สิทธิ์การใช้งานจะครอบคลุมเฉพาะคลังข้อมูลนี้เท่านั้น ทั้งนี้โปรดติดต่อ ดร. เทพชัย ทรัพย์นิธิ ผ่านทางอีเมล์ thepchai@nectec.or.th เพื่อรับทราบข้อมูลเพิ่มเติม AGREEMENT OF USAGE 1. Non-commercial use, research, and open source Any non-commercial use of the dataset for research and open-sourced projects is encouraged and free of charge. Please cite our technical report for reference. If you want to perpetuate your models trained on our dataset and share them to the research community in Thailand, please send your models, code, and APIs to the AI for Thai Project. Please contact Dr. Thepchai Supnithi via thepchai@nectec.or.th for more information. Note that modification and redistribution of the dataset by any means are strictly prohibited unless authorized by the corpus authors. 2. Commercial use In any commercial use of the dataset, there are two options. - Option 1 (in kind): Contributing a dataset of 50,000 words completely annotated with our annotation scheme within 1 year. Your data will also be shared and recognized as a dataset co-creator in the research community in Thailand. - Option 2 (in cash): Purchasing a lifetime license for the entire dataset is required. The purchased rights of use cover only this dataset. In both options, please contact Dr. Thepchai Supnithi via thepchai@nectec.or.th for more information.
ผู้สนับสนุนหรือผู้ร่วมดำเนินการ	หน่วยงานของรัฐ

หน่วยที่ย่อยที่สุดของการจัดเก็บข้อมูล	อื่นๆ
	ขอบเขตระดับคำ
URL	https://aiforthai.in.th/corpus.php
ภาษาที่ใช้	ไทย

วันที่เริ่มต้นสร้าง
วันที่ปรับปรุงข้อมูลล่าสุด
ชุดข้อมูลที่มีคุณค่าสูง
ข้อมูลอ้างอิง
สร้างโดย	การนำเข้าโดย templete
สร้างในระบบเมื่อ	2 สิงหาคม 2567
ปรับปรุงครั้งล่าสุดในระบบเมื่อ	2 สิงหาคม 2567