ThaiGov V2 Corpus

Status: Discontinued project

After Sep 20, Thai government website updated the policy the website that disallowed any web scraping from website, even though there were Thai government news that should allowed and public domain by "Official Information Act, B.E. 2540 (1997) and Copyright Act B.E. 2537.

English

Data from Thai government website. https://www.thaigov.go.th
This part of PyThaiNLP Project.
Compiled by Mr.Wannaphong Phatthiyaphaibun
License Dataset is public domain.

Data format

1 file, 1 news, which is extracted from 1 url.

topic
(Blank line)
content
content
content
content
content
(Blank line)
ที่มา (URL source) : http://www.thaigov.go.th/news/contents/details/NNN

Thai

เป็นข้อมูลที่รวบรวมข่าวสารจากเว็บไซต์รัฐบาลไทย https://www.thaigov.go.th
โครงการนี้เป็นส่วนหนึ่งในแผนพัฒนา PyThaiNLP
รวบรวมโดย นาย วรรณพงษ์ ภัททิยไพบูลย์
ข้อมูลที่รวบรวมในคลังข้อความนี้เป็นสาธารณสมบัติ (public domain) ตามพ.ร.บ.ลิขสิทธิ์ พ.ศ. 2537 มาตรา 7 (สิ่งต่อไปนี้ไม่ถือว่าเป็นงานอันมีลิขสิทธิ์ตามพระราชบัญญัตินี้ (1) ข่าวประจำวัน และข้อเท็จจริงต่างๆ ที่มีลักษณะเป็นเพียงข่าวสารอันมิใช่งานในแผนกวรรณคดี แผนกวิทยาศาสตร์ หรือแผนกศิลปะ [...] (3) ระเบียบ ข้อบังคับ ประกาศ คำสั่ง คำชี้แจง และหนังสือตอบโต้ของกระทรวง ทบวง กรม หรือหน่วยงานอื่นใดของรัฐหรือของท้องถิ่น [...])

สามารถติดตามประวัติการแก้ไขคลังข้อความนี้ได้ผ่านระบบ Git

จำนวนข่าว

วันเริ่มต้นโครงการ 17 ก.ย. 2563

รูปแบบข้อมูล

1 ไฟล์ 1 ข่าว ซึ่งดึงมาจาก 1 url

หัวเรื่อง
(บรรทัดว่าง)
เนื้อความ
เนื้อความ
เนื้อความ
เนื้อความ
เนื้อความ
(บรรทัดว่าง)
ที่มา : http://www.thaigov.go.th/news/contents/details/NNN

รายละเอียดชื่อไฟล์

ชื่อหมวดหมู่_จำนวนที่ของข่าว.txt

Script

run.py สำหรับเก็บข้อมูลจากหน้าเว็บ โดยจะดึงหน้าเว็บจาก url http://www.thaigov.go.th/news/contents/details/NNN โดยที่ NNN คือเลขจำนวนเต็ม
- เปลี่ยนค่าตัวแปร i ในไฟล์เป็นเลขที่ต้องการเริ่มเก็บ
clean.py สำหรับทำความสะอาดข้อมูลเบื้องต้น โดยจะลบช่องว่างหน้าและท้ายบรรทัด ลบบรรทัดว่าง
- clean.py ชื่อไฟล์
- clean.py ชื่อไฟล์1 ชื่อไฟล์2
- clean.py *.txt

We build Thai NLP.

PyThaiNLP

Name		Name	Last commit message	Last commit date
Latest commit History 1,253 Commits
.github/workflows		.github/workflows
data		data
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
last_num.txt		last_num.txt
requirements.txt		requirements.txt
run.py		run.py
run.py.old		run.py.old
upload2huggingface_hub.ipynb		upload2huggingface_hub.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ThaiGov V2 Corpus

English

Data format

Thai

จำนวนข่าว

รูปแบบข้อมูล

รายละเอียดชื่อไฟล์

Script

About

Uh oh!

Releases 3

Languages

License

PyThaiNLP/thaigov-v2-corpus

Folders and files

Latest commit

History

Repository files navigation

ThaiGov V2 Corpus

English

Data format

Thai

จำนวนข่าว

รูปแบบข้อมูล

รายละเอียดชื่อไฟล์

Script

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 3

Languages