Advertisement
Guest User

Untitled

a guest
Dec 6th, 2016
63
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 16.38 KB | None | 0 0
  1. 1. Genie(จีนี่) คืออะไร?เมื่อได้ยินชื่อนี่ คงทำให้เด็ก หลายๆคนคงร้อง อ๋อ ก็ยักษ์ในตะเกียงวิเศษจากเรื่องอาราดินใง
  2. นอกจากจินนี่ในเรื่องอาราดินแล้ว ยังมีอีกความหมายหนึ่งที่คนไม่ค่อยทราบนัก จินนี่ที่เราหมายถึงนั้นคือ กลุ่มหนุ่มสาววัยช่วงวัย ประมาณ 20-30 ปี มีการศึกษาในระดับปริญญาตรีขึ้นไป มีอาชีพมั่นคง ฐานะปานกลางขึ้นไป นอกจากนั้นกลุ่ม genie ยังมีนิสัย ชอบใช้ internet สืบค้นข้อมูล อัพเดตเทรนผ่านทางอินเตอร์เน็ต และ รักความเป็นอิสระ อยากเป็นนายตัวเอง อยากทำงาน freelance , start up เราจึงมีความสนใจที่จะแก้ปัญหาให้คนกลุ่มนี้เป็นหลักเราจึงได้พัฒนาและตั้งฃื่อระบบว่า จินนี่ นั้นเอง
  3. 2 .ก่อนอื่นเรามาดูกันว่าทำไมสื่อโซเชียลถึงได้มีความสำคัญในปัจจุบัน ผมขอยกกรณีตัวอย่างดังต่อไปนี้ครับ
  4. 3. ในตอนนี้เราทราบกันอยู่แล้วว่ามีการใช้สื่อโซเชียลกันมากขึ้นซึ่งเมื่อมีการใช้สื่อโซเชียลมากขึ้นทำให้การเปลี่ยนแปลงของเทรนเร็วมากจนเราไม่สามารถจะสามารถทราบได้ครอบคลุมทุกสถานการณ์เราจึงไม่สามารถทราบได้ว่าเทรนไหนได้รับความนิยมมากกว่ากันและเทรนไหนคนส่วนใหญ่พูดถึงเทรนนี้ในแง่มุมไหน มันจึงเป็นปัญหาต่อมาว่าคนในยุคนี้ ไม่รู้ว่าพวกเขาจะทำอะไรดี ขายอะไรดี กินอะไรดี ไปเที่ยวไหนดี !! ดังนั้นโปรเจค Genie ของเราจึงนำมาพัฒนาเพื่อช่วย แก้ปัญหาของคนเหล่านี้นั้นเองครับ
  5. ในส่วนของการแก้ปัญหา เราได้พัฒนาระบบ จินนี่ ขึ้นมาเพื่อใช้ในการในการตรวจหาเทรนที่กำลังได้รับความนิยมในปัจจุบัน และสามมารถดูได้ว่าเทรนที่ได้รับความนิยมรองลงมาเป็นอะไรบ้างในลำดับต่อๆมา และยังสามารถวิเคราะห์ได้ว่าคนส่วนใหญ่พูดถึงเทรนนั้นๆในแง่บวกหรือแง่ลบมากกว่ากัน ทั้งนี้ระบบของเราพัฒนาขึ้นมาเพื่อใช้ในการวิเคราะห์ข้อมูลจากเว็บไซต์พันทิปเนื่องจากในปัจจุบันไทยเรามีการใช้เว็บไซต์พันทิป
  6. 4.ขอบเขต
  7. 1.ระบบที่พัฒนาขึ้นนั้นสามารถวิเคราะห์ได้เฉพาะเว็บไซต์พันทิปเท่านั้น แล้วทำไมเราถึงเลือกใช้สื่อโซเชียลพันทิปละเนื่องจากผมเห็นว่าในตอนนี้นะครับคนไทยมีการใช้งานเว็บไซต์พันทิปกันมากขึ้น โดยเว็บ alexa ได้จัดอันดับการใช้งานของคนไทยไว้ที่อันดับที่ 5
  8. 2.ระบบของเราพัฒนามาเพื่อใช้กับห้องของพันทิปทั้งหมด 35 ห้องและสามารถเลือกได้อีก 8000 แท็ก ด้วยกันดังนั้นคำสำคัญที่เป็นผลลัพธ์ออกมาอาจจะไม่แม่นยำ 100 เปอร์เซ็นต์ เนื่องจากคำสำคัญของกระทู้บางกระทู้อาจจะเป็นคำเฉพาะเจาะจงเกินไปซึ่งเราไม่ได้มีคำศัพท์นั้นอยู่ในพจนานุกรมของเราจึงไม่สามารถหาคำสำคัญนั้นๆออกมาได้
  9. 3.ระบบของเราไม่สามารถบอกได้อย่างถูกต้อง 100 เปอร์เซ็นต์แต่เป็นการคาดการณ์จากข้อมูลที่ผ่านมาและนำมาวิเคราะห์เกี่ยวกับข่าวนั้นๆว่าออกมาในทางที่ดีหรือไม่ดี เนื่องจากเราไม่ทราบถึงอารมณ์จริงๆของผู้ที่ทำการคอมเม้น แต่เราใช้การวิเคราะห์ทางด้านข้อมูลเข้ามาช่วยในการตัดสินใจแทน
  10. 4.ระบบที่พัฒนาขึ้นนั้นไม่สามารถบอกได้ว่าข่าวนั้นๆเป็นข่าวจริงหรือข่าวลวง
  11. 5.ในส่วนต่อมาเป็นส่วนของงานวิจัยที่เกี่ยวข้องนะครับซึ่งผมจะขออ้างอิงถึงบทความที่ผมได้ศึกษามาก่อนนะครับในบทความแรกเป็นบทความ การทำ concept ex จากเว็บไซต์ e-com ซึ่งการทดลองของเขาเขาได้ทำการให้ผู้เชี่ยวชาญทั้งหมด การทำศึกษาเว็บ e-com ทั้งหมด 100 เว็บด้วยกันและให้ผู้เชี่ยวชาญระบุว่าเว็บนั้นๆกำลังพูดถึงอะไร โดยเขานำอัลกอริทึมทั้งหมด 3 ตัวมาใช้ในการหาคำสำคัญด้วยกันนะครัยได้แก่ ace kea ice ซึ่งผลปรากฏว่า ICE เนี้ยได้ความแม่นยำสูงสุด
  12. 6.และในส่วนของบทความต่อมานะครับเป็นบทความที่กล่าวถึงการศึกษาอัลกอริทึมของแมชชีนเลินนิ่ง ซึ่งเขาได้ทำการทดลองใช้อัลกอริทึ่มทั้งสามได้แก่ นา วี เบย์ ซัพพอทเวกเตอร์แมทชีน และ ต้นไม้ตัดสินใจ โดยใช้อัลกอริทึมทั้งสามวิเคราะห์ความคิดเห็นทั้งหมด 6000 ความคิดเห็นด้วยกัน ผลปรากฏว่า ซัพพอทเวกเตอร์แมทชีนได้ค่าความแม่นยำสูงสุดและยังกล่าวไว้ด้วยว่าหากใช้อัลกอริทึม TF-iDF ด้วยก็จะสามารถทำให้ความแม่นยำเพิ่มสูงขึ้น
  13. 7 ในส่วนแรกเราใช้เทคนิค ICE (improve concept extraction )และ TF-IDF(term frequency and inverse document frequency ) ในการหาคำสำคัญของบทความนั้นๆ
  14. โดยอัลกอริทึม ICE จะเป็นอัลกอริทึมที่พัฒนามาจากอัลกอริทึม ACE (automate concept extraction )
  15. โดยเรานำเทคนิคทั้งหมดนี้มาทำงานดังนี้
  16. 1 ตัดคำด้วยพจนานุกรม รวมถึงตัดคำกริยา คำวิเศษ และ คำแสลง ที่ไม่เกียวข้องกับคำหลัง
  17. 2 ใช้อัลกอรีทืม ice ให้การให้น้ำหนักคำแต่ละคำ โดยดูจากความถี่ที่พบคำนั้นๆ และ ตำแหน่งของคำนั้นๆ แล้วทำการเรียงลำดับคำที่มีคะแนนสูงสุด 10 อันดับแรก
  18. 3 ใช้อัลกอรีทืม tf idf ในการดูความสำคัญของคำทั้ง 10 อันดับที่ได้จากอัลกอริทึม ice โดย Tf-idf จะดูว่าถ้า คำนั้นๆ ปรากฏใน กระทู้และโพสต์อื่นๆน้อย นั้นแสดงว่าคำนั้นๆอาจจะคำสำคัญของบทความนี้
  19. เราจะยกตัวอย่างการทำงานของ ce โดยเราได้ไปนำข้อมูลกระทู้ด้านล่างนี้จากเว็บไซต์พันทิป ซึ่งกระทู้นี้พูดถึง หัวหิน เราจะทำการตัดคำและให้คะแนนตามอัลกอริทึมข้างต้น จะเห็นได้ว่า หัวหินนั้นมีค่า ACE 7 คะแนนซึ่งคำนวนจาก ความถี่ของคำคูณกับตำแหน่งของคำนั้น โดยเราให้หัวข้อกระทู้ และ แท๊ก 2 คะแนนต่อ 1 ความถี่และตัวเนื้อหาเราให้ 1 คะแนน ต่อ 1 ความถี่ จากนั้นเราทำการเรียงลำดับคะแนนจะได้ลำดับดังนี้จะเห็นได้ว่าหัวหินไม่ใช่คำที่น้ำหนักสูงสุด แต่เมื่อทำการให้คะแนนโดยใช้คะแนน tf-idf ซึ่งหัวหินจะได้คะแนนเยอะกว่าเพราะว่า คำว่าโรงแรมปรากฏในกระทู้อื่นๆมากกว่าดังนั้น หัวหิน จึงเป็นคำสำคัญของกระทู้นี้ โดยเมื่อเราทำการหาคำสำคัญของกระทู้นั้นๆได้แล้วเราก้จะทำการหาว่ากระทู้นั้นๆคนส่วนใหญ่พูดถึงในแง่บวกหรือแง่ลบโดยใช้การวิเคราะห์ Senti
  20. 8. ซึ่งในที่นี้เราใช้ อัลกอริทึม svm ซึ่งได้ศึกษามาบทความที่เกียวข้องว่าเป็นวิธีที่เหมาะสมที่สุด โดยได้ศึกษา svm มาโดยคร่าว เพื่อเป็นแนวทางในการพัฒนาในเทอมที่สอง ในการหาว่ากระทู้นั้นๆคนส่วนใหญ่พูดถึงในแง่บวกหรือแง่ลบมากกว่ากัน โดยหลักการของ SVM คือการแบ่งกลุ่มของข้อมูลโดยใช้ระนาบในการแบ่งเพื่อสร้างเส้นสมการในแบ่งข้อมูลออกเป็นชุดๆตามที่เรากำหนดโดยในที่นี้เราจะทำการเทรนนิ่งข้อมูลจากเว็บไซต์พันทิป และบอกว่าประโยคไหนเป็นแง่บวกและประโยคไหนเป็นแง่ลบโดยใช้คนจากนั้น SVM จะทำการสร้างสมการขึ้นมาเพื่อแบ่งข้อมูลออกแง่บวกหรือแง่ลบโดย ฟีเจอได้แก่คำทั้งหมดที่เรามีในพจนานุกรมและทำการเทรนนิ่งข้อมูลดังรูปภาพ และตัวแปรตามก็คือ ประโยคที่ 1 เป็นบวกหรือเป็นลบ โดยในส่วนนี้เราได้ทำการศึกษาจากบทความเพื่อที่จะนำมาใช้ในการพัฒนา จินนี่ ต่อไปภาคเรียนที่ 2
  21. 9 . และในส่วนต่อมาเป็นส่วนของการสรุปผลการทดลองที่เราได้ทำในเทอมที่ 1 นี้ เราได้ทำการทดลองการให้น้ำหนักคำตามตำแหน่งของคำศัพท์ เพื่อใช้ในการหาคำสำคัญ โดยเราได้นำข้อมูลจำนวน 900 กระทู้ จากเว็บไซต์พันทิป และได้ทำการแบ่ง 600 กระทู้สำหรับทดสอบค่าน้ำหนัก และ อีก 300 กระทู้สำหรับทดสอบการใช้งานจริง ซึ่งผลออกมาว่าค่าน้ำหนักแบบที่สองให้ผลถูกต้องมากที่สุดเราจึงใช้ค่าน้ำหนักแบบที่สองในการใช้งานกับตัวทดสอบการใช้งานจริงซึ่งผลออกมาแม่นยำถึง 69.33 เปอร์เซ็นต์ ซึ่งยังสามารถพัตนาความแม่นยำได้อีกในเทอมที่สอง
  22. ในส่วนต่อไปเป็นตัวแผนฝังการทำงานของระบบ และระบบที่กำลังบพัฒนา ครับ
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement