תזונה נבונה
26 באוגוסט 2004
תשליכי
14 בספטמבר 2004
הראה הכל

רייטינג

האתר הזה מקטלג כשמונים ושבע אלף מילים באנגלית בסדר שכיחות יורד. הוא מתבסס על הקורפוס הלאומי הבריטי שמבקש למפות את השפה האנגלית הבריטית, כתובה כמדוברת, והמכיל למעלה ממאה מליון מילים.

אפשר לדגום מילים שמעניינות, לבדוק רצפים של מילים בשכיחות קרובה ולהסיק (או לא) כל מיני מסקנות.

Notes battle forty island strange finding

אכן.

15 Comments

  1. אורן הגיב:

    יש לאתר ולקורפוסים מסוג זה לא מעט שימושים.
    למשל – משלימי המילים בסמ"ס של הסלולרי – המילה המושלמת נקבעת על פי שכיחותה בשפה.
    למשל הספלר של מעבדי התמלילים – ההצעות לתיקון מופיעות על פי שכיחות המילים בשפה.
    וצירופי המילים השכיחים?
    שוב תיקון שגיאות – אפשר לתקן מילה נדירה בביטוי על םי המילים בסמוכות (הסתברות מותנה בקונטקסט).
    כל או רוב מערכות הדיאלוג האוטומאטי מבוססות על טכנולוגיות כאלו.

    ואגב, הניסוי המתמטי על הדילוגים בתורה לא ממש קשור לשכיחויות המילים. גם הלינק אותו צירפת הוא אוסף גרוע של "מאמרים" שיטחיים ומגוייסים מראש על תופעת הדילוגים.
    על פולמוס הדילוגים נכתבו הרבה מאמרים וההפרכה הסטטיסטית שלו מסובכת יותר מהטענה "גם במלחמה ושלום אפשר לעשות דילוגים".

  2. רחלי שבי הגיב:

    האתר של נועם פלד הוא שער לספקטרום רחב של מאמרים בנושא דילוגי אותיות, גם אם לא בצורה לינארית (תודה לאל גור שהמציא את האינטרנט). לא התעסקתי בהפרכה או באישוש של הטענה, למרות שפעם-פעם התבקשתי בפקודה לעסוק בהיבטים מתמטיים של שפות. ואיפה אני היום 🙂

  3. dh הגיב:

    מה זה merger ו albeit הממוקמות במקום טוב באמצע?

  4. נועם פלד הגיב:

    רחלי לחשה לי שהוזכרתי פה, אז קפצתי לבדוק.

    לכנות את הדף שהעליתי בזמנו על דילוגי אותיות "אוסף" (גרוע, מצויין, טוב, בינוני, או תחת כל תו איכות שהוא) "של מאמרים", זהו לעג למכנה (המכנה=אתה) יותר משהוא קשור אל הדף שלי.
    לטובת מי שלא טרח לקרוא, יש בדף הזה שלי הסבר קצר על הקונספט ועל מקורותיו וכן דוגמת שימוש (עיקרו של הדף) שממחישה כיצד ניתן להשתמש בכליהם של המיסיונרים בכדי "להוכיח" דברים שלא התכוונו אליהם, למשל "הוכחות" בכתובים לאי קיומו של האל.

    אז ברשותך, כמה עובדות סטטיסטיות שקשורות בטענה שלך למעלה:
    1.) באייטם של רחלי יש כ 60 מילה ובהן שזורים שלושה לינקים לאתרים חיצוניים.
    2.) בדף שלי בנושא הדילוגים יש כ-1300 מילה ובהן שזורים 14 לינקים, מתוכם רק שישה הם למאמרים בנושא ורק שניים מתוך השישה הנ"ל מוצגים על ידי כמתיימרים לגעת בפן המתמטי.
    3.) יחס {מילים:לינקים] באייטם של רחלי למעלה: ~1:20.
    4.) יחס {מילים:לינקים] בדף שלי: משהו בין ~1:92 לבין ~1:215.
    5.) בהתחשב בסעיפים 3 ו-4 דלעיל ותוך התייחסות לכך שכינית את הדף שלי "אוסף של מאמרים" ולעובדה שאפילו האייטם של רחלי למעלה לא ראוי להתכנות אוסף מאמרים, אני מניח שלא הייתי נותן לך לכתוב מאמר מתמטי בנושא לשוני כלשהוא.

    העובדה ששניים מתוך ששת הלינקים הגלמודים שטרחתי להעלות בדף שלי הם למאמרים שבמקרה מזכירים את הפן המתמטי (הרחב מידי עבור הקורא הסביר – ואפילו עבור חלק גדול מן הקוראים שכמוך עושים דוקטורט פסאודו-מתמטי…) לא הופכת אותו לאוסף מאמרים בנושא.

    בשביל המתמטיקאים יש את גוגל – או תקציבי מחקר.
    בשביל כל השאר – רק מאמרים מגוייסים מטעם מתמטיקאים דתיים או מתמטיקאים חילוניים.

  5. עומרון הגיב:

    http://milon.morfix.co.il/

    מיזוג ו"אף על פי כן" בהתאמה.

  6. קורפוס הגיב:

    אמרו לך כבר שאתה נודניק טרחן?

  7. צפריר הגיב:

    איפה אפשר למצוא משהו מקביל בעברית?

    (שכיחויות מילים, לא דילוגים)

  8. רחלי הגיב:

    גם אני תוהה. אם אתה מוצא משהו, גלה את אוזני בבקשה.

  9. חנן כהן הגיב:

    בטוח שלהם יש

  10. אורן הגיב:

    לקורפוס –
    אני חושב שיש לך בעיה קלה של הגדרות. על מנת ללמוד מהו באמת נודניק טרחן נא להסתכל בתגובתו של נעם לעיל (בכותרת "אורן היקר".

    לנועם –
    לא בדיוק הבנתי מה אתה טוען.
    שאני עושה דוקטורט פסודו-מתמטי? (אני לא עושה דוקטורט מתמטי כלל ומעולם לא טענתי כך – כנראה שהאדון נועם אינו מצטיין בהבנת הנקרא).
    שלאדם הסביר (בו אתה מזלזל כל כך) ניתן לספק רק מאמרים מגוייסים?
    שטויות. את הטענות הסטטיסטיות בעד הדילוגים ניתן להפריך בלי להיות דמגוג מגוייס. האדם הסביר לא כל כך טיפש. אל תשליך עליו את חוסר הכישורים שלך.
    ולגבי הקונספט של האתר שלך – אכן ציינת מפורשות שאתה עושה שימוש ציני בסכסוך היהודי ערבי ובסיכסוך הדתי חילוני על מנת למשוך תשומת לב ליצירה המוזיקלית המשמימה והדמגוגית שלך. אחלה קונספט- ברכותיי!
    והסטטיסטיקות המאוד חשובות שהוגעת אותנו בהם בתגובה? נודניק טרחני כבר אמרנו?

    אם יש לך טענות ענייניות ולא ערימת גידופים וסטסטיטיקות לא רלוונטיות אני אשמח לנהל אתך דיון. כרגע אתה מבזבז את זמני.

  11. רחלי הגיב:

    לשמונה מאאתיים אין עניין בעברית.

  12. אורן הגיב:

    נדמה לי שיש לאנשים בטכניון. אחד הפרוייקטים שלהם הוא הקורפוס העברי.
    cs.technion.ac.il/~winter/Corpus-Project/project-description
    אני לא בטוח שהם ישמחו להפיץ את זה. אפשר לשאול אותם.
    [הערת עריכה מן העתיד, שנת 2020: הלינק שהביא אורן כבר אינו פעיל, ולכן קוצצו ראשו וזנבו. ראשו סטנדרטי לכתובת אתר וזנבו – htm[

  13. רחלי הגיב:

    הקישור לא עובד לי. אתה מוכן לתת דרך אחרת? תודה.

  14. אורן הגיב:

    אם לא תצליחי תנסי בגוגל עם המילים
    hebrew corpus technion
    או
    hebrew corpora
    או
    corpus project technion
    אחד מהם בטח יוביל לקישור טוב.

  15. רחלי הגיב:

    תודה אורן :-). הפעם הקישור עובד, וגם החיפושים העלו דברים מעניינים מ א ד.

להגיב על רחלי שבי לבטל

האימייל לא יוצג באתר. שדות החובה מסומנים *