أكثر

احسب قيم الحقل باستخدام عدد صحيح عشوائي مشتق من عدد المعالم المتشابهة

احسب قيم الحقل باستخدام عدد صحيح عشوائي مشتق من عدد المعالم المتشابهة


لدي فئة ميزة تحتوي على ميزات مصنفة حسب النوع. ما أود القيام به في حقلي الجديد هو إنشاء تسلسل رقمي عشوائي لتلك القيم باستخدام عدد من القيم المتشابهة. ربما يوضح المثال أدناه سؤالي بشكل أفضل:

حقل 1 حقل 2 X عشوائي # بين 1 و 4 X عشوائي # بين 1 و 4 X عشوائي # بين 1 و 4 X عشوائي # بين 1 و 4 Y عشوائي # بين 1 و 2 Y عشوائي # بين 1 و 2 Z عشوائي # بين 1 و 3 Z عشوائي # بين 1 و 3 Z عشوائي # بين 1 و 3

أعتقد أنني سأستخدم GetCount للإجماليات ثم random.randint (1 ، قيمة GetCount) لملء الحقل الجديد. ما لا يمكنني اكتشافه على ما يبدو هو كيفية إعادة ضبط العد في كل مرة يواجه فيها قيمة جديدة. شكرا على أي مساعدة يمكنك تقديمها.


باستخدامالمجموعاتالوحدة النمطية ، هذا واضح تمامًا:

مجموعات الاستيراد ، arcpy من randint الاستيراد العشوائي # بالنظر إلى القائمة ، قم بإنشاء قاموس يحتوي على عدد كل عنصر فريد #sumdict (["x" ، "x" ، "x" ، "x" ، "y" ، "y" ، "z"، "z"، "z"]) -> #defaultdict (، {'y': 2، 'x': 4، 'z': 3}) def sumdict (listvals): ddict = collections.defaultdict (int) for val in listvals: ddict [val] + = 1 return dict # اقرأ القيم من Field1 إلى القائمة و "تلخيص الأعداد" dic = sumdict (الصف [0] للصف في arcpy.da.SearchCursor (FC، ("Field1"))) باستخدام arcpy.da.UpdateCursor (shp، ("Field1" ، "Field2")) كمؤشر: للصف في المؤشر: # احصل على القيمة من field1 لتعيينها كحد أعلى لـ randint () row [1] = randint (1، dic [row [0]])

هذا رمز لم يتم اختباره ، ولكن يجب أن تبدأ.

يحرر:

للبيثون> 2.7 ،سومديكت ()يمكن استبداله بـالمجموعات..


لقد جربت هذا الحل ونجح معي في ArcMap:

  1. افتح جدول البيانات للطبقة

  2. احصل على تلخيص لحقل التصنيف (هنا field1) وفي الخطوة 3 من نموذج التلخيص ، ضع اسم الجدول. بعد الانتهاء من التلخيص ، سيتم إضافة الجدول الجديد إلى جداول arcmap. يحتوي هذا الجدول على 3 حقول ، معرف الكائن ، الحقل 1 وحقل التلخيص بالاسم Count_Field1.

  3. انضم إلى طبقة المصدر مع هذا الجدول استنادًا إلى Field1 ، والآن لديك Count_Field1 عبر الحقول الأخرى في الطبقة ويمكنك استخدامها في حساب الحقل.


استخدم حزمة أدوات التحليل لإجراء تحليل معقد للبيانات

إذا كنت بحاجة إلى تطوير تحليلات إحصائية أو هندسية معقدة ، فيمكنك توفير الخطوات والوقت باستخدام حزمة أدوات التحليل. أنت توفر البيانات والمعلمات لكل تحليل ، وتستخدم الأداة وظائف الماكرو الإحصائية أو الهندسية المناسبة لحساب النتائج وعرضها في جدول الإخراج. تقوم بعض الأدوات بإنشاء مخططات بالإضافة إلى جداول الإخراج.

يمكن استخدام وظائف تحليل البيانات في ورقة عمل واحدة فقط في كل مرة. عند إجراء تحليل البيانات في أوراق العمل المجمعة ، ستظهر النتائج في ورقة العمل الأولى وستظهر الجداول المنسقة الفارغة في أوراق العمل المتبقية. لإجراء تحليل البيانات في باقي أوراق العمل ، أعد حساب أداة التحليل لكل ورقة عمل.

تتضمن حزمة أدوات التحليل الأدوات الموضحة في الأقسام التالية. للوصول إلى هذه الأدوات ، انقر فوق تحليل البيانات في ال تحليل المجموعة على البيانات التبويب. إذا كان تحليل البيانات الأمر غير متوفر ، فأنت بحاجة إلى تحميل برنامج الوظيفة الإضافية Analysis ToolPak.

انقر على ملف علامة التبويب ، انقر فوق خيارات، ثم انقر فوق ملف الوظائف الإضافية الفئة.

في ال يدير مربع ، حدد وظائف Excel الإضافية ثم انقر فوق اذهب.

إذا كنت تستخدم Excel for Mac ، في قائمة الملف ، انتقل إلى أدوات & GT وظائف Excel الإضافية.

في ال الوظائف الإضافية مربع ، تحقق من حزمة أدوات التحليل خانة الاختيار ، ثم انقر فوق "نعم" نعم.

إذا حزمة أدوات التحليل غير مدرج في الوظائف الإضافية المتاحة مربع ، انقر فوق تصفح لتحديد موقعه.

إذا طُلب منك أن Analysis ToolPak غير مثبتة حاليًا على جهاز الكمبيوتر الخاص بك ، انقر فوق "نعم" نعم لتثبيته.

ملحوظة: لتضمين وظائف Visual Basic for Application (VBA) لـ Analysis ToolPak ، يمكنك تحميل Analysis ToolPak - VBA Add-in بنفس طريقة تحميل Analysis ToolPak. في ال الوظائف الإضافية المتاحة مربع ، حدد Analysis ToolPak - VBA خانة الاختيار.

توفر أدوات تحليل Anova أنواعًا مختلفة من تحليل التباين. تعتمد الأداة التي يجب عليك استخدامها على عدد العوامل وعدد العينات التي لديك من المجموعات السكانية التي تريد اختبارها.

تقوم هذه الأداة بإجراء تحليل بسيط للتباين في البيانات لعينتين أو أكثر. يوفر التحليل اختبارًا للفرضية القائلة بأن كل عينة مأخوذة من نفس التوزيع الاحتمالي الأساسي مقابل الفرضية البديلة القائلة بأن التوزيعات الاحتمالية الأساسية ليست هي نفسها لجميع العينات. إذا كان هناك عينتان فقط ، يمكنك استخدام دالة ورقة العمل تي.اختبار. مع وجود أكثر من عينتين ، لا يوجد تعميم مناسب لـ تي.اختبار، ويمكن استدعاء نموذج Anova أحادي العامل بدلاً من ذلك.

Anova: عاملين مع النسخ المتماثل

تُعد أداة التحليل هذه مفيدة عندما يمكن تصنيف البيانات وفقًا لبُعدين مختلفين. على سبيل المثال ، في تجربة لقياس ارتفاع النباتات ، قد تُعطى النباتات أنواعًا مختلفة من الأسمدة (على سبيل المثال ، A ، B ، C) ويمكن أيضًا الاحتفاظ بها في درجات حرارة مختلفة (على سبيل المثال ، منخفضة ، مرتفعة). لكل من الأزواج الستة الممكنة من ، لدينا عدد متساوٍ من الملاحظات حول ارتفاع النبات. باستخدام أداة Anova ، يمكننا اختبار:

ما إذا كانت ارتفاعات النباتات الخاصة بماركات الأسمدة المختلفة مأخوذة من نفس المجموعة الأساسية. يتم تجاهل درجات الحرارة لهذا التحليل.

ما إذا كانت ارتفاعات النباتات لمستويات درجات الحرارة المختلفة مأخوذة من نفس المجموعة الأساسية. لهذا التحليل تم تجاهل العلامات التجارية للأسمدة.

سواء تم مراعاة تأثيرات الاختلافات بين العلامات التجارية للأسمدة الموجودة في النقطة النقطية الأولى والاختلافات في درجات الحرارة الموجودة في النقطة النقطية الثانية ، فإن العينات الست تمثل جميع أزواج القيم مأخوذة من نفس المجتمع. الفرضية البديلة هي أن هناك تأثيرات ناتجة عن عوامل محددة أزواج فوق الاختلافات التي تعتمد على الأسمدة وحدها أو على درجة الحرارة وحدها.

Anova: عاملين بدون نسخ متماثل

تكون أداة التحليل هذه مفيدة عندما يتم تصنيف البيانات على بعدين مختلفين كما في حالة Two-Factor With Replication. ومع ذلك ، بالنسبة لهذه الأداة ، من المفترض أن هناك ملاحظة واحدة فقط لكل زوج (على سبيل المثال ، كل منهما الزوج في المثال السابق).

ال كوريل و بيرسون تحسب دالات ورقة العمل معامل الارتباط بين متغيرين للقياس عند ملاحظة القياسات على كل متغير لكل موضوع من الموضوعات. (أي ملاحظة مفقودة لأي موضوع يتسبب في تجاهلها في التحليل.) أداة تحليل الارتباط مفيدة بشكل خاص عندما يكون هناك أكثر من متغيرين للقياس لكل من موضوعات N. يوفر جدول إخراج ، مصفوفة ارتباط ، توضح قيمة كوريل (أو بيرسون) يتم تطبيقه على كل زوج محتمل من متغيرات القياس.

معامل الارتباط ، مثل التغاير ، هو مقياس لمدى اختلاف متغيري القياس "معًا". على عكس التغاير ، يتم قياس معامل الارتباط بحيث تكون قيمته مستقلة عن الوحدات التي يتم فيها التعبير عن متغيري القياس. (على سبيل المثال ، إذا كان متغيرا القياس هما الوزن والطول ، فإن قيمة معامل الارتباط لا تتغير إذا تم تحويل الوزن من أرطال إلى كيلوغرامات.) يجب أن تكون قيمة أي معامل ارتباط بين -1 و +1 شاملة.

يمكنك استخدام أداة تحليل الارتباط لفحص كل زوج من متغيرات القياس لتحديد ما إذا كان متغيرا القياس يميلان إلى التحرك معًا - أي ما إذا كانت القيم الكبيرة لمتغير واحد تميل إلى الارتباط بقيم كبيرة للآخر (ارتباط إيجابي) ، ما إذا كانت القيم الصغيرة لمتغير واحد تميل إلى الارتباط بقيم كبيرة للآخر (ارتباط سلبي) ، أو ما إذا كانت قيم كلا المتغيرين تميل إلى أن تكون غير مرتبطة (الارتباط بالقرب من 0 (صفر)).

يمكن استخدام كل من أدوات الارتباط والتباين المشترك في نفس الإعداد ، عندما يكون لديك N متغيرات قياس مختلفة يتم ملاحظتها على مجموعة من الأفراد. توفر كل من أدوات الارتباط والتغاير جدول إخراج ، مصفوفة ، توضح معامل الارتباط أو التباين المشترك ، على التوالي ، بين كل زوج من متغيرات القياس. الفرق هو أن معاملات الارتباط يتم قياسها لتتراوح بين -1 و +1 ضمناً. لا يتم تحجيم الفروق المشتركة المقابلة. يعتبر كل من معامل الارتباط والتغاير مقاييس لمدى "اختلاف متغيرين معًا".

تحسب أداة التباين المشترك قيمة دالة ورقة العمل تغطية لكل زوج من متغيرات القياس. (يعد الاستخدام المباشر لـ COVARIANCE.P بدلاً من أداة التباين المشترك بديلاً معقولاً عندما يكون هناك متغيرين فقط للقياس ، أي N = 2.) الإدخال على القطر لجدول إخراج أداة التباين المشترك في الصف الأول ، العمود i هو التغاير بين متغير القياس من الدرجة الأولى مع نفسه. هذا هو فقط تباين المحتوى لهذا المتغير ، كما تم حسابه بواسطة دالة ورقة العمل VAR.ص.

يمكنك استخدام أداة التباين المشترك لفحص كل زوج من متغيرات القياس لتحديد ما إذا كان متغيرا القياس يميلان إلى التحرك معًا - أي ما إذا كانت القيم الكبيرة لمتغير واحد تميل إلى الارتباط بقيم كبيرة للآخر (التغاير الإيجابي) ، سواء تميل القيم الصغيرة لمتغير واحد إلى أن تكون مرتبطة بالقيم الكبيرة للمتغير الآخر (التغاير السلبي) ، أو ما إذا كانت قيم كلا المتغيرين تميل إلى أن تكون غير مرتبطة (التباين بالقرب من 0 (صفر)).

تُنشئ أداة تحليل الإحصاء الوصفي تقريرًا عن الإحصائيات أحادية المتغير للبيانات الموجودة في نطاق الإدخال ، مما يوفر معلومات حول الاتجاه المركزي لبياناتك وتنوعها.

تتنبأ أداة التحليل Exponential Smoothing بقيمة تستند إلى التنبؤ للفترة السابقة ، مع تعديلها وفقًا للخطأ في ذلك التنبؤ السابق. تستخدم الأداة ثابت التنعيم أ، يحدد حجمها مدى قوة استجابة التنبؤات للأخطاء في التنبؤ السابق.

ملحوظة: القيم من 0.2 إلى 0.3 هي ثوابت تجانس معقولة. تشير هذه القيم إلى أنه يجب تعديل التوقعات الحالية بنسبة 20٪ إلى 30٪ للخطأ في التنبؤ السابق. الثوابت الأكبر تنتج استجابة أسرع ولكن يمكن أن تنتج توقعات غير منتظمة. يمكن أن تؤدي الثوابت الأصغر إلى فترات تأخير طويلة لقيم التنبؤ.

تقوم أداة تحليل F-Test Two-Sample for Variances بإجراء اختبار F من عينتين لمقارنة تباينين ​​في المحتوى.

على سبيل المثال ، يمكنك استخدام أداة F-Test على عينات من الأوقات في لقاء السباحة لكل فريق من فريقين. توفر الأداة نتيجة اختبار الفرضية الصفرية بأن هاتين العينتين تأتيان من توزيعات ذات تباينات متساوية ، مقابل البديل القائل بأن الفروق ليست متساوية في التوزيعات الأساسية.

تحسب الأداة القيمة f لإحصاء F (أو نسبة F). توفر قيمة f التي تقترب من 1 دليلاً على أن تباينات المحتوى الأساسية متساوية. في جدول المخرجات ، إذا كانت f & lt 1 "P (F & lt = f) one-tail" تعطي احتمالية ملاحظة قيمة إحصاء F أقل من f عندما تكون تباينات المحتوى متساوية ، و "F Critical one-tail" يعطي القيمة الحرجة أقل من 1 لمستوى الأهمية المختار ، ألفا. إذا كانت f & gt 1 ، يعطي "P (F & lt = f) one-tail" احتمال ملاحظة قيمة إحصاء F أكبر من f عندما تكون تباينات المحتوى متساوية ، وتعطي "F Critical one-tail" القيمة الحرجة أكبر من 1 لألفا.

تعمل أداة تحليل فورييه على حل المشكلات في الأنظمة الخطية وتحليل البيانات الدورية باستخدام طريقة تحويل فورييه السريع (FFT) لتحويل البيانات. تدعم هذه الأداة أيضًا التحويلات العكسية ، حيث يقوم معكوس البيانات المحولة بإرجاع البيانات الأصلية.

تحسب أداة تحليل المدرج التكراري الترددات الفردية والتراكمية لنطاق خلية من البيانات وحاويات البيانات. تقوم هذه الأداة بتوليد بيانات عن عدد تكرارات قيمة في مجموعة بيانات.

على سبيل المثال ، في فصل مكون من 20 طالبًا ، يمكنك تحديد توزيع الدرجات في فئات التقدير بالأحرف. يعرض جدول المدرج التكراري حدود درجة الحروف وعدد الدرجات بين الحد الأدنى والحد الحالي. النتيجة الفردية الأكثر تكرارًا هي طريقة البيانات.

نصيحة: في Excel 2016 ، يمكنك الآن إنشاء مخطط بياني أو مخطط باريتو.

تقوم أداة تحليل "المتوسط ​​المتحرك" بتخطيط القيم في فترة التنبؤ ، بناءً على متوسط ​​قيمة المتغير على مدى عدد معين من الفترات السابقة. يوفر المتوسط ​​المتحرك معلومات الاتجاه التي قد يخفيها متوسط ​​بسيط لجميع البيانات التاريخية. استخدم هذه الأداة للتنبؤ بالمبيعات أو المخزون أو الاتجاهات الأخرى. تعتمد كل قيمة توقع على الصيغة التالية.

ن هو عدد الفترات السابقة التي يجب تضمينها في المتوسط ​​المتحرك

أ ي هي القيمة الفعلية في الوقت المناسب ي

F ي هي القيمة المتوقعة في الوقت المناسب ي

تملأ أداة التحليل Random Number Generation نطاقًا بأرقام عشوائية مستقلة مأخوذة من أحد التوزيعات المتعددة. يمكنك تمييز الموضوعات في المجتمع باستخدام توزيع احتمالي. على سبيل المثال ، يمكنك استخدام التوزيع الطبيعي لتوصيف عدد سكان ارتفاعات الأفراد ، أو يمكنك استخدام توزيع برنولي لنتيجتين محتملتين لوصف عدد نتائج تقليب العملات.

تُنتج أداة التحليل Rank and Percentile جدولاً يحتوي على الترتيب الترتيبي والنسبة المئوية لكل قيمة في مجموعة البيانات. يمكنك تحليل الوضع النسبي للقيم في مجموعة بيانات. تستخدم هذه الأداة وظائف ورقة العمل الترتيب وPERCENTRANK.INC. إذا كنت تريد حساب القيم المربوطة ، فاستخدم الترتيب دالة ، التي تتعامل مع القيم المربوطة على أنها لها نفس الرتبة ، أو تستخدم رتبة.AVG دالة ، والتي تُرجع متوسط ​​الترتيب للقيم المربوطة.

تقوم أداة تحليل الانحدار بإجراء تحليل الانحدار الخطي باستخدام طريقة "المربعات الصغرى" لملاءمة خط عبر مجموعة من الملاحظات. يمكنك تحليل كيفية تأثر متغير تابع واحد بقيم واحد أو أكثر من المتغيرات المستقلة. على سبيل المثال ، يمكنك تحليل كيفية تأثر أداء الرياضي بعوامل مثل العمر والطول والوزن. يمكنك تقسيم المشاركات في مقياس الأداء لكل من هذه العوامل الثلاثة ، بناءً على مجموعة من بيانات الأداء ، ثم استخدام النتائج للتنبؤ بأداء رياضي جديد غير مختبَر.

تستخدم أداة الانحدار وظيفة ورقة العمل LINEST.

تُنشئ أداة تحليل العينات عينة من المجتمع عن طريق معالجة نطاق الإدخال كمحتوى. عندما يكون عدد السكان كبيرًا جدًا بحيث يتعذر معالجته أو تخطيطه ، يمكنك استخدام عينة تمثيلية. يمكنك أيضًا إنشاء عينة تحتوي فقط على القيم من جزء معين من الدورة إذا كنت تعتقد أن بيانات الإدخال دورية. على سبيل المثال ، إذا كان نطاق الإدخال يحتوي على أرقام مبيعات ربع سنوية ، فإن أخذ العينات بمعدل دوري من أربعة يضع القيم من نفس الربع في نطاق الإخراج.

تختبر أدوات التحليل المكونة من عينتين t-Test للمساواة بين الوسائل السكانية التي تكمن وراء كل عينة. تستخدم الأدوات الثلاثة افتراضات مختلفة: أن الفروق السكانية متساوية ، وأن الفروق السكانية ليست متساوية ، وأن العينتين تمثلان ملاحظات ما قبل المعالجة وبعد العلاج على نفس الموضوعات.

لجميع الأدوات الثلاثة أدناه ، يتم حساب قيمة t-Statistic ، t ، ويتم عرضها على أنها "t Stat" في جداول الإخراج. اعتمادًا على البيانات ، يمكن أن تكون هذه القيمة ، t ، سالبة أو غير سالبة. في ظل افتراض تساوي يعني السكان الأساسيين ، إذا كانت t & lt 0 ، فإن "P (T & lt = t) one-tail" يعطي احتمال ملاحظة أن قيمة t-Statistic سالبة أكثر من t. إذا كانت t & gt = 0 ، فإن "P (T & lt = t) one-tail" تعطي احتمال ملاحظة أن قيمة t-Statistic أكثر إيجابية من t. يعطي "t Critical one-tail" قيمة القطع ، بحيث يكون احتمال ملاحظة قيمة t-Statistic أكبر من أو يساوي "t Critical one-tail" هو Alpha.

يعطي "P (T & lt = t) two-tail" احتمال ملاحظة أن قيمة إحصاء t أكبر في القيمة المطلقة من t. يعطي "P Critical two-tail" قيمة القطع ، بحيث يكون احتمال وجود t-Statistic أكبر في القيمة المطلقة من "P Critical two-tail" هو Alpha.

اختبار t: نموذجان مقترنان للوسائل

يمكنك استخدام اختبار مزدوج عندما يكون هناك اقتران طبيعي للملاحظات في العينات ، مثل عندما يتم اختبار مجموعة عينة مرتين - قبل التجربة وبعدها. تقوم أداة التحليل هذه وصيغتها بإجراء اختبار t للطالب مكون من عينتين لتحديد ما إذا كانت الملاحظات التي تم أخذها قبل العلاج والملاحظات التي يتم أخذها بعد العلاج قد أتت من توزيعات ذات وسائل سكانية متساوية. لا يفترض نموذج t-Test هذا أن الفروق بين كلا المجموعتين متساوية.

ملحوظة: من بين النتائج التي تم إنشاؤها بواسطة هذه الأداة التباين المجمع ، وهو مقياس متراكم لانتشار البيانات حول المتوسط ​​، والمشتق من الصيغة التالية.

اختبار t: عينتان بافتراض تباينات متساوية

تقوم أداة التحليل هذه بإجراء اختبار t للطالب من عينتين. يفترض نموذج t-Test هذا أن مجموعتي البيانات أتتا من توزيعات لها نفس الفروق. يشار إليه باسم اختبار t homoscedastic. يمكنك استخدام اختبار t هذا لتحديد ما إذا كان من المحتمل أن تكون العينتان قد أتتا من توزيعات ذات وسائل سكانية متساوية.

اختبار t: عينتان بافتراض وجود تباينات غير متساوية

تقوم أداة التحليل هذه بإجراء اختبار t للطالب من عينتين. يفترض نموذج t-Test هذا أن مجموعتي البيانات أتتا من توزيعات ذات تباينات غير متكافئة. يشار إليه باسم اختبار t غير المتجانسة. كما هو الحال مع حالة الفروق المتساوية السابقة ، يمكنك استخدام اختبار t هذا لتحديد ما إذا كان من المحتمل أن تكون العيّنتان قد أتتا من توزيعات ذات وسائل سكانية متساوية. استخدم هذا الاختبار عندما يكون هناك مواضيع مميزة في العينتين. استخدم الاختبار المزدوج ، الموضح في المثال التالي ، عندما تكون هناك مجموعة واحدة من الموضوعات وتمثل العينتان قياسات لكل موضوع قبل العلاج وبعده.

يتم استخدام الصيغة التالية لتحديد القيمة الإحصائية ر.

تُستخدم الصيغة التالية لحساب درجات الحرية ، df. نظرًا لأن نتيجة الحساب لا تكون عادةً عددًا صحيحًا ، يتم تقريب قيمة df إلى أقرب عدد صحيح للحصول على قيمة حرجة من جدول t. وظيفة ورقة عمل Excel تي.اختبار يستخدم قيمة df المحسوبة بدون تقريب ، لأنه من الممكن حساب قيمة لـ تي.اختبار مع df غير صحيح. بسبب هذه الأساليب المختلفة لتحديد درجات الحرية ، فإن نتائج تي.اختبار وستختلف أداة t-Test هذه في حالة الفروق غير المتكافئة.

تقوم أداة تحليل z-Test: Two Sample for Means بإجراء اختبار z-Test على عينتين للوسائل ذات الفروق المعروفة. تُستخدم هذه الأداة لاختبار الفرضية الصفرية القائلة بأنه لا يوجد فرق بين وسيلتي مجتمع مقابل فرضيات بديلة من جانب واحد أو من جانبين. إذا كانت الفروق غير معروفة ، فإن وظيفة ورقة العمل ض.اختبار يجب أن تستخدم بدلا من ذلك.

عند استخدام أداة z-Test ، كن حذرًا لفهم الإخراج. "P (Z & lt = z) one-tail" هي بالفعل P (Z & gt = ABS (z)) ، احتمال وجود قيمة z أبعد من 0 في نفس اتجاه قيمة z الملاحظة عندما لا يكون هناك فرق بين السكان يعني. "P (Z & lt = z) two-tail" هي فعلاً P (Z & gt = ABS (z) أو Z & lt = -ABS (z)) ، احتمال أن تكون قيمة z أبعد من 0 في أي من الاتجاهين الملحوظ قيمة z عندما لا يكون هناك فرق بين متوسط ​​عدد السكان. النتيجة ثنائية الطرف هي النتيجة أحادية الطرف مضروبة في 2. يمكن أيضًا استخدام أداة z-Test للحالة التي تكون فيها الفرضية الصفرية هي وجود قيمة محددة غير صفرية للفرق بين وسيلتي المحتوى. على سبيل المثال ، يمكنك استخدام هذا الاختبار لتحديد الاختلافات بين أداء طرازين من السيارات.


أساسيات أمان الأجهزة

Swarup Bhunia، Mark Tehranipoor، in Hardware Security، 2019

12.6.2 TRNGs

يتأثر TRNG بالاختلافات الجوهرية المحدودة ، خاصة في التقنيات القديمة والناضجة. لمثل هذه الحالات ، قد لا تكون مصادر الانتروبيا المتأصلة كافية لحصاد العشوائية الحقيقية والحصول على أقصى قدر من الإنتاجية. علاوة على ذلك ، يمكن أن تصبح عشوائية TRNGs أسوأ في ظل التغيرات البيئية وآليات الشيخوخة المختلفة. هذا يفتح مجموعة متنوعة من الهجمات القائمة على الأجهزة على TRNGs. على سبيل المثال ، يمكن للمهاجم أن يغير جهد إمداد الجهاز (V d d) ودرجة الحرارة بما يتجاوز الحالة الاسمية ، وينحاز الناتج عن قصد لاستخراج تيار البتات "المتوقع" [36]. يمكن أن يؤدي هجوم حقن التردد على TRNGs المستندة إلى RO إلى تأثير اهتزاز الساعة على الانتروبيا ، وبالتالي ، يمكن أن يسهل تخمين المفتاح ، على سبيل المثال من البطاقة الذكية ، بأقل جهد [54]. بالإضافة إلى ذلك ، يمكن للهجمات الكهرومغناطيسية تسريب هذه المعلومات دون التدمير المادي للرقاقة [55].

يشكل اختلاف درجة الحرارة تهديدًا محتملاً أكثر على TRNGs المستندة إلى SRAM. تأتي العشوائية في الدوائر المتكاملة ، جزئيًا على الأقل ، من ضوضاء حرارية عشوائية فيزيائية. على سبيل المثال ، يعتمد حجم الضوضاء الحرارية التي يتم استغلالها أثناء حالة زيادة الطاقة على درجة الحرارة. تقلل درجة الحرارة المنخفضة الضوضاء التي يمكن استغلالها ، مما يجعل تدفق البتات الناتج أقل عشوائية ، في حين أن درجات الحرارة المرتفعة تجعل حالة التشغيل أكثر عشوائية [23].

لتحقيق المزيد من التوحيد والعشوائية الإحصائية على الرغم من انخفاض الانتروبيا المتأصلة ، اقترح الباحثون وظائف تجزئة التشفير ، ومصحح فون نيومان ، وأصفار التدفق ليتم استخدامها في مخرجات TRNG. ومع ذلك ، فإن هذه التعديلات الإضافية تقلل الإنتاجية وتزيد من المساحة والطاقة الزائدة. علاوة على ذلك ، تم اقتراح تصميم TRNG الحيادي للبائع لـ FPGA بواسطة Schellekens et al. [56]. Rahman et al. [36] اقترح TRNG المستقل عن التكنولوجيا (TI) لمكافحة القضايا الأمنية الناشئة عن مثل هذه التدهورات القائمة على وقت التشغيل / البيئة. تستخدم بنية RO "قابلة للضبط" للاستفادة من ضوضاء مصدر الطاقة جنبًا إلى جنب مع اهتزاز الساعة كمصدر للإنتروبيا ، ويمكنها التغلب على التباين البيئي والتحيز الناجم عن الشيخوخة من خلال التحكم في الارتعاش ، وضبط تأخير التناضح العكسي عن طريق مراقبة حالة وقت التشغيل. تعمل كتلة تحسين وضبط ضجيج مصدر الطاقة ونظام المعايرة الذاتية للكشف عن التحيز على تحسين الأداء والعمل كإجراءات مضادة ضد الهجوم المستند إلى الأجهزة. نموذج TRNG الذي قدمه Robson et al. [57] استخدمت طرق عبور عتبة متعددة لزيادة توترات التوقيت.


6 إجابات 6

في معظم أنظمة التعلم الآلي الراسخة ، يتم التعامل مع المتغيرات الفئوية بشكل طبيعي. على سبيل المثال في R ، ستستخدم العوامل ، في WEKA ستستخدم المتغيرات الاسمية. هذا ليس هو الحال في scikit-Learn. تستخدم أشجار القرار المطبقة في scikit-Learn ميزات عددية فقط ويتم تفسير هذه الميزات دائمًا على أنها المتغيرات الرقمية المستمرة.

وبالتالي ، يجب تجنب استبدال السلاسل بكود تجزئة ، لأن أي ترميز ستستخدمه كميزة رقمية مستمرة سيؤدي إلى طلب غير موجود ببساطة في بياناتك.

أحد الأمثلة على ذلك هو ترميز ["أحمر" ، "أخضر" ، "أزرق"] باستخدام [1،2،3] ، سينتج أشياء غريبة مثل "أحمر" أقل من "أزرق" ، وإذا كنت متوسط ​​"أحمر" و "أزرق" ستحصل على "أخضر". قد يحدث مثال آخر أكثر دقة عندما ترمز ['منخفض' ، 'متوسط' ، 'مرتفع'] باستخدام [1،2،3]. في الحالة الأخيرة ، قد يكون هناك ترتيب منطقي ، ومع ذلك ، قد تحدث بعض التناقضات الدقيقة عندما لا يكون "متوسط" في منتصف "منخفض" و "مرتفع".

أخيرًا ، تكمن إجابة سؤالك في ترميز الميزة الفئوية إلى ميزات ثنائية متعددة. على سبيل المثال ، يمكنك ترميز ["أحمر" ، و "أخضر" ، و "أزرق"] بثلاثة أعمدة ، عمود لكل فئة ، مع وجود 1 عندما تتطابق الفئة و 0 بخلاف ذلك. هذا يسمي ترميز واحد ساخنأو ترميز ثنائي أو ترميز واحد من k أو أيًا كان. يمكنك التحقق من الوثائق هنا لتشفير الميزات الفئوية واستخراج الميزات - التجزئة والإملاء. من الواضح أن التشفير الواحد الساخن سوف يوسع من متطلبات المساحة الخاصة بك وأحيانًا يضر بالأداء أيضًا.


خيارات البيانات المضمنة

تتيح لك خيارات البيانات المضمنة تحديد البيانات المضمنة المؤهلة لتحليل النص ، وكذلك تغيير كل نوع بيانات مضمنة & # 8217s نوع المتغير.

إذا كنت مهتمًا بتقسيم تقاريرك حسب عمر المشارك أو كنت بحاجة إلى تعيين أقسام متعددة لشخص واحد استنادًا إلى متغير بيانات مضمن ، فقد تضطر إلى تغيير نوع المتغير. يمكن أن يتيح تغيير النوع المتغير لبياناتك المضمنة طرقًا أكثر مرونة لتسجيل بياناتك.

  1. انقر فوق خيارات في الركن الأيمن السفلي من عنصر البيانات المضمّن.
  2. لكل حقل بيانات مضمن ، اختر نوع متغير من القائمة المنسدلة. انظر القسم أدناه للحصول على شرح كامل لكل نوع متغير.
  3. إذا كان نوع المتغير هو إدخال النص، يمكنك أيضًا الاختيار تحليل النص لتضمين البيانات المضمنة في تحليل النص.
  4. انقر نعم.

أنواع متغيرات البيانات المضمنة

  1. مجموعة نصية: يسمح هذا المتغير بقيم منفصلة تحتوي على أحرف أو أرقام أو رموز خاصة. يمكن تعيين قيمة واحدة فقط لمتغير Text Set في المرة الواحدة. تعمل هذه الميزة بشكل جيد مع الاختراقات في التقارير.
  2. مجموعة نصية متعددة القيم: يعمل هذا المتغير بشكل مشابه لمجموعة النص ، ولكنه يسمح بتعيين قيم متعددة مفصولة بفواصل بدلاً من واحدة فقط في كل مرة.
  3. عدد: هذا نوع متغير مستمر. يجب أن تكون القيم بصيغة رقمية ، ويمكن للتقارير أن تحدد كلاً من القيم الإحصائية وعدد الإجابات الفردية المقدمة. على سبيل المثال ، يمكنك استخدام بيانات الأرقام المضمنة لحساب متوسط ​​العمر ، ولكن أيضًا لإنشاء جدول يوضح عدد الأشخاص الذين بلغوا 18 عامًا في دراستك. هذا النوع غير متوافق مع الاختراقات.
  4. مجموعة الأرقام: هذا متغير ترتيبي. يجب أن تكون القيم بتنسيق رقمي ويمكن استخدامها كقيم منفصلة للعثور على الأعداد أو إجراء الاختراقات.
  5. نص: نظرًا لأن هذا هو نوع المتغير الافتراضي ، غالبًا ما يتم حذف التسمية من عنصر البيانات المضمن. هذا النوع من المتغيرات متوافق مع تصورات التقارير الخاصة بالنص ، مثل الجداول المرقمة وسحب الكلمات. يمكن أيضًا تحليلها باستخدام ميزة Text iQ ، ولكن فقط إذا اخترت ذلك تحليل النص عند إنشائه (انظر الخطوات أعلاه).
  6. تاريخ: عندما يتم تسجيل القيم بتنسيق YYYY-MM-DD ، يسمح لك هذا النوع المتغير بالوصول إلى عوامل التصفية الخاصة بناءً على الإطار الزمني.
  7. التصفية فقط: هذا النوع من المتغيرات مشابه لنوع مجموعة النص ، ولكنه يسمح لك بتصفية بياناتك حسب النص الموجود داخل القيم ، وليس فقط القيم الدقيقة والفراغ. على سبيل المثال ، يمكنك التصفية حسب جميع الأقسام التي تحتوي على "المبيعات" في الاسم ، وليس المبيعات فقط.

17 إجابات 17

اصداف

يمكنك استخدام التوسيع الحسابي POSIX لـ عدد صحيح علم الحساب صدى & quot $ ((.)) & quot :

محمولة تمامًا ( الرماد اندفاعة yash bash ksh93 lksh zsh ):
باستخدام إمكانية printf لطباعة العوامات ، يمكننا تمديد معظم الأصداف لإجراء رياضيات الفاصلة العائمة وإن كان ذلك بنطاق محدود (لا يزيد عن 10 أرقام):

شلن 93 , ياش و zsh هل تدعم العوامات هنا:

فقط شلن 93 (مباشرة) و zsh تحميل مكتبة mathfunc هنا:

(تحتاج zsh إلى تحميل zmodload zsh / mathfunc للحصول على وظائف مثل atan).

في عائلة RC shell ، akanga هي العائلة ذات التوسع الحسابي:

أداة POSIX

قبل الميلاد (انظر أدناه للحصول على الوضع التفاعلي) ، دليل هنا

ذاكري: b est c alculator (على الرغم من أن b هو في الواقع لـ أساسي).

(يدعم أرقام الدقة التعسفية)

حل راش ، إكسبر (لا يوجد وضع تفاعلي):

حل جوشوا: awk (لا يوجد وضع تفاعلي):

أدوات محمولة أخرى أكثر أو أقل

حل Arcege ، العاصمة (الوضع التفاعلي: تيار مستمر):

وهو أكثر متعة لأنه يعمل عن طريق التدوين البولندي العكسي.

ولكن ليس عمليًا إلا إذا كنت تستخدم تدوينًا عكسيًا للبولندية كثيرًا.

لاحظ أن dc يسبق BC و bc تم تنفيذه تاريخيًا كغلاف حول العاصمة ولكن لم يتم توحيد DC بواسطة POSIX

DQdims ل احسب (مطلوب sudo apt-get install apcalc):

مترجمي اللغة للأغراض العامة:

حل manatwork ، العقدة (الوضع التفاعلي: وظيفة إخراج العقدة غير مطلوبة):

بيرل (الوضع التفاعلي: perl -de 1):

بايثون (الوضع التفاعلي: لا حاجة لوظيفة إخراج البايثون):

يدعم أيضًا أرقام الدقة التعسفية:

اذا كنت تمتلك كليسب مثبتًا ، يمكنك أيضًا استخدام تدوين البولندية:

حل ماركو ، لوا (الوضع التفاعلي: lua):

بي أتش بي (الوضع التفاعلي: php -a):

روبي (الوضع التفاعلي: وظيفة إخراج irb غير مطلوبة):

مكر (الوضع التفاعلي: guile):

عامية (الوضع التفاعلي: وظيفة الإخراج slsh ليست مطلوبة ، فقط فاصل):

تى سى ال (الوضع التفاعلي: وظيفة الإخراج tclsh ليست مطلوبة ، ولكن expr):

جافا سكريبت اصداف:

SQL مختلفة:

سكليتي (الوضع التفاعلي: sqlite3):

_ تعمل الخيارات الموجودة في mysql و postgres على إيقاف صورة "ascii art"!

اللغات المتخصصة في الرياضيات:

ص في الوضع العادي - يتيح إنشاء 1000 رقم عشوائي عادي والحصول على الانحراف المعياري وطباعته

ص باستخدام أصغر النصي - يتيح طباعة pi تربيع

باري / GP، نظام جبر كمبيوتر شامل لنظرية الأعداد والجبر الخطي وأشياء أخرى كثيرة

جنو اوكتاف (لغة ​​مفسرة عالية المستوى ، مخصصة أساسًا للحسابات الرقمية)

يدعم أيضًا الأعداد المركبة:

جوليالغة عالية الأداء ومترجم للحوسبة العلمية والرقمية.

غوستسكريبت GhostScript هو مترجم PostScript ، ويتم تثبيته بشكل شائع حتى في التوزيعات القديمة جدًا.
راجع مستندات PostScript للحصول على قائمة بأوامر الرياضيات المدعومة.

هناك طرق عديدة للحساب. للتعبيرات البسيطة ، يمكنك استخدام bash نفسها:

وللحالات المعقدة توجد أداة رائعة قبل الميلاد:

راجع للشغل ، يمكن لـ bc حساب حتى التعبيرات المعقدة للغاية باستخدام الجذور واللوغاريتمات وجيب التمام والخطيئة وما إلى ذلك.

لم يذكر أحد awk حتى الآن؟

باستخدام وظائف POSIX shell و awk math power ، ما عليك سوى تحديد هذه الوظيفة (سطر واحد):

ثم قم بتنفيذ أشياء مثل calc 1 + 1 أو calc 5/2

ملاحظة: لجعل الوظيفة متاحة دائمًا ، قم بإضافتها إلى

/.bashrc (أو ملف بدء تشغيل shell المقابل)

طبعا نص صغير اسمه "calc" بالمحتويات التالية:

الحلول المذكورة جيدة للحسابات البسيطة جدًا ، ولكنها عرضة للخطأ. أمثلة:

يمكن ملاحظة خطأ في بناء الجملة مثل الأخطاء الأخيرة بسهولة ، ولكن الاستجابات الصحيحة مع جزء عائم مهمل يمكن أن تمر بسهولة دون أن يلاحظها أحد وتؤدي إلى نتائج خاطئة.

لهذا السبب أستخدم دائمًا لغة برمجة مثل Lua لهذا الغرض. ولكن يمكنك اختيار أي لغة برمجة مألوفة لديك. أنا فقط استخدم Lua كمثال. الإيجابيات

  • بناء جملة مألوف
  • وظائف مألوفة
  • محاذير مألوفة
  • إدخال مرن
  • المساحات عادة لا تهم
  • خرج النقطة العائمة

إذا قمت فقط بإدخال calc بدون وسيطات أخرى ، فإنه يدخل في وضع تفاعلي حيث يمكنك الاستمرار في إجراء العمليات الحسابية. يمكنك الخروج من هذا عن طريق كتابة خروج:

أو تستخدمه مع التعبير كوسيطة وسيقدم الإجابة ثم الخروج

calc مشابه لـ bc ، أنا فقط أحب الطريقة التي يتصرف بها بشكل افتراضي بشكل أفضل

بدلاً من ذلك ، سيعمل أيضًا bc & lt & lt & lt 25 + 5.

أو بشكل تفاعلي ، إذا كنت تريد القيام بأكثر من مجرد عملية حسابية بسيطة:

يطبع تطبيق GNU لـ bc معلومات العنوان / حقوق النشر عند بدء التشغيل عندما ينتقل كل من stdin و stdout إلى محطة طرفية. يمكنك قمعه باستخدام خيار (خاص بـ GNU) -q. لمزيد من المعلومات راجع صفحة رجل قبل الميلاد

أحب تشغيل Python واستخدامه كآلة حاسبة تفاعلية (ولكن مرة أخرى ، أنا مبرمج Python).

Since no-one else has mentioned it, and though it's not strictly a calculator (but neither are all these general-purpose scripting languages), I'd like to mention units :

Or, for less output so you can get just the number to use in $() to assign to something:

And it even does temperature conversions

To get the temperature conversion in an expression for further calculation, do this:

Also ghci , that is the Glasgow-Haskell Compiler in interactive mode ( ghc --interactive , as opposed to it evaluating an expression with -e ), makes for a fascinating "calculator":


Simulating from a Markov Chain

One can simulate from a Markov chain by noting that the collection of moves from any given state (the corresponding row in the probability matrix) form a multinomial distribution. One can thus simulate from a Markov Chain by simulating from a multinomial distribution.

One way to simulate from a multinomial distribution is to divide a line of length 1 into intervals proportional to the probabilities, and then picking an interval based on a uniform random number between 0 and 1.

This is illustrated in the function simulate_multinomial below. We start with

We then use cs, the cumulative sum of probabilities in ص in order to proportionally distribute random numbers.

From the graph, it can be seen that the distribution starts converging to the stationary distribution somewhere after around 400 simulation steps.

The distribution converges to [0.47652348 0.41758242 0.10589411]:

The distribution is quite close to the stationary distribution that we calculated by solving the Markov chain earlier. In fact, rounded to two decimals it is identical: [0.49, 0.42, 0.09].

As we can see below, reconstructing the state transition matrix from the transition history gives us the expected result:

[0.18, 0.72, 0.10]
[0.91, 0.00, 0.09]
[0.19, 0.80, 0.00]

This algorithm implementation can be made generic, extended, and implemented as a class.

It illustrates how compact and concise algorithm implementation can be achieved with Python.


This tool identifies statistically significant spatial clusters of high values (hot spots) and low values (cold spots). It creates an Output Feature Class with a z-score, p-value, and confidence level bin field ( Gi_Bin ) for each feature in the Input Feature Class .

The z-scores and p-values are measures of statistical significance that tell you whether or not to reject the null hypothesis, feature by feature. In effect, they indicate whether the observed spatial clustering of high or low values is more pronounced than one would expect in a random distribution of those same values. The z-score and p-value fields do not reflect any type of FDR (False Discovery Rate) correction.

The Gi_Bin field identifies statistically significant hot and cold spots regardless of whether or not the FDR correction is applied. Features in the +/-3 bins reflect statistical significance with a 99 percent confidence level features in the +/-2 bins reflect a 95 percent confidence level features in the +/-1 bins reflect a 90 percent confidence level and the clustering for features in bin 0 is not statistically significant. Without FDR correction, statistical significance is based on the p-value and z-score fields. When you check the optional Apply False Discovery Rate (FDR) Correction parameter, the critical p-values determining confidence levels are reduced to account for multiple testing and spatial dependence.

A high z-score and small p-value for a feature indicate a spatial clustering of high values. A low negative z-score and small p-value indicate a spatial clustering of low values. The higher (or lower) the z-score, the more intense the clustering. A z-score near zero indicates no apparent spatial clustering.

The z-score is based on the randomization null hypothesis computation. For more information on z-scores, see What is a z-score? What is a p-value?

When the Input Feature Class is not projected (that is, when coordinates are given in degrees, minutes, and seconds) or when the output coordinate system is set to a geographic coordinate system, distances are computed using chordal measurements. Chordal distance measurements are used because they can be computed quickly and provide very good estimates of true geodesic distances, at least for points within about 30 degrees of each other. Chordal distances are based on an oblate spheroid. Given any two points on the earth's surface, the chordal distance between them is the length of a line, passing through the three-dimensional earth, to connect those two points. Chordal distances are reported in meters.

Caution:

Be sure to project your data if your study area extends beyond 30 degrees. Chordal distances are not a good estimate of geodesic distances beyond 30 degrees.

When chordal distances are used in the analysis, the Distance Band or Threshold Distance parameter, if specified, should be given in meters.

For line and polygon features, feature centroids are used in distance computations. For multipoints, polylines, or polygons with multiple parts, the centroid is computed using the weighted mean center of all feature parts. The weighting for point features is 1, for line features is length, and for polygon features is area.

The Input Field should contain a variety of values. The math for this statistic requires some variation in the variable being analyzed it cannot solve if all input values are 1, for example. If you want to use this tool to analyze the spatial pattern of incident data, consider aggregating your incident data or using the Optimized Hot Spot Analysis tool.

Incident data are points representing events (crime, traffic accidents) or objects (trees, stores) where your focus is on presence or absence rather than some measured attribute associated with each point.

The Optimized Hot Spot Analysis tool interrogates your data to automatically select parameter settings that will optimize your hot spot results. It will aggregate incident data, select an appropriate scale of analysis, and adjust results for multiple testing and spatial dependence. The parameter options it selects are written as messages, and these may help you refine your parameter choices when you use this tool. This tool allows you full control and flexibility over your parameter settings.

هذا هو الافتراضي. The Distance Band or Threshold Distance will ensure that each feature has at least one neighbor. This is important, but often this default will not be the most appropriate distance to use for your analysis. Additional strategies for selecting an appropriate scale (distance band) for your analysis are outlined in Selecting a fixed distance band value.

When zero is entered for the Distance Band or Threshold Distance parameter, all features are considered neighbors of all other features when this parameter is left blank, the default distance will be applied.

Weights for distances less than 1 become unstable when they are inverted. Consequently, the weighting for features separated by less than 1 unit of distance are given a weight of 1.

For the inverse distance options ( Inverse distance , Inverse distance squared , and Zone of indifference ), any two points that are coincident will be given a weight of one to avoid zero division. This assures that features are not excluded from analysis.

Additional options for the Conceptualization of Spatial Relationships parameter, including space-time relationships, are available using the Generate Spatial Weights Matrix tool. To take advantage of these additional options, construct a spatial weights matrix file prior to analysis select Get spatial weights from file for the Conceptualization of Spatial Relationships parameter and for the Weights Matrix File parameter, specify the path to the spatial weights file you created.

More information about space-time cluster analysis is provided in the Space-Time Analysis documentation.

Map layers can be used to define the Input Feature Class . When using a layer with a selection, only the selected features are included in the analysis.

  • ASCII-formatted spatial weights matrix files:
    • Weights are used as is. Missing feature-to-feature relationships are treated as zeros.
    • The default weight for self potential is zero, unless you specify a Self Potential Field parameter value or include self potential weights explicitly.
    • Asymmetric relationships are honored, allowing a feature to have a neighboring feature that doesn't have a neighbor itself. This means the neighboring feature is included in the local mean calculations for the original feature, but the neighboring feature is not included in the calculations for the global mean.
    • If the weights are row standardized, results will likely be incorrect for analyses on selection sets. If you need to run your analysis on a selection set, convert the ASCII spatial weights file to an .swm file by reading the ASCII data into a table and using the Convert table option with the Generate Spatial Weights Matrix tool.
    • If the weights are row standardized, they will be restandardized for selection sets otherwise, weights are used as is.
    • The default weight for self potential is one, unless you specify a Self Potential Field parameter value.

    Running your analysis with an ASCII-formatted spatial weights matrix file is memory intensive. For analyses on more than 5,000 features, consider converting your ASCII-formatted spatial weights matrix file to an SWM-formatted file. First put your ASCII weights into a formatted table (using Excel, for example). Next, run the Generate Spatial Weights Matrix tool using Convert table for the Conceptualization of Spatial Relationships parameter. The output will be an SWM-formatted spatial weights matrix file.

    The Output Feature Class from this tool is automatically added to the table of contents with default rendering applied to the Gi_Bin field. The hot-to-cold rendering is defined by a layer file in <ArcGIS Pro>ResourcesArcToolBoxTemplatesLayers . You can reapply the default rendering, if needed, by re-applying the layer symbology.

    The output of this tool includes a histogram charting the value of the Input Field , which can be accessed under the Output Feature Class in the Contents pane.

    The Modeling Spatial Relationships help topic provides additional information about this tool's parameters.

    Caution:

    When using shapefiles, keep in mind that they cannot store null values. Tools or other procedures that create shapefiles from nonshapefile inputs may store or interpret null values as zero. In some cases, nulls are stored as very large negative values in shapefiles. This can lead to unexpected results. See Geoprocessing considerations for shapefile output for more information.

    Legacy:

    Row Standardization has no impact on this tool: results from Hot Spot Analysis (the Getis-Ord Gi* statistic) would be identical with or without row standardization. The parameter is consequently disabled it remains as a tool parameter only to support backward compatibility.

    When using this tool in Python scripts, the result object returned from tool execution has the following outputs:


    In a 2-hypothesis case, the confusion matrix is usually:

    where I've used something similar to your notation:

    • TP = true positive (declare H1 when, in truth, H1),
    • FN = false negative (declare H0 when, in truth, H1),
    • FP = false positive
    • TN = true negative

    From the raw data, the values in the table would typically be the counts for each occurrence over the test data. From this, you should be able to compute the quantities you need.

    The generalization to multi-class problems is to sum over rows / columns of the confusion matrix. Given that the matrix is oriented as above, i.e., that a given row of the matrix corresponds to specific value for the "truth", we have:

    That is, precision is the fraction of events where we correctly declared $i$ out of all instances where the algorithm declared $i$ . Conversely, recall is the fraction of events where we correctly declared $i$ out of all of the cases where the true of state of the world is $i$ .


    Calculate field values using random integer derived from count of like features - Geographic Information Systems

    Fortunately statistics for the scores of local alignments, unlike those of global alignments, are well understood. This is particularly true for local alignments lacking gaps, which we will consider first. Such alignments were precisely those sought by the original BLAST database search programs [6].
    A local alignment without gaps consists simply of a pair of equal length segments, one from each of the two sequences being compared. A modification of the Smith-Waterman [7] or Sellers [8] algorithms will find all segment pairs whose scores can not be improved by extension or trimming. These are called high-scoring segment pairs or HSPs.
    To analyze how high a score is likely to arise by chance, a model of random sequences is needed. For proteins, the simplest model chooses the amino acid residues in a sequence independently, with specific background probabilities for the various residues. Additionally, the expected score for aligning a random pair of amino acid is required to be negative. Were this not the case, long alignments would tend to have high score independently of whether the segments aligned were related, and the statistical theory would break down.
    Just as the sum of a large number of independent identically distributed (i.i.d) random variables tends to a normal distribution, the maximum of a large number of i.i.d. random variables tends to an extreme value distribution [9]. (We will elide the many technical points required to make this statement rigorous.) In studying optimal local sequence alignments, we are essentially dealing with the latter case [10,11]. In the limit of sufficiently large sequence lengths m and n , the statistics of HSP scores are characterized by two parameters, K and lambda . Most simply, the expected number of HSPs with score at least S is given by the formula


    We call this the E -value for the score S .
    This formula makes eminently intuitive sense. Doubling the length of either sequence should double the number of HSPs attaining a given score. Also, for an HSP to attain the score 2x it must attain the score x twice in a row, so one expects E to decrease exponentially with score. The parameters K and lambda can be thought of simply as natural scales for the search space size and the scoring system respectively.

    Bit scores

    Raw scores have little meaning without detailed knowledge of the scoring system used, or more simply its statistical parameters K and lambda . Unless the scoring system is understood, citing a raw score alone is like citing a distance without specifying feet, meters, or light years. By normalizing a raw score using the formula


    one attains a "bit score" S' , which has a standard set of units. The E -value corresponding to a given bit score is simply


    Bit scores subsume the statistical essence of the scoring system employed, so that to calculate significance one needs to know in addition only the size of the search space.

    P-values

    The number of random HSPs with score >= S is described by a Poisson distribution [10,11]. This means that the probability of finding exactly a HSPs with score >= S is given by


    where E is the E -value of S given by equation (1) above. Specifically the chance of finding zero HSPs with score >= S is e -E , so the probability of finding at least one such HSP is


    This is the P -value associated with the score S . For example, if one expects to find three HSPs with score >= S , the probability of finding at least one is 0.95. The BLAST programs report E -value rather than P -values because it is easier to understand the difference between, for example, E -value of 5 and 10 than P -values of 0.993 and 0.99995. However, when E P -values and E -value are nearly identical.

    Database searches

    The statistics of gapped alignments

    Edge effects

    The choice of substitution scores

    The results a local alignment program produces depend strongly upon the scores it uses. No single scoring scheme is best for all purposes, and an understanding of the basic theory of local alignment scores can improve the sensitivity of one's sequence analyses. As before, the theory is fully developed only for scores used to find ungapped local alignments, so we start with that case.
    A large number of different amino acid substitution scores, based upon a variety of rationales, have been described [23-36]. However the scores of any substitution matrix with negative expected score can be written uniquely in the form


    where the q ij , called target frequencies, are positive numbers that sum to 1, the p i are background frequencies for the various residues, and lambda is a positive constant [10,31]. The lambda here is identical to the lambda of equation (1).
    Multiplying all the scores in a substitution matrix by a positive constant does not change their essence: an alignment that was optimal using the original scores remains optimal. Such multiplication alters the parameter lambda but not the target frequencies q ij . Thus, up to a constant scaling factor, every substitution matrix is uniquely determined by its target frequencies. These frequencies have a special significance [10,31]:

    A given class of alignments is best distinguished from chance by the substitution matrix whose target frequencies characterize the class.

    To elaborate, one may characterize a set of alignments representing homologous protein regions by the frequency with which each possible pair of residues is aligned. If valine in the first sequence and leucine in the second appear in 1% of all alignment positions, the target frequency for (valine, leucine) is 0.01. The most direct way to construct appropriate substitution matrices for local sequence comparison is to estimate target and background frequencies, and calculate the corresponding log-odds scores of formula (6). These frequencies in general can not be derived from first principles, and their estimation requires empirical input.

    The PAM and BLOSUM amino acid substitution matrices

    DNA substitution matrices

    Gap scores

    Low complexity sequence regions

    References

    [1] Fitch, W.M. (1983) "Random sequences." J. Mol. بيول. 163:171-176. (PubMed)

    [2] Lipman, D.J., Wilbur, W.J., Smith T.F. & Waterman, M.S. (1984) "On the statistical significance of nucleic acid similarities." Nucl. Acids Res. 12:215-226. (PubMed)

    [3] Altschul, S.F. & Erickson, B.W. (1985) "Significance of nucleotide sequence alignments: a method for random sequence permutation that preserves dinucleotide and codon usage." Mol. بيول. Evol. 2:526-538. (PubMed)

    [4] Deken, J. (1983) "Probabilistic behavior of longest-common-subsequence length." In "Time Warps, String Edits and Macromolecules: The Theory and Practice of Sequence Comparison." D. Sankoff & J.B. Kruskal (eds.), pp. 55-91, Addison-Wesley, Reading, MA.

    [5] Reich, J.G., Drabsch, H. & Daumler, A. (1984) "On the statistical assessment of similarities in DNA sequences." Nucl. Acids Res. 12:5529-5543. (PubMed)

    [6] Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) "Basic local alignment search tool." J. Mol. بيول. 215:403-410. (PubMed)

    [7] Smith, T.F. & Waterman, M.S. (1981) "Identification of common molecular subsequences." J. Mol. بيول. 147:195-197. (PubMed)

    [8] Sellers, P.H. (1984) "Pattern recognition in genetic sequences by mismatch density." ثور. Math. بيول. 46:501-514.

    [9] Gumbel, E. J. (1958) "Statistics of extremes." Columbia University Press, New York, NY.

    [10] Karlin, S. & Altschul, S.F. (1990) "Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes." بروك. ناتل. أكاد. علوم. USA 87:2264-2268.(PubMed)

    [11] Dembo, A., Karlin, S. & Zeitouni, O. (1994) "Limit distribution of maximal non-aligned two-sequence segmental score." آن. Prob. 22:2022-2039.

    [12] Pearson, W.R. & Lipman, D.J. (1988) Improved tools for biological sequence comparison." Proc. Natl. Acad. Sci. USA 85:2444-2448. (PubMed)

    [13] Pearson, W.R. (1995) "Comparison of methods for searching protein sequence databases." Prot. علوم. 4:1145-1160. (PubMed)

    [14] Altschul, S.F. & Gish, W. (1996) "Local alignment statistics." Meth. Enzymol. 266:460-480. (PubMed)

    [15] Altschul, S.F., Madden, T.L., Schäffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs." Nucleic Acids Res. 25:3389-3402. (PubMed)

    [16] Smith, T.F., Waterman, M.S. & Burks, C. (1985) "The statistical distribution of nucleic acid similarities." Nucleic Acids Res. 13:645-656. (PubMed)

    [17] Collins, J.F., Coulson, A.F.W. & Lyall, A. (1988) "The significance of protein sequence similarities." Comput. Appl. Biosci. 4:67-71. (PubMed)

    [18] Mott, R. (1992) "Maximum-likelihood estimation of the statistical distribution of Smith-Waterman local sequence similarity scores." ثور. Math. بيول. 54:59-75.

    [19] Waterman, M.S. & Vingron, M. (1994) "Rapid and accurate estimates of statistical significance for sequence database searches." بروك. ناتل. أكاد. علوم. USA 91:4625-4628. (PubMed)

    [20] Waterman, M.S. & Vingron, M. (1994) "Sequence comparison significance and Poisson approximation." Stat. علوم. 9:367-381.

    [21] Pearson, W.R. (1998) "Empirical statistical estimates for sequence similarity searches." J. Mol. بيول. 276:71-84. (PubMed)

    [22] Arratia, R. & Waterman, M.S. (1994) "A phase transition for the score in matching random sequences allowing deletions." آن. Appl. Prob. 4:200-225.

    [23] McLachlan, A.D. (1971) "Tests for comparing related amino-acid sequences. Cytochrome c and cytochrome c-551." J. Mol. بيول. 61:409-424. (PubMed)

    [24] Dayhoff, M.O., Schwartz, R.M. & Orcutt, B.C. (1978) "A model of evolutionary change in proteins." In "Atlas of Protein Sequence and Structure," Vol. 5, Suppl. 3 (ed. M.O. Dayhoff), pp. 345-352. ناتل. Biomed. الدقة. Found., Washington, DC.

    [25] Schwartz, R.M. & Dayhoff, M.O. (1978) "Matrices for detecting distant relationships." In "Atlas of Protein Sequence and Structure," Vol. 5, Suppl. 3 (ed. M.O. Dayhoff), p. 353-358. ناتل. Biomed. الدقة. Found., Washington, DC.

    [26] Feng, D.F., Johnson, M.S. & Doolittle, R.F. (1984) "Aligning amino acid sequences: comparison of commonly used methods." J. Mol. Evol. 21:112-125. (PubMed)

    [27] Wilbur, W.J. (1985) "On the PAM matrix model of protein evolution." Mol. بيول. Evol. 2:434-447. (PubMed)

    [28] Taylor, W.R. (1986) "The classification of amino acid conservation." J. Theor. بيول. 119:205-218. (PubMed)

    [29] Rao, J.K.M. (1987) "New scoring matrix for amino acid residue exchanges based on residue characteristic physical parameters." كثافة العمليات J. Peptide Protein Res. 29:276-281.

    [30] Risler, J.L., Delorme, M.O., Delacroix, H. & Henaut, A. (1988) "Amino acid substitutions in structurally related proteins. A pattern recognition approach. Determination of a new and efficient scoring matrix." J. Mol. بيول. 204:1019-1029. (PubMed)

    [31] Altschul, S.F. (1991) "Amino acid substitution matrices from an information theoretic perspective." J. Mol. بيول. 219:555-565. (PubMed)

    [32] States, D.J., Gish, W. & Altschul, S.F. (1991) "Improved sensitivity of nucleic acid database searches using application-specific scoring matrices." Methods 3:66-70.

    [33] Gonnet, G.H., Cohen, M.A. & Benner, S.A. (1992) "Exhaustive matching of the entire protein sequence database." Science 256:1443-1445. (PubMed)

    [34] Henikoff, S. & Henikoff, J.G. (1992) "Amino acid substitution matrices from protein blocks." بروك. ناتل. أكاد. علوم. USA 89:10915-10919. (PubMed)

    [35] Jones, D.T., Taylor, W.R. & Thornton, J.M. (1992) "The rapid generation of mutation data matrices from protein sequences." Comput. Appl. Biosci. 8:275-282. (PubMed)

    [36] Overington, J., Donnelly, D., Johnson M.S., Sali, A. & Blundell, T.L. (1992) "Environment-specific amino acid substitution tables: Tertiary templates and prediction of protein folds." Prot. علوم. 1:216-226. (PubMed)

    [37] Henikoff, S. & Henikoff, J.G. (1993) "Performance evaluation of amino acid substitution matrices." Proteins 17:49-61. (PubMed)

    [38] Gotoh, O. (1982) "An improved algorithm for matching biological sequences." J. Mol. بيول. 162:705-708. (PubMed)


    شاهد الفيديو: الدرس 1: المعادلات باستخدام المعاملات النسبية - الوحدة الثانية - الصف الثامن - رياضيات equation